Ein Bild sagt mehr als tausend Worte. Aber welche Worte braucht es, um ein Bild zu beschreiben?
Früher haben wir Pixel geschoben und viele Stunden mit Tutorials verbracht, um viele komplexe Design-Tools zu erlernen. Im Studium haben wir uns dann irgendwann für ein bestimmtes Thema entschieden und uns spezialisiert, um später auf dem Markt einen Job zu finden. Ich zum Beispiel habe mich für das Visual Design in der großen UX Design Bubble entschieden. Doch seit Midjourney und Co. in meinen Alltag eingezogen sind, kann ich plötzlich mit Worten fast jeden Design- und Kunststil nachahmen, ohne jemals eine Stunde in die handwerkliche Technik investiert zu haben oder auch nur ein einziges herkömmliches Design-Tool geöffnet zu haben. Das ist erst mal beeindruckend und dann aber auch erschreckend.
Wenn ich als Designer*in plötzlich jeden Stil ansteuern kann, ohne diesen zu erlernen, stellt sich die Frage, welches Skill-Set wir in Zukunft stärken müssen, um nicht ersetzbar zu werden. Vor einem Jahr hätte ich nicht gedacht, dass ich das mal sagen würde. Aber nach aktuellem Stand würde ich sagen, wir müssen dringend an unserem Wortschatz arbeiten.
Brand Design in Zeiten von KI
Ich bin ungefähr zeitgleich mit dem „Big Bang“ von OpenAI in die Ausarbeitung unseres neuen Brands von Centigrade gestartet. Wie bei den meisten auf andere Themenfelder spezialisierte Unternehmen sind die Ressourcen für die Inhouse-Ausarbeitung des eigenen Brands natürlich begrenzt. Trotzdem gab es bei Centigrade viele tolle Ideen, Lust auf ein neues Look and Feel sowie einen hohen Anspruch an die Qualität des Designs (von mir selbst). Keine einfache Aufgabe, rückblickend allerdings der beste Zeitpunkt, um mit wenig Ressourcen trotzdem etwas Großes zu schaffen.
Midjourney gab mir die Möglichkeit, einen großen Bogen um Stock-Footage zu machen, und die vielen, teils wirren ersten Ideen erst einmal mit einer KI durchzuspielen. Das war eine enorme Hilfe, um mir selbst erst einmal einen Überblick zu verschaffen, wohin die Reise visuell gehen könnte. Schon hier erkannte ich früh ein riesiges Potenzial im Design-Prozess, indem es als Partner im Brainstorming fungiert. Unser CEO, Thomas hat ebenfalls sehr früh ähnliche Erfahrungen im konzeptuellen Design machen dürfen. Früher hätte man viel Zeit investieren müssen, um erste Ideen auch nur grob zu skizzieren. Ein weiterer Vorteil, nicht auf Stock-Footage zurückgreifen zu müssen, besteht in der Abgrenzung als Marke. Die Wahrscheinlichkeit, die gleichen Bilder wie andere auf dem Markt zu nutzen, ist so deutlich minimiert.
Es gibt aber natürlich trotzdem einen Haken in diesem Spiel. Hat man seinen gewünschten Stil für sich gefunden, muss dieser natürlich „skalierbar“ sein, was bedeutet: mehrere Bilder sollen konsistent im gleichen Stil und aus einem Guss geschaffen werden. Wenn man diese Schwelle überschreiten möchte, wird der Schwierigkeitsgrad schnell erhöht. Eine konsistente Bildsprache mit Midjourney zu generieren ist definitiv keine einfache Aufgabe, und plötzlich ahnt man, warum die Skills & Aufgaben eines Prompt Engineers nun auch für Visual Designer*innen notwendig werden.
Aus dem UX-Bereich kommend, habe ich versucht, mich mit meiner systemischen Denkweise zu orientieren und mir im Stile einer User-Story einen wiederkehrenden Prompt erarbeitet, der dann auch zuverlässig immer wieder sehr ähnliche Ergebnisse auf Basis des neuen Brands ausgegeben hatte.
Der Prompt besteht somit aus den verschiedenen Einzelteilen:
Illustration Style: 3D rendering
Colour scheme: Vibrant
Look and feel: Playful
Perspective: Isometric
Centrepiece: Rocket
Additional objects: Clouds, Plants, Bubbles
Format: –ar 3:2
/imagine a rocket as the centrepiece, launching from an island. Include some cheerful objects such as clouds, plants and bubbles in bright colours. –ar 3:2
Ergebnis auf Basis des Prompts:
Wie sich nach der Nutzung oder Weitergabe des Prompts herausstellte, ist dieser jedoch sehr anfällig. Ändert man die Reihenfolge der Wörter oder lässt wichtige, aussagekräftige Beschreibungen weg, befindet man sich plötzlich in einem komplett anderen Spektrum. Und woher weiß man eigentlich, welche Wörter besonders aussagekräftig sind?
Ich denke, jeder startet einfach mal los und gibt bei der ersten Nutzung verschiedene Begriffe ein. Viele sind schnell enttäuscht und probieren es gar nicht erst weiter. Und an diesem Punkt wird wieder klar, wie bedeutsam jedes einzelne Wort sein kann.
Als ich meinen Prompt an meine Kolleg*innen zum Testen weitergereicht habe, gab es schnell viele Klagen, aber auch vereinzelt sehr gute Ergebnisse. Es wurden fleißig viele Grafiken erstellt, viele davon passten jedoch nicht zur restlichen Bildreihe. Die Tücke an Midjourney ist, dass alle Ergebnisse natürlich erst mal super beeindruckend wirken. Die Aufgabe der Nutzenden ist jedoch trotzdem, kritisch zu bleiben und darauf zu achten, dass der Look auch wirklich passt.
Wenn man dann vom Brand Team einen vordefinierten Prompt erhält, möchte man meinen, dass dieser belastbare Ergebnisse an die Oberfläche spült. Doch Vorsicht ist geboten.
Um ein Bild zu prompten, das konsistent zum restlichen Look ist, benötige ich viel Zeit und viele Iterationen am Prompt. Das heißt, wenn Kolleg*innen voller Vertrauen das erstbeste generierte Bild wählen, kann es in der Bildsprache schnell zu Chaos kommen. Daher bestand meine Aufgabe darin, ein verlässlicheres System aufzubauen und meine Prompts besser für meine Kolleg*innen zu dokumentieren.
Auf Grundlage all dieser Erkenntnisse konnte ich eine bildliche Beschreibung für unseren Brand erstellen. Diese soll meinen Kolleg*innen auch bildlich dabei helfen, besser zu verstehen, welchen Look wir im Brand anstreben und welche Begriffe welche Auswirkungen haben könnten. Dennoch wird es unvermeidlich sein, dass ich als „Human in the Loop“ weiterhin regelmäßig überprüfe, ob die Qualität des Prompts sowie die ausgewählten Bilder konsistent bleiben und die entsprechenden Guidelines klar formuliert sind, damit unsere Kolleg*innen auch erfolgreich mit dem Prompt arbeiten können. Ein Prompt ist also wie ein Softwareprodukt niemals wirklich fertig.
Mein Learning geht hier allerdings in zwei Richtungen: Ich glaube es benötigt auch weiterhin ein geschultes Auge, um überhaupt die Unterschiede und Details erkennen zu können. Zum anderen ist mir aber auch die Sprachproblematik ins Auge gesprungen.
Talk like a Designer
Ich habe mir also die Prompts der Kolleg*innen genauer angeschaut, und mir ist aufgefallen, dass diese aufgrund ihres Design-Backgrounds viele Wörter besser einsetzen, um Midjourney zu steuern. Wäre ja auch schade, wenn man als Designer gar keine Vorteile bei der Nutzung hätte. Das heißt, ein guter Wortschatz hilft viel. Kann man zum Beispiel Muster, Stile, Perspektiven etc. genau stilistisch beschreiben, hat man also einen Heimvorteil und muss weniger Runden mit Midjourney drehen. Das hilft, reicht aber natürlich nicht.
Lesson Learned: Einmal einen Prompt schreiben und hoffen, dass ein ganzes Team von Designer*innen und Nichtdesigner*innen anschließend den gleichen Look an Bildern generiert, wird hier enttäuscht. Jeder Prompt muss kontinuierlich geschärft und angepasst werden. Wer im Software-Bereich tätig ist, kennt das Spiel – es ist nie etwas für immer fertig. Noch schlimmer: es geht mit der Zeit sogar kaputt und möchte also gewartet sein, z.B. aufgrund von Software Updates.
Apropos Updates:
Kommt es zu einem größeren Update von Midjourney, und dieses Tool entwickelt plötzlich ein besseres Verständnis, kann zum Beispiel aus dem kleinen Wort „joyful“ – welches vorher tolle Ergebnisse wie kreative abstrakte Objekte im Bild hervorbrachte – plötzlich ein kindlicher Look entstehen, in dem in all meinen Ergebnissen Gesichter auf allen möglichen Gegenständen auftauchten. Somit musste „joyful“ leider aus unserem Prompt entfernt werden. Dieses kleine Wort hatte allerdings den vorherigen Look so stark geprägt, dass ich erst mal viele Stunden am Prompt arbeiten musste, um mit dem neuen Verständnis von Midjourney wieder zurück zum gewünschten Look zu finden.
Also ein Schritt zurück und erstmal tief in die Problemstellung und das Wording eintauchen. Ich startete ein paar Tests und überprüfte die einzelnen Worte meines Prompts. Das Ergebnis: Wenn ich „Joyful“ eingebe, hat nach dem neuen Update plötzlich alles ein Gesicht. Also testete ich andere Wörter durch. Als ich dann „playful“ eingegeben hatte, war ich wieder auf dem richtigen Weg. Das Kommando, Gesichter bitte zu vermeiden, hat Midjourney natürlich ignoriert, was auch okay ist, wenn ich das mit dem Begriff „Joyful“ laut Midjourney auch eigentlich fordere.
Was ich bei diesen Tests festgestellt habe, ist allerdings, dass Midjourney auch Randerscheinungen nicht immer interpretieren kann. Möchte man zum Beispiel in die Richtung „Brutalism Graphic Design“, landet man leider nur bei Architekturbildern. Das bedeutet, man kann zwar viel prompten, sollte aber auch überprüfen, wie Midjourney die Begriffe interpretiert und ob es diese kennt. Hat man sehr verrückte eigene Ideen, fährt man hier aber auch schnell in die Sackgasse, da Midjourney natürlich eher das wiedergibt, was es schon gesehen hat bzw. was greifbar ist. Gibt man zum Beispiel „Artificial Intelligence“ ein, entstehen sehr abstrakte Ergebnisse. Was nachvollziehbar ist, da es dafür kein greifbares visuelles Beispiel gibt.
Das bedeutet, wenn wir mit den neuen AI-Tools arbeiten, die auf Sprache basieren, müssen wir auch als Designer*innen an unserer Sprache arbeiten. Durch die Arbeit mit Midjourney ist mir aufgefallen, wie schwer es mir eigentlich fällt, die richtigen Worte für die Beschreibung einer sehr konkreten Idee zu formulieren, da es dafür auch im Alltag wenig Anwendungsfälle gibt. Daher glaube ich, dass ein neuer Skill zukünftiger Designer*in auch sein wird, einen großen Wortschatz an Vokabeln zu beherrschen, um visuelle Ideen sehr konkret beschreiben zu können.
Dabei sollten wir uns vielleicht zusätzlich noch das Vokabular eines gesamten Filmsets anschauen. Egal ob Setdesign, Licht, Objektive, Perspektiven und Kameraeinstellungen, Makeup – alles ist bei der Beschreibung von Bildern gefragt. Aber auch der Wortschatz aus dem Graphic Design, aus dem 3D Modelling, der Kunstgeschichte, Architektur, Materialkunde und dem großen Feld der Illustration und Kunst können hilfreich sein.
All diese Wörter sollte man anschließend aber auch systematisch und nach einer guten Logik formulieren können. Je klarer und konkreter wir also unsere Ideen beschreiben und diese gut verständlich in Sprache abbilden, desto besser wird unsere Ausgangssituation, um mehr Zeit in die Schärfung der Varianten zu investieren. Anschließend sollte man aber dennoch Zeit einplanen, um die Bilder in Fotobearbeitungstools feinzuschleifen.
Ich glaube, basierend auf dem aktuellen Stand (der sich natürlich schnell ändern kann), nicht daran, dass Midjourney Designer*innen ersetzen kann. Für mich ist es ein Werkzeug wie Adobe oder Figma und ersetzt vor allem Stock-Footage. Früher hätte ich mich stundenlang durch Shutterstock und Co wühlen müssen, um alle Bilder in undankbarer Kleinarbeit zusammenzuführen. Midjourney ist hierbei ein absoluter Gamechanger. Ähnlich wie ChatGPT mich bei Texten unterstützt, liefert mir Midjourney die passenden Bilder im richtigen Look and Feel. Dennoch verursachen die KI-Tools auch weiterhin Nacharbeit, was jedoch im Vergleich zu vorher immer noch eine immense Zeitersparnis bedeutet.
Das Einbeziehen von Midjourney in die Ausarbeitung des Brands hat es uns ermöglicht, eine visuelle Sprache im Brand zu schaffen, die im Rahmen der verfügbaren Ressourcen alle Erwartungen übersteigt. Vor zwei Jahren hätten wir deutlich andere Ergebnisse erzielt. Dennoch bedarf es natürlich weiterhin der Zuarbeit und des Handwerks der Designer*innen, um diese Ergebnisse zu einem Gesamtbild zusammenzufügen und die Qualität zu sichern.
Das Thema Sprache hat uns in diesem Artikel schon sehr beschäftigt, aber das Thema „Sprache“ kann nicht ohne das Thema „Austausch“ funktionieren und sollte uns daher mindestens genauso wichtig sein:
Unsere beiden Standorte in Frankfurt und Saarbrücken sind gerade beim Thema Innovation und Zukunftsfähigkeit aktuell ein fantastischer Rückenwind. So haben wir in Saarbrücken auf dem Campus der Universität viele tolle Forschungseinrichtungen wie das Deutsche Forschungsinstitut für Künstliche Intelligenz, mit dem wir in unseren Forschungsprojekten im Austausch stehen. In Zukunft kann unsere Frankfurter Geschäftsstelle aber auch von der Aufmerksamkeit, die Frankfurt als World Design Capital 2026 erlangt nur profitieren und wir freuen uns jetzt schon auf viele interessante Kontakte in diesem Zusammenhang.
Auch wenn durch „Homeoffice first“ der physische Standort vielleicht wieder mehr in den Hintergrund rückt, kann es gerade in innovationsstarken Zeiten wie diesen schön sein, das richtige Umfeld vor Ort zu haben und verstärkt in den Dialog treten zu können.
Daher bieten wir auch hier gerne den Dialog an: Wer sich für unseren Ansatz bezüglich der Konsistenz im Prompt-Engineering mit Midjourey interessiert, darf sich gerne bei uns melden. Email an contact@centigrade.de
Wer sich von der Qualität unserer Bilder überzeugen möchte, kann sich natürlich auch unser Magazin „Macrocosm“ herunterladen.
Wir haben Dein Interesse geweckt? Schau Dir unsere Leistungen an!