Prompt to Image KIs im infomax Kreativ Workflow

Können Computer träumen?

Noch im Sommer 2022 während eines Vortrags im Rahmen der imx.Conference antworte ich auf die von mir selbst gestellte Frage mit einem entschiedenen NEIN! Exakt: NEIN! mit Ausrufezeichen und Großbuchstaben – NEIN!

Kreative Leistung ist das unangefochtene Hoheitsgebiet von uns Menschen war ich damals überzeugt. Immerhin schrieb bereits der Philosoph Immanuel Kant

Das eigentliche Feld für das Genie ist das der Einbildungskraft: weil diese schöpferisch ist und weniger als andere Vermögen unter dem Zwange der Regeln steht, dadurch aber der Originalität desto fähiger ist.
Immanuel Kant

und stellte damit das kreative Schaffen beinahe auf eine Stufe mit der göttlichen Schöpfung.

Doch seit inzwischen einigen Monaten häufen sich die Berichte über enorme Fortschritte in der KI Forschung.
Das Sprachmodell von ChatGPT hat bereits in Version 3 für Aufsehen gesorgt. Für Version 4 nimmt Entwickler OpenAI im März 2023 für sein Produkt in Anspruch, dass ChatGPT bereits die Schwelle menschlicher Intelligenz erreicht hat und als allgemeine künstliche Intelligenz zu bewerten ist. Nicht lange darauf wurde eine Petition verschiedener Branchengrößen wie Elon Musk bekannt, mit dem Ziel die Weiterentwicklung von KIs für 6 Monate auszusetzen, um evtl. Gefahren abzuschätzen, welche mit dieser Technologie verbunden sein könnten.

Gleichzeitig betreten Prompt to Image KIs das Rampenlicht: Stable Diffusion, DALL-E und ganz besonders – Midjourney. Egal ob professionelle Fotos, Artworks oder ganze Designs – für alles gibt es scheinbar irgendwo eine KI.

Die Kreativbranche gerät in Aufruhr, einschlägige Kanäle werden geflutet mit überraschend professionell wirkenden Arbeiten, an deren Schaffung Menschen nur noch indirekt beteiligt waren. Es entsteht ein faszinierendes Klima heiterer Aufbruchstimmung aufgrund der scheinbar endlosen Möglichkeiten dieser Technologie. Jedoch weicht diese Begeisterung schnell einer drängenden Besorgnis und der zögerlich formulierten Frage der sich irgendwann alle Berufsgruppen stellen, welche mit einer plötzlichen Automatisierung konfrontiert sind – „Werden wir überflüssig?“

Phase 1: lächerlich attraktive Menschen

Meine erste Reaktion auf die sich langsam manifestierende Obsoleszenz eines bedeutenden Teils meiner beruflichen Eignung lag in der Konfrontation. Wollen wir doch mal sehen was diese KIs wirklich drauf haben!

Anlaufstelle Nummer eins war erwartungsgemäß Midjourney. Der Dienst ist kostenpflichtig, bietet jedoch eine sehr begrenzte Ausprobierphase für lau an. Zeit genug, so meine Vorstellung, einen umfassenden Überblick über die Leistungsfähigkeit von Prompt to Image KIs zu gewinnen.
Meine ersten Versuche ging ich weitestgehend planlos an, ich wollte zunächst ein Gefühl für die Arbeit mit einer derartigen KI bekommen. Das Ende meines kostenfreien Budgets erreichte ich jedoch, bevor ich aussagekräftige Erkenntnisse gewinnen konnte. Da ich nicht bereit war, in weitere Experimente bereits Geld zu investieren, galt mein nächstes Interesse der Suche nach kostenfreien Alternativen.
Eine Recherche über YouTube gestaltete sich recht einfach. Kanäle welche sich dem Erproben kreativer KIs verschrieben haben, gibt es reichlich zur Auswahl.

Erster Versuch mittels des Prompts

„Panorama of the Alps, two people skiing down the mountains, photorealistic, sunrise, energetic, dynamic, long open hair, frontview„

Ergebnis war eine sehr interessante Bildkomposition, auch wenn sie lediglich am Rande etwas mit dem zu tun hatte, was ich durch meine Texteingabe implizieren wollte.

Meine nächsten Versuche sollten gezielter ablaufen – das Hauptaugenmerk legte ich auf die Art und Weise wie Prompts geschrieben werden. Mein Vorgehen dabei: Abgucken. KI Communities sind häufig öffentlich veranlagt: Jeder kann von allen sehen, was sie mit der KI so treiben. Dadurch ist es sehr leicht sich ein Bild davon zu machen, wie unterschiedliche Prompts unterschiedliche Ergebnisse erzielen. Leider begrenzen sich viele Nutzer kostenfreier Prompt to Image KIs darauf, Fotos und Artworks realer wie fiktiver, häufig weiblicher, Personen zu erzeugen. Entsprechend ist die Performance derart inselbegabter KIs in diesem Bereich sehr eindrucksvoll. Es ist inzwischen sehr einfach, Bilder von lächerlich attraktiven Menschen zu generieren. Meine Bemühungen einer der kostenfreien KIs brauchbare Oberflächendesigns abzuringen, waren hingegen von Ernüchterung geprägt.

Attraktive Frauen? Kein Problem!

Ein brauchbares Oberflächendesign? Scheinbar nicht ganz so einfach.

In Folge erzeugte ich viele Artworks und Posterdesigns. Arbeiten für welche ich selber Tage und Wochen benötigen würde, erledigten die KIs in unter einer Minute. Als Hobby entwerfe ich gerne Poster, einige davon hängen bei mir zu Hause, hochwertig produziert auf über einem Meter Leinwand. Doch warum sollte ich noch Tage und Wochen in das Design eines einzigen Posters investieren, wenn ich ähnliche oder bessere Ergebnisse mit Hilfe einer KI in einem Wimpernschlag in Masse produzieren kann.

Ein von einem Menschen gestaltetes Poster.

Was Midjourney in wenigen Sekunden aufbereitet.

Emotional betrachtet war dieses Erlebnis niederschmetternd. Die Wirkung kreativer Beliebigkeit aufgrund einer überwältigen Quantität war mir noch nie so bewusst wie in diesem Moment. Den Frust von Illustratoren und Stockimage Fotografen welche sich durch KI in ihrer Existenz bedroht fühlen, konnte ich nun nachempfinden.

Phase 2: die Golfclub Website

Nun war ich mir sicher das ich als Oberflächendesigner nicht so einfach Konkurrenz durch eine KI bekommen könnte. Zu Komplex und individuell sind Zusammenhänge und Abhängigkeiten auf einer Website. Mit einem einfachen kurzen Textprompt ist es nicht möglich, eine KI umfassend für die Entwicklung eines Webportals zu briefen. Aber eventuell könnte ich als Designer von einer Zusammenarbeit mit der KI profitieren?

Es gibt diesen Zustand in einem Designprojekt, welchen wir Designer fürchten: „Die Angst vor dem weißen Blatt Papier“. Gemeint ist die Phase der ersten Orientierung und Recherche – der Zeitpunkt zu welchem die Inspiration kommt und ihre Magie wirkt. Oder sie kommt eben nicht und wir sitzen für Stunden und Tage vor dem weißen Blatt Papier und erfreuen uns an unserem Imposter Syndrom. Diverse Kreativtechniken sollen uns über diese Zustand hinweghelfen, für mich jedoch hat es immer am besten funktioniert, wenn ich diese Phase im Sparring mit einem anderen Designer überwinde.
Flüchtige Ideen schnell zu Papier gebracht, können einem zweiten Designer dabei als Grundlage für innovative Designs dienen und ich wollte versuchen diese Art der Kooperation mit einer KI zu erreichen.

Als Projekt für einen ersten Testlauf, wollte ich das Webdesign für einen Golf Club entwickeln. In Folge verbrachte ich viel Zeit mit „Leonardo.ai“ und dem Versuch brauchbare Ideen für eine Grundästhetik zu entwickeln mit weiterhin mäßigem Erfolg. Auch der Wechsel auf verschiedene KI Modelle brachte kaum Besserung, weswegen ich zur KI „Blue Willow“ wechselte. Die hier erstellten Entwürfe waren vielversprechender und ich ließ Blue Willow diverse Generationen von Logo- und Webdesigns erzeugen. Sobald ich zufrieden war mit dem Ergebnis, setzte ich den Output von Blue Willow in Adobe Illustrator und Figma um. Zusätzlich ließ ich Blue Willow Assets für das Design erzeugen: Bilder von Golfern oder Fotos von Golfplätzen. Von dem endgültigen Resultat war ich jedoch enttäuscht.

So stellt sich Blue Willow eine Website für einen Golf Club vor.

Meine recht unmotivierte Interpretation, nachdem ich lange versuchte Bilder wie in der Vorlage ebenfalls in Blue Willow zu erzeugen.

Phase 3: Prompt Engineering

Mehrere Wochen vergingen nach meinem wenig erbaulichen Versuch, eine Golf Website durch eine KI gestalten zu lassen. Inzwischen hatte ich Zugang zu einer kostenpflichtigen Midjourney Lizenz und begann erneut mich eingehender dem Schreiben aussagekräftiger Prompts zu widmen. In diversen Iterationen konnte ich nun erproben wie die KI auf Änderungen von Formulierungen oder strukturelle Korrekturen meines Prompts reagiert. Zudem begann ich gezielter Befehle zu nutzen über welche es möglich ist, eine KI zu steuern. Als Ergebnis erarbeitete ich mir eine Art Schablone, nach welcher ich meine Prompts aufbauen konnte.

Phase 4: die Hotel Website

Bewaffnet mit dieser Schablone machte ich mich an meinen zweiten Versuch ein Webdesign mit Hilfe einer Prompt to Image KI zu entwerfen. Anfang des Jahres haben wir Designs für eine Ausschreibung eines Alpinresorts in Österreich erstellt. Für mich ein geeignetes Projekt, da ich hier in Folge die Ergebnisse der unterschiedlichen Arbeitsweisen (mit KI, ohne KI) vergleichen könnte. Aber anders als bei der Golf Club Seite wollte ich nicht einfach nachbauen was mir die KI vorgibt. Ich wollte, meiner ursprünglichen Idee der Kooperation folgend, den Output der KI als erste Inspiration meines eigenen Designs verwenden.

Midjourney Version 4 lieferte mir mit Entwurf 2 (oben rechts) genau die Vorlage wie ich sie mir vorstellt.

Dagegen hat mich Midjourney Version 5 nicht so ganz überzeugt. Beide Entwürfe entstammen dem Prompt clean modern website landingpage for a luxary hotel located in a skiresort –ar 9:16

Perfektion als Gefahr

Mit Hilfe verschiedener Iterationen meines Prompts, konnte ich Midjourney nun auch sehr schnell begreiflich machen, wie meine Vorstellungen aussahen. Und obwohl ich sehr früh im Prozess den Entwurf bekommen hatte, den ich in Folge weiter verarbeiten wollte, ließ ich Midjourney verschiedene Generationen an Designs generieren. Am Ende habe ich mich selbst dabei ertappt, wie ich versuchte kleinste Details im Prompt zu beschreiben. So verging viel Zeit für die Ausarbeitung meiner Formulierungen, bei dem Versuch Midjourney an exakt das finale Design zu führen das mir vorschwebte. Als mir dies bewusst wurde, kehrte ich zum ersten Entwurf zurück und machte mich an die Arbeit in Figma mein Design umzusetzen.

Eine weitere Aufgabe für die ich Midjourney nutzen wollte, war die Erzeugung von Assets. Während der Ausschreibungsphase hatte ich mit einem eklatanten Mangel an geeignetem Bildmaterial des Hotels zu kämpfen. Attraktive Außenaufnahmen gab es gar keine, weswegen ich in meinem Design gezwungen war, Bilder menschenleerer Lobbys zu verwenden.
Die Bilder, welche im Entwurf von Midjourney zu sehen sind, haben natürlich keine Ähnlichkeit mit dem konkreten Hotel. Also wollte ich, dass mir Midjourney neue Fotos vom Hotel liefert. Grundlage stellten existierende Fotos des Hotels dar, welche ich mit einer Beschreibung dessen was ich auf den Bildern sehen wollte kombinierte. Um dabei ein möglichst homogenes Design zu erhalten, nutzte ich den Seedwert des Design Entwurfs auch für meine Assets. So wurde Midjourney angehalten einen konsistenten Stil aufrecht zu erhalten.

Ein erstes generiertes Bild welches dem Original sehr ähnlich kommt, aber wesentlich brauchbarer in einem Design ist.

Das letzten Endes von mir genutzte Bild für das Design mit dem finalen Prompt photo of a luxary hotel located in a ski resort, snowy mountains –ar 1:1 –v 5 –seed 40335836

Das finale Design in Figma hat mich ungefähr zwei Stunden gekostet. Während der Umsetzung habe ich es mir immer wieder erlaubt mich von Midjourneys Vorlage zu entfernen. Ungereimtheiten in der Vorlage, welche ich zunächst langwierig über Anpassungen am Prompt korrigieren wollte, habe ich einfach direkt in meinem eigenen Design behoben. Das Endergebnis ist klar von Midjourneys erstem Entwurf inspiriert. Aber gerade die kritische Auseinandersetzung durch einen menschlichen Designer, hat aus einer vagen Idee, geliefert durch eine KI, einen vollwertigen Design Entwurf gemacht.

Der finale von mir in Figma umgesetzte Entwurf.

Fazit

Wir sind immer davon ausgegangen das Maschinen uns Menschen irgendwann von allen manuellen Arbeiten befreien und wir dann die Zeit haben uns nur mit den schönen Dingen des Lebens zu beschäftigen. Kunst und Kultur sollten die Domäne unserer künftigen Bestrebungen sein. Doch auf einmal scheint es als würden KIs uns gerade in dem übertrumpfen, was wir als unser exklusives künftiges Betätigungsfeld auserkoren hatten. Während dessen bleiben die unliebsamen manuellen Arbeiten weiterhin an uns Menschen hängen.

Dies wirkt zunächst paradox, ist doch jeder Mensch in der Lage einfache manuelle Tätigkeiten wie Müll sammeln oder Erdbeeren ernten auszuüben, während gerade kreative Arbeiten laut Kant den wenigen Genies unter uns vorbehalten sind. Jedoch haben wir es Millionen von Jahren der Evolution zu verdanken, dass wir befähigt sind, Erdbeeren fehlerfrei zu pflücken. Tatsächlich handelt es sich dabei um einen höchst komplexen Vorgang, für welchen uns Menschen Unmengen an sensorischen Daten visueller und haptischer Natur zur Verfügung stehen. Muskeln die in höchster Präzision genau die Menge an Druck und Zugkraft aufwenden können um eine Erdbeere zu pflücken ohne sie dabei zu zerquetschen. Und ein Gehirn das in der Lage ist ohne unser aktives Zutun alle nötigen Auswertungen und Berechnungen zu erledigen.

Kunst und Kultur hingegen sind nur wenige 1000 Jahre jung. Es erscheint doch naheliegend das Maschinen sich leichter damit tun, wenige 1000 Jahre Wissensvorsprung auszugleichen als mehrere Millionen Jahre Evolution. Zudem folgen viele Disziplinen wie Design, Musik und Fotografie, strengen Regeln, sind klar quantifizierbar und von daher auch von einem Computer leicht zu begreifen.

Was letzten Endes bleibt ist die Frage wie wir echte Kreativität definieren. Ist es eine „simple“ Rekombination bekannter Elemente oder doch ein fast göttlicher Schöpfungsakt? Oder anders gefragt: „Haben Computer inzwischen das Träumen gelernt?“. Anfang 2023 antworte ich darauf mit einem konsequenten – Vielleicht.