Teil 1 – Pseudo-Fotografien per KI und die sprichwörtlichen 1000 Worte

Zart beleuchtetes Closeup-Portrait einer jungen Frau. Copyright Klaus Schoerner, www.bonnescape.de

 

Pseudo-Fotografien per KI und die sprichwörtlichen 1000 Worte

Teil 1

 

In die Flut von Bildeindrücken, die tagtäglich auf uns einwirken, mischen sich in zunehmendem Maße Darstellungen mit scheinbar fotografischer Provenienz, die aber im ...

... eigentlichen Sinne des Wortes keine Fotografien sind, sondern mit KI-Werkzeugen geschaffen wurden. Sicher bin ich nicht der Einzige, der sich dabei an Baudelaires Worte erinnert fühlt. Die Fotografie, die der Schriftsteller in seiner Streitschrift von 1859 als "Todfeind der Kunst" bezeichnete, findet nun ihrerseits in der KI-gestützten Bildproduktion einen Antagonisten. Und während "die fotografische Industrie" einst als "Zuflucht aller gescheiterten Maler"..., "der Unbegabten und der Faulen" galt,* sind es nun die Algorithmen, mit denen sich kinderleicht Pixel zu fotorealistischen Bildern arrangieren lassen. Ein zufriedenstellendes Ergebnis liegt natürlich im Auge des Betrachters, aber immerhin, es ist möglich. 

Baudelaire, Charles, Die Fotografie und das moderne Publikum (aus dem Salon von 1859), in:

Kemp, Wolfgang (Hg.), Theorie der Fotografie, Bd. 1, 1839 - 1912, München 1980, S.110–113

Zart beleuchtetes Portrait einer jungen asiatischen Frau mit Schulter-Tattoo in Erwartung der Geburt ihres Babys. Copyright Klaus Schoerner, www.bonnescape.de

Das Beherrschen des Prozesses macht den Unterschied

Die Frage ist schon längst nicht mehr, ob oder wann sich Berufsbild und Wettbewerbsfähigkeit von Foto- und Mediendesignern durch KI verändern werden. Diese Veränderungen nehmen bereits ihren Anfang, und somit stellt sich eher die Frage, wer von uns sie mitgeht oder von den Entwicklungen überholt wird. Generell kann man Bildschaffenden nur empfehlen, die neue Technologie als Werkzeug zu begreifen, das erlernt, beherrscht und zielorientiert eingesetzt werden kann. Als Designer sind wir gewohnt, über jedes Detail in unseren Bildern zu entscheiden. Wollen wir den Entstehungsprozess eines KI-generierten Bildes aktiv beeinflussen, gilt es der KI alle unsere Bildentscheidungen in geeigneter Weise mitzuteilen. Ansonsten wird die künstliche Intelligenz diese Entscheidungen selbst treffen, irgendwie und gegebenenfalls durch abstrahierendes Weglassen. Das ist ein maßgeblicher Unterschied zu den herkömmlichen fotografischen Werkzeugen in Fotografie und Postproduktion. Geben wir uns aber keiner Illusion hin: Auch mit minimalen Anweisungen wird künftig fast jedermann verwendbares Bildmaterial herstellen können, und sei es auch nur als Zufallsprodukt. Wenn wir eine professionelle Erwartungshaltung nicht nur an primären Qualitätsmerkmalen festmachen, sondern auch daran, Ergebnisse auftragsgemäß, detailorientiert und reproduzierbar zu erreichen, werden diejenigen von uns den Unterschied machen, die den Prozess beherrschen UND die Stimmigkeit der Ergebnisse mit fotografischem Blick beurteilen können. Darin liegt Hoffnung für unseren Berufsstand.

Portrait einer jungen Frau in mittelalterlicher chinesischer Rüstung. Copyright Klaus Schoerner, www.bonnescape.de

Iterative Vorgehensweise – ein mühsames Unterfangen

Der Prozess zum beabsichtigten Bildergebnis ist derzeit noch ein iterativer. Ich selbst gehe dabei so vor, dass ich eine konkrete Bildidee möglichst detailliert in einem Prompt ausformuliere und mit Steuerbefehlen und stilistischen Hinweisen ergänze. Die KI wird daraus Vorschläge visualisieren, auf deren Basis ich den Prompt schrittweise verfeinere. Das kann durch etliche Generationen von Bildern führen, bis die KI einen Vorschlag liefert, der sich als brauchbares Zwischenergebnis eignet. Die weiteren Iterationsschritte überlasse ich quasi der KI. Per einfachem Mausklick lassen sich Bildberechnungen wiederholen oder mehr oder weniger stark abweichende Varianten erstellen. Aus jeder Generation verwende ich das beste Bild für weitere Variationen. Liefert ein Variationsschritt keine Verbesserung, gehe ich einen Schritt zurück. Wenn schließlich ein geeignetes Zwischenergebnis vorliegt, beauftrage ich die KI mit der partiellen Neuberechnung zuvor markierter Bildteile und folge dem gleichen Auswahlverfahren wie zuvor. Ist ein akzeptables Ergebnis erreicht, dass sich mit den Mitteln des KI-Tools nicht mehr weiter verbessern lässt, exportiere ich das Bild möglichst groß skaliert und arbeite es in der Postproduktion weiter aus.

Die Kommunikation mit bildgenerierender KI erfolgt auf den ersten Blick in klar verständlicher Sprache, bei Bedarf ergänzt durch Steuerbefehle, die einer definierten Syntax folgen und mitunter kryptisch anmuten. Deren Wirkung probiert man am besten am konkreten Beispiel aus, um sie zu verstehen. Dass die KI zudem auf intransparente semantische Zusammenhänge referiert, zeigt sich, wenn man sie anstelle von Worten mit Bildern füttert. Das Generieren von Prompt-Vorschlägen zu einem hochgeladenen Bild führt in der Regel zu einigermaßen treffenden Bezeichnungen des Gezeigten, gefolgt von Namen und Angaben, denen die KI in irgendeiner Weise bildbeschreibende Bedeutung zumisst. Natürlich bietet es sich an, die gelieferten Prompt-Vorschläge umgekehrt wieder für das Generieren neuer Bilder einzuspeisen. Dabei offenbart sich allerdings die Ungenauigkeit des Verfahrens. Der Kreis schließt sich nicht, das Quellbild und seine Derivate stimmen höchstens in groben Zügen überein.

Zartes Portrait einer jungen Frau in venetianischem Look. Copyright Klaus Schoerner, www.bonnescape.de

Die sprichwörtlichen 1000 Worte

Bekanntlich reichen tausend Worte zum Erfassen einer Bildaussage nicht aus.* Eine verbale Bildbeschreibung sollte umfangreich und detailorientiert sein, um zu einer ergebniskontrollierten Bildausgabe zu gelangen. Einen umfangreicheren Prompt, zum Beispiel mit Beschreibung einer zu portraitierenden "Person", ergänzt durch Angaben zur Blickrichtung, zur Lichtführung, zur Ausstattung und zum Hintergrund wird die KI tendenziell umsetzen. Zusätzlich unterstützt sie eine Verfeinerung der Angaben mit ihren Lernerfahrungen innerhalb der eigenen Interaktionshistorie. So wird die Berechnung des Bildes durch die vorherigen Kommunikationsschritte und Zwischenergebnisse – auch die unzureichenden – beeinflusst, die im Rahmen der gleichen Session bearbeitet wurden. Die Streuung ist allerdings hoch und erschwert das Umsetzen einer konkreten Bildabsicht. Auch führen unmittelbar aufeinanderfolgende Bildaufträge mit dem gleichen ausführlichen Prompt keineswegs zu identischen Bildern. Diese mangelnde Stringenz bei der Reproduzierbarkeit von Bildergebnissen macht das iterative Herantasten beim Umsetzen konkreter Bildvorstellungen mühsam.

* "Ein Bild sagt mehr als tausend Worte" (sprichw.)

Schwarzweisses Portrait einer jungen Frau mit Sommersprossen. Copyright Klaus Schoerner, www.bonnescape.de

Steuerbefehle, stilistische Bezugnahmen und Zensur

In Ergänzung einer minutiösen Detailbeschreibung lassen sich auch Steuerbefehle in Form von stilistischen Bezugnahmen einsetzen. Stilvorgaben wie "dark chiaroscuro", "gongbi style", "atmospheric impressionism" oder "barbizon school" beeinflussen mit speziellen Parametern wie Lichtführung, Farbpalette, Textur, Kontrast und Komposition die visuelle Ästhetik des resultierenden Bildes. Auch eine Bezugnahme auf die Arbeiten bekannter Fotografen ist durch einfache Namensnennung möglich. Es kann durchaus amüsant sein, ein- und denselben Prompt mit Bezug auf unterschiedliche Fotograf/innen durchrechnen zu lassen und die Ergebnisse miteinander zu vergleichen. Die KI wird versuchen, übergreifende Stilmerkmale, die sie aus den Arbeiten der betreffenden Kollegen/innen herausliest, in die Berechnung einzubeziehen und offenbart dabei zugleich die Grenzen dieser Simplifizierung. Zu den Einschränkungen zählt unter anderem eine pauschale Zensur. So führt beispielsweise der Versuch, auf die atmosphärischen Pastelltöne des Bildstiles von David Hamilton zu referieren, unabhängig vom Motivkontext zu einer Verweigerung der KI mit Verweis auf unzulässigen expliziten Inhalt. Dies dürfte damit zusammenhängen, dass Hamiltons in den 1970er und 80er Jahren zunächst sehr erfolgreiche Fotografien und Filme später zunehmend in die Kritik gerieten, da sie häufig sehr junge Frauen spärlich bekleidet in lasziven Posen thematisierten. Stichwort Zensur: Bei expliziten, aber auch bei mehrdeutigen Begriffen in einem Prompt verweigert die KI dessen Umsetzung. Allerdings geschieht es quasi beiläufig, dass sie bei Abbildungen von Frauen unaufgefordert einen gewissen Prozentsatz von Bildern mit sexualisiertem Inhalt ausgibt. Zensiert wird offenbar nur die Bildanforderung, nicht aber die Bildausgabe. 

(Forts. in Teil 2)

Copyright 2024 by Klaus Schörner / www.bonnescape.de
Digital Artwork unter Verwendung von Midjourney, Lightroom und Photoshop


Beiträge zu ähnlichen Themen:



Kommentar schreiben

Kommentare: 7
  • #1

    Ute Becker (Donnerstag, 04 April 2024 18:21)

    Das sind wunderschöne feinfühlige Bilder. Kaum zu glauben dass die nicht fotografiert sind. Nur die Dame mit dem tiefen Ausschnitt wirkt ein wenig künstlich. Speziell ums Öhrchen herum. Aber trotzdem ein schönes Bild.
    Liebe Grüße
    Ute

  • #2

    Klaus (admin) (Freitag, 05 April 2024 09:18)

    Dankeschön, liebe Ute :-)

  • #3

    B.Servicer (Samstag, 20 April 2024 07:01)

    Amüsant: Hamilton und seine Kitschbilder werden zensiert. Die KI zeigt Geschmack :-))

  • #4

    Axel (Dienstag, 30 April 2024 07:02)

    Ein richtig guter Blogbeitrag zu diesem Thema. Mit der KI erzeugte Bilder sind teilweise richtig gut. Genauso wie Deine hier. Wenn ich sehe, was jetzt schon möglich ist, bin ich gespannt, was noch alles kommt.

    Viele Grüße
    Axel

  • #5

    Klaus (admin) (Dienstag, 30 April 2024 08:17)

    Danke, Axel, für dein positives Feedback.
    VG, Klaus

  • #6

    Ingo (Sonntag, 21 Juli 2024 10:33)

    Egal, ob Kamera, Photoshop oder KI, es sind sehenswerte Bilder. Das ist am Ende das Entscheidende.

  • #7

    Marcus D (Freitag, 09 August 2024 11:18)

    Inspirierend. Danke für die Erläuterungen zur Vorgehensweise. Zu testen, wie gut KI einwandfreie fotorealistische Bilder erzeugen kann, macht Sinn und folgt den Regeln von Rezeption und Beherrschung der Technik. Beherrscht man die Regeln, kann man sie kontrolliert brechen. Verrückter geht ja immer.