Artikel

KI-Generierte Bilder, Texte und Videos erkennen

Lea Uhlenbrock

In: merz - Zeitschrift für Medienpädagogik: 68. Jg., 3 / Juni 2024

Was steckt hinter generativer KI und wie kann man sie erkennen? Wie kann die verantwortungsvolle Nutzung ihrer unendlichen kreativen Möglichkeiten gelingen? Und welche Tools können dabei helfen, KI generierte Werke von menschlichen zu unterscheiden? Im folgenden Text werden konkrete Hilfestellungen gegeben, deren Nutzung dazu beitragen kann, die Verbreitung von Fehlinformationen einzudämmen und faktenbasierte Debatten zu erleichtern.

Genau wie einst das Internet und danach Smart­phones erobert KI nun nach und nach unseren Alltag und ist nicht mehr wegzudenken. Vom automatisierten Social-Media-Algorithmus, der passgenaue Vorschläge in den Instagram-Feed spült, bis zur Spracherkennung auf dem Smart­phone übernimmt sie immer mehr Aufgaben. Eine besonders spannende Entwicklung ist da­bei die von sogenannter generativer KI, also KI, die digitale Werke erzeugen kann. Das sind bei­spielsweise Texte von ChatGPT, Bilder von Mid­journey oder Videos von Sora. Generative KI funktioniert wie andere KI-For­men: Aus einer großen Menge Daten werden Muster gelernt und abstrakt abgespeichert. Das Besondere bei dieser KI-Form ist, dass die gelernten Muster in neue Inhalte übersetzt werden können. Es werden also Eigenschaften von typischen Texten und Bildern gelernt und mit einem gewissen Anteil an Zufall als 'neuer' Inhalt ausgegeben.

Bilder, die von frühen Versionen solcher KI ge­neriert wurden, wie DALL-E mini im Sommer 2022, waren noch leicht als unecht zu entlar­ven, da sie grobe visuelle Fehler beinhalteten. Durch die rapide Evolution von Bildgenerato­ren hinweg wird es allerdings kontinuierlich schwieriger, synthetische Bilder zu erkennen. Während bei Midjourney 4 und 5 noch oft eine seltsame Anzahl an Fingern an menschlichen Händen generiert wurde, sind Hände auf Bil­dern von Midjourney 6 kaum mehr von echten zu unterscheiden. Auch andere visuelle Fehler tauchen deutlich seltener auf, weil die Bildge­neratoren besser werden und lernen, solche 'störenden' Bildmakel zu vermeiden.

Die Möglichkeit, beliebige Bildinhalte mit der einfachen Eingabe eines Beschreibungstex­tes, eines sogenannten Prompts, zu generieren, schafft vielfältige kreative Möglichkeiten. Sto­ryboards für Filme können mit wenigen Klicks erstellt werden, genau so wie Abbildungen von Fantasiewelten und Charaktere für ein Pen and Paper Rollenspiel oder Bilder für einen Veran­staltungsflyer. Doch die unbegrenzten Mög­lichkeiten von generativer KI beinhalten auch Gefahrenpotenzial. Parteien mit extremen An­sichten nutzen sie bereits auf Instagram, um Propaganda zu verbreiten.

Beobachtet man im öffentlichen Generierungs-Kanal von Mid­journey, welche Inhalte erstellt werden, kann man viel Politisches entdecken, mit gezielten Botschaften und in teilweise sehr überzeugen­der Fotoqualität. Passend dazu generierte Tex­te machen die Verbreitung von Fake News oder Hetze einfacher denn je.

Gerade bei Bildern und Videos - Medien, denen wir Menschen besondere Glaubhaftigkeit zu­ordnen, ist es wichtig, solche Inhalte zuverläs­sig und automatisiert entlarven zu können. Die Wissenschaft arbeitet deshalb intensiv daran, solche generierten Inhalte automatisch zu er­kennen. Bilder lassen sich beispielsweise schon jetzt oft anhand ihrer Rauschmuster erken­nen. Echte Kameras hinterlassen wissenschaft­lich erkennbare Rauschmuster in Fotos, die in KI-generierten Bildern so nicht vorkommen. Auch generierte Texte lassen sich oft anhand bestimmter Muster erkennen und entlarven. Es gibt bereits einige automatisierte Tools, die das Erkennen von generierten Texten und Bildern ermöglichen.

Für Texte gibt es beispielsweise:

Für Bilder gibt es unter anderem:

Solche Werkzeuge arbeiten je­doch nicht immer zuverlässig oder fehlerfrei. Es lohnt sich daher, Bilder, Texte und Vi­deos genau unter die Lupe zu nehmen und nach Anzeichen zu suchen, ob sie eventuell ge­neriert sind. Bei Bildern sind beispielsweise in den Details oft noch Fehler in der Bildlo­gik versteckt, die so in der Re­alität nicht vorkommen. Der genaue Blick auf reale Gege­benheiten wie Licht, Schatten, Spiegelungen und Geometrie ist wichtig, um zu erkennen, wann etwas falsch oder unlogisch dargestellt wird. Hilfreich ist es hier vor allem einzelne Objekte nachzuverfolgen und genau zu betrachten. Wenn auf einem Bild beispielsweise eine Person angezeigt wird, die eine Kette trägt, kann man der Kette folgen und wird bei synthetischen Bildern häufig feststellen, dass sie irgendwann in die Kleidung übergeht oder sich mit anderen Objekten nahezu vermischt.

Bei Videos gilt Ähnliches, auch hier ist es wichtig, auf Unstimmigkeiten und Details zu achten. Bis jetzt besteht ein Großteil an KI-Videos noch hauptsächlich aus realem Bildmaterial und nur das Gesicht der abgebildeten Person wurde verändert. Dabei kann man oft am Rand des Gesichts Phänomene wie Verformungen oder Verzerrungen beobachten, oder fehlende Veränderungen des Schattenwurfs, wenn sich die Person bewegt. Neuere Videos können auch vollständig KI-generiert sein und weisen dann ähnliche Fehler wie Bilder auf: Objekte vermischen sich innerhalb weniger Video-Frames mit anderen Objekten, ändern ihre Form oder verschwinden sogar.

Bei Texten ist es nicht ganz so einfach, synthe­tische Inhalte anhand von Details zu erkennen. Hier zählt eher der Gesamteindruck. Generier­te Texte basieren darauf, welche Wörter in der realen Welt mit der größten Wahrscheinlichkeit hintereinander auftauchen. Sie sind, wie ein­gangs erwähnt, nur eine Imitation von Sprachmustern und wirken deshalb auch genau so. Texte von ChatGPT beispielsweise wirken in der Regel unpersönlich, generisch und nicht wirklich konkret. Sie enthalten häufig falsche Angaben, die als Fakten dargestellt werden, oder erklären feststehende Konzepte nicht richtig. Gerade ChatGPT neigt außerdem dazu, Texte sehr positiv und bestätigend zu formulieren, was sie beinahe wirken lässt, als seien sie von einem Marketingteam verfasst. Der wichtigste Hinweis auf Urheber*innenschaft einer KI bei Texten ist der Kontext. Wenn der Text nicht zu Situation, Fragestellung oder Umständen passt oder der Stil völlig anders ist, als man es von der angegebenen Quelle kennt, können das An­haltspunkte dafür sein, dass es sich um synthe­tischen Text einer KI handelt.

Im Folgenden finden sich drei Checklisten für Bilder, Texte und Videos, die dabei helfen sol­len, generierte Inhalte zu erkennen. Wenn Sie alle Fragen mit Ja beantworten können, ist die Wahrscheinlichkeit, dass es sich um ein ech­tes Bild oder Video oder einen authentischen Text handelt, relativ hoch. Natürlich bieten die Checklisten keine Garantie, denn gut generier­te Inhalte können sehr realistisch wirken und auch aufmerksame Beobachter*innen aus­tricksen. Dennoch lohnt es sich, genauer hin­zusehen und die Augen offenzuhalten. Durch bewusstes Hinsehen und Betrachtung aller Inhalte in ihrem Kontext und mit einer gesunden Skepsis, sowie weiterer Forschung daran, generierte Inhalte aufzudecken, kön­nen wir dazu beitragen, die Verbreitung von Fehlinformationen einzudämmen und eine in­formierte Gesellschaft und faktenbasierte De­batte zu fördern.

BILDER

  • Raum und Formen: Kann ich einzelne Objekte wie Ketten, Stäbe, Schnüre, Kleidungsstücke, Arme nachverfolgen, ohne dass sie die Farbe, Textur oder Form ändern oder ineinander übergehen?
  • Einheitlichkeit: Sind Augenfarbe, Ohrrin­ge, Kleidungsmerkmale für rechts und links gleich? Stimmen Eigenschaften von größeren Objekten wie Autos, Häusern, Zimmern sym­metrisch überein?
  • Anatomie: Haben alle abgebildeten Men­schen oder Tiere die erwartete Anzahl Hän­de, Beine, Arme, Finger?
  • Licht und Schatten: Verlaufen die Schatten alle von der Lichtquelle weg und an Hindernissen entlang logisch? Spiegeln sich Lichter an glat­ten Flächen? Bilden Spiegelungen das Original korrekt ab und stimmt die Perspektive?
  • Individualität: Enthält das Bild individuali­sierende Elemente, Makel, Besonderheiten?
  • Texturen: Sind Muster von Böden, Wänden, Maserungen konsistent? Sind glatte Oberflä­chen auch wirklich glatt, oder zeigen sie fei­ne Muster, die einer Elefantenhaut ähneln?
  • Ästhetik: Kann die Szene, wie sie stattgefun­den haben soll, so ästhetisch wie abgebildet aufgenommen worden sein? Enthält das Bild glaubhaft zufällige, störende Elemente?
  • Tiefe: Stimmen die Größenverhältnisse von Objekten mit der Perspektive überein? Wer­den Objekte weiter hinten im Bild kleiner und unschärfer?

VIDEOS

  • Verhaltensweisen: Blinzelt die Person? Macht sie kleine Gesten, Gesichtsbewegungen, Augenbewegungen, die zufällig und dadurch menschlich erscheinen?
  • Integrität: Schließt das Gesicht immer bündig mit dem Kopf ab, ohne unscharfe Ränder oder Verwischungen und Verschiebungen?
  • Dynamik: Verändern sich Licht und Schatten im Gesicht einer Person entsprechend, wenn sie sich bewegt?
  • Einheit von Ton und Bild: Stimmen die Lip­penbewegungen einer Person mit dem Ge­sagten überein?
  • Optik: Kann ich im Gesicht den gleichen Grad an Details und Schärfe wahrneh­men wie in der Kleidung oder den Haaren? Stimmt die Perspektive? Verhält sich die Schärfentiefe wie erwartet?

TEXT

  • Wortwahl: Enthält der Text individuelle Formulierungen und geht auf ein konkretes Thema mit spezifischen Worten ein, ohne durchgehend generell, oberflächlich und di­plomatisch formuliert zu sein?
  • Orthographie: Enthält der Text ein gewisses erwartetes Maß an Grammatik- und Recht­schreibfehlern, die die meisten Menschen machen?
  • Richtigkeit: Enthält der Text korrekte Dar­stellungen von Gegebenheiten, ohne falsche, aber überzeugend formulierte Angaben?
  • Tonalität: Passt der Stil des Textes zur Situa­tion und zur Verfasserin oder zum Verfasser? Ist er so förmlich oder informell, allgemein oder spezifisch wie erwartet?

Anmerkungen:

Literatur:

Autorin

Lea Uhlenbrock ist wissenschaftliche Mitarbeiterin und Doktorandin der Informatik an der Friedrich-Alexander-Universität Erlangen-Nürnberg. Ihre Forschungsschwerpunkte sind Bildforensik und maschinelles Lernen sowie die Erkennung von KI-generierten Bildern.