The Project

Mit Künstlicher Intelligenz lassen sich immer leichter Videos erstellen. Menschen sagen oder tun in ihnen Dinge, die sie so nie gesagt oder getan haben. Im Superwahljahr 2021 stellt sich daher die Frage: Ist unsere Demokratie in Gefahr?

Wir – ein internationales Team aus 17 Journalistenschüler:innen und 12 Tech-Student:innen – haben das  Experiment gewagt: Können wir in wenigen Wochen Deepfake-Videos von Politiker:innen erstellen? Wie würden sie darauf reagieren? 

Für die Doku „The Deepfake Project“ wagten sich die Journalist:innen und Tech-Studierenden auf neues Terrain. Die Vision: überzeugende Deepfakes von deutschen Politiker:innen produzieren. Und zwar innerhalb weniger Wochen. Auf technischer Ebene bedeutete das Pionierarbeit – und ein ständiges „Trial and Error“, denn die Technologie, über die seit 2017 diskutiert wird, ist noch nicht ausgereift.  

Für die Produktion der Deepfakes war unter anderem Nameer Alkhayyat verantwortlich. Gemeinsam mit dem Team verbrachte er knappe acht Wochen mit dem Sammeln und Auswerten von Daten und dem Trainieren der KI-Modelle. Das Ziel: eine in sich stimmige Sequenz von Stimm- und Lippensynchronisierung in deutscher Sprache. „Wir dachten anfangs, die Produktion wäre einfacher. Aber es war ein wirklich schwieriger Prozess“, so der Techstudent.  

Die Lippensynchronisierung

Für die Lippensynchronisierung hatte das Team schnell eine technische Lösung parat. „Man braucht ein gutes Video, in dem die Person frontal in die Kamera guckt und den Kopf nicht allzu viel bewegt“, so Merlin Sugue, der die Schnittstelle zwischen Tech und Journalismus bildete. Über dieses Video wurde dann der Fake gelegt.

„Man überspielt also nur einen Bereich des Videos, den Mund, der Rest bleibt gleich.“   

Schwieriger war es, die Stimmen der Politiker:innen und Prominenten authentisch zu fälschen. Denn die Software, die bisher verfügbar ist, schafft zwar qualitativ hochwertige Stimmfälschungen auf Englisch. Für die deutsche Sprache seien die Algorithmen jedoch noch nicht optimiert. Hinzu kamen individuelle Betonungen oder Dialekte, wie im Fall von Dorothee Bär. „Es hätte Wochen gedauert, das Modell selbst zu trainieren“ sagt Nameer Alkhayyat. Für die Produktion der Voice-Samples holte das Team darum Resemble AI ins Boot, ein kanadisches Unternehmen, das sich auf die Herstellung KI-generierter Stimmen spezialisiert hat.

Die Stimmenproduktion

Früher, als noch keine KI bei der Herstellung künstlicher Sprache zum Einsatz kam, mussten einzelne sprachliche Phoneme aneinandergereiht werden, sodass ganze Wörter bzw. Sätze entstanden. Das war mühsame, teils manuelle Arbeit verbunden – und die Ergebnisse klangen häufig abgehackt. Diese Probleme werden heute von Maschinen gelöst. Mit Hilfe des sogenannten „Deep Learning“ werden Audio-Dateien mit den zugehörigen Transkripten in eine Art neuronales Netzwerk eingespeist. Das Netzwerk trainiert sich dann selbstständig. Es erkennt Sprach-Schemata und kann selbstständig neue Sätze produzieren. Die Ergebnisse bilden eine stimmige Sequenz und klingen immer flüssiger.  Zohaib Ahmed, Gründer und CEO von Resemble AI:

„Das Schöne am Deep Learning ist, dass es hunderttausende oder gar Millionen Parameter gibt, die wir als Menschen gar nicht erkennen würden.“  

Für die Produktion unserer eigenen künstlichen Stimmen wurden für jeden Versuchskandidaten Sprachsamples „herausgeclippt.“ Dafür wurden per Videoschnittprogramm 600 einzelne Sätze herausgeschnitten und gemeinsam mit dem dazugehörigen Transkript an Resemble AI geschickt.  

Die Herstellung der Stimmen ist jedoch vergleichsweise empfindlich. Probleme werden vor allem durch das Ausgangsmaterial verursacht. Dazu zählen sowohl Störgeräusche, die sich auch im Hintergrund abspielen können, als auch die Menge des vorhandenen Audio-Materials. Je mehr Material als Ausgangsbasis vorhanden ist, desto genauer kann das neuronale Netzwerk einheitliches, künstliches Stimmenmaterial erzeugen.  

Die Herstellungsdauer der Stimmen fällt dabei sehr unterschiedlich aus. Möchte man eine dem Deep Learning unbekannte Sprache trainieren, braucht man bis zu zwölf Stunden Ausgangsmaterial. Wurden jedoch bereits Schemata dieser Sprache erstellt, kann eine neue Stimme sehr viel schneller hergestellt werden.

Der Avatar

Für die Website des Projekts ließ das Freetech-Team einen eigenen Avatar erstellen. Unterstützung kam vom englischen KI-Unternehmen Synthesia.  

Victor Riparbelli, CEO und Co-Gründer: “Mit unserem Ansatz ist es möglich, Video-Inhalte vollständig mit dem eigenen Browser zu erstellen. Sie brauchen keine Kameras, kein Studio oder Schauspieler.“ Der klassische Weg, einen Avatar zu erstellen, ist sehr komplex. Man müsste einen Schauspieler nehmen, diesen vor der Kamera verschiedene Sätzen einsprechen lassen, die Videodateien am Computer bearbeiten und dann veröffentlichen. Synthesia bietet die Möglichkeit, diese Schritte durch Code ersetzen zu lassen. Man gibt auf der Plattform lediglich den gewünschten Text ein, wählt einen passenden Schauspieler und hat innerhalb weniger Minuten ein nahezu perfektes Ergebnis.

Möchte man einen eigenen Avatar erstellen, lässt sich der klassische Weg nicht vermeiden. Für unseren Avatar sprach Schauspielerin und Erotik-Model Micaela Schäfer vor der Kamera einige vorgegebene Sätze auf Englisch ein. Die Aufnahmen wurden vor einem Green Screen aufgezeichnet, um den Avatar später vor jeden beliebigen Hintergrund einbauen zu können. Die Videos wurden von Synthesia in ein neuronales Netzwerk eingespeist. Dort werden sowohl Mimik als auch Lippenbewegungen von Micaela Schäfer erkannt. Wenig später war der Avatar einsatzbereit. Die originale Stimme Schäfers konnte dabei nicht verwendet werden, da die Erstellung künstlicher Stimmen qualitativ nicht ausreichend gewesen wäre.  

Terms and conditions
Imprint
Loading