Jedes Kind kennt die Fabel vom Hirtenjungen und dem Wolf. Der Junge soll die Schafsherde vor hungrigen Wölfen beschützen. Tagelang passiert nichts. Dem Jungen ist langweilig – und so ruft er irgendwann „Wolf!“. Erwachsene eilen herbei, doch es gibt keinen Wolf. Es ist eine falsche Information, gestreut vom Jungen. Am nächsten Tag ruft er erneut: „Wolf!“. Wieder ist weit und breit kein Wolf zu sehen. Als dann in der Tat ein Wolf auftaucht und der Junge ruft, bekommt er keine Hilfe. Es glaubt ihm keiner mehr. So frisst der Wolf die Schafsherde – und in manchen Abwandlungen der Geschichte auch den Jungen. Wie hätte das verhindert werden können? Die vermeintliche Antwort: Detection-Software.
Wenn die Erwachsenen mit einem Fernrohr immer automatisch sehen könnten, ob nun wirklich ein Wolf die Herde bedroht, sind sie unabhängig von den Behauptungen des Jungen. Oder in Deepfake-Sprache: Wenn jemand mit den richtigen Tools analysiert, ob das Video, das wir vom deutschen Entertainer Wigald Boning erstellen konnten, ein Deepfake ist, sollte das uns als Gesellschaft im Kampf um Wahrheit helfen. Soweit klingt das wie eine Ideallösung. Doch diese Parabel hat ein großes Problem. Bösartige Deepfakes sind keine Wölfe, die immer gleich versuchen, Schafe zu reißen. Sie sind eher genmutierte Wölfe, die von Woche zu Woche ihre Jagd perfektionieren.
Dementsprechend vakant ist eine allumfassende Detection-Lösung für Deepfakes. Aktuell benennen Experten drei verschiedene Techniken im Umgang mit Deepfakes: die forensische Analyse, digitale Signaturen oder digitale Wasserzeichen.
Diese drei Techniken attackieren jeweils eigene Zeitpunkte im Deepfake-Lebenslauf. Im Moment der Produktion greifen digitale Signaturen, also beispielsweise während des Filmens mit einer Handy-App. Digitale Wasserzeichen können während des Synthetisierens, also dem Prozess in dem Künstliche Intelligenz den Deepfake erstellt, implementiert werden. Die forensische Analyse wird dann nützlich, wenn ein Fake-Video bereits existiert und auf seine Richtigkeit überprüft werden muss. Wenn also plötzlich ein Fake-Video von Wigald Boning auftaucht, das weder digitale Signaturen noch Wasserzeichen hat, kommt die forensische Analyse zum Einsatz.
Die Resultate unseres Tests sind ernüchternd, legen aber ein großes Hindernis in der forensischen Analyse offen. Viele Detection-Softwares sind sogenannte Low-Level-Lösungen. Das heißt: Wenn sich besimmte Pixel in einem Bild auffällig verhalten, schlägt die Software an. Die beiden kostenfreien Test-Lösungen, die wir ausprobiert haben, sind Low-Level-Applikationen. Ein besseres Resultat ließe sich dagegen wahrscheinlich mit High-Level-Applikationen erzielen. Denn sie betrachten anstelle von einzelnen Pixeln den Menschen als solchen. Wie bewegt sich der Kopf? Passen die Bewegungen der Person zu dem, was die Person macht?
Ein gutes Beispiel für eine High-Level-Herangehensweise liefert die forensische Analyse des sehr bekannten Tom Cruise-Deepfakes. Forscher rund um den Informatik-Professor Hany Farid von der University of California, Berkeley haben bei der Prüfung des Videos auf seine Echtheit ihren Fokus auf die Ohren gelegt und konnten das Deepfake so entlarven. Ohren haben sehr individuelle Formen und da Deepfakes zumeist nicht den ganzen Kopf, sondern nur das Gesicht verändern, liefern sie ein gutes Indiz über die Echtheit eines Videos. Doch nicht nur das: Auch die Art und Weise, wie sich Ohren während des Sprechens bewegen, sind schwierig zu imitieren.
Sowohl Low-Level-, als auch High-Level-Lösungen habe ihre eigenen Probleme. Gerade bei Low-Level-Herangehensweise sind die Traningsdaten wichtig. So kann die Software nur als Fake erkennen, was es als Fake gelernt hat. High-Level-Methoden sind hingegen oft aufwendiger als ihre Pendants von niedriger Qualität. Und für beide gilt: Wenn Deepfake-Produzenten wissen, wo das Problem ist, kann es behoben werden. Es ist ein Katz-und-Maus-Spiel zwischen Detektoren und Erstellern.
Wie kann es also weitergehen in dem Bereich? Dominik Kovacs, Technikchef bei Defudger – einem Unternehmen, dass sich auf die Entdeckung von Deepfakes spezialisert hat – glaubt, dass die Zukunft bei Wasserzeichen und digitalen Signaturen liegt. „Hoffentlich hilft es uns ein sicheres Internet und einen sichereren Ort für Content jeglicher Art zu kreieren“, erklärt Dominik. Kurzfristig seien forensische Möglichkeiten zwar wichtig und gut, aber langfristig könne man dieses Katz-und-Maus-Spiel nur verlieren.
Auch Hao Li, CEO von Pinscreen, einer Firma, die mit Hilfe von Deepfake-Technologie virtuelle Avatare erstellt, sieht Schwierigkeiten darin sich auf forensische Analysen auf einem niedrigen Level zu verlassen. Hao arbeitet an einem Projekt zusammen mit der US-Behörde DARPA (Defense Advanced Research Projects Agency), einer Abteilung des US-Verteidigungsministeriums, an effektiven Methoden um Deepfakes zu erkennen. „Das wird bald nicht mehr funktionieren“, sagt Hao über das Entdecken von Pixelanomalien in Deepfake-Videos. High-Level-Herangehensweisen seien hingegen effektiv. Das sieht Hao Li als Methode für die Zukunft. Gestikulation, Bewegung, das alles sei schwierig zu fälschen.
Zuletzt bleibt immer die Frage übrig, inwiefern Detection-Software nicht nur technisch, sondern menschlich funktioniert. Was ist, wenn es für den User irrelevant ist, was wahr ist und was nicht? Darüber haben wir in einer Folge unseres Podcasts gesprochen. Hört gerne mal rein.