Zum Inhalt springen

Verblüffende Videofälschungen Von Magie nicht mehr zu unterscheiden

Mit «Deep Fakes» lassen sich Gesichter in Videos fälschen – das Konzept ist über 60 Jahre alt. Was dahinter steckt.

Irgendetwas stimmt nicht. Die Stimme tönt nicht so, wie sie tönen sollte. Die Haare sind etwas zu lang. Das ist doch nicht Andrea Vetsch, die da spricht?

Tatsächlich: Es ist Susanne Wille, aber mit dem Gesicht von Andrea Vetsch. Was nach aufwändiger Videobearbeitung aussieht, wurde ohne grosse Mühe und mit wenigen Stunden Aufwand produziert. Das Resultat ist ein «Deep Fake» – eine Videofälschung als Ausgeburt einer künstlichen Intelligenz (KI).

Namensgebend für die Deep Fakes ist «Deep Learning», eine eigentliche Revolution im Bereich der KI, die erst vor wenigen Jahren so richtig Fahrt aufgenommen hat. Heute lässt sich mit Deep Learning fast alles machen, was frühere KI-Systeme nur mit Mühe und Not oder gar nicht hinkriegten: Bilder komplett autonom beschreiben , Promi-Gesichter künstlich erzeugen , Profi-Gamer in komplexen Online-Spielen übertölpeln , menschliche Stimmen überzeugend imitieren – oder eben Gesichter erkennen und täuschend echt austauschen.

Eine Fake-News-Waffe für die Massen

Als die Videofälschungen Ende letzten Jahres aus dem Nichts auftauchten , sorgte das für viel Furore. Was, wenn man keinem Video mehr trauen kann? Wenn Prominente plötzlich in Sequenzen erscheinen, in denen sie nicht sein sollten? Das Schlimmste daran: Jeder mit der nötigen Hardware und etwas Geduld konnte sich so eine Fälschung selber basteln. Eine Fake-News-Waffe für die Massen.

Dabei ist es erstaunlich, dass nicht schon viel früher jemand auf diese Idee gekommen ist. Denn die Technologie hinter Deep Fakes ist eine Kombination von altbewährten Methoden – Methoden, die längst in Programmier-Bibliotheken wie Google Tensorflow verfügbar sind. Solche KI-Baukasten machen die Ergebnisse jahrzehntelanger Forschung auch Hobby-Programmierern zugänglich. Auch das ist charakteristisch für den gegenwärtigen KI-Boom.

Was steckt hinter Deep Learning? Deep-Learning-Systeme sind eine Untergruppe von sogenannten künstlichen neuronalen Netzwerken. In solchen sind «Neuronen» in verschiedenen Ebenen angeordnet. Jedes Neuron ist ein simpler mathematischer Operator, der aus einem Eingabewert einen neuen Wert berechnet. Von Ebene zu Ebene fliessen die Original-Informationen (zum Beispiel eine eingescannte, handgeschriebene Ziffer) zu einem Resultat (die Ziffer, die das System aus dem Bild errät).

Wie «lernt» ein neuronales Netzwerk? Den neuartigen KI-Systemen gemeinsam ist, dass sie zuerst «trainiert» werden müssen – dass sie erst nach einer bestimmten Trainingszeit zwischen einer handgeschriebenen Drei und einer Fünf unterscheiden können.

Ebene für Ebene und gefüttert mit tausenden von handgeschriebenen Zahlen lernen die Neuronen allmählich, welche typischen Merkmale eine Ziffer aufweist – und können diese dann zuverlässig erkennen.

Dabei bedeutet Lernen im mathematischen Sinne, dass optimal festgelegt wird, wie die Neuronen ihre Eingabewerte verändern müssen, und an welche Neuronen sie sie weitergeben müssen. Der Lernprozess wird solange wiederholt, bis die Anzahl falsch interpretierter Originalbilder genügend klein ist.

Und wie funktioniert das mit den Deep Fakes? Ausgangspunkt ist ein neuronales Netzwerk, das ein Gesicht zuerst auf seine Grundzüge reduziert – mit dem sogenannten Enkodierer –, um es dann mit einem Dekodier-Verfahren wiederherzustellen. Ähnlich einem Phantombildzeichner, der aufgrund einer mündlichen Beschreibung (Enkodierer) ein Täterbild erstellt (Dekodierer).

Das Konzept nennt sich «Auto-Enkodierer»: Es spuckt im Gegensatz zur herkömmlichen Gesichtserkennung nicht den Namen der vermeintlichen Person aus, sondern ein neues Gesicht, das dem Ursprungs-Gesicht möglichst ähnlich sein soll. Wie gut das Resultat ist, erkennt die Software selbst, indem sie das Ergebnis mit dem Original vergleicht.

Auch ein Auto-Enkodierer muss trainiert werden: Wird er mit hunderten oder tausenden von Gesichtsausdrücken derselben Person gefüttert, lernt sein Inneres – die Neuronen-Ebene in der Mitte – sukzessive, wo sich die Kernmerkmale des Gesichts, also zum Beispiel die Augen oder die Nase, befinden. Daraus generiert die Software im Dekodier-Prozess vollautomatisch ein Gesicht mit dem gewünschten Ausdruck.

Bei der Deep-Fake-Technologie werden zuerst zwei Auto-Enkodierer-Netzwerke erstellt: Eines für Person A – im obigen Beispielvideo Susanne Wille – und eines für Person B – Andrea Vetsch –, deren Gesicht man auf Person A projizieren will.

Die Netzwerke werden über Stunden mit verschiedensten Gesichtsausdrücken der Personen A und B trainiert. Am Anfang sind die Resultate noch kümmerlich, die generierten Gesichter kaum erkennbar.

Aber: Das Netzwerk merkt in diesem Prozess durch stetes Versuchen und Scheitern selber, was es braucht, um ein Gesicht noch realistischer wiederherzustellen. Mit der Zeit werden die Konturen immer besser erkennbar, kann die Mimik glaubhaft rekonstruiert werden. Dass es sich nicht um das Originalgesicht handelt, lässt sich bald nur noch daran ablesen, dass Hautunreinheiten oder Falten fehlen – Informationen, die das Netzwerk als nicht wichtig erachtet.

Ist das Modell nach ein paar Stunden oder Tagen genügend weit trainiert, kommt der Clou an der Sache: Während beide Auto-Enkodierer mit dem gleichen Enkodierer trainiert wurden, waren die Dekodierer jeweils unterschiedlich. Im letzten Schritt werden diese beiden dann vertauscht.

Die Gesichtsausdrücke von Person A werden mit dem Dekodierer von Person B statt mit dem eigenen generiert. Dabei werden Mimik und Gesichtsausdruck von Person A beibehalten, aber mit dem Gesicht von Person B rekonstruiert.

Dieser Prozess macht am Anfang in relativ kurzer Zeit grosse Fortschritte, wie die Animation zeigt. Um wirklich brauchbare Resultate zu erhalten, muss das Netzwerk jedoch mehrere Stunden lang trainiert werden. Und: Sollen andere Personen vertauscht werden, beginnt das Training wieder von vorne.

Zuletzt wird das Zielvideo Bild für Bild neu berechnet. Dabei werden die bestehenden Gesichter mit den neu konstruierten Gesichtern von Person B ausgetauscht:

Dieser Schritt ist besonders fehleranfällig – es ist nicht immer einfach, ein Gesicht perfekt mit einem Kopf zu verschmelzen. Im Beispielvideo resultierten kleine Problemzonen, die das geschulte Auge schnell erkennt. Eines davon nennt Christian Riess, Videoforensiker an der Universität Erlangen-Nürnberg: «Beim linken Auge hat es zwei Augenbrauen.» Aber beim flüchtigen Betrachten falle das kaum auf. Riess ist beeindruckt von der guten Qualität des Fakes.

Je mehr Vielfalt – Lichtbedingungen, Mimiken, Blickrichtungen – in den Trainingsdaten vorhanden ist, desto besser funktioniert am Schluss das Austauschen der Gesichter.

Die Trainings-Gesichter werden übrigens aus Videosequenzen der beiden Personen gewonnen. Bei öffentlich bekannten Figuren findet sich genügend Video- und Bildmaterial online.

Eigentlich keine neue Idee

Der Grundstein für Deep Learning und für die Deep Fakes wurde schon vor langer Zeit gelegt. Künstliche neuronale Netzwerke dachte man sich bereits in den 50er-Jahren aus. Es war eine exotische Idee unter vielen Methoden, die damals unter dem Sammelbegriff KI liefen.

Die Technik war noch zu wenig ausgeklügelt, mehr Konzept als Lösung – die Computerwissenschaft ein junges Feld. Statistische Methoden waren den Netzwerken weit voraus.

Mit Folgen: Jahrzehntelang wurden neuronale Netzwerke nicht ernst genommen, nach vernichtender Kritik sogar kategorisch von wissenschaftlichen Publikationen ausgeschlossen. Die Forschungsgemeinschaft wandte sich ab.

Durchbruch mit handgeschriebenen Ziffern

Es dauerte bis in die 90er-Jahre, als eine grosse Prise Hartnäckigkeit endlich zu einem Achtungserfolg verhalf: Ab 1990 kommerzialisierte der Amerikaner Yann LeCun mit seinem Team aus KI-Aussenseitern ein neuronales Netzwerk, das handgeschriebene Zahlen erkennen konnte. Das System wurde fortan eingesetzt, um Bankchecks automatisch einzulesen. LeCun ist heute Forschungsdirektor bei Facebook und gilt als einer der Begründer der modernen KI.

Es verging nochmals ein Jahrzehnt bis Deep Learning den Netzwerken endgültig zum Durchbruch verhalf. LeCuns Netzwerk hatte nur wenige Ebenen, war noch «shallow» (flach). Dagegen sind Deep-Learning-Modelle oft hunderte von Ebenen «tief» und mit Millionen von Neuronen bestückt.

In geläufigen Bilderkennungs-Tests erreichten diese neuen Systeme Anfang der Nullerjahre beachtliche Erfolgsquoten. Neu war es möglich, nicht nur Handschrift, sondern auch unterschiedlichste Arten von Objekten zuverlässig auf Bildern zu erkennen.

Gaming-Grafikkarten sind für heutigen Boom mitverantwortlich

Der Schritt von flachen zu tiefen Netzwerken wäre nicht möglich gewesen, hätte es in den vorherigen Jahrzehnten keine stete Geschwindigkeitssteigerung bei den Prozessoren, den CPUs, gegeben. Denn die Deep-Learning-Netzwerke sind rechenintensiv: Das Trainieren – das Erlernen von Repräsentationen einer Ziffer, einer Katze, eines Gesichts – dauerte oft Wochen. Doch auch CPUs stiessen bei Deep Learning bald einmal an ihre Grenzen, weswegen man erst vor wenigen Jahren auf Grafikprozessoren umstieg.

Diese sogenannten GPUs, massenhaft verbaut zum Beispiel in Gaming-Grafikkarten, können als die Taktgeber des KI-Booms angesehen werden. Sie erst ermöglichten es, tausende von relativ simplen Rechenoperationen gleichzeitig durchzuführen und Abermillionen von Trainingsdaten effizient durch ein neuronales Netzwerk durchzuschleusen.

Diese grossen Datenmengen wiederum sind eine weitere wichtige Zutat für Deep Learning: Nur dank den Millionen von Menschen, die bei Facebook sich und ihre Freunde auf Bildern markierten, konnte das Unternehmen überhaupt eine so gut funktionierende Gesichtserkennung programmieren.

Wie so oft in der Technologiegeschichte ist die Kernidee also nicht neu, es brauchte jedoch mehrere Jahrzehnte, um ihr Schwung zu verleihen. Erst mit der nötigen Hardware und grossen Datenmengen entfalten neuronale Netzwerke ihr ganzes Potenzial, das auf viele Menschen unheimlich wirken mag.

Jede hinreichend fortgeschrittene Technologie ist von Magie nicht mehr zu unterscheiden.
Autor: Arthur C. Clarke Science-Fiction-Autor

Dieses vielzitierte Gesetz des Autors, der unter anderem «2001: A Space Odyssey» schrieb, stammt aus dem Jahr 1973 – also Jahrzehnte nach den ersten Experimenten mit neuronalen Netzwerken. Hätten Clarke und seine Zeitgenossen geahnt, was sich mit Deep Learning dereinst anstellen lässt, hätten sie wohl tatsächlich an Magie geglaubt. Dabei braucht es nur etwas Mathematik, Silizium und Strom.

So wurde der Deep Fake produziert

Box aufklappen Box zuklappen

Das Deep-Fake-Video mit Susanne Wille und dem Gesicht von Andrea Vetsch wurde von der SRF-Data-Redaktion kreiert. Grundlage ist die frei verfügbare Software des Entwicklers «iperov», die auf der Open-Source-Plattform GitHub zum Download angeboten wird . Sie basiert auf dem Grafikkarten-Framework «CUDA» von Nvidia und dem Deep-Learning-Framework «Tensorflow» von Google.

Die einzelnen Schritte der Software (unter anderem Gesichtsextraktion, Trainingsphase, Konvertierung, Videoproduktion) konnten per Mausklick und ohne Programmierung ausgeführt werden. Das Video wurde auf einer Workstation mit 20 CPU-Kernen, 64 Gigabyte RAM und einer 11-Gigabyte-Grafikkarte erstellt. Die Trainingsphase dauerte rund 24 Stunden.

Zur Information und Inspiration wurden folgende Online-Artikel beigezogen:

Meistgelesene Artikel