Zum Inhalt springen

KI und Sprache Was ist dran am Hype um die Übersetzungs-KI HeyGen?

Die Sozialen Medien werden überflutet mit stimmgeklonten Videos. Das steckt hinter der neuen KI-Software von HeyGen.

Was ist passiert? Letzte Woche ging auf der Plattform «X» (ehemals Twitter) ein Video viral, in dem der Tech-Influencer Jon Finger täuschend echt Deutsch und Französisch spricht. Ebenfalls für Aufsehen sorgte die Pressekonferenz des argentinischen Fussballstars Lionel Messi, wo er mühelos Englisch spricht. Etwas, das er sich bis jetzt partout weigerte zu tun. Messi wurde aber nicht über Nacht zum Sprachtalent. Das Video ist gefälscht, erstellt von KI. Dahinter steckt eine neue Software des kalifornischen Start-ups HeyGen.

Wie funktioniert die Software genau? Das Tool kombiniert mehrere Ansätze: Zunächst ist es ein Übersetzungsprogramm auf Basis Künstlicher Intelligenz. Gleichzeitig wird das Video so perfekt manipuliert, dass die Lippenbewegungen exakt zu der jeweiligen Sprache passen – sogenanntes «Lip Synching». Das i-Tüpfelchen ist die «Voice Cloning»-Technologie. Sie sorgt dafür, dass Stimmlage und Aussprache authentisch reproduziert werden.

Erfahrungen eines SRF- Selbstversuches

Box aufklappen Box zuklappen

Aktuell gibt es eine Gratis-Testphase des HeyGen-Programms: Als Userin kann ich ein Video hochladen, das mindestens 30 Sekunden lang ist.

In einem Selbstversuch laden wir ein Video von SRF Kultur Instagram-Host Melissa hoch. Hierfür benötigt die KI genug Daten.

Zum Zeitpunkt des Versuchs waren laut Hersteller aber mehr als 70'000 Videos in der Warteschlange. Geschätzte Wartezeit: mehrere Stunden. Gegen eine Monatsgebühr von 29 US-Dollar lässt sich dieser Prozess beschleunigen. Stand jetzt stehen 14 Sprachen zur Verfügung, mit denen die KI im Vorfeld durch Audiodaten trainiert wurde. Darunter etwa Englisch, Französisch, Spanisch, Hindi, Polnisch, Japanisch, Koreanisch oder Türkisch.

Wie neu und gut ist das Tool? Neu ist an diesem Tool lediglich, dass es drei bereits bekannte Technologien in einer Anwendung kombiniert, sagt SRF Digital-Redaktor Guido Berger. «Dass eine Spracherkennungssoftware Ton übersetzt und Text generiert, ist längst etabliert», so Berger. Besonders herausragend sind die «Lip Synching»-Fähigkeiten von HeyGen nicht. Berger sagt, unsere Ansprüche an diese Technologie seien relativ gering, da wir schon lange an synchronisierte Filme und TV-Shows aus dem Ausland gewohnt seien. Der überraschendste und schwierigste Aspekt sei wohl das «Voice Cloning». Und das macht HeyGen relativ gut. Einzig beim Schweizer Akzent scheint die KI etwas Mühe zu haben, und auch den leichten Roboterklang bekommt HeyGen nicht ganz weg.

Medien sprechen von einem Fortschritt historischen Ausmasses. Gerechtfertigt? Im Kontext von Künstlicher Intelligenz findet es SRF-Data Scientist Damian Murezzan schwierig, von «epochalem Fortschritt» zu reden. Die technologischen Grundlagen für solche Tools würden nämlich über Jahre hinweg entwickelt, die breite Masse höre bloss erst davon, sobald die Tools sehr einfach zu nutzen sind. Das heisst: «Das Interface ist bedienerfreundlich, man muss keine Codes mehr schreiben können», so Murezzan. Der technische Fortschritt schreite zwar rasant voran, man wisse aber nicht, wie sich das zukünftig entwickle.

Für wen könnte die Software interessant sein? Die Software könnte vor allem Content Creators das Leben erleichtern, da sie viel mehr Menschen in anderen Sprachregionen erreichen können. Es bleibt aber abzuwägen zwischen mehr Reichweite und Glaubwürdigkeit. Denn: Das Video suggeriert, dass die Person diese Sprache spricht – was nicht stimmt. Deshalb, so SRF-Experte Guido Berger, sei das Tool auch kaum anwendbar für Medienhäuser.

Ist der niederschwellige Zugang auch problematisch? Es gilt zu differenzieren. Mit diesem spezifischen Tool von HeyGen werden Menschen nicht andere Worte in den Mund gelegt, ihre Statements werden bloss in andere Sprachen übersetzt. Grundsätzlich werden Technologien, mit denen sich Videos verändern lassen, immer günstiger und verfügbarer. Es wird also mehr Inhalt geben, und ein Teil davon wird gefälscht sein. Die Bedrohung sei aber noch sehr überschaubar, da Fakes noch immer sehr einfach entlarvt werden können, so SRF Digitalexperte Guido Berger. Wie etwa bei Messi, der nie und nimmer Englisch sprechen würde.

SRF 1, Nano, 11.09.2023, 06:20 Uhr

Meistgelesene Artikel