Computergenerierte Stimmen können kaum noch von echten unterschieden werden. Wie weit die technischen Möglichkeiten bereits sind, zeigt obiges Beispiel. US-Präsident Donald Trump, der zunächst Englisch spricht und dann perfekt Mandarin. Trump, der etwas sagt, das er nie gesagt hat, in einer Sprache, die er gar nicht beherrscht. Was das alles bedeutet, sagt Katharina Thoms. Sie verfolgt seit Jahren die Entwicklungen auf dem Gebiet.

Katharina Thoms Journalistin Personen-Box aufklappen Personen-Box zuklappen Katharina Thoms ist als Journalistin unter anderem für den deutschen Südwestrundfunk in Stuttgart tätig.

SRF News: Wie funktioniert dieses Kopieren und Fälschen von menschlichen Stimmen?

Katharina Thoms: Wir haben zwei Elemente, die da zusammenkommen. Das eine ist gar nicht so neu, wir kennen es schon von unseren Smartphones. Man kann sich zum Beispiel Texte vorlesen lassen – aus geschriebenem Text eine Art Sprachausgabe machen. Diese Möglichkeit wird dabei verwendet. Das wird nun perfektioniert. Was bei unseren Smartphones oft noch blechern klingt, wird bei Betonung und Satzbau genau elaboriert und neu gemacht.

Das klingt super. Vor allem Google hat sehr überzeugende Forschungsbeispiele ins Netz gestellt. Und das andere Element ist, dass man nicht irgendwelche Stimmen, sondern die Kopie einer echten, menschlichen Stimme erstellt. Dafür braucht der Computer sehr viel Lernmaterial. Das wird in Einzelteile zerlegt, analysiert und neu errechnet. Im Idealfall klingt es dann sehr überzeugend und man kann es nicht mehr von der menschlichen Stimme unterscheiden.

Was bedeutet das für Radiomoderatoren, braucht es die nicht mehr?

Ich würde nicht soweit gehen wollen. Aber es gibt viele Überlegungen, wie das auch auf die Radiowelt grosse Auswirkungen haben kann. Denn sind wir mal ehrlich: Strukturierte Texte – Nachrichten zum Beispiel – werden auf der Textebene heute schon oft von Bots erstellt. Wieso soll das nicht auch gesprochen werden? Oder wenn wir die Sprachassistenten in den Handys oder diese intelligenten Lautsprecher mit diesen künstlichen Stimmen anschauen. Wieso soll eine Anwendung da nicht möglich sein? Das käme viel günstiger.

Welche Ziele werden damit verfolgt? Wohl nicht die Verfälschung der Wirklichkeit?

Natürlich nicht. Das sagt auch jede Firma, die auf dem Gebiet tätig ist. Aber es steckt ein kommerzielles Interesse dahinter. Es geht um viel Geld. Wir sind umgeben von sprechenden Maschinen. Wir sprechen mit den Lautsprechern, den Handys. Mit unserem Kühlschrank und unserem Fernseher sprechen wir auch schon bald. Deshalb werden die Stimmen immer wichtiger; deshalb wird von den Unternehmen auch so viel Geld in die Forschung gesteckt.

Die Idee an sich ist alt. Früher hat man gesagt, wenn man aus Krankheitsgründen die Stimme verliert, könnte man sie nachbilden. Stephen Hawking ist das berühmteste Beispiel. Das andere ist: Es ist auch wahnsinnig viel Rechenleistung nötig. Die Computer heute können das und werden das in Zukunft noch besser können, so dass es in der Praxis anwendbar ist.

Die Missbrauchsmöglichkeit besteht aber. Was wird gegen «Fake Audios» unternommen?

Im Moment noch nicht viel. Immerhin nimmt man wahr, dass es Bedenken gibt. Einige Firmen sagen, es sei schon wichtig, dass man darüber diskutiere und Aufmerksamkeit dafür schaffe. Sie sagen auch, dass man eine Art Wasserzeichen einbauen könnte, um zu erkennen, dass es kein «Fake Audio» ist.

Aber wirkliche Ansätze gibt es noch keine. Interessant ist, dass die Beispiele, die die Firmen bringen, bereits «Fake Audios» sind: Audios, in denen sie Politikern Worte in den Mund legen, die sie nie gesagt haben. Ich finde es höchst bedenklich, dass man die Technologie damit auch noch anpreist.

Wenn ein Politiker etwas Gesagtes bereut, kann er hinterher behaupten, das habe er gar nicht gesagt.

Der Politiker kann zwar sagen, das sei kein echter Originalton. Aber dieser Glaubwürdigkeitsverlust des O-Tons funktioniert ja auch in die andere Richtung: Wenn ein Politiker etwas Gesagtes bereut, kann er hinterher behaupten, das habe er gar nicht gesagt, das sei ein «Fake Audio».

Das Pentagon hat eine neue Abteilung geschaffen, die sich um «Fake Audios» kümmern soll. Wie will man da etwas erreichen?

Es geht bei dieser Mediaforensik-Abteilung um «Fake Audios» und «Fake Videos», denn da ist eine ähnliche Entwicklung im Gang. Sie will, wenn jemand zum Beispiel in einem O-Ton den Krieg erklärt, prüfen können, ob das echt ist. Mit Algorithmen kann man ganz schnell feststellen, ob es ein echter oder ein synthetisch hergestellter O-Ton ist.

Mit der millionenfachen Verbreitung solcher Dateien im Netz könnte dieser Kampf schwierig werden...

Ja, vor allem in dieser Breite. Medienschaffende sind zwar schon sehr sensibilisiert, etwa was Bildmanipulationen mit Photoshop angeht. Aber die meisten Menschen können so etwas nur schlecht nachvollziehen. Es gibt da zwar bereits Tools. Aber das wird meiner Meinung nach die Zukunft sein, auch jener der Medien. Es wird ein neues Feld aufgehen, um das wir uns kümmern müssen. Das heisst, wir müssen nicht nur gefälschte Fotos identifizieren können, sondern auch gefälschte Audios und Videos.

Das Gespräch führte Samuel Wyss.