Mit Siri, Alexa oder anderen Sprachverarbeitungs-Programmen über beliebige Themen sprechen, so wie einem der Schnabel gewachsen ist? Das ist für Deutschschweizer bisher nicht möglich. Eine der wenigen Ausnahmen: Die Fahrplanabfrage der SBB gibt es auf Schweizerdeutsch.
Es habe bis jetzt keine genügend grosse Datensammlung gegeben, sagt Mark Cieliebak, Professor für automatische Sprach- und Textverarbeitung der Zürcher Hochschule für Angewandte Wissenschaften: «Will man ein System für eine Sprache trainieren, braucht es 1000 bis 2000 Stunden Audiomaterial. Diese Menge gab es bis jetzt schlicht nicht.»
Aufnahmen abgleichen
2000 Stunden gesprochenes Schweizerdeutsch in verschiedensten Dialekten: Diese Daten will das Projekt nun mithilfe von Freiwilligen aus der ganzen Deutschschweiz sammeln. Sie sollen hochdeutsche Sätze in ihre Mundart übersetzen und in eine Web-App einsprechen. Aus diesen Tonaufnahmen lernen Computerprogramme dann mittels künstlicher Intelligenz, wie man gesprochene Sprache in einen Text umwandelt.
Der Computer hört sich das an und lernt, welche Wörter im Hochdeutschen mit den entsprechenden Texten im Schweizerdeutschen zusammenhängen, erklärt Mark Cieliebak.
Ein Satz, viele Dialekte
Um Fehler bei der Dialektsammlung zu vermeiden, werden die Aufnahmen mehrfach geprüft. Damit die Software die Daten korrekt verarbeiten kann, muss theoretisch das ganze Vokabular jedes einzelnen Dialekts eingesprochen werden. Weil das nicht machbar ist, untersuchen die Forschenden die Ähnlichkeit zwischen den Dialekten.
«Wir werden denselben Satz von vielen Leuten in vielen verschiedenen Dialekten sprechen lassen und schauen, welche Dialekte sich ähnlich sind - etwa der Zürcher und der Aargauer Dialekt», sagt Mark Cieliebak. Eine Übertragung vom Basler oder Luzerner Dialekt ins Walliserdeutsch werde vermutlich schwieriger sein.
Die Daten der Dialektsammlung sollen nicht nur für weitere Forschungsprojekte zur Verfügung stehen, sondern auch für Behörden, Wirtschaft und die Öffentlichkeit. Sobald gesprochenes Schweizerdeutsch verschriftlicht werden kann, lassen sich Sitzungsprotokolle und Interviews automatisch transkribieren oder Untertitel für Fernsehsendungen erstellen.