Der Stanford-Professor Andrew Ng erzählt in der Informatik-Vorlesung jeweils, wie er sich als Student in den 1990er-Jahren nach der grössten Herausforderung für einen Programmierer erkundigte. Die Antwort: Ein Computer-Programm zu schreiben, das einen Helikopter steuern kann. Ng zeigt seinen Studenten dann die Video-Aufnahme eines ferngesteuerten Model-Helikopters. Im Video übergibt der Model-Pilot mitten im Flug die Kontrolle an einen Computer, der nun das Flugzeug steuern soll – mit schlimmen Folgen. Schon nach wenigen Sekunden verliert die Software die Kontrolle, es droht der Absturz. Der Pilot muss die Steuerung sofort wieder an sich reissen.
Maschinen lernen vom Menschen
«Mittlerweile gilt ein von Menschen geschriebenes Programm zur Steuerung eines Helikopters als Ding der Unmöglichkeit», sagt Andrew Ng. Die Aufgabe ist einfach zu komplex, zu viele Parameter muss ein Programmierer berücksichtigen. Die Lösung: Die Computer bringen sich das Fliegen selbst bei, in dem sie sich den Vorgang von menschlichen Piloten abschauen. Das Verfahren wird als maschinelles Lernen bezeichnet.
Die gleiche Methode wird auch bei Übersetzungsprogrammen angewendet. Früher hat man über Monaten grammatikalische Regeln programmiert und Wörterbücher zusammengetragen, ein langwieriger Prozess. Seit 20 Jahren wird auch auf diesem Gebiet mit den Methoden des maschinellen Lernens gearbeitet. «Das hat verschiedene Vorteile» sagt Martin Volk, Professor am Institut für Computerlinguistik der Universität Zürich. «Man kann auf diese Weise maschinelle Übersetzungssystem sehr viel schneller herstellen, sie sind auch robuster gegenüber Texten mit kleineren grammatikalischen Fehlern.»
Damit die Maschinen sich das Übersetzen selbst beibringen, braucht es vor allem eines: grosse Mengen an Texten in zwei Sprachen, professionell übersetzt. Fünf Millionen Worte sind notwendig, um ein Übersetzungssystem zu trainieren. Zum Vergleich: Die englische Übersetzung des Alten Testaments umfasst 550'000 Wörter.
Zu erfassen und zu formalisieren, wie Sprache und Verstehen abläuft, ist etwas vom Kompliziertesten, was man sich vorstellen kann
Lernen ist nicht gleich lernen
Die meisten Lern-Programme haben mit menschlichem Lernen nichts gemeinsam sondern basieren auf statistischen Verfahren. Die Computer durchforsten dabei grosse Datenmengen nach Regelmässigkeiten, berechnen Wahrscheinlichkeiten und erstellen Statistiken.
Taucht zum Beispiel das Wort «Apfel» in einem deutschen Satz auf, wenn in der englischen Übersetzung «apple» steht, so ist die Wahrscheinlichkeit gross, dass «Apfel» auf Englisch «apple» heisst. Taucht im Englischen hingegen das gross geschriebene «Apple» auf, so ist die Wahrscheinlichkeit gross, dass auch im deutschen Text irgendwo «Apple» steht – dass in diesem Fall die Firma gemeint ist, versteht die Maschine nicht. Sie kennt weder Bedeutung noch grammatikalische Regeln, für sie gibt es nur Statistiken. Und mit Hilfe dieser Statistiken baut die Maschine selbständig ein Wörterbuch auf.
Sprache an sich verstehen ist die Herausforderung
«Fast jede maschinelle Übersetzung ist fehlerhaft» meint Martin Volk. Seine Übersetzungssysteme haben denn auch nicht zum Ziel, Dolmetscher zu ersetzen, sondern den Prozess des Übersetzens zu beschleunigen: Rund ein Drittel des Zeitaufwands kann heute mit Hilfe eines Computers beim Übersetzen eingespart werden.
Von der Internet-Suche bis zum Steuern komplexer Maschinen: Computer sind uns in vielem überlegen. Warum bloss tun sie sich dann so schwer mit Sprache? «Zu erfassen und zu formalisieren, wie Sprache und Verstehen abläuft, ist etwas vom Kompliziertesten, was man sich vorstellen kann,» meint Volk. Kurz: Es klafft in der Linguistik eine theoretische Lücke, es fehlt ein schlüssiges Modell, das repräsentiert, wie Sprache und Bedeutung zusammenspielen. Ein Modell, das nicht existiert, kann auch nicht auf den Computer übertragen und automatisiert werden. Volk meint, dass das auch noch längere Zeit so bleiben werde, denn ein Durchbruch in der Linguistik sei nicht auszumachen.
Die Zukunft liegt im Netz
Die Weiterentwicklung von Übersetzungssystemen bleibt trotzdem nicht stehen. Denn: Je mehr Daten zur Verfügung stehen, desto besser ist die Statistik und somit das System. Daten in Form von übersetzten Texten gibt es vor allem an einem Ort: Im Internet, wo täglich immer neue Texte in verschiedenen Sprachen dazukommen.
Es erstaunt deshalb nicht, dass Google bei der Erforschung und Entwicklung von Übersetzungssystemen die Nase vorne hat. Wer sonst, wenn nicht der Betreiber der grössten Suchmaschine, hat Zugang zu annähernd so grossen Textmengen? «Google unterhält mittlerweile die grösste Forschungsabteilung für maschinelles Übersetzen» meint Martin Volk. Und das mit Erfolg: Google-Translate liefere gute Resultate für alle Sprachkombinationen, für die im Internet genügend Texte zur Verfügung stehen, meint der Informatiker weiter. Er hat Google Translate kürzlich für Übersetzungen von Deutsch nach Englisch und Englisch nach Spanisch getestet und bescheinigt dem Dienst gute Qualität.
Mit Hilfe von statistischen Methoden und riesigen Datenmengen gelingt es den Maschinen heute einigermassen, von uns das Übersetzen zu lernen – obwohl sie so ganz anders «denken» als wir und ihnen Sprache und Verstehen eigentlich komplett fremd sind.