Nicht alles kann der Computer besser und schneller als der Mensch: Ein Erwachsener braucht knapp 100 Millisekunden, um ein Gesicht zu erkennen . Und um zu bemerken, ob zwei Bilder dieselbe Person zeigen – egal aus welchem Winkel und unter welchen Lichtverhältnissen sie aufgenommen wurde – braucht unser Hirn wenig mehr als eine Sekunde.
Es ist heute noch sehr einfach, ein System zu irritieren.
Vor dieselbe Aufgabe gestellt muss die Maschine (noch) passen: «Die Gesichtserkennung, bei der ein Algorithmus blitzschnell zwischen tausenden Gesichtern unterscheiden muss um herauszufinden, zu wem ein Gesicht gehört, ist heute in der Praxis noch kaum einsetzbar.» Das sagt Professor Thomas Vetter vom Departement Mathematik und Informatik der Uni Basel, der sich seit Jahren mit dem Thema beschäftigt. Eigentliches Ziel von Vetters Forschung sind Erkenntnisse darüber, wie Sehen und Erkennen funktioneren.
Lange Zeit galt die Gesichtserkennung als Nebenaspekt der Forschung zur künstlichen Intelligenz. Seit den Terroranschlägen vom 9. September 2001 hat sich das geändert: Im Namen der nationalen Sicherheit wird nun mit viel Geld an Techniken geforscht, die Gesichter in der Masse erkennen und in Echtzeit mit einer Datenbank von Verdächtigen abgleichen sollen.
40 Prozent wurden nicht erkannt
Doch die Wunschträume der Sicherheitsbehörden (und die Albträume der Datenschützer) unterscheiden sich noch stark von dem, was in der Praxis machbar ist. Bei der Suche nach den Attentätern von Boston etwa war die Gesichtserkennung nicht von Hilfe.
Thomas Vetter erinnert sich an einen Grossversuch in Bielefeld , für den ausgewählte Probanden auf einer Rolltreppe gefilmt wurden. Dabei konnte der Computer gegen 60 Prozent der erfassten Gesichter einem Namen zuordnen. 40 Prozent der Leute verliessen die Rolltreppe unerkannt.
Allerdings: Das Experiment fand unter einigermassen kontrollierten Bedingungen statt. Die Beleuchtung war stets gleich, ebenso der Abstand, in dem sich die Personen zur Kamera befanden. «Würde man dasselbe im Freien auf dem Bahnsteig machen, wo das Licht einmal heller und einmal dunkler ist, mit einer Kamera, die nur niedrig aufgelöste Bilder der ein- und aussteigenden Passagiere macht, dann wäre das Resultat noch deutlich schlechter», sagt Vetter.
Erstens: Erkennen, dass da ein Gesicht ist
Grob lassen sich drei Schritte der Gesichtserkennung per Computer unterscheiden: Als erstes muss die Maschine überhaupt erkennen, dass sich ein Gesicht im Bild befindet. Für den Menschen eine triviale Aufgabe, schliesslich sind zwei Drittel unseres Gehirns nur für das Sehen zuständig, so Vetter. Für den Computer ist das Unterscheiden zwischen Gesichtern, Hintergrund und Objekten aber um einiges schwieriger.
In den letzten Jahren sind die Algorithmen dazu aber besser geworden und werden heute längst nicht nur für Überwachungszwecke eingesetzt. Schon einfache Digitalkameras etwa können erkennen, wo im Bild sich Gesichter befinden und die Bildschärfe entsprechend regulieren. Die gleichen Algorithmen kommen zum Beispiel auch bei Facebook zum Einsatz, wenn es darum geht, auf Fotos Gesichter von Freunden zu erkennen.
Allerdings sind auch diese Algorithmen noch fehleranfällig: Schlechte Lichtverhältnisse, ein ungünstiger Kamerawinkel und selbst ein breites Grinsen können sie verwirren. Zuweilen muss deshalb der Mensch beim Erkennen nachhelfen.
Zweitens: Das Gesicht für den Computer lesbar machen
In einem zweiten Schritt gilt es, das erkannte Gesicht in ein mathematisches Muster zu bringen – das Gesehene in die Sprache des Computers zu übersetzen. Dazu gibt es unterschiedlichste Algorithmen, die zum Beispiel die Lage der Augen oder den Abstand der Unterlippe zum Kinn ausgewerten.
Neue Verfahren schaffen es sogar, aus einem zweidimensional aufgenommenen Bild ein dreidimensionales zu machen. Thomas Vetter und sein Team an der Universität Basel gehören bei dieser Umwandlung zu den weltweit besten. Dank zusätzlicher Informationen – etwa über die Kontur der Nase oder die Tiefe der Augenhöhlen – sind die Modelle genauer als eine zweidimensionale Aufnahme. Am 3-D-Modell lassen sich auch verschiedene Lichtverhältnisse simulieren oder ein ungünstiger Aufnahmewinkel durch Drehung ausgleichen.
Trotzdem ist auch so ein Algorithmus fehleranfällig: Übertriebene Mimik etwa stellt den Computer auch hier vor Schwierigkeiten. Und wer eine Sonnenbrille trägt, wird nur schwer erkannt (siehe Video oben).
Drittens: Abgleichen mit der Datenbank
Als letztes werden die erfassten Gesichts-Daten mit den in einer Datenbank gespeicherten Profilen abgeglichen. Je grösser die Auswahl an Kandidaten, desto schwieriger wird es, eine Übereinstimmung zu finden: Bei einem Sample von etwa zwei Millionen Gesichtern soll die Erfolgsquote noch bei gut 90 Prozent liegen . Aber bei grösseren Datenbanken wie zum Beispiel der des FBI mit rund 12 Millionen Bildern nimmt die Treffgenauigkeit rasch ab. In jedem Fall muss noch ein Mensch die Resultate auf ihre Richtigkeit kontrollieren.
Weil ein erkanntes Gesicht einfach einem Geschlecht oder einer Altersgruppe zugeordnet werden kann, lässt sich die Zahl der Verdächtigen in der Datenbank aber einschränken. Hat der Algorithmus etwa erkannt, dass auf einem Bild ein älterer Mann zu erkennen ist, scheiden Frauen und Teenager von vornherein aus.
Das Ausgangsmaterial macht's aus
Auch hier gilt: Die Maschine arbeitet nur so gut, wie es das Ausgangsmaterial zulässt. Passfotos oder Fotos aus Fahrausweisen sind qualitativ zwar ideal – alle unter ungefähr gleichen Bedingungen aufgenommen, mit Blick der Person frontal in die Kamera und gut ausgeleuchtet –, lassen sich aber nur schlecht mit dem Material von Überwachungskameras abgleichen. Dort werden Personen meist in schlechter Auflösung unter wechselnden Lichtverhältnissen und aus einem ungünstigen Winkel aufgenommen.
Die Beleuchtung und der Aufnahmewinkel sind heute die grösste Herausforderung für die Forschung.
Die optimale Datenbank ist deshalb mit mehreren Fotos einer Person bestückt, die unterschiedliche Gesichtsausdrücke zeigen und aus verschiedenen Perspektiven aufgenommen wurden.
Politik und Gesellschaft sind gefragt
Dennoch: In den letzten Jahren hat die Gesichtserkennungs-Software grosse Fortschritte gemacht. Bestimmte Algorithmen sind – unter den richtigen Bedingungen – sogar dem Menschen im Erkennen von Gesichtern überlegen und können etwa eineiige Zwillinge voneinander unterscheiden. «Ich halte es für durchaus möglich, dass der Computer in 10 bis 15 Jahren dem Menschen in der Gesichtserkennung ebenbürtig ist», sagt Thomas Vetter.
Dabei vergisst er nicht, dass die Technik auch Ängste hervorruft: «Ich finde es auch unangenehm, wenn ich irgendwann nicht mehr weiss, ob ich beobachtet werde und ob dabei Daten aufgezeichnet und gespeichert werden.» Aber Vetter hält fest, dass nicht nur die Gesichtserkennung kritisch betrachtet werden müsse, sondern alle Arten der Datensammlung. Und ergänzt: «Die Frage der Datensicherheit oder die Frage, wer Daten wo aufnehmen darf, ist nicht in erster Linie ein Problem der Wissenschaft. Politik und Gesellschaft sind gefragt, wenn es darum geht, entsprechende Regeln aufzustellen.»