Lauschangriff der Chipstüten

Sie sehen so unschuldig aus, wenn sie auf Partys zwischen den Bierflaschen liegen. Aber die Chipstüten bekommen mehr mit, als wir denken. Zum Beispiel, welche Musik gespielt wird, oder das geheime Gespräch neben ihr. Alles nur Science-Fiction? Forscher des MIT haben das Gegenteil bewiesen.

Wenn Schallwellen ein Objekt treffen, reagiert es mit mikroskopisch kleinen Vibrationen. Die Blätter unserer Topfpflanze, die Stehlampe oder das Glas Wasser auf dem Tisch registrieren dadurch genau, wenn wir sprechen oder Musik hören oder durch den Raum tanzen. Was, wenn wir die Topfpflanze zum Reden bringen könnten?

Vibrierte Kinderlieder-Klassiker

Forscher am MIT, Microsoft und Adobe haben genau das geschafft – mit einer High-Speed-Kamera. Die Bewegung der Vibrationen verursacht ein kaum merkliches visuelles Signal, das mit dem blossen Auge nicht wahrnehmbar ist. Mit einem speziellen Algorithmus wandelten die Forscher dieses Vibrations-Signal in Schallwellen um (siehe Video).

Versuchsaufbau: die Chipstüte im Raum, die Kamera steht vor der Glastür. Bild in Lightbox öffnen.

Bildlegende: Trotz schalldichter Glastür: Nur über die Aufnahme der Vibrationen konnte der Dialog, der im Raum lief, hörbar gemacht werden. Abe Davis et al.

Das Ergebnis waren erstaunlich verständliche Wiedergaben von Gesprächen, die in der Umgebung einer Topfpflanze stattgefunden haben, oder von Songs, die neben einem Stück Alufolie gespielt wurden. Die Aufnahmen waren sogar gut genug für die Musik-Erkennungs-App Shazam, die nach einigem Rödeln den Kinderlied-Klassiker «Mary had a little lamb» richtig identifizierte.

Beim Beispiel der Chipstüte gingen die Informatiker vom MIT besonders umsichtig vor. Sie filmten die Tüte in einem Raum, in dem ein Film lief – allerdings standen sie draussen und filmten durch eine schalldichte Glastür. Für die Kamera kein Problem: Die Vibrationen gaben den Dialog des Films ziemlich unmissverständlich wieder.

Keine High-Speed-Kamera nötig

Um Sound aus einem Video zu extrahieren, muss die Bildfrequenz des Videos höher sein als die Frequenz des Audiosignals. Deshalb benutzen die Forscher für viele ihrer Experimente eine Highspeed-Kamera, die 2000 bis 6000 Bilder pro Sekunde aufnimmt. Das menschliche Auge sieht etwa 24 Bilder pro Sekunde.

Aber auch mit normalen Videokameras, die nur 60 Bilder pro Sekunde machen, funktionierte der Lauschangriff: Beim linienartigen Aufbau der Bilder kommt es zu winzigen Vibrationen, die ausgewertet und durch Algorithmen noch verstärkt werden können.

Jetzt klingt es vielleicht gar nicht mehr so sehr nach Science-Fiction, dass eines Tages ein Täter überführt werden könnte, weil die Tüte mit den leckeren Chips, die den ganzen Abend neben ihm lag, ihn verraten hat.