Big Data: Was Google (noch) nicht richtig macht

Seit 2008 bietet Google einen Dienst an, mit dem sich die nächste Grippewelle vorhersagen lassen soll. Er basiert auf Suchbegriffen, die Nutzer bei Google eingeben. Der Dienst ist ein Paradebeispiel für Big Data, funktioniert aber nicht richtig. Forscher fordern nun mehr Sorgfalt bei Big Data.

Eine Weltkarte. Manche Länder sind rot, andere orange, andere grün eingefärbt. Bild in Lightbox öffnen.

Bildlegende: Wo die Grippe wütet: Das versucht der Dienst Google Flu Trends abzubilden. Doch die errechneten Zahlen stimmen nicht. Google

Gewappnet sein für die nächste Grippewelle: Das ist eine wichtige Aufgabe der «Centers for Disease Control and Prevention» (CDC) in den USA. Um sie zu erfüllen, sammeln die CDC Grippefälle, die von den Ärzten gemeldet werden. Diese Daten rechnen die CDC dann für das ganze Land hoch. So schätzen sie das tatsächliche Ausmass der Grippe ab. Genau so machen es auch die Gesundheitsbehörden in anderen Ländern.

Die Zahlen zeigen, wie die Grippewellen jedes Jahr anrollen und wieder abebben. Doch voraussagen lassen sie sich damit nicht. Anders soll das sein bei «Google Flu Trends». Der Dienst soll Grippewellen schon im Voraus erkennen können, und zwar dank der Suchbegriffe, die Nutzer bei Google eingeben.

Suchbegriffe als Warnsignal

Die Häufigkeit bestimmter Suchbegriffe sei ein Anhaltspunkt für die Häufigkeit von Grippefällen, schreibt Google auf der Website von «Flu Trends». Die Idee dahinter: Wer krank wird, der sucht nach Begriffen, die mit Krankheit zu tun haben. Google sammelt all diese Eingabe-Daten, wertet sie aus, und prognostiziert daraus, wie es mit der Grippe in den nächsten Wochen weitergehen wird.

Der Dienst gilt als eines der Vorzeigebeispiele dafür, was man mit grossen Datenmengen – Stichwort Big Data – alles machen kann. Zu Beginn waren viele Experten begeistert davon, auch bei den CDC. Eine Studie zum Thema von Google im Fachmagazin «Nature» heimste viel Applaus ein. Doch mittlerweile hat sich die Euphorie etwas gelegt. Es hat sich nämlich gezeigt, dass «Google Flu Trends» manche Grippewellen deutlich überschätzt. Andere Grippewellen hingegen, zum Beispiel die Schweinegrippe 2009, hat der Dienst verpasst.

Kurve zeigen die Grippe-Zahlen zu Bild in Lightbox öffnen.

Bildlegende: Warnstufe Orange So sieht Google Flu Trends die Grippesituation in der Schweiz im Moment. Google

Aufbauend auf dieser Kritik, hat eine Forschergruppe in der neusten Ausgabe des Fachmagazins «Science» Vorschläge formuliert, wie man in der Wissenschaft mit Big Data umgehen sollte.

Forscher müssten sich davor hüten, althergebrachte Datensammlungen durch Big Data zu ersetzen. Die Datensätze des CDC würden durch «Flu Trends» nicht überflüssig. Das Problem sei vielmehr die intransparente Datenerhebung: Es ist nämlich nicht bekannt, nach welchen Suchbegriffen Google filtert – ob zum Beispiel nach «Fieber», «Husten» oder «Schnupfen».

Ausserdem ist der Such-Algorithmus Geschäftsgeheimnis von Google. Die Firma passt den Algorithmus immer wieder an, um Werbekunden und Nutzern mehr zu bieten. Eine Auswertung aus 2008 und eine Auswertung aus 2013 liessen sich deshalb kaum miteinander vergleichen, so die Forscher. Dabei wäre genau das für die Forschung wichtig.

Zusatzinhalt überspringen

Das Thema am Sender

Mehr dazu hören Sie am Samstag, den 15. März, um 12:35 Uhr auf Radio SRF 2 im Wissenschaftsmagazin.

Wer wissenschaftlich mit Big Data arbeiten will, der sollte auf transparente Algorithmen setzen, fordern die Forscher. Die Analysen müssten repliziert werden können wie andere wissenschaftliche Untersuchungen auch. Die Grösse eines Datensatzes sei keine Ausrede dafür, nicht sauber zu arbeiten.

Gewusst wie und wo

Die Forscher sind keine Gegner von Big Data. Im Gegenteil: Sie halten die Analyse von grossen Datenmenge für sehr wertvoll. Allerdings vor allem dort, wo klassische Datensammlungen versagen. So schlagen die Forscher zum Beispiel vor, mit «Google Flu Trends» kleinere geografische Regionen in den USA zu analysieren. Denn das sei etwas, das die CDC nicht könnten.