Zum Inhalt springen

Jagd auf menschliche Daten Wettbewerb um «echte» Daten für KI läuft

Online mit Freunden chatten, ein gefundenes Fressen für künstliche Intelligenz. Tech-Konzerne kämpfen um unsere Daten.

Im Film «Matrix» sind Menschen die Batterien für die Maschinen. In unserer Realität, weit weg von Science-Fiction-Filmen, werden Menschen zwar nicht von Maschinen gegessen. Trotzdem wird die künstliche Intelligenz (KI) auch heutzutage mit etwas Menschlichem gefüttert.

Wenn wir chatten, uns über Musik, Kunst oder unsere Hobbys austauschen, dann generiert das Daten. Mit diesen wird KI trainiert. Die menschliche Kommunikation, unsere Online-Gespräche, haben per se einen Wert.

KI verschmutzt das Internet und macht sich selbst blöder

Diese menschengemachten Daten werden immer wertvoller. Der Grund: KI flutet das Internet mit leeren Worthülsen und schadet sich dadurch. So wird das Datenmaterial für das Training von KI qualitativ immer schlechter. Und gleichzeitig spitzt sich das KI-Wettrennen zu: Google, Microsoft, Meta und ChatGPT-Erfinder OpenAI – sie alle wollen die Nummer eins auf dem Markt werden.

Auf Internetforen und in den sozialen Medien wächst zurzeit der Anteil an KI-generierten Inhalten schnell an. Das führt unweigerlich dazu, dass KI immer mehr mit Daten gefüttert werden, die bereits von KI erstellt wurden.

«Genauso wie wir die Weltmeere mit Plastikmüll und die Atmosphäre mit CO₂ verdreckt haben, sind wir jetzt dabei, das Internet mit Blah zu füllen.» Laut einer Studie der Universitäten Oxford und Cambridge kann KI nicht von sich selber lernen, weil sie vergesslich wird und irgendwann nur noch leere Worthülsen produziert.

Thilo Stadelmann, Professor für künstliche Intelligenz an der Zürcher Hochschule für angewandte Wissenschaften, erklärt: «Wenn KI sich selbst mit KI-generierten Daten füttern würde, in einem eigenen Loop, würde sie nichts dazulernen, sondern einfach festfahren im Verhalten. Das Verhalten, das Können, das kann KI nur vom Menschen bekommen.»

Tiefgründige Gespräche wertvoller als Plaudereien

Deshalb wollen die grossen Tech-Konzerne verhindern, dass sie ihre KI mit Daten füttern, die bereits von KI generiert wurden. Sie investieren also Millionen in Technologien, um herauszufinden, ob Texte wirklich von Menschen und nicht von Chatbots geschrieben wurden.

Ein Handy vor einer Illustration von KI.
Legende: Tech-Konzerne benötigen menschengemachte Daten als Rohstoff, um KI zu trainieren. Diese werden beispielsweise aus Online-Unterhaltungen genommen. IMAGO/NurPhoto/Jaap Arriens

Dass die grossen Tech-Konzerne viele Daten sammeln, das ist nicht neu. Laut Martina Arioli, Tech-Expertin und selbständige Anwältin, kommt jetzt aber eine neue Dimension hinzu: «Bislang ging es um personalisierte Werbung: Die User-Daten wurden Dritten zur Verfügung gestellt. Neu stellt der menschliche Austausch per se einen Wert dar.»

Laut KI-Experte Thilo Stadelmann seien diese menschlichen Daten allerdings auch nicht immer von hoher Qualität. Menschen könnten Falschinformationen oder Blödsinn im Internet verbreiten. Foren, in denen sich Fachleute über Musik oder Kunst unterhalten, seien für eine KI wertvoller, als Foren, in denen alle einfach über alles plaudern.

Darf KI mit unseren Daten gefüttert werden?

Für Tech-Konzerne sind Daten von echten Menschen also unverzichtbar. Aber wem gehören diese Daten eigentlich? Im Kleingedruckten, den AGB der Tech-Konzerne, finden wir laut Stadelmann eine Antwort. So steht beispielsweise im Kleingedruckten der kostenlosen Version von ChatGPT, dass das Unternehmen OpenAI mit den Daten anstellen kann, was es will.

KI-Training und Datenschutz

Box aufklappen Box zuklappen

Die Rechtsanwältin Martina Arioli kennt sich im Bereich Datenschutz und Technologierecht aus: «Tech-Konzerne müssen die Nutzerinnen und Nutzer klar informieren, wenn sie ihre Daten verwenden, um KI zu trainieren. Das ist jüngst zum Beispiel bei Google nicht der Fall gewesen. Google hat auf den 1. Juli hin die Datenschutzerklärung angepasst und dort unter ferner liefen erklärt, dass sämtliche Daten, die User online gestellt haben, genutzt werden können als Trainingsdaten für sämtliche seiner KI-Modelle.»

Datenschutz – aber verkehrt herum?

Umgekehrt aber wollen die grossen Tech-Konzerne nicht, dass andere Firmen auf ihre Daten zugreifen, um KI zu trainieren. So haben der Kurznachrichtendienst Twitter und das Forum Reddit zum Beispiel den Zugriff beschränkt. Tausende von KI-Unternehmen hatten automatisch die Daten dieser Online-Plattformen ausgelesen.

Das Wettrüsten im Bereich der KI dürfte also noch weitergehen. Echte menschliche Kommunikation wird dabei immer knapper und wertvoller. Daten von echten Menschen also immer mehr zum neuen Gold.

Echo der Zeit, 19.07.2023, 18:00 Uhr

Meistgelesene Artikel