Die Wissenschaft kann mit Daten unser Leben besser machen: Sie entwickelt neue Medikamente, analysiert soziale Trends oder schafft Smart Citys. Auch Verwaltung und Unternehmen sind auf Daten angewiesen, etwa um den ÖV oder das Stromnetz zu planen.
Private Daten können aber sensibel sein, deshalb dürfen sie nicht so einfach gesammelt und geteilt werden.
Daten sammeln, ohne gleichzeitig die Privatsphäre zu verletzen? Das klingt wie ein unlösbarer Widerspruch. Doch es gibt die Quadratur des Kreises.
Synthetisch statt anonym
Traditionell werden Daten anonymisiert, damit sie Forschende sicher auswerten können. Aus «Frau Schmid» wird «Frau Meier», die Telefonnummer wird zu «079 *** ** **». Doch die Anonymisierung stösst an Grenzen: Zu jedem Menschen gibt es heute zahlreiche Daten, die man ohne viel Aufwand mit Informationen aus dem Internet verknüpfen kann, um eine Person zu identifizieren.
Abhilfe schaffen synthetische Daten . Eine künstliche Intelligenz (KI) schaut sich die Ursprungsdaten an und lernt, wie sie aussehen. Dann generiert sie einen neuen, erfundenen Datensatz, der gleich aussieht: Die Telefonnummern haben immer noch 10 Ziffern und das Verhältnis zwischen Frauen und Männern ist dasselbe wie in den Originaldaten.
Forschende können synthetischen Daten verwenden, um Statistiken zu erstellen. Informatiker nutzen sie, um eine Software oder Datenbank zu bauen.
Komplett verschlüsselt
Eine weitere Möglichkeit, wie Daten geschützt werden können, ist Verschlüsslung. Daten können so gespeichert oder versandt werden, ohne dass sie Unbefugte anschauen können. Das Problem: Damit Forschende mit den Daten arbeiten können, müssen sie entschlüsselt werden – und sind währenddessen ungeschützt.
Nicht so bei der homomorphen Verschlüsslung . Dieser mathematische Trick ermöglicht, dass man mit so veränderten Daten weiterhin rechnen kann: Addiert man zwei homomorph verschlüsselte Zahlen, ergeben sie das richtige Resultat – in ebenfalls verschlüsselter Form.
Nutzen ohne zu sammeln
Wenn es um seltene Krankheiten geht oder um genetische Analysen, reichen die Daten eines einzelnen Spitals nicht aus – die Spitäler müssen Daten zusammenlegen.
Das ist möglich, ohne die Daten zu teilen. Statt die Spital-Daten an Forschende zu schicken, schicken die Forschenden ihre Modelle an die Spitäler. Diese rechnen vor Ort und schicken nur die Resultate zurück. Die Forschenden rechnen dann die Modelle aus den Spitälern zusammen.
Das Prinzip funktioniert nicht nur für simple Statistik, sondern auch für maschinelles Lernen und künstliche Intelligenz. Beim sogenannten Federated Learning trainieren die Spitäler ein Modell. Eine zentrale Stelle führt die einzelnen Modelle zusammen und sendet das so entstandene Hauptmodell wiederum zu den Spitälern. Der Prozess geht so lange hin und her, bis die KI fertig trainiert ist.
Die Zukunft des Datenschutzes
Alle diese Techniken sind sogenannte PET, «Privacy Enhancing Technologies». Sie werden bereits heute eingesetzt, doch es gibt noch einige Hürden: Es fehlt an Know-How, Ressourcen und regulatorischen Richtlinien.
Doch die Zukunft ist vielversprechend: Dank PET können Daten geschützt und trotzdem genutzt werden. So können bald mehr Daten sicher geteilt und für die Forschung eingesetzt werden.
Wir sind deine Korrespondenten aus der digitalen Welt. Ist ein Chip drin oder hängt es am Internet? Wir berichten wöchentlich. Smartphones, soziale Netzwerke, Computersicherheit oder Games – wir erklären und ordnen Digitalisierungs-Vorgänge ein, seit 2006
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.