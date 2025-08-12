Open AI hat mit GPT-5 hohe Erwartungen geschürt. CEO Sam Altman versprach, das neue Sprachmodell könne jede Frage auf dem Niveau eines Doktoranden beantworten.

SRF-Digitalredaktor Jürg Tschirren hat das System getestet. Sein Fazit: GPT-5 ist besser als sein Vorgänger – aber nicht der grosse Sprung, den manche erwartet haben. Das liegt auch an der sehr hohen Erwartungshaltung von Usern und Investorinnen und Investoren.

Jürg Tschirren Digitalredaktor Personen-Box aufklappen Personen-Box zuklappen Jürg Tschirren hat Zeitgeschichte und Journalismus studiert. Er arbeitet seit 2007 für SRF und berichtet über IT, Kommunikation, Unterhaltungselektronik, digitale Distribution, soziale Netzwerke, Datenschutz, Computersicherheit und Games.

Hält GPT-5, was es verspricht?

Open AI hat GPT-5 sehr offensiv beworben. In meinen Tests habe ich festgestellt: Das Modell liefert nicht in allen Fällen Antworten auf Doktorandenniveau. Der Sprung von GPT-4 zu GPT-5 wirkt kleiner als frühere Modellwechsel, etwa von GPT-3 zu GPT-4. Die ganz grossen Verbesserungen sieht man nicht sofort. Der Praxiseinsatz wird zeigen, wo GPT-5 besonders überzeugt und wo es weiter schwächelt.

Warum hat Sam Altman GPT-5 so stark beworben?

Firmen, die grosse Sprachmodelle entwickeln, stehen ständig unter Druck, neues Kapital zu beschaffen. Entwicklung, Training und Betrieb sind extrem teuer, und die meisten Anbieter schreiben Verluste. Grosse Versprechen schaffen Aufmerksamkeit und Investoren fürchten, das nächste grosse Ding zu verpassen. Das ist ein starker Anreiz, Modelle möglichst spektakulär anzukündigen.

Legende: Sam Altman an einer Konferenz in Japan im Februar 2025. Keystone / EPA / FRANCK ROBICHON

Werden die Erwartungen an KI-Produkte zu hoch?

Das Erwartungsmanagement wird immer schwieriger. Wir haben uns in nur drei Jahren an erstaunliche Fähigkeiten von Chatbots wie ChatGPT oder Gemini gewöhnt. Dabei vergisst man leicht, dass diese Modelle nicht «wissen», was sie sagen. Sie geben die statistisch wahrscheinlichste Antwort, halluzinieren aber weiterhin – und stellen manchmal frei erfundene Behauptungen auf. Marketingversprechen schrauben die Erwartungen zusätzlich in kaum erreichbare Höhen, was bei gut informierten Beobachtern zu Ernüchterung führt.

Wie steht es um die Konkurrenz – etwa Deepseek aus China, das letztes Jahr für Aufsehen sorgte?

Technisch arbeitet Deepseek ähnlich wie GPT-5 und hat vergleichbare Stärken und Schwächen. Dass man heute weniger davon hört, liegt weniger an mangelnder Qualität, sondern daran, dass Open AI sein Produkt ChatGPT besser vermarktet, sowohl in der Öffentlichkeit als auch gegenüber Firmenkunden. Hinzu kommt Skepsis gegenüber chinesischen Anbietern, etwa bei Datenschutzfragen.

Wo gibt es derzeit die grössten Fortschritte bei Sprachmodellen?

Die Verbesserungen sind eher schrittweise als revolutionär. Die Hoffnung, dass Modelle durch immer grössere Datenmengen automatisch massiv besser werden, erfüllt sich nicht. Dennoch: GPT-5 schneidet in verschiedenen Tests klar besser ab als GPT-4 und teils besser als Konkurrenzmodelle. Laut Open AI halluziniert es nur noch in rund fünf Prozent der Fälle. Früher lag der Wert deutlich höher. Doch auch jede zwanzigste falsche Antwort kann in sensiblen Bereichen problematisch sein. Der Fortschritt ist da, aber der grosse Durchbruch bleibt aus.