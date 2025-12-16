Viele KI-Chatbots stolpern über Schweizer Fragen und halluzinieren ihre Antworten. Sogar der Platzhirsch ChatGPT kann nicht überzeugen.

Was bekommt man in einem Schweizer Restaurant, wenn man eine «Stange» bestellt? Zwei der getesteten KI-Chatbots behaupten, eine Stange sei ein frisches, langes Brot, das man nach Belieben belegen kann – statt eines Biers.

Solche erfundenen Antworten – sogenannte Halluzinationen – traten im Test der Fachhochschule Nordwestschweiz FHNW häufig auf. Die Fachhochschule testete für «Kassensturz» zehn weitverbreitete Chatbots auf ihre Praxistauglichkeit. Die Chatbots mussten über 300 Fragen beantworten aus den Kategorien Alltag, Wissen, Recht und Gesundheit. Ein Fachgremium analysierte anschliessend die Resultate.

Schweizer Chatbot überzeugt nicht

Vor allem bei Fragen mit Schweiz-Bezug stolpern mehrere Chatbots, sagt Simon Felix, Experte für künstliche Intelligenz an der FHNW. Entweder erfinden sie Antworten – oder sie beantworten die Fragen mit Fokus auf Deutschland.

So wurde getestet Box aufklappen Box zuklappen Fragen: Die Chatbots beantworteten mehr als 300 Fragen – unter anderem aus den Kategorien Alltag, Wissen, Recht und Gesundheit. 20 Prozent der Fragen hatten einen Schweiz-Bezug.

Die Chatbots beantworteten mehr als 300 Fragen – unter anderem aus den Kategorien Alltag, Wissen, Recht und Gesundheit. 20 Prozent der Fragen hatten einen Schweiz-Bezug. Turniermodus: Jeweils zwei anonymisierte Chatbots traten gegeneinander an. 40 Fachexpertinnen und -experten sowie Mitarbeitende der Fachhochschule Nordwestschweiz bewerteten, welche Antwort besser war – oder ob beide gleichwertig ausfielen. Daraus ergab sich eine belastbare Rangliste.

Jeweils zwei anonymisierte Chatbots traten gegeneinander an. 40 Fachexpertinnen und -experten sowie Mitarbeitende der Fachhochschule Nordwestschweiz bewerteten, welche Antwort besser war – oder ob beide gleichwertig ausfielen. Daraus ergab sich eine belastbare Rangliste. Bewertungskriterien: Bei Fragen ohne eindeutig richtige oder falsche Antwort achteten die Testpersonen unter anderem auf Struktur, Umfang, Sprache und Nachvollziehbarkeit der Antworten.

Bei Fragen ohne eindeutig richtige oder falsche Antwort achteten die Testpersonen unter anderem auf Struktur, Umfang, Sprache und Nachvollziehbarkeit der Antworten. Nicht bewertet: Die Faktoren Datenschutz, Antwort-Geschwindigkeit und Bildgenerierung flossen nicht in die Bewertung ein

Die Faktoren Datenschutz, Antwort-Geschwindigkeit und Bildgenerierung flossen nicht in die Bewertung ein Zeitraum: Die Chatbots wurden im Zeitraum vom 22. Oktober 2025 bis zum 13. November 2025 automatisiert aus dem Netzwerk der FHNW angefragt. Später veröffentlichte Modelle konnten nicht berücksichtigt werden. Die Chatbots wurden nach Möglichkeit ohne Anmeldung und mit ihren Standardeinstellungen getestet.

Am schlechtesten schneidet der Chatbot Lumo des Schweizer Unternehmens Proton ab. Beim Datenschutz ist das Modell zwar vorbildlich, doch bei der Antwortqualität bleibt es hinter der Konkurrenz zurück. «Teilweise liefert Lumo Antworten mit nur drei Wörtern – oder sehr lange oder erfundene Antworten», sagt Simon Felix. Ebenfalls «ungenügend»: Der chinesische Chatbot Deepseek und das Modell von Meta, dem Konzern hinter Facebook, Instagram und Whatsapp.

ChatGPT trotz hoher Nutzung nur Mittelmass

Die Zahl der Nutzenden dieser Sprachmodelle wächst. Ganz vorne: ChatGPT. Laut Hersteller Open AI interagieren wöchentlich rund 800 Millionen Nutzerkonten mindestens einmal mit ChatGPT.

Bei der Analyse der Antworten schneidet ChatGPT jedoch nur mittelmässig ab. «Das Produkt liefert keine schlechten, aber auch keine richtig guten Antworten», sagt der KI-Experte. Auch bei Schweizer Fragen zeigt das Modell Schwächen.

Claude mit den brauchbarsten Antworten

Am besten schneidet der Chatbot Claude des Unternehmens Anthropic ab. Er liefert im Test die brauchbarsten Antworten. «Dieser Chatbot kommt schnell auf den Punkt und liefert prägnante Antworten, ohne Wichtiges auszulassen», sagt Felix. Anthropic wurde von ehemaligen Forschern von Open AI gegründet.

Ebenfalls «gut» im Vergleich sind Copilot von Microsoft und Gemini von Google. Bemerkenswert: Copilot basiert auf demselben technischen Sprachmodell wie ChatGPT – liefert aber bessere Antworten. «Wir führen das darauf zurück, dass Microsoft bessere Richtlinien verfasst und zusätzlich mehr Rechenleistung zur Verfügung stellt – und dadurch bessere Antworten generiert», sagt Felix. Das zeigt, wie stark die Anbieter ihre Modelle prägen.

Vorsicht bei sensiblen Themen

Beim Umgang mit KI-Chatbots sei Vorsicht geboten – vor allem bei sensiblen Themen. Sie eignen sich nur für Fragen, bei denen falsche Antworten keine gravierenden Folgen haben. «Bei medizinischen Auskünften, psychischer Gesundheit oder Rechtsfragen kann eine falsche Antwort fatal sein», warnt der Experte.

Ebenso wichtig ist der sorgsame Umgang mit Daten. Private oder vertrauliche Informationen gehören nicht in Chatbots. Interne Zahlen, sensible Namen oder geheime Dokumente sollten unkenntlich gemacht – oder gar nicht erst eingegeben werden.