Der ganze Podcast im Überblick:
(00:01:28) Was sind eigentlich KI-Benchmark-Tests?
(00:06:23) Neun Probleme
(00:34:27) Drei Lösungen
Chatbot Arena:
https://chat.lmsys.org
SRF Geek Sofa bei Discord:
https://discord.gg/geeksofa
KI-Entwickler brüsten sich stolz mit den Zahlen, die ihre Systeme in Benchmark-Tests erreichen. Wir erklären, wie KI-Benchmarks funktionieren und fragen: Wie aussagekräftig sind solche Tests wirklich? Und kommt es am Ende vielleicht bloss auf die «Vibes» an?
Um diesen Podcast zu abonnieren, benötigen Sie eine Podcast-kompatible Software oder App. Wenn Ihre App in der obigen Liste nicht aufgeführt ist, können Sie einfach die Feed-URL in Ihre Podcast-App oder Software kopieren.
Der ganze Podcast im Überblick:
(00:01:28) Was sind eigentlich KI-Benchmark-Tests?
(00:06:23) Neun Probleme
(00:34:27) Drei Lösungen
Chatbot Arena:
https://chat.lmsys.org
SRF Geek Sofa bei Discord:
https://discord.gg/geeksofa