Die Folge mit der existenziellen LLM-Frage: Woher soll ich wissen, ob das richtig ist?
In dieser Episode von “LAIer 8|9” stürzen sich AI Babsi und E-Fuchs kopfüber in den wilden Dschungel der KI-Suchfunktionen – und warum wir ihnen etwa so vertrauen sollten wie einem Opossum mit unserer Kreditkarte. Jochen beichtet seine tiefe Erschütterung über Claudes neue Suchfunktion, die seinen “KI-Safe Space” bedroht, während Barbara mit gewohnter Schärfe erklärt, warum die Kombination aus LLMs und Suchmaschinen oft mehr “heißer Kleber und Duck Tape” als elegante Technologie ist.
Die beiden sezieren die schockierende Columbia-Studie, die zeigt, dass KI-Suchtools bis zu 60% Quatsch produzieren – wobei ausgerechnet die Premium-Versionen manchmal noch schlechter abschneiden (Danke für nichts, Bezahlmodelle!). Barbara entmystifiziert nebenbei den Begriff “Reasoning”.
Eine Episode vollgepackt mit Fachexpertise, ehrlicher Einschätzung und der erfrischenden Erkenntnis, dass selbst viertklässige Grundschüler die richtigen kritischen Fragen stellen: “Woher soll ich wissen, ob das richtig ist?” Spoiler: Genau das ist die Millionen-Dollar-Frage, auf die selbst Perplexity, Claude und Co. nur mit einem eloquenten Schulterzucken antworten können.
Chapters
00:00 Einführung in den KI-Podcast
02:55 Claude und die Suchfunktion: Ein persönlicher Safe Space
05:35 Die Herausforderungen des Hybridmodells
08:30 Drift und Halluzinationen in KI-Modellen
11:30 Die Bedeutung von Kontext und Guardrails
14:16 Halluzinationen: Ursachen und Lösungen
17:19 Hypothesen über lückenloses Wissen und Halluzinationen
21:54 Die Bedeutung von Daten in der KI
23:55 Herausforderungen der Halluzinationen in LLMs
26:49 Komplexität von Suchsystemen und LLMs
28:52 Zitierungsprobleme und ihre Auswirkungen
35:34 Die Zukunft von Google und Suchalgorithmen
43:50 Die Komplexität der KI-Anwendungen
45:43 Halluzinationen und deren Vermeidung
49:33 Faktencheck und Reasoning in KI
53:02 Die Grenzen der KI und ihre Mathematik
56:59 Dynamische Leaderboards und ihre Bedeutung
Links aus dieser Episode
Columbia Journalism Review: Studie zur Fehlerquote von KI-Suchmaschinen
https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php
Hugging Face Leaderboards für KI-Modelle
https://huggingface.co/docs/leaderboards/leaderboards/intro
HHEM 2.1 Benchmark für Halluzinationen
https://www.vectara.com/blog/hhem-2-1-a-better-hallucination-detection-model
(Faktueller Konsistenztest in Englisch, Deutsch und Französisch)