Waarom je AI briljant is in sommige klussen en faalt in andere: de domeinwaarheid over LLM-zelfinzicht
Het zelfinzichtprobleem bij AI waar niemand over praat
Je test een top-LLM en denkt: wauw, dit is briljant. Maar zet hem in productie, en hij verzint foute antwoorden op een simpele logische vraag of strooit met zelfverzekerde onzin over wiskunde.
De realiteit is hard: je AI-model weet niet betrouwbaar wanneer het zit vast.
Dat is geen incident, maar een patroon dat recent onderzoek blootlegt. Essentieel voor wie LLMs inzet in de praktijk.
De Atlas-studie: 33 modellen, 47.151 tests, harde lessen
Onderzoekers testten 33 state-of-the-art modellen op de MMLU-benchmark, maar met een slimme draai. Geen focus op puur juiste antwoorden, maar op metacognitie: kan de AI zijn eigen betrouwbaarheid inschatten?
Stel: je vraagt een model naar kwantumfysica. Het geeft antwoord. Dan: "Hoe zeker ben je?" Zegt het 90% en zit het ernaast? Rampzalig. Zegt het 20% en klopt het wel? Ook niet ideaal. Perfectie is wanneer zelfvertrouwen en juistheid samenvallen.
Ze verdeelden 1.500 MMLU-vragen over zes domeinen: toegepaste kennis, formele redenering, natuurwetenschappen en drie tussencategorieën. Getest op families van Anthropic, OpenAI, Google, DeepSeek en meer.
Uitkomst? Grote verschillen per domein.
Sterke en zwakke plekken: domeinen maken het verschil
Voor developers is dit goud waard:
Toegepaste en professionele kennis blinkt uit. Gemiddeld .742 AUROC voor calibratie – modellen weten hier precies wanneer ze kloppen. Bij 21 van 33 modellen top-2 prestatie. Ideaal voor klantenservice, documentanalyse of bedrijfsprocessen.
Formele redenering en natuurwetenschappen? Slecht nieuws. Onderin bij 27 van 33 modellen. Je Claude of GPT geeft met 85% zelfvertrouwen een foute differentiaalvergelijking. Gevaarlijk.
De drie midden-domeinen (menswetenschappen, sociale wetenschap, geschiedenis) lijken op elkaar – modellen maken geen fijnmazig onderscheid, dus reken er niet op.
Waarom dit jouw techstack raakt
Praktisch advies bij bouwen:
Klantenservice-bot? Ga ervoor in toegepaste domeinen. Beleid, procedures, praktische fixes – hier kalibreert AI het best.
STEM-onderwijs-tool? Bouw remmen in. Formele redenering en wetenschap leiden tot zelfverzekerde missers. Stuur onzekere antwoorden door naar mensen, of koppel aan betrouwbare databases.
Business intelligence? Test op jouw niche. Algemene scores verbergen zwaktes in cruciale kennis.
De valkuil van gemiddelde scores
Pressberichten roepen: "Model X scoort 87% op MMLU!" Dat is een gemiddelde over domeinen. Kan 95% op het ene en 65% op het andere betekenen. In die zwakke zone krijg je geen 87%-model.
Onderzoekers noemen het: aggregate metrics verhullen variatie binnen modellen. Vertaling: benchmarks van vendors liegen niet, maar camoufleren wel.
Model-families: patronen of chaos?
Sommige families hebben consistente profielen. Anthropic, Google-Gemini en Qwen clusteren in zwaktes – zelfde familie, zelfde valkuilen. OpenAI, DeepSeek en Google-Gemma minder voorspelbaar.
Conclusie: test specifieke modellen op jouw domeinen. Familie-erfelijkheid is geen garantie.
Maak werk van confidence-scores
Goed nieuws: verbale confidence (0-100%) werkt beter dan ja/nee-vlaggetjes. Drie zwakke modellen herpakten zich met nummers.
In productie: Vraag altijd een score bij het antwoord. "42% zeker" helpt je beslissen; 95% valse bravoure niet.
Lessen voor de toekomst
Bouw een framework: screen domeinen voor livegang. Skip aggregates. Test jouw use case, check calibratie, voeg safeguards toe.
Naarmate LLMs slimmer worden, telt granulariteit meer. Een model goed in praktijkkennis maar zwak in redenering is geen flop – het is gespecialiseerd. Zolang jij dat weet.
Kernboodschap
Bij LLM-evaluatie: negeer algemene benchmarks. Test op jouw taken. Meet of confidence klopt met accuraatheid. In toegepaste domeinen meer vertrouwen, in formele redenering voorzichtig.
Een AI die zijn grenzen kent, is goud waard. Eentje die dat niet weet, is een tijdbom.