Miért veri a nyerőt az AI-modell egyik feladaton, és miért bukik el a másikon? A domain-szintű titok az LLM-ek önismeretéről
Az AI önismereti gondja, amiről senki sem beszél
Próbáltál már csúcskategóriás LLM-et? Először lenyűgöz, aztán élesben hibázik logikai feladatoknál vagy matekban. Biztosan ad rossz választ, miközben magabiztos.
A lényeg: az AI-modell nem tudja megbízhatóan, mikor nincs fogalma a témáról.
Erről szól egy friss kutatás, ami minden fejlesztőnek fontos, aki élesben használ LLM-eket.
Az Atlas-kutatás: 33 modell, 47 ezer teszt, óriási tanulság
A kutatók 33 top modellt futtattak végig az MMLU-benchmerken, de nem csak a pontosságot nézték. Hanem a metakogníciót: azt, hogy az AI mennyire ismeri fel saját magabiztosságát.
Képzeld el: megkérdezed a GPT-5-öt kémiai kérdésről. Válaszol, aztán rákérdezel: "Mennyire biztos vagy benne?" Ha 95%-ot mond, de téved, baj van. Ha 30%-ot, de jó a válasz, az is gond. Ideális, ha a magabiztosság egyezik a helyességgel.
1500 kérdést osztottak hat területre: alkalmazott/szakmai tudás, formális gondolkodás, természettudomány, plusz három közepes kategória (humanitárius, társadalomtudomány, történelem). Tesztelték Anthropic, Google, OpenAI, DeepSeek és más modelleket.
Eredmény? Óriási különbségek területenként.
Győztesek és vesztesek: drámai területi eltérések
Fejlesztőknek ez kulcsfontosságú:
Alkalmazott/szakmai tudás nyert toronymagasan. Átlag .742 AUROC – a modellek tudják, mikor értenek hozzá. 33-ból 21 modellen ez volt a top 2. Itt használhatod ügyfélszolgálatra, dokumentumok elemzésére vagy üzleti logikára.
Formális gondolkodás és természettudomány? Teljes bukta. 33-ból 27 modellen ezek voltak a legrosszabbak. A Claude vagy GPT magabiztosan magyaráz differenciálegyenletet – rosszul. És még azt is állítja, 85%-ban biztos.
A három közepes terület statisztikailag hasonló: ne bízz rájuk finom különbségekben.
Miért fontos a saját stack-ednek?
Gyakorlatban:
Ügyféltámogató chatbot? Nyugodtan dobd be szakmai területekre. Itt a modellek jól kalibráltak a szabályoknál, folyamatoknál, gyakorlati megoldásoknál.
STEM oktatóeszköz? Védelem kell. Formális és tudományos részeken félrevezetik a diákokat. Küldd bizonytalan válaszokat emberhez, vagy párosítsd ellenőrzött tudásbázissal.
Üzleti intelligencia tool? Teszteld a saját területeiden. Az átlagos jó eredmény elfedheti a gyenge pontokat.
Az átlagos mutatók illúziója
Ha azt olvasod, "Modell X 87% az MMLU-n", az összes terület átlaga. Lehet 95% egyikben, 65% másikban. Ha ott deployolsz, ahol 65%, akkor gyengébbet kapsz.
A kutatók ezt nevezik "aggregált mutatók elfedik a belső eltéréseket"-nek. A vendorok benchmarkjai hazudnak.
Modellcsaládok erősségei (néha)
Néhány család hasonló gyengeségekkel bír: Anthropic, Google-Gemini, Qwen – statisztikailag egyforma profilok. OpenAI, DeepSeek, Google-Gemma kevésbé.
Ez azt mutatja: más architektúra, más tréning = más erősségek. Teszteld a konkrét modellt a saját területeiden. Ne feltételezz családi hasonlóságot.
Használható magabiztosság-jelek
Jó hír: számszerű magabiztosság (0-100%) jobb, mint igen/nem. Három gyenge modell hirtelen normálissá vált.
Élesben: Kérj confidence score-t a válasz mellé, és építs rá logikát. 42% hasznosabb, mint 95% hamis biztonság.
Mit jelent ez a jövőre?
Új keretrendszer: teszteld a benchmark-területeket élesítés előtt. Ne nézd csak az átlagot. Mérj kalibrációt a saját tudásmeződben, építs védelmet.
Minél okosabbak az LLM-ek, annál fontosabb a részletes erősség-gyengeség ismerete. Nem hibás a modell, ha szakosodott – ha tudod előre.
Összefoglalva
Következő LLM-tesztelésnél hagyd figyelmen kívül az átlagos benchmarkokat. Próbáld ki a saját feladataidon. Nézd, egyezik-e a magabiztosság a pontossággal. Szakmai területeken bízz benne többet, mint formális gondolkodásnál.
Egy AI, ami ismeri a határait, sokkal értékesebb, mint az, ami nem tudja, hogy mit nem tud.