Miért nem védi a domain tudásod az LLM-edet?
A rejtett veszély: miért nem védik meg a domain-alapú támadások a LLM-eket
A legtöbb AI-alapú rendszer ma már rendelkezik valamilyen támadás-ellenes védelemmel. Az API-végpontok védettek, az injekció-detektorok működnek, és a pontosságuk gyakran 90 százalék fölött van. Mégis miért kellene aggódni?
Mert a statisztikák nem mutatják a teljes képet. Új kutatások szerint a támadók sokkal kifinomultabb módszerekkel dolgoznak, mint amire a jelenlegi védelmi rendszerek felkészültek.
A láthatatlan gyengeség
A probléma gyökere abban rejlik, hogy a legtöbb védelem csak a feltűnő támadásokat ismeri fel. A rendszerek jellemzően kulcsszavak után kutálnak – például override vagy jailbreak kifejezések után. Ez olyan, mintha egy ajtónálló csak a hamis igazolványokat ellenőrizne, miközben valaki a hátsó ajtón keresztül bejut.
A kutatók most arra jöttek rá, hogy amikor a támadó a célrendszer saját nyelvezetét használja – tehát iparági szakszavakat, hivatalos dokumentumformátumokat és hiteles adatforrásokra utalásokat –, akkor a felismerés hatékonysága drasztikusan csökken. Egyes esetekben a 93 százalékos pontosság 10 százalék alá esik. Ez nem véletlen hiba, hanem egy alapvetي struktúrális probléma.
A jelenséget Camouflage Detection Gap néven emlegetik, és több modellcsaládon és üzemeltetési körülményen is megerősítették.
Egy valós példa
Imagine egy pénzügyi dokumentumfeldolgozó AI-t, a klassz<|eos|>