Domæne-truslerne rammer LLM-sikkerheden bagfra
Domæne-camouflage: Når dine LLM-sikringer bliver snydt
Dine API-endpoints er låst. Dine injektionsfiltre kører. Dine sikkerhedsmodeller scorer højt på testdata. Alligevel er der grund til bekymring.
Mange af de måder, vi beskytter LLM-systemer på i dag, er designet til at fange de åbenlyse angreb. Men nyere forskning viser, at angribere nu bruger en helt anden taktik – og at vores nuværende værktøjer ofte ikke ser dem.
Når angreb ser ud som ægte data
De fleste sikkerhedsmodeller leder efter kendte mønstre: bestemte ord, tydelige kommandoer eller direkte forsøg på at overskrive systemprompts. Det virker fint, når angrebet ser ud som et angreb. Men det virker dårligt, når det ser ud som en almindelig rapport eller en intern mail.
Forskere kalder dette fænomen Camouflage Detection Gap (CDG). Når et angreb er skrevet i samme sprog som din branche – med de rigtige fagtermer, dokumentformater og organisatoriske referencer – falder detektionsraten markant. I nogle tilfælde fra over 90 % til under 10 %. Det er ikke en lille justering. Det er en grundlæggende svaghed i den måde, vi måler sikkerhed på.
Et eksempel på en camouflaged payload
Tænk på en AI-agent, som analyserer finansielle dokumenter. En klassisk injektion ville være et tydeligt forsøg på at ignorere tidligere instruktioner og overføre penge. Det fanges normalt af de fleste filtre.
En camouflaged version derimod kan se ud som en intern note fra økonomiafdelingen. Det er samme sprog, samme format og samme autoritet. Det ser ikke ud som et angreb – det ser ud som en del af arbejdet. Og det er netop den effekt, der får mange sikkerhedssystemer til at fejle.
Når flere agenter forstærker problemet
Mange teams bruger flere AI-agenter, som diskuterer og verificerer beslutninger sammen. Det burde øge sikkerheden. Men forskning viser, at det i stedet kan forstærker et enkelt, kompromitteret input – især når man bruger små, optimererede modeller. De større modeller er bedre til dekollektive skeptiske, men mange systemer er baseret på de hurtigere og billigere modeller.
Eksisterende sikkerhedsværktøjer virker ikke
Det virker naturligt at tro, at dedikerede sikkerhedsmodeller som Llama Guard 3 skulle fange det, der mangler i de generelle filtre. Men dataene viser, at disse modeller ikke engang ser de camouflagede payloads. Det er ikke en tuning-issue. Det er en blind spot i selve strukturen.
Hvad betyder det for din infrastruktur?
Hvis du bygger AI-systemer i production, giver denne forskning en klar signal: dine nuværende sikkerhedsmetoder har kendte svagheder.
Brug defense in depth.