Domæne-truslerne rammer LLM-sikkerheden bagfra

Domæne-truslerne rammer LLM-sikkerheden bagfra

Maj 22, 2026 llm security ai safety injection attacks multi-agent systems adversarial machine learning domain security ai infrastructure threat modeling ai-powered hosting

Domæne-camouflage: Når dine LLM-sikringer bliver snydt

Dine API-endpoints er låst. Dine injektionsfiltre kører. Dine sikkerhedsmodeller scorer højt på testdata. Alligevel er der grund til bekymring.

Mange af de måder, vi beskytter LLM-systemer på i dag, er designet til at fange de åbenlyse angreb. Men nyere forskning viser, at angribere nu bruger en helt anden taktik – og at vores nuværende værktøjer ofte ikke ser dem.

Når angreb ser ud som ægte data

De fleste sikkerhedsmodeller leder efter kendte mønstre: bestemte ord, tydelige kommandoer eller direkte forsøg på at overskrive systemprompts. Det virker fint, når angrebet ser ud som et angreb. Men det virker dårligt, når det ser ud som en almindelig rapport eller en intern mail.

Forskere kalder dette fænomen Camouflage Detection Gap (CDG). Når et angreb er skrevet i samme sprog som din branche – med de rigtige fagtermer, dokumentformater og organisatoriske referencer – falder detektionsraten markant. I nogle tilfælde fra over 90 % til under 10 %. Det er ikke en lille justering. Det er en grundlæggende svaghed i den måde, vi måler sikkerhed på.

Et eksempel på en camouflaged payload

Tænk på en AI-agent, som analyserer finansielle dokumenter. En klassisk injektion ville være et tydeligt forsøg på at ignorere tidligere instruktioner og overføre penge. Det fanges normalt af de fleste filtre.

En camouflaged version derimod kan se ud som en intern note fra økonomiafdelingen. Det er samme sprog, samme format og samme autoritet. Det ser ikke ud som et angreb – det ser ud som en del af arbejdet. Og det er netop den effekt, der får mange sikkerhedssystemer til at fejle.

Når flere agenter forstærker problemet

Mange teams bruger flere AI-agenter, som diskuterer og verificerer beslutninger sammen. Det burde øge sikkerheden. Men forskning viser, at det i stedet kan forstærker et enkelt, kompromitteret input – især når man bruger små, optimererede modeller. De større modeller er bedre til dekollektive skeptiske, men mange systemer er baseret på de hurtigere og billigere modeller.

Eksisterende sikkerhedsværktøjer virker ikke

Det virker naturligt at tro, at dedikerede sikkerhedsmodeller som Llama Guard 3 skulle fange det, der mangler i de generelle filtre. Men dataene viser, at disse modeller ikke engang ser de camouflagede payloads. Det er ikke en tuning-issue. Det er en blind spot i selve strukturen.

Hvad betyder det for din infrastruktur?

Hvis du bygger AI-systemer i production, giver denne forskning en klar signal: dine nuværende sikkerhedsmetoder har kendte svagheder.

Brug defense in depth.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN