Hvorfor din AI kodeassistent klarer sig bedre med struktureret data end screenshots

Jun 30, 2026 ai coding assistants developer productivity claude code vibe coding structured data token optimization

Problemet med skærmbilleder

Lad mig beskrive en scene for dig. Klokken er 02.00. Du har siddet med den samme CSS-layoutfejl i en time. Til sidst tager du et skærmbillede, klistrer det ind i din terminal og skriver: "ret denne skæve knap."

Din AI-assistent gransker pixels, gør sit bedste – og giver dig forhåbentlig noget brugbart. Men hvad skete der egentlig i den sorte boks? Modellen brændte tokens af for at se din skærm, brændte flere tokens for at fortolke det sete, og gættede så på hvilket af de 47 UI-elementer på din 1440p-skærm du egentlig mente.

Det er meget gætteri til en 02.00-debugging-session.

Den token-matematik ingen snakker om

Her er noget AI-kodningsassistent-producenterne ikke starter med at fortælle: Hvert skærmbillede du indsætter koster rigtige penge og fylder dit context window. Et typisk retina-skærmbillede hos Claude løber op i omkring 1.500+ tokens bare for visionsbehandling. Hos GPT-4o handler det omkring 1.100 tokens. Gemini 2.5? Cirka 1.550.

Nu ganger du det med en iterativ session. Du viser agenten din skærmtilstand hvert par prompts – og hvis du er som mig, der arbejder med komplekse UI-problemer, kan det være 15-20 gange per session.

Pludselig har du brugt 22.000 til 31.000 tokens bare på vision før agenten har gjort noget som helst nyttigt. På et 200k context window er det plads du ikke får tilbage. Og kører du Opus 4.7 eller 4.8? Forbered dig på cirka 96.000 vision-tokens over samme session.

Alternativet? Struktureret JSON der beskriver dine UI-elementer: deres positioner, farver, tekstindhold og semantiske roller. Den samme skærmtilstand i JSON? Omkring 700 tokens. Henover en 20-prompts session: cirka 14.000 tokens i alt.

Det er ikke en marginal forbedring. Det er forskellen mellem at fuldføre din refaktor og at blive kørt ud af context window'et midt i sessionen.

Struktur slår pixels: Den egentlige gevinst

Men her er hvad der faktisk betyder noget ud over token-matematikken – og det er den del jeg bliver ved med at vende tilbage til.

Når du klistrer et skærmbillede ind, skal agenten fortolke alt forfra hver eneste gang. Rå pixels er ikke vedvarende ræsonnerings-tilstand. Spørger du et opfølgningsspørgsmål seks prompts senere, vender modellen tilbage til at granske pixels, fortolke igen, gætte igen.

Struktureret JSON ændrer hele dynamikken. I stedet for "her er hvad pixels muligvis repræsenterer" giver du agenten kendsgerninger den kan slå op og bygge videre på: "Element e4 er en knap på position [0.34, 0.60, 0.32, 0.07], farvet #3B82F6, mærket 'Tilmeld dig.'"

Agenten behøver ikke gætte hvilket input du peger på. Skemaet ved det allerede. Ræsonnementet er forankret i de samme primitiver som næste tur vil bruge. Du viser ikke; du fortæller.

Hvorfor det her betyder noget for Vibe Coding

Her kommer det til at koble til det bredere skift der sker i AI-assisteret udvikling – det nogle kalder "vibe coding."

Hele pointen med vibe coding er, at du skal kunne beskrive hvad du vil, iterate hurtigt og stole på at AI'en håndterer implementeringsdetaljerne. Men vibe coding virker kun når AI'en har præcis information om hvad den arbejder med.

Et skærmbillede er tabsgivende. En annotation i en PNG er bare røde pixels på et rektangel. Men en annotation i struktureret JSON har intention: hvilket element den rammer, hvad den prøver at fremhæve, hvad du beder agenten om at gøre ved det.

Når du fjerner gætteriet, fjerner du friktionen. Og at fjerne friktion er det vibe coding egentlig handler om.

Den praktiske konklusion

Lad mig være klar: Jeg siger ikke at du aldrig skal indsætte et skærmbillede. Nogle gange skal du bare vise noget hurtigt. Men hvis du laver seriøst iterativt arbejde med en AI-kodningsassistent – refaktorering, debugging, byg features med komplekst UI – så er struktureret data vejen frem.

Værktøjerne der forstår det her, bliver klogere. Dem der ikke gør, er ved at sakke bagud. For i sidste ende "ser" din AI-assistent ikke rigtig når du indsætter et billede. Den fortolker. Og fortolkning er dyrt, tabsgivende og inkonsistent.

Giv den noget den faktisk kan læse i stedet.

Hvad tænker du? Har du mærket context window-presset i lange AI-kodningssessioner? Skriv din mening herunder – vi bygger det her i realtid, og din erfaring betyder noget.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB NL HU IT FR ES DE ZH-HANS EN