Pratar du med kod istället för bilder med din AI-assistent? Så här maxar du resultaten

Jun 30, 2026 ai coding assistants developer productivity claude code vibe coding structured data token optimization

Problemet med skärmdumpar

Låt mig måla upp en scen. Klockan är 02. Du har felsökt samma CSS-layoutproblem i en timme. Äntligen tar du en skärmdump, klistrar in den i terminalen och skriver: "fixa den här feljusterade knappen."

Din AI-assistent kisar på pixelmängden, gör sin bästa gissning och—förhoppningsvis—ger dig något användbart. Men det som faktiskt hände i den där svarta lådan: modellen brände tokens bara för att se din skärm, sedan brände den ännu mer för att tolka vad den såg, och till sist gissade den vilken av de 47 UI-elementen på din 1440p-skärm du egentligen menade.

Inte precis optimalt för en felsökningssession vid 02.

Token-mathematiken ingen pratar om

Här är något som AI-kodningsassistent-leverantörerna inte skyltar med: varje skärmdump du klistrar in kostar pengar och äter upp din context window. En vanlig Retina-skärmdump på Claude ligger på ungefär 1 500+ tokens bara för bildbehandling. På GPT-4o handlar det om runt 1 100 tokens. Gemini 2.5? Cirka 1 550.

Nu multiplicera det med en iterativ session. Du visar agenten ditt skärmläge varje par prompts—vilket, om du är som jag och felsöker komplexa UI-problem, kan vara 15-20 gånger per session.

Plötsligt har du gjort av med 22 000 till 31 000 tokens bara på vision innan agenten ens gjort något användbart. På en 200k context window är det fastighetsyta du inte får tillbaka. Och om du kör Opus 4.7 eller 4.8? Förbered dig på runt 96 000 vision-tokens under samma session.

Alternativet? Strukturerad JSON som beskriver dina UI-element: deras positioner, färger, textinnehåll och semantiska roller. Samma skärmläge i JSON? Runt 700 tokens. Över en 20-rundars session: ungefär 14 000 tokens totalt.

Det är ingen marginell förbättring. Det är skillnaden mellan att slutföra din refaktorering och att bli context-komprimerad mitt i sessionen.

Struktur slår pixlar: Den riktiga vinsten

Men här är det som egentligen spelar roll bortom token-mathematiken—och det är delen jag hela tiden återkommer till.

När du klistrar in en skärmdump måste agenten tolka om allt varje enskild runda. Råa pixlar är inte bestående resoneringsstatus. Ställ en uppföljningsfråga sex prompts senare, och modellen går tillbaka till att kisa på pixlar, tolka om, gissa om.

Strukturerad JSON förändrar hela dynamiken. Istället för "här är vad pixlarna möjligen representerar" ger du agenten fakta den kan referera till och bygga vidare på: "Element e4 är en knapp på position [0.34, 0.60, 0.32, 0.07], färgad #3B82F6, märkt 'Registrera dig.'"

Agenten behöver inte gissa vilken input du pekar på. Schemat vet redan. Resonemanget är förankrat i samma primitiver som nästa runda kommer att använda. Du visar inte; du berättar.

Varför det här spelar roll för Vibe Coding

Här är var detta kopplar till den större förskjutningen som sker i AI-assisterad utveckling—det som vissa kallar "vibe coding."

Hela poängen med vibe coding är att du ska kunna beskriva vad du vill, iterera snabbt och lita på att AI:n hanterar implementationsdetaljerna. Men vibe coding fungerar bara när AI:n har korrekt information om vad den arbetar med.

En skärmdump är förlustgivande. En anteckning i en PNG är bara röda pixlar på en rektangel. Men en anteckning i strukturerad JSON har avsikt: vilket element den riktar sig mot, vad den försöker framhäva, vad du ber agenten göra med det.

När du eliminerar gissningsleken eliminerar du friktionen. Och att eliminera friktion är vad vibe coding egentligen handlar om.

Den praktiska lärdomar

Jag säger inte att du aldrig ska klistra in en skärmdump. Ibland behöver du bara visa något snabbt. Men om du håller på med seriöst iterativt arbete med en AI-kodningsassistent—refaktorering, felsökning, bygga features med komplext UI—då är strukturerad data vägen fram.

Verktygen som förstår det här blir smartare. De som inte gör det är på väg att hamna efter. För i slutändan "ser" din AI-assistent inte egentligen när du klistrar in en bild. Den tolkar. Och tolkning är dyrt, förlustgivande och inkonsekvent.

Ge den något den faktiskt kan läsa istället.

Vad tycker du? Har du märkt av context window-presset i långa AI-kodningssessioner? Skriv ner dina tankar nedan—vi bygger det här i realtid, och din erfarenhet spelar roll.

Read in other languages:

RU BG EL CS UZ TR FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN