Waarom gestructureerd praten met je AI-codeerassistent een stuk beter werkt dan schermafbeeldingen

Jun 30, 2026 ai coding assistants developer productivity claude code vibe coding structured data token optimization

Het Pixelprobleem

Stel je voor: het is 2 uur 's nachts. Je zit al een uur te puzzelen op dezelfde CSS-layout. Geïrriteerd maak je een screenshot, plakt die in je terminal, en typt: "los deze scheefstaande knop op."

Je AI-assistent doet zijn best om de pixels te lezen en komt — hoop je — met iets bruikbaars. Maar wat er eigenlijk gebeurt: het model verbrandt tokens om je scherm te zien, verbrandt nog meer tokens om te begrijpen wat het ziet, en probeert dan te raden welk van de 47 UI-elementen op je 1440p-scherm je nou eigenlijk bedoelt.

Veel gokwerk voor een 2 uur 's nachts-sessie.

De Tokenrekening Die Niemand Bespreekt

Iets wat de AI coding assistant-aanbieders je niet meteen vertellen: elke screenshot kost gewoon geld en neemt plek in je context window. Een standaard retina-screenshot kost bij Claude zo'n 1.500+ tokens voor beeldverwerking. Bij GPT-4o ben je ongeveer 1.100 tokens kwijt. Gemini 2.5? Zo'n 1.550.

Reken dat nu eens door voor een iteratieve sessie. Je laat de agent om de paar prompts je scherm zien — wat, als je net als ik complexe UI-problemen aan het debuggen bent, makkelijk 15 tot 20 keer kan zijn.

Ineens ben je 22.000 tot 31.000 tokens kwijt aan vision voordat de agent ook maar iets nuttigs heeft gedaan. Op een 200k context window is dat ruimte die je niet meer terugkrijgt. En gebruik je Opus 4.7 of 4.8? Reken dan maar op zo'n 96.000 vision tokens over dezelfde sessie.

Het alternatief? Gestructureerde JSON met je UI-elementen: posities, kleuren, tekstinhoud, semantische rollen. Dezelfde schermstatus in JSON? Zo'n 700 tokens. Over 20 interacties: ongeveer 14.000 tokens totaal.

Dat is geen marginale verbetering. Dat is het verschil tussen je refactor afmaken en halverwege uit je context window geknikkerd worden.

Structuur Verslaat Pixels: De Echte Winst

Maar hier is waar het echt om draait, los van de tokenrekening — en dit is het punt waar ik steeds wieder op terugkom.

Als je een screenshot plakt, moet de agent alles opnieuw interpreteren bij elke beurt. Ruwe pixels zijn geen persistente redeneerstaat. Stel je vraag zes prompts later opnieuw, en het model gaat weer naar de pixels kijken, opnieuw interpreteren, opnieuw raden.

Gestructureerde JSON verandert de hele dynamiek. In plaats van "hier is wat de pixels misschien voorstellen" geef je de agent feiten die hij kan raadplegen en waarop hij kan voortbouwen: "Element e4 is een knop op positie [0.34, 0.60, 0.32, 0.07], met kleur #3B82F6, met label 'Aanmelden.'"

De agent hoeft niet te raden naar welk invoerveld je wijst. Het schema weet het al. De redenering is gestoeld op dezelfde primitieven die de volgende beurt ook gebruikt worden. Je laat niet zien; je vertelt.

Waarom Dit Relevant Is voor Vibe Coding

Hier komt het punt waar dit verbindt met de bredere verschuiving in AI-ondersteund ontwikkelen — wat sommigen "vibe coding" noemen.

Het hele idee achter vibe coding is dat je moet kunnen beschrijven wat je wilt, snel itereren, en de AI het implementatiewerk laten doen. Maar vibe coding werkt alleen als de AI accurate informatie heeft over waar het mee werkt.

Een screenshot is verliesgevend. Een annotatie in een PNG is gewoon rode pixels op een rechthoek. Maar een annotatie in gestructureerde JSON draagt intent: welk element het cibleert, wat het probeert te benadrukken, wat je de agent vraagt te doen.

Als je het giswerk wegneemt, neem je de wrijving weg. En wrijving wegnemen is waar vibe coding eigenlijk om draait.

De Praktische Conclusie

Luister, ik zeg niet dat je nooit een screenshot moet plakken. Soms wil je gewoon snel iets laten zien. Maar als je serieus iteratief werk doet met een AI coding assistant — refactoren, debuggen, features bouwen met complexe UI — dan is gestructureerde data de weg.

De tools die dit begrijpen worden slimmer. Die dat niet doen, gaan binnenkort achterlopen. Want uiteindelijk "ziet" je AI-assistent niet echt wanneer je een afbeelding plakt. Het interpreteert. En interpretatie is duur, verliesgevend en inconsistent.

Geef het iets dat het echt kan lezen.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB HU IT FR ES DE DA ZH-HANS EN