Van browser tot terminal: hoe AI-agents je workflow slimmer maken
Van browser-sessies naar code: hoe terminal-native web agents automatisering veranderen
De meeste mensen denken bij webautomatisering meteen aan een AI-agent die een browser bedient. Klikken, typen, scrollen — alles binnen één lange sessie. Maar wat als die aanpak juist de beperking is?
Waarom stateful browsers problemen opleveren
Traditionele agents zitten vast aan hun browser. Elke actie bouwt voort op de vorige. Gaat er iets mis, dan zit je vast in een wirwar van interacties zonder overzicht.
Dat leidt tot concrete nadelen:
- State bloat: lange sessies stapelen complexiteit op
- Moeilijk debuggen: je kunt onderdelen niet makkelijk inspecteren of opnieuw draaien
- Geen hergebruik: elk probleem wordt opnieuw opgelost
Webwright: wegwerp-browsers, blijvende code
Webwright draait het om. In plaats van één browser-sessie in leven te houden, laat het systeem telkens een nieuwe browser starten. Die gebruik je om data te verzamelen en gooi je daarna weg. Wat overblijft is niet de browserstatus, maar de code, logs en screenshots in je lokale workspace.
De browser wordt een hulpmiddel. Het echte resultaat is de code die je schrijft.
Drie uitgangspunten
1. Code in plaats van losse acties
In plaats van eindeloze reeksen klikken en wachten, laat Webwright agents herbruikbare functies schrijven. Formulieren invullen, data filteren of extraheren — dat worden loops en functies, geen losse browsercommando's.
2. Blijvende artefacten
Elke taak produceert iets tastbaars: scripts, logs, screenshots. Die blijven in je workspace staan. Daar zit de echte waarde. Je kunt ze later hergebruiken of delen.
3. Eenvoudige architectuur
Het systeem bestaat uit drie delen: een Runner, een Model Endpoint en een terminal-omgeving. Ongeveer duizend regels code. Geen ingewikkelde orkestratie of planning-lagen.
Hoe de lus werkt
De werking is verrassend simpel:
- De runner stuurt de taak, de huidige workspace en recente observaties naar het model
- Het model denkt na en geeft een shell-commando terug — vaak een Playwright-script
- De omgeving voert dat uit en stuurt output, logs of screenshots terug
- Dit herhaalt zich tot er een definitief script ligt dat in een schone map opnieuw draait
Geen complexe routering. Gewoon een terminal, een model en een groeiende workspace.
Prestaties op echte sites
Op realistische benchmarks scoort Webwright opvallend goed:
- 60,8% accuracy op Odyssey's long-horizon benchmark — een relatieve verbetering van 35,1% ten opzichte van eerdere systemen
- 86,7% accuracy op Online-Mind2Web over 300 live taken op 136 verschillende sites
- Zelfs met kleinere modellen zoals Qwen 3.5-9B haalt het nog 66,2% als het herbruikbare tools krijgt
Dit zijn geen simpele tests. Het gaat om echte websites en complexe taken.
Veilig omgaan met terminal-toegang
Volledige terminal-toegang is krachtig, maar ook riskant. Webwright bouwt daarom een paar vangrails in:
- Premature Done Gate: een agent mag pas succes claimen als het een script heeft gegenereerd, opnieuw heeft gedraaid in een schone omgeving en zelfreflectie heeft doorstaan
- Context Compaction: lange trajecten worden samengevat zodat de context beheersbaar blijft
- Herbruikbare tools: eenmaal opgeloste taken kunnen als CLI-tool worden geëxporteerd en opnieuw worden gebruikt
Wat dit betekent voor developers
Voor wie automatisering of AI-workflows bouwt, biedt Webwright een paar duidelijke lessen:
- Houd agent-intelligentie gescheiden van de uitvoeromgeving
- Gebruik wegwerp-sessies, maar bewaar het werkresultaat
- Bouw functies en loops in plaats van reeksen losse acties
- Laat agents hun oplossing eerst bewijzen voordat ze klaar zijn
De terminal is hier geen tijdelijke interface. Het is de plek waar code, logs en artefacten blijven bestaan. De browser komt en gaat; de terminal blijft.
De bredere implicatie
Webautomatisering ging vroeger vooral over steeds complexere state machines. Webwright kiest een andere route: laat de agent code schrijven in plaats van state te manipuleren. De browser is tijdelijk. De workspace is blijvend.
Het idee is nog jong, maar het wijst naar betrouwbaardere en herbruikbare AI-systemen — niet alleen voor webtaken, maar voor elk probleem waarbij een agent moet verkennen, itereren en leren.
Wie werkt aan agent-systemen of webautomatisering, kan hier iets van leren. De code staat op GitHub. De resultaten zijn concreet. En de filosofie is eenvoudig: een terminal is alles wat je nodig hebt.