Webwright: Fra klikk-klikk til ren kode i ett jafs
Fra klikk til kode: Webwright endrer hvordan AI-agenter styrer nettleseren
De fleste som har sett en bot jobbe seg gjennom en nettside, har lagt merke til hvor tregt og klønete det kan være. Hvert klikk er en ny beslutning, og agenten må hele tiden analysere skjermen på nytt. Forskere fra Microsoft og University of Hong Kong mener løsningen er å gi agenten noe helt annet: en terminal og mulighet til å skrive kode selv.
Problemet med dagens tilnærming
Tradisjonelle web-agenter fungerer som en serie små beslutninger. De ser hva som er på skjermen, velger neste handling, utfører den, og starter på nytt. Det høres fornuftig ut, men det skaper flere utfordringer.
Uten evne til å planlegge på forhånd, blir agentene reaktive. De tar små valg med begrenset oversikt over hva som egentlig skal oppnås. Navigering skjer ved å prøve seg frem, noe som er tidkrevende på komplekse sider. Når noe uventet dukker opp – en endret layout, et uvanlig skjema eller en popup – mangler de fleksibilitet til å tilpasse seg.
Oppgaver som å bestille flyreiser eller handle på nett blir fort ineffektive med denne metoden.
Webwright: Kode i stedet for klikk
Webwright snur hele tankegangen. I stedet for å forutsi enkeltklikk, får agenten tilgang til en terminal der den kan kjøre kode. Den kan starte flere nettleserøkter samtidig, skrive skript i Python eller JavaScript, og returnere resultater som kjørbar kode.
Dermed kan agenten lage en samlet løsning for en oppgave, i stedet for å ta én handling av gangen. Den kan identifisere elementer, velge riktige, utføre handlinger og behandle resultater i én logisk flyt.
Fordelene med kodebasert automatisering
Når agenten skriver kode, må den tenke gjennom hele prosessen på forhånd. Det åpner for bedre planlegging og håndtering av kanttilfeller. I stedet for å klikke blindt, kan den lese sidens struktur og ta informerte valg om hvor den skal gå videre.
Adaptivitet blir også bedre. En endret nettside eller et uventet felt betyr ikke at prosessen stopper – agenten kan undersøke HTML-en og tilpasse koden etter behov. Dette ligner hvordan utviklere jobber: de skriver skript som håndterer kompleksitet, i stedet for å utføre kommandoer manuelt.
Resultater i praksis
Forskningen viser at Webwright presterer bedre enn tradisjonelle metoder på oppgaver som flybestilling og e-handel. Den bruker færre handlinger totalt og fullfører oftere komplekse prosesser. Det er viktig, fordi selv små forbedringer blir betydelige når automatisering skal skaleres opp til mange operasjoner.
Hva betyr dette for hosting og infrastruktur?
Når AI-agenter blir mer avanserte, stilles det høyere krav til underliggende infrastruktur. Stabil DNS, god SSL-dekning og pålitelig cloud hosting blir enda viktigere når autonome systemer skal navigere både egne og tredjeparts nettsider.
Samtidig åpner tilnærmingen for nye bruksområder som API-testing, lavkode-automatisering og intelligent datauthenting.
Kort oppsummert
Webwright viser at det ikke alltid er smartest å forenkle grensesnittet for agenten. Noen ganger er det bedre å gi den de samme verktøyene som utviklere bruker – en terminal og mulighet til å skrive kode. Fremtiden for webautomatisering handler ikke om å gjette neste klikk, men om å skrive bedre skript.