Prohlížeč v terminálu: jak AI agenti mění automatizaci
Web automation bez prohlížeče: proč terminál mění pravidla hry
Většina lidí si pod webovou automatizací představuje AI agenta, který ovládá prohlížeč – kliká, vyplňuje formuláře a prochází stránky v jednom dlouhém sezení. Webwright jde úplně opačnou cestou.
Problém s dlouhými prohlížečovými sezeními
Když agent zůstává v jednom prohlížeči, každá akce navazuje na předchozí. Pokud se něco pokazí, je těžké najít chybu nebo úkol spustit znovu. Navíc se nahromadí spousta stavů, které se těžko spravují.
V praxi to znamená:
- Nahromaděná složitost – dlouhé sezení přináší neočekávané situace
- Špatná laditelnost – nelze jednoduše prozkoumat nebo zopakovat část úkolu
- Žádná znovupoužitelnost – každý úkol se řeší od začátku
Webwright: dočasné prohlížeče, trvalý kód
Webwright místo jednoho dlouhého sezení spouští čerstvé instance prohlížeče podle potřeby. Prohlížeč slouží jen k prozkoumání, získání dat a pak se zahodí. Co zůstává, je kód, logy a screenshoty v lokálním workspace.
Prohlížeč se tak stává nástrojem, který použijete a zahodíte. Skutečná hodnota je v kódu, který vznikne.
Tři základní principy
1. Kód místo primitivních akcí
Místo řetězení kliknutí a čekání agent vytváří funkce. Výběr data, vyplňování formulářů nebo extrakce dat se stávají opakovaně použitelnými funkcemi, ne sérií jednoduchých příkazů.
2. Trvalé výstupy
Každý úkol vytváří hmatatelné artefakty – skripty, logy, screenshoty. Tyto soubory zůstávají v workspace a slouží jako základ pro další automatizace.
3. Jednoduchá architektura
Celý systém má jen tři části: Runner, Model Endpoint a terminálové prostředí. Zhruba tisíc řádků kódu bez složitých orchestrací.
Jak to funguje v praxi
Proces je překvapivě jednoduchý:
- Runner pošle modelu úkol a aktuální stav workspace
- Model vrátí příkaz – často Playwright skript
- Prostředí spustí příkaz a vrátí výstup, logy nebo chyby
- Smyčka se opakuje, dokud agent nevytvoří finální skript
Výsledky na reálných webech
Na benchmarku Odyssey dosáhl Webwright 60,8% přesnosti – o 35 % lepší než předchozí nejlepší řešení. Na Online-Mind2Web zvládl 86,7 % úkolů napříč 136 různými weby. I menší modely jako Qwen 3.5-9B dosahují 66,2 % přesnosti díky znovupoužitelným nástrojům.
Bezpečnostní mechanismy
Plný přístup k terminálu přináší rizika. Webwright proto používá několik ochran:
- Kontrola před dokončením – agent musí vygenerovat finální skript, spustit ho v čistém prostředí a projít vlastní kontrolou
- Komprese kontextu – dlouhé historie se periodicky shrnují, zatímco artefakty zůstávají v souborech
- Znovupoužitelné nástroje – vyřešené úkoly lze parametrizovat a sdílet mezi agenty
Co si z toho odnést
Pro vývojáře automatizací a scraperů nabízí Webwright několik praktických lekcí:
- Oddělte inteligenci agenta od spouštěcího prostředí
- Používejte dočasná sezení, ale uchovávejte výstupy
- Vytvářejte funkce, ne řetězce jednoduchých akcí
- Nechte agenta ověřit, že řešení funguje i při čistém spuštění
Terminál zde není jen rozhraní – je to místo, kde kód přežívá a kde se hromadí výsledky práce. Prohlížeč je dočasný, terminál zůstává.
Tento přístup naznačuje, že spolehlivější automatizace vznikají spíš psaním kódu než manipulací se stavem. A to platí nejen pro web, ale pro jakékoli úkoly, kde agent potřebuje zkoušet, upravovat a učit se.