Prohlížeč v terminálu: jak AI agenti mění automatizaci

Prohlížeč v terminálu: jak AI agenti mění automatizaci

Kvě 26, 2026 web automation ai agents terminal tools playwright code generation browser automation ai development devops

Web automation bez prohlížeče: proč terminál mění pravidla hry

Většina lidí si pod webovou automatizací představuje AI agenta, který ovládá prohlížeč – kliká, vyplňuje formuláře a prochází stránky v jednom dlouhém sezení. Webwright jde úplně opačnou cestou.

Problém s dlouhými prohlížečovými sezeními

Když agent zůstává v jednom prohlížeči, každá akce navazuje na předchozí. Pokud se něco pokazí, je těžké najít chybu nebo úkol spustit znovu. Navíc se nahromadí spousta stavů, které se těžko spravují.

V praxi to znamená:

  • Nahromaděná složitost – dlouhé sezení přináší neočekávané situace
  • Špatná laditelnost – nelze jednoduše prozkoumat nebo zopakovat část úkolu
  • Žádná znovupoužitelnost – každý úkol se řeší od začátku

Webwright: dočasné prohlížeče, trvalý kód

Webwright místo jednoho dlouhého sezení spouští čerstvé instance prohlížeče podle potřeby. Prohlížeč slouží jen k prozkoumání, získání dat a pak se zahodí. Co zůstává, je kód, logy a screenshoty v lokálním workspace.

Prohlížeč se tak stává nástrojem, který použijete a zahodíte. Skutečná hodnota je v kódu, který vznikne.

Tři základní principy

1. Kód místo primitivních akcí
Místo řetězení kliknutí a čekání agent vytváří funkce. Výběr data, vyplňování formulářů nebo extrakce dat se stávají opakovaně použitelnými funkcemi, ne sérií jednoduchých příkazů.

2. Trvalé výstupy
Každý úkol vytváří hmatatelné artefakty – skripty, logy, screenshoty. Tyto soubory zůstávají v workspace a slouží jako základ pro další automatizace.

3. Jednoduchá architektura
Celý systém má jen tři části: Runner, Model Endpoint a terminálové prostředí. Zhruba tisíc řádků kódu bez složitých orchestrací.

Jak to funguje v praxi

Proces je překvapivě jednoduchý:

  1. Runner pošle modelu úkol a aktuální stav workspace
  2. Model vrátí příkaz – často Playwright skript
  3. Prostředí spustí příkaz a vrátí výstup, logy nebo chyby
  4. Smyčka se opakuje, dokud agent nevytvoří finální skript

Výsledky na reálných webech

Na benchmarku Odyssey dosáhl Webwright 60,8% přesnosti – o 35 % lepší než předchozí nejlepší řešení. Na Online-Mind2Web zvládl 86,7 % úkolů napříč 136 různými weby. I menší modely jako Qwen 3.5-9B dosahují 66,2 % přesnosti díky znovupoužitelným nástrojům.

Bezpečnostní mechanismy

Plný přístup k terminálu přináší rizika. Webwright proto používá několik ochran:

  • Kontrola před dokončením – agent musí vygenerovat finální skript, spustit ho v čistém prostředí a projít vlastní kontrolou
  • Komprese kontextu – dlouhé historie se periodicky shrnují, zatímco artefakty zůstávají v souborech
  • Znovupoužitelné nástroje – vyřešené úkoly lze parametrizovat a sdílet mezi agenty

Co si z toho odnést

Pro vývojáře automatizací a scraperů nabízí Webwright několik praktických lekcí:

  • Oddělte inteligenci agenta od spouštěcího prostředí
  • Používejte dočasná sezení, ale uchovávejte výstupy
  • Vytvářejte funkce, ne řetězce jednoduchých akcí
  • Nechte agenta ověřit, že řešení funguje i při čistém spuštění

Terminál zde není jen rozhraní – je to místo, kde kód přežívá a kde se hromadí výsledky práce. Prohlížeč je dočasný, terminál zůstává.

Tento přístup naznačuje, že spolehlivější automatizace vznikají spíš psaním kódu než manipulací se stavem. A to platí nejen pro web, ale pro jakékoli úkoly, kde agent potřebuje zkoušet, upravovat a učit se.

Read in other languages:

RU BG EL UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN