Webwright: Vom Klick-Marathon zum echten Code
Vom Klick-Modell zum Code-Ansatz: Webwright und die neue Art der Web-Automatisierung
Wer schon mal zugesehen hat, wie ein Bot eine Website mühsam Button für Button abarbeitet, kennt das Problem: Es dauert, es ist fehleranfällig und folgt einem starren Schema. Forscher von Microsoft und der University of Hong Kong gehen einen anderen Weg. Sie geben KI-Agenten einfach ein Terminal und lassen sie Code schreiben.
Warum klassische Web-Agenten oft scheitern
Bisher funktionieren die meisten Automatisierungslösungen nach dem Prinzip: Bildschirm analysieren, nächste Aktion vorhersagen, ausführen, wiederholen. Klingt vernünftig, hat aber entscheidende Schwächen.
Keine echte Planung. Die Agenten treffen ständig kleine Entscheidungen, ohne das Gesamtziel wirklich im Blick zu haben. Ein strategischer Plan entsteht so selten.
Umständliche Navigation. Komplexe Websites durch einzelne Klicks zu durchforsten, ist ineffizient. Der Agent tastet sich blind voran und verliert viel Zeit.
Wenig Flexibilität. Kommt ein Pop-up, ändert sich das Layout oder taucht ein unerwartetes Formularfeld auf, bricht das System oft ab. Es ist auf bekannte Muster trainiert und scheitert an Abweichungen.
Bei Aufgaben wie Flugbuchungen oder mehrstufigen Formularen wird das besonders deutlich.
Webwright: Ein Terminal statt einzelner Klicks
Webwright dreht den Spieß um. Statt einzelne Aktionen vorherzusagen, bekommt der Agent eine Entwicklungsumgebung. Dort kann er:
- Mehrere Browser-Instanzen gleichzeitig steuern
- Echten Code schreiben, um mit Webseiten zu interagieren
- Ergebnisse als ausführbares Skript zurückliefern
Der Agent schreibt also nicht mehr „klicke auf den Button mit dem Text Suche“, sondern ein kleines Programm, das alle relevanten Elemente findet, die richtige Auswahl trifft und die Ergebnisse weiterverarbeitet.
Warum Code-basierte Automatisierung überlegen ist
Bessere Planung. Der Agent kann vorab eine Lösung skizzieren, Sonderfälle berücksichtigen und komplexe Abläufe strukturieren.
Gezielte Erkundung. Statt blind zu klicken, analysiert der Code die Seitenstruktur und erkennt Navigationsmuster.
Hohe Anpassungsfähigkeit. Ändert sich ein Layout oder taucht ein neues Feld auf, passt der Agent seine Selektoren direkt an. Er löst Probleme, statt einem festen Pfad zu folgen.
Das entspricht genau der Arbeitsweise von Entwicklern: nicht einzelne Befehle ausführen, sondern ein Skript schreiben, das mit Komplexität umgeht.
Messbare Vorteile in der Praxis
Tests mit realen Aufgaben – Flugbuchungen, Einkäufe im Webshop, mehrstufige Prozesse – zeigen klare Verbesserungen. Weniger Interaktionen, höhere Erfolgsquote. Gerade bei großen Mengen an automatisierten Prozessen macht das einen spürbaren Unterschied.
Was das für Hosting und Infrastruktur bedeutet
Je intelligenter Web-Agenten werden, desto wichtiger wird die zugrunde liegende Infrastruktur. Stabile DNS-Auflösung, aktuelle SSL-Zertifikate und performantes Hosting sind keine Nice-to-have-Features mehr, wenn autonome Systeme eigenständig durch Webseiten navigieren.
Gleichzeitig eröffnen sich neue Möglichkeiten: Low-Code-Automatisierung, API-Tests oder intelligente Datenerfassung profitieren direkt von diesem Ansatz.
Fazit
Webwright zeigt: Die beste Automatisierung entsteht nicht durch Vereinfachung, sondern durch die richtigen Werkzeuge. Ein Terminal ist kein Rückschritt, sondern eine starke Abstraktion, die KI-Agenten strategisches Denken und echte Anpassungsfähigkeit ermöglicht.
Die Zukunft der Web-Automatisierung liegt nicht im nächsten Klick. Sie liegt im besseren Code.