Når AI ser nettsiden din: Ville browsere med VLM-magi
Nettleseren som kaster alle regler ut vinduet
Tenk deg å laste en nettside der AI bare gjettet utseendet basert på HTML-koden. Ikke noen presis rendering med Blink eller WebKit. Det er kjernen i cursed_browser – et skikkelig gøy eksperiment som snur opp-ned på hvordan nettlesere egentlig fungerer.
Vi er vant til at nettlesere bruker rendering engines. Chrome har Blink, Firefox har Gecko, Safari har WebKit. Disse maskinene tolker HTML, legger på CSS, kjører JavaScript og tegner piksel for piksel. De er webens usynlige helter.
Men hva om vi dropper alt det?
Når AI hallucinerer grensesnittet ditt
cursed_browser bytter ut den vanlige rendering-prosessen med en Vision Language Model (VLM). Det er en AI som både skjønner tekst og lager bilder. I stedet for å følge CSS-regler og layout-algoritmer, får VLM'en rå HTML og fantaserer fram et bilde av siden.
Som å be en kunstner tegne en nettside bare ved å lese kildekoden – uten referanser eller erfaring.
Resultatet? Kaos. Uforutsigbart. Totalt fengende.
Hvorfor dette treffer hardere enn du tror
Ser ut som ren tull først. Og det er det jo. Men det stiller ekte spørsmål om web-rendering:
Semantikk-utfordringen: HTML har mening. <header> viser struktur, <button> varsler interaksjon. Forstår VLM'en dette, eller matcher den bare mønstre fra treningsdata? Eksperimentet viser AI sine styrker og svakheter med strukturert info.
Tilgjengelighet i fokus: Vanlige renderere baker inn tilgjengelighet etter spesifikasjonene. En VLM-hallusinasjon kan droppe alt sånt. Minner oss: Tilgjengelighet må være kjernen, ikke et pålegg.
Layout-problemet: CSS og layout-motorer løser reflowing på tvers av skjermstørrelser – en tøff nøtt i datavitenskap. VLM'en har ingen innebygd forståelse av responsive prinsipper. Hvordan håndterer den mobil, zoom eller dynamisk innhold?
Bak kulissene: Hvordan det henger sammen
Prosjektets oppsett er enkelt, men genialt feilslått:
- HTML-parsing: Nettleseren parser koden som vanlig – ingen juks.
- VLM-behandling: HTML sendes som input til VLM'en i stedet for CSS.
- Bilde-generering: AI lager et bilde av hva den tror siden ser ut som.
- Visning: Det ferdige bildet dukker opp på skjermen.
Totalt motsatt av ekte nettlesere. Deterministisk layout erstattes med probabilistisk bildeframkalling. Brillant tankeøvelse.
Realitetsjekken
Funksjoner det på ordentlige sider? Neppe. Det er poenget. Du får gale versjoner, manglende funksjoner og layout som ikke gir mening. Mislykkes på alle praktiske tester – men det er ikke målet.
Det lykkes med å få oss til å tenke annerledes om rendering. Viser hvor kompleks browser-motorene er, og hva vi tar for gitt hver gang vi surfer.
Konsekvenser for web-plattformen
Dette minner oss: Webens styrke ligger i standarder og forutsigbarhet. Nettlesere er konsistente fordi de følger spesifikasjoner. De er kjedelige på den beste måten – de bare funker.
Når AI kryper inn i web-utvikling (AI-kodehjelp, automatisert design, smarte DNS-valg på hosting), husk: Grunnlaget – rendering-motoren – må være vanntett og pålitelig.
Et blikk på fremtidens ville web-teknologi
Slike prosjekter som cursed_browser er gull verdt nettopp fordi de er urealistiske. De tester grenser og utfordrer antakelser.
Kan VLM'er erstatte rendering engines? Aldri. Men kan ideene påvirke tanker om rendering, layout og standarder? Definitivt.
Det er sånt som holder web-miljøet levende. Den beste måten å forstå noe på, er ofte å ødelegge det på den mest kreative måten.