Velký cache kolaps: Jak AI boty ničí klasické CDN
Slon v datovém centru
Váš web je pod tlakem. Ne kvůli hackerům, ale kvůli přátelským AI botům. Tyhle boty žerou bandwidth, jako by to bylo snídaně. Vaše infrastruktura na to prostě není připravená.
Fakta: Asi 32 % provozu přes velké CDN je automatizované. Mají v tom prsty vyhledávače, monitory dostupnosti nebo trackery reklam. Teď ale dominují AI asistenti a crawleři pro trénink. Procházejí web systematicky, jako by sbírali data pro encyklopedii.
AI boty nejsou zlo. Naopak – mnoho webů je chce. Vývojáři chtějí, aby jejich dokumentace skončila v ChatGPT. E-shopy touží po produktech v AI vyhledávání. Vydavatelé zkouší nové způsoby výdělku z licencí obsahu.
Problém? AI provoz se nechová jako lidský. CDN ale nutí vybrat si jednu nebo druhou variantu.
Proč AI boty ničí cache
Podívejme se na caching. Uživatel žádá obsah, CDN hledá čerstvou kopii v cache. Hit? Rychle doručeno, úspora bandwidth. Miss? Jde to na origin server, pomalejší odezva, vyšší náklady.
Cache funguje na principu: držet často žádaný obsah. U lidí to sedí – homepage, kategorie, populární články. Cache se přizpůsobí.
Pak přijdou AI crawleři a vše se zhroutí.
Co dělají AI boty:
1. Žádají vše rovnomerne a neúnavně. Člověk projde 20 stránek. AI crawler pro trénink si vezme tisíce unikátních URL. Nad 90 % je to obsah, který nikdy neviděl a neuvidí znovu.
2. Nesledují logickou cestu. Lidé jdou hierarchicky. AI boty skáčou náhodně – dokumentace, obrázky produktů, starý blog, API reference. Vše najednou, což zaplaví cache.
3. Jsou neefektivní. Špatné zpracování URL vede k hromu 404 a redirectům. Někdy se objeví jako desítky různých uživatelů bez sdílení dat. Každý hituje CDN od začátku.
Výsledek? Cache se naplní jednorázovým obsahem, lidský provoz se vytratí. Miss rate stoupne, origin server trpí, náklady vyletí.
Dilema volby
Teď ta podstatná věc: Musíte si vybrat nemožné.
Optimalizujte pro lidi, AI crawleři vás potopí náklady. Optimalizujte pro AI, lidé dostanou pomalé stránky.
Současné CDN na to nestačí. Navržené byly pro éru pár search botů. Dnes AI trénink překonává vše, cache architektura potřebuje revoluci.
Co se děje v praxi
Nedávný výzkum (Zhang et al., Symposium on Cloud Computing 2025) prozkoumal reálný provoz CDN. Výsledky jsou drtivé:
- AI crawleři mají extrémně vysoký podíl unikátních URL – většina je první a jediná žádost.
- Obsahová rozmanitost je obrovská – různé boty míří na docs, kód, media, což brání optimalizaci.
- Crawling je plýtvavé – spousta chyb a redirectů, zdroje pro nic.
Nejhorší je traffic pro AI trénink – kombinuje všechny tyhle problémy. Vyhledávače aspoň cílí na populární obsah, AI chce všechno.
Kam dál
Dobrá zpráva: CDN provizeři to řeší. Neblokováním, ale dynamickým segmentováním cache.
Jak to vypadá?
Oddělené cache vrstvy: Jedna pro lidi, druhá pro AI – žádná konkurence.
Chytrá klasifikace botů: Rozlišit užitečné (indexování docs) od plýtvavých (náhodný trénink) a routovat podle toho.
Caching s ohledem na cenu: Modely "plať za crawl" nebo podobně, aby to mělo smysl.
Přizpůsobitelné TTL: Jiná expiráce pro AI než pro lidský obsah.
Co to znamená pro vás
Pokud provozujete web na moderní infrastruktuře, berte to vážně.
Vývojáři: API docs musí být pro AI dostupné. Ale ne na úkor rychlosti pro reálné uživatele.
E-shopy: Katalog v AI výsledcích je super. Jen ne, když checkout zpomalí kvůli jednorázovým stránkám.
Vydavatelé: Licenční AI výdělky fungují. Ale infrastruktura nesmí špatit čtení pro lidi.
Každý s CDN: Sledujte složení bot trafficu. Zjistěte, co cache ničí. Spolupracujte s poskytovatelem na segmentaci.
Širší pohled
Tohle není jen technika – je to zlomový bod. Web pro lidi narazil na éru AI. Bolí to, ale výsledek bude lepší infrastruktura pro všechny.
Nové CDN nebudou ptát: Lidé nebo AI? Optimalizují obojí chytře, automaticky a levně.
Vaše cache se musí přizpůsobit webu, jaký existuje teď.
Chcete, aby váš obsah fungoval pro lidi i AI boty? Na NameOcean máme Vibe Hosting s chytrou cache optimalizací pro dnešní provoz. Stavíme infrastrukturu pro skutečný web – ne pro ten starý.