Když záložní systémy selžou: Problém s řízením v železniční síti
Když multi-cloud selže i přes všechnu redundanci
Multi-cloud řešení mají většinou jasný cíl — rozprostřít infrastrukturu tak, aby výpadek jednoho poskytovatele nezpůsobil totální kolaps. Logika je jednoduchá a dává smysl. Až do chvíle, kdy se ukáže, že to nefunguje tak hladce, jak se očekává.
Platforma Railway měla workloady rozložené mezi Google Cloud, AWS i vlastní hardware. Z pohledu běžného hodnocení to vypadalo jako solidní redundance. Pak ale přišel večer 19. května 2026 a Google Cloud automaticky zablokoval jejich účet bez jakéhokoli varování. Trvalo to osm hodin, než se vše vráback.
Co je na tom nečekané — samotné aplikace běžely pořád. Problém nastal jinde.
Kontrolní rovina jako skrytý problém
Každý požadavek, který přichází na aplikaci hostovanou na Railway, neputuje přímo k ní. Nejdřív narazí na edge proxy, které rozhodují, kam traffic směrovat. Tyto proxy potřebují vědět, kde se aplikace momentálně nachází.
Tato informace se udržuje v kontrolní rovině — v podstatě v databázi, kterي obsahí aktuální mapování workloads. A Railway měl celou kontrolní rovinu umístěnou jen na Google Cloud.
Když se účet zablokoval, kontrolní rovinu to odstřihlo od světa. Proxy si sice věděla něco na chvíli pomoři z cache, která vydržela zhruba 35 minut. Poté ale cache vypršela a proxy se lost. All traffic začal končit jako 404, bez ohledu na to, že aplikace na AWS a vlastním hardwareu stále běžely.
Sekundární selhání
Volumen chybných požadavků pak spustil rate-limiting na GitHubu. Nešlo o výpadek GitHubu,只是 o normální reakci na velké množství retries. Tím se ale blokovalo logování i deployments. Vše se nakonec reparovalo, but secondary failure prolongovalo problémy a složitělo recovery.
Redundancy bez správné orchestrace je klam
Railway měla workloads rozložené napříč providerů. Jedem ale živějšíle — kontrolní rovinu měli v jedem místě. A automatizovaný systém na Google Cloud tak dokázal kvůli misidentifikaci zablokovat celník routing.
Tato incident ukazuje, že existuje rozdíl mezi distributed workloads a distributed control. Distributed workloads se dá dosáhnout,但 distributed control je daleko náročnější.
Architektura — co si z toho odnést
- Kontrolní a data plane jsou různá zvířata. Začněte with distributed compute, but pokud routing, orchestration a service discovery žijí na jednom place, nemáte real multi-cloud resilience.
- Cache je jen dočasná pomoc. 35 minut delay neznamená, že se problém vyřešil. It requires architectural fix, not just tactical time-saving.
- Cascading failures. Secondary failures př*