Když záložní systémy selžou: Problém s řízením v železniční síti

Když záložní systémy selžou: Problém s řízením v železniční síti

Kvě 20, 2026 cloud-infrastructure resilience outage-analysis control-plane multi-cloud-architecture dns-routing incident-response backend-engineering

Když multi-cloud selže i přes všechnu redundanci

Multi-cloud řešení mají většinou jasný cíl — rozprostřít infrastrukturu tak, aby výpadek jednoho poskytovatele nezpůsobil totální kolaps. Logika je jednoduchá a dává smysl. Až do chvíle, kdy se ukáže, že to nefunguje tak hladce, jak se očekává.

Platforma Railway měla workloady rozložené mezi Google Cloud, AWS i vlastní hardware. Z pohledu běžného hodnocení to vypadalo jako solidní redundance. Pak ale přišel večer 19. května 2026 a Google Cloud automaticky zablokoval jejich účet bez jakéhokoli varování. Trvalo to osm hodin, než se vše vráback.

Co je na tom nečekané — samotné aplikace běžely pořád. Problém nastal jinde.

Kontrolní rovina jako skrytý problém

Každý požadavek, který přichází na aplikaci hostovanou na Railway, neputuje přímo k ní. Nejdřív narazí na edge proxy, které rozhodují, kam traffic směrovat. Tyto proxy potřebují vědět, kde se aplikace momentálně nachází.

Tato informace se udržuje v kontrolní rovině — v podstatě v databázi, kterي obsahí aktuální mapování workloads. A Railway měl celou kontrolní rovinu umístěnou jen na Google Cloud.

Když se účet zablokoval, kontrolní rovinu to odstřihlo od světa. Proxy si sice věděla něco na chvíli pomoři z cache, která vydržela zhruba 35 minut. Poté ale cache vypršela a proxy se lost. All traffic začal končit jako 404, bez ohledu na to, že aplikace na AWS a vlastním hardwareu stále běžely.

Sekundární selhání

Volumen chybných požadavků pak spustil rate-limiting na GitHubu. Nešlo o výpadek GitHubu,只是 o normální reakci na velké množství retries. Tím se ale blokovalo logování i deployments. Vše se nakonec reparovalo, but secondary failure prolongovalo problémy a složitělo recovery.

Redundancy bez správné orchestrace je klam

Railway měla workloads rozložené napříč providerů. Jedem ale živějšíle — kontrolní rovinu měli v jedem místě. A automatizovaný systém na Google Cloud tak dokázal kvůli misidentifikaci zablokovat celník routing.

Tato incident ukazuje, že existuje rozdíl mezi distributed workloads a distributed control. Distributed workloads se dá dosáhnout,但 distributed control je daleko náročnější.

Architektura — co si z toho odnést

  • Kontrolní a data plane jsou různá zvířata. Začněte with distributed compute, but pokud routing, orchestration a service discovery žijí na jednom place, nemáte real multi-cloud resilience.
  • Cache je jen dočasná pomoc. 35 minut delay neznamená, že se problém vyřešil. It requires architectural fix, not just tactical time-saving.
  • Cascading failures. Secondary failures př*

Read in other languages:

RU BG EL UZ TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN