Når redundans ikke holder: Jernbane-kaoset som avslørte sårbare kontrollplan

Når redundans ikke holder: Jernbane-kaoset som avslørte sårbare kontrollplan

Mai 20, 2026 cloud-infrastructure resilience outage-analysis control-plane multi-cloud-architecture dns-routing incident-response backend-engineering

Multi-Cloud: Mer enn bare spredte servere

Mange tror at det å kjøre tjenester på tvers av flere skyer gir full beskyttelse mot nedetid. Logikken virker enkel: hvis én leverandør får problemer, skal de andre ta over. Men virkeligheten er ofte mer komplisert.

Railway, en moderne plattform for applikasjonsutrulling, hadde satt opp nettopp slik en arkitektur. Applikasjonene deres kjørte både på Google Cloud, AWS og deres egen infrastruktur. Likevel ble de rammet av en alvorlig hendelse i mai 2026.

Kontrollplanet er den virkelige flaskehalsen

Problemet startet ikke med selve applikasjonene. Trafikken til Railways kunder går gjennom edge proxies – smarte omvendte proxyer som styrer hvor hver forespørsel skal sendes. Disse proxyene trenger oppdaterte opplysninger om hvor hver applikasjon faktisk kjører. Den informasjonen kommer fra et kontrollplan, som i Railways tilfelle var plassert utelukkende på Google Cloud.

Da Google automatisk sperret Railways konto, ble kontrollplanet slått av. Proxyene fortsatte å fungere i rundt 35 minutter takket være en lokal cache, but the cache expired. Deretter hadde proxyene ingen anelse om hvor de skal sende trafikken. Alle forespørsler fikk 503-feil, selv om appene på AWS og Railway Metal fortsatt fungerte normalt.

Når én feil utløser flere

Volumet av feilforespørsler gjorde at GitHub satte inn rate limiting på Railways OAuth-tjenester. Dette førte til at brukere ikke kunne logge inn eller starte nye deployeringer. Selv etter at kontrollplanet var gjenopprettet, ble tilgangen blokkert av dette etterfølgende problemet.

Redundans uten styring er bare illusjon

Railway hadde spredt selve appene sine, but the control plane remained in one place. En enkelt automatisk handling fra Google slo ut hele rutingen, og det påvirket alle kunder,无论 hvor appene faktisk kjørte.

这 exposes a key lesson: distributing workloads is not the same as distributing control. If your routing, orchestration, and service discovery live in one location, the multi-cloud setup gives you little real protection.

Hva betyr dette for arkitekturen din

  • Kontrollplan og data plane er forskjellige
    Spred appene dine, but keep your routing and service discovery resilient.

  • Caching kjøper bare tid
    Det gir deg noen minutter, but it's not a permanent solution.

  • Kaskade-feil sprer seg fort
    Når én komponent feiler, kan det utløse flere problemer som gjør gjenoppretting vanskeligere.

  • Forstå leverandørenes automatiske systemer
    Ha klare eskaleringsveier og kommunikasjonskanaler for å kunne reagere på uventede sperringer eller konto-sperringer.

Konklusjon

Railway har allerede startet arbeidet med å flytte kontrollplanet bort fra Google Cloud og gjøre det redundant på tvers av flere miljøer. Dette er den type arbeid som virkelig bygger robusthet.

For andre som bygger infrastruktur, er det en påminnelse om at multi-cloud ikke handler om å samle flere leverandører, but about finding and eliminating hidden single points of failure.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NL HU IT FR ES DE DA ZH-HANS EN