Redundantie alleen volstaat niet: hoe de spoorwegen vastliepen door afhankelijkheid van één controlelaag

Redundantie alleen volstaat niet: hoe de spoorwegen vastliepen door afhankelijkheid van één controlelaag

Mei 20, 2026 cloud-infrastructure resilience outage-analysis control-plane multi-cloud-architecture dns-routing incident-response backend-engineering

De valkuil van multi-cloud: waarom jouw control plane alles kan laten klappen

Multi-cloud klinkt als de perfecte oplossing. Spreid je workloads over AWS, Google Cloud en je eigen servers, en je bent beschermd tegen elk mogelijk uitval. Of toch niet? Railway, een modern cloudplatform, dacht van wel. Hun applicaties draaiden verspreid over Google Cloud, AWS en hun eigen Railway Metal-infrastructuur. Totdat alles misging.

Op 19 mei 2026 schortte Google Cloud per ongeluk het productieaccount van Railway op. Geen echte storing in de infrastructuur, maar een geautomatiseerd systeem dat het account zonder waarschuwing blokkeerde. Acht uur later was Railway weer online. De workloads zelf draaiden de hele tijd gewoon door. Alleen het verkeer bereikte ze niet meer.

De control plane als kritieke schakel

De oorzaak lag niet bij de applicaties zelf, maar bij de manier waarop verkeer wordt gerouteerd. Elke aanvraag komt binnen via edge proxies. Die proxies weten niet automatisch waar een applicatie draait. Ze vertrouwen op een control plane: een database die bijhoudt welke workload waar draait.

Railway’s control plane stond volledig op Google Cloud. Toen het account werd geschorst, viel de control plane weg. De proxies hadden nog wel een cache met routinggegevens, die ongeveer 35 minuten geldig bleef. Na die tijd wist het systeem niet meer waar het verkeer naartoe moest. Elke aanvraag resulteerde in een 404, terwijl de applicaties gewoon draaiden op AWS en Railway Metal.

Een kettingreactie die je niet ziet

Naarmood de control plane offline ging, nam het aantal mislukte aanvragen toe. Dat triggerde bij GitHub een rate limit op Railway’s OAuth-eindpunten. Niet omdat GitHub problemen had, en la niet omdat de controle over de workloads weg was, maar omdat het systeem zichzelf beschermde. De gevolgen waren direct: gebruikers konden niet meer inloggen en deployments konden niet meer worden geactiveerd.

Redundantie is meer dan verspreide workloads

Railway had hun workloads al goed verspreid. Maar de control plane, die het verkeer regelt en de wereld vertelt waar elke workload draait, bleef in één cloud hangen. Een automatische actie van Google Cloud nam daarmee de hele routing-infrastructuur mee. Redundantie in workloads is waardevoll, maar zonder redundante control plane blijft het theater.

Wat jij hieruit kunt leren

Als you je infrastructure opbouwt, denk dan niet alleen aan de workloads. Controleer ook waar je control plane, routing en service discovery zitten. Als deze kritieke functies nog in één plek hangen, heeft je multi-cloud setup weinig effect. Caching koopt je tijd, but niet meer dan dat. Het is een tijdelijke fix,而不是 een architecturale oplossing.

Cascading failures zijn real. Een mislukte aanvraag kan andere problemen triggeren en je recovery-proces slows af. Het is belangrijk, altijd, dat je incident response procedures goed hebt en je op de automatische systemen van je providers voorbereidt.

Read in other languages:

RU BG EL CS UZ TR SV FI RO PT PL NB HU IT FR ES DE DA ZH-HANS EN