När redundans inte räcker – järnvägens driftstopp och beroenden i control plane

När redundans inte räcker – järnvägens driftstopp och beroenden i control plane

Maj 20, 2026 cloud-infrastructure resilience outage-analysis control-plane multi-cloud-architecture dns-routing incident-response backend-engineering

Multi-cloud är inte alltid säkrare än det verkar

Många tror att det räcker att köra sina tjänster på flera moln samtidigt för att slippa problem. AWS, Google Cloud och egen hårdvara borde ge ett starkt skydd mot enskilda leverantörers driftstopp. Men det är inte alltid så enkelt.

Railway, ett modernt deploymentsystem, hade precis den här setupen. Deras applikationer kördes på Google Cloud, AWS och deras egen infrastruktur. Ändå blev de helt otillgängliga en kväll i maj 2026.

Det började med att Google Cloud automatiskt stängde av Railways konto utan förvarning. Det tog åtta timmar att få tillbaka åtkomst. Men det märkliga var att själva applikationerna aldrig var nere. Felet låg någon helt annanstans.

Varför kontrollplanet är viktigare än du tror

När en besökare når en applikation som körs på Railway går trafiken först till edge proxies. De avgör vart förfrågan ska skickas vidare. För att göra det behöver de veta var applikationen faktiskt ligger just nu.

Den informationen kommer från ett kontrollplan – en databas som håller reda på var varje workload finns. Railway hade lagt hela sitt kontrollplan på Google Cloud. När kontot stängdes av försvann den datan.

Proxies hade visserligen en cache som höll i cirka 35 minuter. Men efter det visste de inte längre vart trafiken skulle skickas. Alla förfrågningar returnerade 404, även om applikationerna på AWS och egen hårdvara var helt fine.

När ett fel skapar ett annat

Det stora antalet felaktiga förfrågningar ledde till att GitHubs rate limiting slog till på Railways OAuth-slutpunkter. Det var inte en Google-outage som gjorde det – det var GitHub som gjorde sin jobb för att skydda sig själv.

Resultatet blev att användare inte längre kunde logga in eller göra nya deploymenter. Ett sekundärt fel hade plötsligt blivit lika allvarligt som det ursprungliga.

Redundans utan styrning är bara en illusion

Railway hade lyckats sprida ut sina workloads över flera moln. Men kontrollplanet, som styr hur trafiken ska hittas, låg fortfarande på ett enda ställe. Det räcker inte att ha flera platser för dina applikationer – om den instans som säger "var är appen?" går ner, går hela tjänsten ner.

Detta visar hur viktigt det är att också göra kontrollplanet redundant. Det är inte en glamorös del av arkitekturen, men det är ofta den del som kan göra störst skada när den misslyckas.

Vad du bör tänka på när du bygger

Om du använder multi-cloud för att få bättre resiliens, bör du se på följande:

  • Kontrollplanet och dataplane är inte densamma. Spelar du ut dina workloads över flera moln, men har routing och service discovery på ett enda ställe, så har och har du inte multi-cloud redundans.

  • Cache ger bara tillfällig lindring. Det var den som höll Railway i gång 35 minuter. Men efter den tiden var det en ny situation,而不是 en lösning.

  • Flera fel kan förstärka varandra. När GitHub började rate-lima blev det svårare att återställa tjänsten. Incidents som börjar med ett ett, men i själva amr حقيقي

  • Ha kontaktvägar med molnleverantören. Railway kunde inte förhindra Google Clouds automatiska åtgärd, men om det hade funnits snabbare kommunikation med emergency support, hade det kanske kunna ha hjälpt.

Vad Railway gjorde efteråt

Railway har nu sagt att de ska ta bort Google Cloud från sin dataplane och göra sitt kontrollplan redundant över flera platser. Detta är ett dyrt men nödvändigt arbete.

För oss som ser på från utanför, är det en påminnelse att multi-cloud är en sökning efter hidden dependencies. De som man hittar i labbmiljö är lärdomar. De som man stöter på i produktion är dyra.

Read in other languages:

RU BG EL CS UZ TR FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN