Railway tizimining to‘liq ishdan chiqishi: Redundancy yetmadi!

Railway tizimining to‘liq ishdan chiqishi: Redundancy yetmadi!

May 20, 2026 cloud-infrastructure resilience outage-analysis control-plane multi-cloud-architecture dns-routing incident-response backend-engineering

Multi-Cloud Haqiqatan Ham Ishonchli Bo'ladimi?

Ko‘pchilik infratuzilma bilan shug‘ullanadigan odamlar shunday o‘ylaydi: ishlaringni AWS, Google Cloud va o‘z serverlaringga tarqatsang, bitta provayder ishlamay qolsa ham hammasi xavfsiz bo‘ladi. Bu fikr to‘g‘ri tuyuladi. Ammo haqiqat har doim ham shunday emas.

Railway ham shu yo‘l bilan ishlagan. Ularning mijozlari Google Cloud, AWS va Railway Metalda joylashgan edi. Hammasi to‘g‘ri rejalashtirilgan edi. Lekin 2026-yil 19-may kuni kechqurun hammasi o‘zgardi. Google Cloudning avtomatik tizimi Railwayning hisobini hech qanday ogohlantirishsiz bloklab qo‘ydi. Natijada 8 soat o‘tgach, xizmat qayta ishga tushdi.

Eng qiziq tomoni shuki, asosiy serverlar hech qachon ishlamay qolmagan.

Nima Sababli Ishlamay Qoldi?

Muammo boshqa joyda edi. Mijozlarning so‘rovlari to‘g‘ridan-to‘g‘ri serverlarga emas, edge proxylarga borardi. Bu proxylar esa "qaysi app qayerda joylashgan" degan ma’lumotni control plane deb ataladigan tizimdan olardi. Railwayning control plane esa faqat Google Cloudda joylashgan edi.

Google Cloud hisobini bloklaganda, control plane ham ishlamay qoldi. Lekin proxylar 35 daqiqa davomida cache qilingan ma’lumotlardan foydalanib, ishni davom ettirdi. Bu vaqt o‘tgach, ma’lumotlar yangilanmadı. So‘rovlari boshqa qayerga borishini bilmay qoldi. Mijozlar uchun xizmat to‘liq ishlamay qoldi.

Keyingi Muammo

So‘rovlari boshqa ishlamay qolgach, GitHub ham Railwayning OAuth so‘rovlari uchun rate limit qo‘ydi. Bu GitHubning muammosi emas edi. Lekin natijada mijozlar login qila olmaydigan va deployments qila olmaydigan holatga duchar bo‘ldi.

Asosiy Sabab

Railway asl serverlarini AWS, Google Cloud va Railway Metalda tarqatgan edi. Bu yaxshi rejalash. Lekin control plane faqat bitta joyda — Google Cloudda — faqat bitta tizimda — va faqat bitta provayderda — joylashgan edi. Bitta avtomatik bloklashni haddi-tortish ishga tushirdi.

Redundancy — tarqatish — haqiqiy ishonchli emas. Agar control plane bitta joyda, control plane redundancy — tarqatish — haqiqiy ishonchli emas.

Sizga Qanday Foyda Bo‘ladi?

  1. Control plane va data plane — ikki turdagi tizim. Serverlar tarqatilgan bo‘lsa ham, routing va service discovery bir joyda — va bir tizimda — joylashgan bo‘lsa, muammo paydo bo‘ladi.
  2. Cache — vaqtni sotib olish — vaqtni sotib olish — vaqtni sotib olish. 35 daqiqa vaqt sotib olgan bo‘lsa ham, bu dauerhaft emas.
  3. Bir muammo boshqa muammolarni keltirib chiqaradi. Rate limitni keltirib chiqaradi. Rate limitni keltirib chiqaradi. Rate limitni keltirib chiqaradi.
  4. Cloud provayderning avtomatik tizimlari bilan gaplash.

Keyingi Qadam

Railway endi control plane ni AWS va Railway Metalda ham joylashtirishni boshlagan. Bu qimmat ish, ishni boshlagan. Bu qimmat ish, ishni boshlagan.

Bu voqea shuni ko‘rsatadiki, multi-cloud haqiqiy ishlamay qolsa ham, hidden dependency lar bor.

Read in other languages:

RU BG EL CS TR SV FI RO PT PL NB NL HU IT FR ES DE DA ZH-HANS EN