Spot Instance Kara Cuma Felaketi
"Spot instance'lar %90 tasarruf sağlar!" — Evet, sağlar. Ta ki bir trafik patlaması sırasında 50 tanesi birden geri alınana kadar.
Kara Cuma zaman çizelgesi:
- 06:00 - Trafik artmaya başlıyor
- 08:00 - Otomatik ölçekleme spot instance'lar ekliyor
- 10:00 - Tüm sistemler normal
- 11:30 - AWS aynı anda 50 spot instance'ı geri alıyor
- 11:31 - Otomatik ölçekleme on-demand (10 kat maliyetle) başlatmaya çalışıyor
- 11:32 - AZ'mizde yetersiz kapasite
- 11:33 - 15 dakikalık kısmi kesinti
Sorun:
Maliyet tasarrufu için %100 spot kullanıyorduk. On-demand instance'lardan oluşan bir tabanımız yoktu. AWS kapasiteye geri ihtiyaç duyduğunda, bir geri dönüş planımız yoktu.
Ne düzelttik:
- Taban: Garantili kapasite için %30 on-demand
- Birden çok instance türüne sahip spot filosu
- Kapasite kısıtlamalarını azaltmak için Multi-AZ
- Kapasite sınırlı olduğunda zarif düşüş (graceful degradation)
Ders: Batch işleri için spot mu? Mükemmel. Geri dönüş planı olmadan üretim yük dengelemesi için spot mu? Kumar oynuyorsunuz.