Her servis için yüksek erişilebilirliğimiz vardı. Trafiği hepsine yönlendiren tek şey hariç.

Kurulum:

  • Her biri 3+ kopyaya sahip 20 servis
  • Çoklu AZ dağıtımı
  • Pod kesinti bütçeleri
  • NGINX Ingress Controller: 1 kopya

Olay:

  • Ingress controller pod'u OOMKilled oldu
  • Yeniden zamanlamak için 30 saniye
  • Tüm dış trafik: 502 Bad Gateway
  • Her. Bir. Servis. Etkilendi.

Neden sadece 1 kopya?

  • "Bu sadece altyapı, asla başarısız olmaz"
  • Varsayılan Helm grafiği değeri: 1
  • Kimse değiştirmedi

Düzeltme:

controller:
                                    replicaCount: 3
                                    affinity:
                                    podAntiAffinity:
                                    requiredDuringSchedulingIgnoredDuringExecution:
                                    - topologyKey: "kubernetes.io/hostname"

Ayrıca:

  • minAvailable: 2 olan PodDisruptionBudget
  • Uygun kaynak istekleri/limitleri
  • Trafik artışları için HPA

Ders: Ingress controller'ınız SİZİN erişilebilirliğinizdir. Ona göre davranın.


← Alınan Derslere Dön