Pod Tahliye Kaskadı
Düğümün diski doldu. Tüm podlar tahliye edildi. Yeni podlar aynı düğüme zamanlandı. Tekrar tahliye edildi. Sonsuza kadar tekrarla.
Zaman çizelgesi:
- 02:00: Düğüm diski %90'a ulaştı
- 02:05: Kubelet podları tahliye etmeye başladı
- 02:06: Podlar yeniden zamanlandı... aynı düğüme (en çok kullanılabilir kaynak)
- 02:07: Daha fazla log, daha fazla disk kullanımı
- 02:08: Tekrar tahliye edildi
- 02:09: Uyarı tetiklendi (sonunda)
Kök neden:
- Uygulama konteyner dosya sistemine log yazıyor
- Log rotasyonu yapılandırılmamış
- ephemeral-storage limitleri ayarlanmamış
- Düğüm sadece disk baskısından sonra işaretlendi, ancak podlar ayrıldığında işaretler temizlendi
Çözüm:
resources:
limits:
ephemeral-storage: "2Gi"
requests:
ephemeral-storage: "1Gi"
Artı:
- stdout'a log yazma (Fluentd tarafından toplanır)
- Konteyner log rotasyonunu yapılandırma
- Düğüm disk kullanımını %70'te uyarılarla izleme
Ders: ephemeral-storage limitlerini ayarlayın. Her zaman.