Допълнително натоварване от Service Mesh
Добавихме Istio за наблюдаемост. То добави 15ms към всяка заявка.
Математиката:
- Sidecar proxy: ~15ms на скок
- Средна потребителска заявка: 50 между-услугови извиквания
- Общо overhead: 750ms
- Базова латентност: 200ms
- Нова латентност: 950ms
Защо добавихме Istio:
- Разпределено проследяване
- mTLS навсякъде
- Управление на трафика
- Circuit breakers
- "Всички го използват"
Какво реално ни трябваше:
- Проследяване: OpenTelemetry (библиотека, без proxy)
- mTLS: Не е в нашия модел на заплахи
- Управление на трафика: Kubernetes услуги са достатъчни
- Circuit breakers: Базирани на библиотека (Resilience4j)
Алтернативата:
- Премахнахме Istio
- Добавихме OTel SDK директно
- Resilience модели базирани на библиотеки
- Латентност: 950ms → 200ms
- Ресурси на клъстера: -40%
Урок: Service mesh не е безплатен. Знайте цената преди да го приемете.