Auto Skaling y balance SLA
Auto Skaling y balance SLA
1) Objetivos y principios
El objetivo del scaling automático es mantener el SLO (latencia/disponibilidad) a un costo mínimo.
SLA↔SLO↔SLA Costo: No estar detrás de una escala «infinita» - patinando dentro del presupuesto de errores y límites monetarios.
Modelo de carga abierta: las solicitudes entrantes forman un flujo de intensidad 'λ'; el sistema debe proporcionar un paralelismo medio de 'N ≈ λ × W' (la ley de Little), donde 'W' es el tiempo medio de servicio.
2) ¿Qué métricas son aptas para desencadenantes?
Técnicos:- CPU/RAM/IO (proxy para saturación).
- Competitividad (in-flight) y pool wait.
- p95/p99 aplicación latencia (realmente refleja SLO).
- RPS/tasa de arrival (tasa de solicitudes).
- Colas: profundidad, edad de los mensajes, velocidad de procesamiento.
- Porcentaje de transacciones exitosas ≤ T segundos (depósitos, cheques de salida).
- Tiempo de confirmación de las operaciones.
Recomendación: combinar 2-3 señales: por ejemplo, latency + pools para servicios y queue depth + age para workers.
3) Skale predictivo reactivo vs
Reactivo (feedback): HPA/ASG aumentan/reducen las réplicas de hecho. Es simple, pero hay un trago.
Predictivo (feed-forward): calendario/telemetría pasada/eventos de mercado. Incluye pre-warm: elevar N instancias más allá de Δ t hasta el pico.
En la práctica: híbrido - baseline (mínimo), busto predictivo antes de eventos, reactivo trae.
4) Políticas de Skale y parámetros de estabilidad
Target tracking: mantener la métrica cerca del objetivo (por ejemplo, CPU 60%).
Escalada de paso: escalones cuando se superan (agresivamente en los spikes).
Stabilization window/cooldown: suavizar el flapping (por ejemplo, 60-180 segundos).
Min/Max: límites inferior y superior; max - dentro de los límites de DB/proveedor.
5) Coordinación de niveles (cascada arquitectónica)
1. El perímetro/API-gateway es elástico, pero con límites y retroceso.
2. Servicios - HPA por latency/RPS/pool wait.
3. Colas/workers - KEDA/ASG por la profundidad/edad de los mensajes.
4. BD/caché - escalar cuidadosamente (réplicas/charding), de antemano.
Regla: no aumente la aplicación más rápido de lo que los «datos» pueden soportar.
6) Las colas y la ley de Little (cómo contar los workers)
Para una cola con entrada 'λ' (msg/s) y tiempo medio de procesamiento 'W' (s):- El paralelismo deseado es: 'N _ min ≈ λ × W'.
- Con margen por pico/cola: 'N ≈ λ × W × (1. 2–1. 5)`.