Auto Skaling y balance SLA

1) Objetivos y principios

El objetivo del scaling automático es mantener el SLO (latencia/disponibilidad) a un costo mínimo.
SLA↔SLO↔SLA Costo: No estar detrás de una escala «infinita» - patinando dentro del presupuesto de errores y límites monetarios.
Modelo de carga abierta: las solicitudes entrantes forman un flujo de intensidad 'λ'; el sistema debe proporcionar un paralelismo medio de 'N ≈ λ × W' (la ley de Little), donde 'W' es el tiempo medio de servicio.

2) ¿Qué métricas son aptas para desencadenantes?

Técnicos:

CPU/RAM/IO (proxy para saturación).
Competitividad (in-flight) y pool wait.
p95/p99 aplicación latencia (realmente refleja SLO).
RPS/tasa de arrival (tasa de solicitudes).
Colas: profundidad, edad de los mensajes, velocidad de procesamiento.

SLI empresarial:

Porcentaje de transacciones exitosas ≤ T segundos (depósitos, cheques de salida).
Tiempo de confirmación de las operaciones.

Recomendación: combinar 2-3 señales: por ejemplo, latency + pools para servicios y queue depth + age para workers.

3) Skale predictivo reactivo vs

Reactivo (feedback): HPA/ASG aumentan/reducen las réplicas de hecho. Es simple, pero hay un trago.
Predictivo (feed-forward): calendario/telemetría pasada/eventos de mercado. Incluye pre-warm: elevar N instancias más allá de Δ t hasta el pico.
En la práctica: híbrido - baseline (mínimo), busto predictivo antes de eventos, reactivo trae.

4) Políticas de Skale y parámetros de estabilidad

Target tracking: mantener la métrica cerca del objetivo (por ejemplo, CPU 60%).
Escalada de paso: escalones cuando se superan (agresivamente en los spikes).
Stabilization window/cooldown: suavizar el flapping (por ejemplo, 60-180 segundos).
Min/Max: límites inferior y superior; max - dentro de los límites de DB/proveedor.

5) Coordinación de niveles (cascada arquitectónica)

1. El perímetro/API-gateway es elástico, pero con límites y retroceso.
2. Servicios - HPA por latency/RPS/pool wait.
3. Colas/workers - KEDA/ASG por la profundidad/edad de los mensajes.
4. BD/caché - escalar cuidadosamente (réplicas/charding), de antemano.
Regla: no aumente la aplicación más rápido de lo que los «datos» pueden soportar.

6) Las colas y la ley de Little (cómo contar los workers)

Para una cola con entrada 'λ' (msg/s) y tiempo medio de procesamiento 'W' (s):

El paralelismo deseado es: 'N _ min ≈ λ × W'.
Con margen por pico/cola: 'N ≈ λ × W × (1. 2–1. 5)`.

Auto Skaling y balance SLA

Auto Skaling y balance SLA

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos