GH GambleHub

Auto Skaling y balance SLA

Auto Skaling y balance SLA

1) Objetivos y principios

El objetivo del scaling automático es mantener el SLO (latencia/disponibilidad) a un costo mínimo.
SLA↔SLO↔SLA Costo: No estar detrás de una escala «infinita» - patinando dentro del presupuesto de errores y límites monetarios.
Modelo de carga abierta: las solicitudes entrantes forman un flujo de intensidad 'λ'; el sistema debe proporcionar un paralelismo medio de 'N ≈ λ × W' (la ley de Little), donde 'W' es el tiempo medio de servicio.


2) ¿Qué métricas son aptas para desencadenantes?

Técnicos:
  • CPU/RAM/IO (proxy para saturación).
  • Competitividad (in-flight) y pool wait.
  • p95/p99 aplicación latencia (realmente refleja SLO).
  • RPS/tasa de arrival (tasa de solicitudes).
  • Colas: profundidad, edad de los mensajes, velocidad de procesamiento.
SLI empresarial:
  • Porcentaje de transacciones exitosas ≤ T segundos (depósitos, cheques de salida).
  • Tiempo de confirmación de las operaciones.

Recomendación: combinar 2-3 señales: por ejemplo, latency + pools para servicios y queue depth + age para workers.


3) Skale predictivo reactivo vs

Reactivo (feedback): HPA/ASG aumentan/reducen las réplicas de hecho. Es simple, pero hay un trago.
Predictivo (feed-forward): calendario/telemetría pasada/eventos de mercado. Incluye pre-warm: elevar N instancias más allá de Δ t hasta el pico.
En la práctica: híbrido - baseline (mínimo), busto predictivo antes de eventos, reactivo trae.


4) Políticas de Skale y parámetros de estabilidad

Target tracking: mantener la métrica cerca del objetivo (por ejemplo, CPU 60%).
Escalada de paso: escalones cuando se superan (agresivamente en los spikes).
Stabilization window/cooldown: suavizar el flapping (por ejemplo, 60-180 segundos).
Min/Max: límites inferior y superior; max - dentro de los límites de DB/proveedor.


5) Coordinación de niveles (cascada arquitectónica)

1. El perímetro/API-gateway es elástico, pero con límites y retroceso.
2. Servicios - HPA por latency/RPS/pool wait.
3. Colas/workers - KEDA/ASG por la profundidad/edad de los mensajes.
4. BD/caché - escalar cuidadosamente (réplicas/charding), de antemano.
Regla: no aumente la aplicación más rápido de lo que los «datos» pueden soportar.


6) Las colas y la ley de Little (cómo contar los workers)

Para una cola con entrada 'λ' (msg/s) y tiempo medio de procesamiento 'W' (s):
  • El paralelismo deseado es: 'N _ min ≈ λ × W'.
  • Con margen por pico/cola: 'N ≈ λ × W × (1. 2–1. 5)`.
Contact

Póngase en contacto

Escríbanos ante cualquier duda o necesidad de soporte.¡Siempre estamos listos para ayudarle!

Iniciar integración

El Email es obligatorio. Telegram o WhatsApp — opcionales.

Su nombre opcional
Email opcional
Asunto opcional
Mensaje opcional
Telegram opcional
@
Si indica Telegram, también le responderemos allí además del Email.
WhatsApp opcional
Formato: +código de país y número (por ejemplo, +34XXXXXXXXX).

Al hacer clic en el botón, usted acepta el tratamiento de sus datos.