FinOps y presupuesto de infraestructura
1) Objetivos de FinOps y área de responsabilidad
FinOps combina ingeniería, finanzas y productos para administrar el costo mientras se mantiene la velocidad de entrega/SLO.
Resultados:- Transparencia de costos por servicios/comandos/tenantes/regiones.
- Previsibilidad (plan/hecho, desviaciones, reforecast).
- Consciente de trade-off: rendimiento ↔ costo.
- Product/Owners - Objetivos de ingresos/economía de la unidad.
- Eng/Platform - palancas arquitectónicas y SLO.
- Finanzas - presupuestos, commits, informes.
- FinOps Guild - proceso, herramientas, aprendizaje.
2) Métricas y economía de la unidad
Costo básico SLI:- Costo/Req (costo 1 solicitud), Costo/ActiveUser/Month, Costo/Tenant/Brand/Región.
- COGS% (costo/ingresos), Gross Margin.
- Waste% = pagado − utilizado.
- Coverage% (RI/CUD/SP) es la proporción de carga cubierta por los commits.
- Egress/Req, Storage/Req, Observability/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Etiquetado, propiedad y política
Etiquetas obligatorias: 'env', 'team', 'service', 'tenant', 'product', 'cost _ center', 'slo _ tier', 'owner', 'ttl'.
Propiedad: cada recurso tiene un plazo de revisión y responsabilidad.
Políticas como código: prohibición de crear recursos sin etiquetas, límites de tamaño, regiones válidas, tiempo de vida de los entornos de prueba.
- Deny «egresa pública sin proxy/PrivateLink».
- El requisito 'description/owner/ttl' para SG/NSG/firewalls.
- Cuotas presupuestarias por equipo (umbrales blandos/rígidos).
4) Ciclos presupuestarios y calendario
Presupuesto anual (AOP): objetivos para COGS, márgenes, commits junto a las nubes.
Planes trimestrales: ajustes por roadmap/estacionalidad.
Rolling-forecast (mensual, horizonte 6-9 meses): toma en cuenta el hecho y las tendencias, recalcula el déficit/superávit.
Grupo de incidentes: reserva del 3-5% para egresos/capacidad imprevistos.
1. Empresa → 2) Producto/Marca → 3) Equipo/Servicio → 4) Entorno → 5) Clase de recursos.
5) Predicción de carga y costos
Conductores: MAU/DAU, RPS a lo largo de las rutas, volúmenes de datos, frecuencia de batch/ML, estacionalidad, campañas de marketing.
Modelos: exposición. suavizar + eventos. ajustes (lanzamientos, regiones, proveedores).
Si: crecimiento de RPS en X%, migración a otra región, habilitación de caché/edge, cambio de clase de almacenamiento de información.
- Separe las variables fijas (commits, leasing, AlwaysOn) y las variables (on-demand/spot, egress).
- Tenga una «escalera» de zoom (escalones capex/commit) a los picos.
6) Commits en proveedores de nube
Reservado Instances/CUD/Planes de Ahorro: Cierre estable 50-70% de la carga base.
Diversificar por plazo (1/3/alargable), por región/tipo de instancia.
Buffer On-Demand para picos y fallos.
Spot/Preemptible: statless/CI/analítica de fondo, con fallback seguro.
- Primero rightsizing y auto skaling, luego commits.
- Reventa/mercados (donde están disponibles) para RI no utilizados.
- Controle las tarifas egress y descuentos por canales directos.
7) Palancas arquitectónicas de reducción de costos
Compute: auto scaling horizontal, Karpenter/Cluster Autoscaler, class-based QoS, desactivar clústeres dev «nocturnos».
Almacenamiento: clases de almacenamiento (hot/warm/cold), liffycles/TTL, lotes, dedoup, compresión.
Red: CDN/edge + SWR, PrivateLink/PSC, agregación de llamadas API, HTTP/3/QUIC.
DB/Cache: pgBouncer/RDS Proxy, réplicas read, archivo TTL/, caché de dos etapas.
Observabilidad: tail-sampling tracks (100% de errores y p99, el 1-10% restante), retenciones por clases, métricas de descarga.
8) Chargeback / Showback
Modelo de facturación interna:- Showback (suavemente): informe mensual sin transferencia de dinero.
- Chargeback (duro): el cargo real del presupuesto del equipo.
- Los costos directos → por etiquetas.
- General (egress, plataforma de loging) → proporcional a los controladores (consultas, registros GB, almacenamiento).
- «Advocacy» de casos controvertidos: el gremio FinOps ayuda a los equipos a optimizar.
9) Dashboards y alertas
Mínimo obligatorio:- Mapa de costos: por servicios/comandos/tenantes/regiones con drilim al recurso.
- Plan/hecho/desviaciones + predicción (rolling).
- Coverage RI/CUD/Spot y ahorros.
- Egress heatmap (direcciones, proveedores, PSP).
- Costo ↔ SLO: correlación p95/p99 con Costo/Req.
- Anomaly detection: aumento> 30% de la tendencia en 24 h.
- Presupuestos: 50/80/100% del período.
- Aumento repentino de los egresos, «DEBUG-logs en venta», caída de la cobertura%.
- «Servicios Idle» y volumes/IP no utilizados.
10) Procesos y RACI
Semanal FinOps-stand-up: principales desviaciones, acciones, propietarios.
Change review: estimación del valor de los fich antes de la inclusión previa.
Costo de GameDays: picos/banderas artificiales → verificación de la sostenibilidad del presupuesto.
Runbooks: cómo aumentar/reducir los commits, cómo cortar urgentemente los egress/logs, cómo aparcar los alrededores.
11) Documentos y plantillas
11. 1 Plantilla de presupuesto (fragmento)
Ingresos/MAU/tenantes
COGS: Compute/Storage/Network/Observability/3rd-party
Comandos RI/CUD/SP (cobertura, plazo)
Reserva de incidentes (3-5%)
Plan de optimización (economía-efecto, propietario, plazo)
11. 2 Plantilla de «si»
ΔRPS = +20% → ΔCompute + ΔEgress
Activar CDN-SWR → −X% egress, −Y $
Traducción de registros de 30 a 14 días → −Z $
CUD + 20k $/año → retorno de 7,5 meses
12) Gestión de riesgos y cumplimiento
Proveedores: SLA/multas, estrategias de fin de semana, riesgos de bloqueo.
Jurisprudencia: regiones/períodos de retención, WORM para auditoría.
FX/moneda: sensibilidad al tipo de cambio, contabilidad multivalor.
Capitalización/depreciación: interpretación de commitas a largo plazo y conexiones privadas.
13) Antipatternas
Recursos «temporales» sin TTL → para siempre.
Commits a rightsizing/auto skaling.
Falta de etiquetas → costos «grises».
Registro único DEBUG en venta/100% de los tracks.
Dev/stage en 24 × 7 sin pausa automática.
Spot sin búfer on-demand.
Egresa pública en cada spoke sin CDN/proxy.
14) Especificidad de iGaming/finanzas
PSP/comisiones - parte de COGS: smart-routing a más barato/confiable, caché de estados, idempotencia de repeticiones.
KYC/AML: paquete de consultas, caché con TTL por política, métrica de costo/KYC.
«Maneras del dinero» (depósito/retiro): presupuesto separado/SLO, capacidad provisioned sólo aquí, dashboards «costo-en-tiempo real».
Residencia de datos: cuentas/proyectos regionales, CDN/edge locales, canales privados al PSP.
GGR/marginalidad: vincular el Costo/Req a los verticales/proveedores del juego; informes per marca/jurisdicción.
15) Recetas de ahorro rápido
Habilita el tail-sampling de los tracks y acorta las retenciones de los logs por clase.
Elevar SWR en CDN, calentar origin-shield.
Ir a pgBouncer/RDS Proxy, eliminar «tormenta» connects.
Reducir las solicitudes/límites a p95 y habilitar Karpenter.
Transfiera la estática/archivo a cold-storage con los fluidos.
Combine el resultado a través de PrivateLink/PSC, fije FQDN-allowlists.
16) Lista de comprobación de disponibilidad de FinOps
- Etiquetas/propietarios/TTL en el 100% de los recursos; las políticas bloquean sin etiquetas.
- Presupuestos y alertas 50/80/100%; anomaly detection está habilitado.
- Rightsizing realizado; auto skaling/pausa de los entornos dev.
- Coverage RI/CUD/SP ≥ objetivo (50-70% de la base); hay un buffer on-demand.
- CDN/edge + SWR; canales privados a PaaS/PSP; egress-dashboard.
- Logs/tracks: tail-sampling, retenciones por clase; filtrado PII.
- Políticas de almacenamiento: clases, TTL, archivo; partición de mesas grandes.
- Dashboards Costo/Req, Costo/Tenant/Brand/Región; Heatmap egress; plan/hecho/previsión.
- Procesos: FinOps-stand-up, change-review, GameDays.
- Para iGaming: presupuestos de «formas de dinero», contabilidad PSP/KYC/AML, auditoría WORM.
17) TL; DR
Haga transparencia (etiquetas, dashboards, plan/hecho), active el rightsizing + auto skaling, cierre la carga básica con commits (RI/CUD/SP), reduzca el egress/almacenamiento a través de CDN/SWR, PrivateLink, clases y ciclos de vida, paga sólo por la valiosa telemetría. Gestione su presupuesto a través de rolling-forecast, alertas y chargeback, y para iGaming mantenga un circuito separado y un presupuesto de «senderos de dinero» con SLO rígidos y PSP/KYC/AML teniendo en cuenta.