Arquitectura de capa operativa
1) Tarea de capa operativa
La capa operativa es una plataforma y un conjunto de prácticas que permiten una operación predecible: lanzamientos rápidos, MTTR bajo, cumplimiento y costo manejable. Crea barandillas para productos e infraestructuras: estándares, automatización, observabilidad, gestión de cambios y acceso seguro.
2) Modelo lógico (planos y dominios)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
Dominios clave:
- Directorio de servicios/CMDB: registro único de servicios, propietarios, SLO, dependencias.
- Orquestación: paipelines, tareas, coronas, backups, DR.
- Políticas (Policy-as-Code): alertas, accesos, retentions, change-gates.
- Observabilidad: métricas/trayectos/registros, SLI/SLO, alertas y página de estado.
- Accesos/secretos: JIT/JEA, tokens, crypto, KMS/Vault.
- Incidentes/cambios: ITSM/tickets, AMB/RFC, post-mortem, simulaciones.
- DataOps: contratos de datos, frescura, lineage, calidad.
- FinOps: contabilidad de costos, límites, cuotas, optimizaciones.
3) Flujos de referencia
3. 1 Lanzamiento (CI/CD → GitOps)
1. PR con código/manifiestos → pruebas/escáneres → firma de artefactos.
2. Deploy progresivo (canario/azul-verde) con SLO-gardriles.
3. Auto-rollback en degradación; anotaciones de lanzamiento en telemetría.
3. 2 Incidente (Nat → Respond → Recover)
1. Burn-rate/síntomas + quórum → Page + war-room.
2. Diagnóstico por rutas/logs; playbucks.
3. Retroceso/folback/límites → AAR/RCA → CAPA.
3. 3 Cambio (RFC/CAF)
1. Análisis de riesgo + ventana de mantenimiento + plan de respaldo.
2. Suppression alertas no críticas, señales SLO están activas.
3. Evidence e informe, revisión de políticas.
4) Catálogo de servicios y CMDB
Atributos: propietario, SLI/SLO, dependencias (internas/externas), dashboards, alertas, runbook 'y, clases de datos (PII/finanzas), zonas (prod/stage/dev).
Auto-llenado: desde CI/CD, telemetría y repositorios.
Uso: enrutamiento de alertas, escalaciones, cálculo de blast radius, informes de madurez.
5) Políticas como código (Policy-as-Code)
Categorías: accesos (RBAC/ABAC), seguridad (SAST/SCA/DAST), alertas/SLO, retenciones, change-gates, recursos/cuotas.
Mecánica: reglas declarativas (YAML/Rego/CEL), validación en CI, ejecución en Control Plane.
Ejemplo de gate: «deploy está permitido si todos los SLO son verdes, no hay SEV-1 activos, las pruebas han pasado, las firmas son válidas».
6) Orquestación y ejecución
CI/CD: build → scan → sign → promote.
Jobs/CronJobs/DAG: backups/rotaciones/backfills; Los downline y la competencia (Forbid/Replace).
Idempotencia y retroceso: check-then-act, marcadores de paso, circuit-breaker.
Derechos de inicio: cuentas JIT limitadas a scope; auditoría.
7) Observabilidad y calidad de las señales
SLI/SLO por dominios: disponibilidad/latencia/éxito de las operaciones empresariales, frescura de datos.
Alertas: burn-rate en dos ventanas, quórum, dedup/rate-limit, runbook y propietario.
Los registros/métricas/tracks están relacionados trace_id; canales de gráficos a logs.
Status page: plantillas, frecuencias de update, auditoría de publicaciones.
8) Accesos, secretos, cripto
Almacenes de secretos (KMS/Vault), rotaciones, prohibición de secretos en repos.
JIT/JEA: emisión de derechos durante la operación/turno.
mTLS/OIDC entre servicios; firma de imágenes/SBOM.
Auditoría: registros inmutables, WORM para acciones críticas.
9) Incidentes, cambios, ventanas de servicio
Incidentes: Matriz SEV, IC/TL/Comms/Scribe, plantillas de apdate, AAR→RCA→CAPA.
Cambios: RFC/CAF, riesgo-evaluación, canarios, retroceso.
Ventanas de servicio: selección de tiempo, comunicaciones, reglas de suppression, evidence.
10) DataOps en la capa operativa
Contratos de datos (esquemas, SLA de frescura/integridad).
Pruebas DQ en cada capa (Bronce/Plata/Oro).
Lineage y directorios; cuarentena para el matrimonio.
Datos de SLO y alertas de frescura/deriva.
11) FinOps y costo
Unit-economy: $/1k consultas, $/transacción exitosa, $/GiB registros, $/SLO-ítem.
Cuotas/límites: egresos, volúmenes de registro, duración de las tareas.
Optimizaciones: lotes/caché/materialización/archivos (hot-warm-cold).
Informes: baratos «costosos» servicios/consultas, alertas para sobrecostos.
12) Interfaces: ChatOps/Portals/API
Portal de la plataforma: catálogo de servicios, botones de «deploy/back», estado de SLO, ranuras de ventanas, políticas.
ChatOps: `/deploy`, `/handover start`, `/mw create`, `/status update` — с аудитом и evidence.
API: para la integración con ITSM/HR/facturación/proveedores.
13) Modelo de responsabilidad (RACI)
Plataforma/SRE: plano de control, políticas, observabilidad, rotaciones.
Product/Dev: servicios SLO, lanzamientos, playbooks.
Seguridad: secretos, vulnerabilidades, IR.
Data/Analytics: DataOps, SLA de frescura/calidad.
Compliance/Legal: regulación, almacenamiento de la evidence.
Support/Comms: página de estado, mensajes de cliente.
14) Métricas de madurez de la capa operativa
Cobertura de SLO:% de los servicios con SLI/SLO y tasa de burn definidos.
Alert hygiene: actionable ≥80%, FP ≤5%, alerts/on-call-hour (p95).
DORA: frecuencia de deployes, tiempo de lectura, MTTR, cambio-tasa de falla.
Cambio de gobierno:% de cambios por RFC,% de ventanas «on-time», retrocesos.
Seguridad: tiempo medio de rotación de secretos/certificados, cierre de vulnerabilidades.
FinOps: $/unidad y% de ahorro de QoQ.
Docs: recubrimiento runbook/SOP, frescura (≤90 días).
15) Lista de verificación «Capa operativa mínimamente viable (MVP)»
- Directorio de servicios/CMDB con propietarios, SLO, dependencias y dashboards.
- CI/CD + GitOps, firma de artefactos, lanzamientos progresivos, retroceso automático.
- Telemetría combinada (logs/métricas/tracks) con alertas trace_id y SLO (ventanas dobles, quórum).
- Policy-as-Code: accesos, alertas, retenciones, change-gates.
- Almacén de secretos, JIT/JEA, mTLS/SSO, auditoría inmutable.
- ITSM/incidentes: matriz SEV, playbooks, página de estado, plantillas de apdate.
- Ventanas de servicio: calendario, plantillas RFC, planes de backout, evidence.
- FinOps: visibilidad de costos, cuotas/límites, informes.
- Documentación (Docs-as-Code), plantillas SOP/Runbook, lista de comprobación de preparación para la prueba.
16) Anti-patrones
«Plataforma = conjunto de scripts» sin el plano de control y las políticas.
Monitoreo «de todo» → avalancha de alertas, alert fatigue.
Cambios prod manuales sin GitOps/auditoría.
Secretos en las variables de entorno sin almacenamiento y rotación.
Ausencia de SLO: discutir sobre sentimientos, no sobre objetivos de calidad.
Directorios/tablas de propietarios dispersos → escalaciones perdidas.
No hay ningún plan de retroceso en los cambios de alto riesgo.
Los registros sin estructura/correlación → largas investigaciones.
17) Mini plantillas
17. 1 Tarjeta de servicio (catálogo)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. 2 Política de alerta (idea)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 Gate deboy (pseudo)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) Hoja de ruta para la implementación (8-12 semanas)
1. Ned. 1-2: inventario de servicios → catálogo/CMDB; SLI/SLO básicos y dashboards.
2. Ned. 3-4: GitOps + lanzamientos progresivos; Policy-as-Code (alertas/retenciones).
3. Ned. 5-6: telemetría única y página de estado; burn-rate con quórum; cobertura de runbook.
4. Ned. 7-8: secretos/JIT, auditoría inmutable; RFC/ventanas de servicio.
5. Ned. 9-10: Informes FinOps, cuotas/límites; optimización de registros y almacenamiento.
6. Ned. 11-12: simulaciones de incidentes/DR; métricas de madurez; un plan de mejora continua.
19) Resultado
La arquitectura de capa operativa es un plano de control más prácticas estandarizadas que convierten la operación en un proceso repetible, medible y seguro. El catálogo de servicios, GitOps, telemetría, políticas, accesos seguros y cambios gestionados dan lanzamientos sostenibles, recuperación rápida y costo transparente, es decir, previsibilidad operativa para el negocio.