Fortalecimiento del entorno prod y auditoría
1) Objetivos y zona de responsabilidad
La producción no solo es el «entorno más estable», sino también el más atacado. Nuestra tarea es:- minimizar el área de ataque y Blast Radius;
- proteger los canales, las cuentas, los secretos y los artefactos de suministro;
- detectar y responder a incidentes más rápidamente que los objetivos MTTR;
- Confirmar el cumplimiento de las normas (GDPR/PCI DSS/reglas locales);
- mantener la verificabilidad (auditabilidad) de todas las acciones críticas.
Principios clave: Fideicomiso Cero, Privilegio Least, Segmentation, Everything-as-Code, Security-by-Default.
2) Perímetro de red y segmentación
Segmentos: Edge (WAF, bot management, DDoS), DMZ (gateway), App (microservicios), Data (DB/caché), Backoffice/Ops (CI/CD, observabilidad).
Políticas de L4/L7: deny-by-default, explícito allow por servicios/no space/puertos.
mTLS dentro del clúster; TLS 1. 2 + en el perímetro, HSTS, cifrados seguros.
Filtro de entrada: WAF (OWASP Top-10), anti-bot, rate limits, bloques geo/ASN, CAPTCHA en la ruta de riesgo.
Protección DDoS: always-on + auto-mitigation, perfiles individuales para API/contenido estático.
Control Egress: sólo los hosts externos necesarios para los proveedores (PSP/KYC/juegos).
3) Identidades, accesos y privilegios (IAM/PAM)
SSO (OIDC/SAML) + MFA para personas; Tokens OIDC/Identidad de taller para servicios.
RBAC/ABAC: roles con permisos mínimos requeridos; «break-glass» acceso bajo auditoría y TTL.
PAM: registro de sesiones privilegiadas bajo petición, registro completo y registro.
CIEM (nubes): búsqueda de derechos excesivos y roles muertos, auto-remediación.
Acceso a datos prod: sólo a través de jump/proxy aprobado, con enmascaramiento PII.
4) Secretos y criptografía
KMS/HSM: almacenamiento de claves, encriptación envelope, rotación con notificaciones.
Administrador de secretos: préstamos de vida corta, eliminar secretos de Git/logs.
Firmas: artefactos (cosign), webhooks (HMAC), tokens de servicio.
Campos PAN/PII: tokenización/encriptación at-nat; enmascaramiento en logs y previsualizaciones.
Directivas de rotación: claves/certificados/contraseñas - reglamentaria y forzada.
5) Contenedores y Kubernetes (CWPP/KSPM)
Imágenes básicas: mínimo, escaneo de vulnerabilidades en CI; rootless donde es posible.
Políticas de administración (OPA/Gatekeeper/Kyverno): prohibimos ': latest', 'privileged', hostPath; requerimos la firma de imágenes.
NetworkPolicies: comunicación entre servicios sólo por necesidad.
PodSecurity: capabilities limitadas, FS read-only, seccomp, AppArmor.
Secretos: de Secret Store CSI (KMS); ningún secreto de plain en los manifiestos.
Protección Runtime: reglas de comportamiento (eBPF), alertas a las anomalías.
rego package k8sadmission deny[msg] {
input. request. kind. kind == "Pod"
some c image:= input. request. object. spec. containers[c].image not startswith(image, "registry. company. com/signed/")
msg:= sprintf("Image must be signed and come from trusted registry: %v", [image])
}
6) Cadena de suministro: confíe, pero compruebe
SBOM por cada billete; almacenamiento y vinculación con la versión.
Firmas de imágenes/manifiestos, validación en el controlador admission.
Certificación SLSA: origen probado de los artefactos.
Policy-as-Code: Conftest/OPA en el Terraform/Helm/K8s antes del merluza.
Prohibición de «patching last-minute» en la venta: todos los cambios son sólo a través de la línea de pago.
7) Gestión de vulnerabilidades y parches
SCA/SAST/DAST в CI; umbrales de bloqueo para critical/high.
Actualizaciones semanales batch (imágenes, paquetes OS, bibliotecas) + emergencia no programada.
Correcciones realizadas → tickets/versiones enlazadas a CVE/SBOM.
EASM: revisión externa de la superficie de ataque (subdominios, puertos abiertos, certificados).
Pruebas regulares de espuma: al menos una vez al año + dirigidas a flujos críticos (pagos/CUS).
8) Registros, métricas, rastreos y almacenamiento de artefactos de auditoría
Registros estandarizados (JSON) con 'trace _ id', 'request _ id', usuario/tenant/geo (alias), sin PII/PAN.
Métricas: p50/p95/p99, error-rate, saturación, DLQ, retrae, KPI de negocios (Time-to-Wallet).
Treasing (OTel): end-to-end para rutas críticas (depósito/CUS/retiro).
SIEM: correlación de eventos (autenticación, cambios de roles, acciones administrativas, reglas WAF/bots).
SOAR: reacción automática (aislamiento de poda, retirada de token, bloque IP/ASN, prohibición de lanzamiento).
Retén: registros operativos - 30-90 días de almacenamiento en caliente, artefactos de auditoría - más tiempo, por políticas.
json
{
"ts":"2025-11-05T15:00:00Z",
"sev":"WARN",
"svc":"payments-api",
"route":"POST /v1/payments",
"trace_id":"2f9f...e1",
"user":"anon",
"tenant":"eu-casino-12",
"geo":"EU",
"event":"circuit_breaker_open",
"provider":"psp-1"
}
9) Antibot, fraude y escenarios de protección
Bot Management: firmas/comportamiento, device-fingerprint, retos dinámicos.
Rate limits/quotas: per-user/tenant/IP; adaptable para anomalías.
Sensores RASP en endpoints críticos (intentos de eludir la firma webhooks, derivación del reloj, re-entrega).
Señales de fraud: correlación a través de canales (logins, pagos, KYC), escalada automática.
10) Redundancia, DR y BCP
Los objetivos RTO/RPO están definidos y probados (por ejemplo, RTO ≤ 1 hora, RPO ≤ 5 minutos para DAB de pago).
Backups: cifrado, periódicamente en almacenamiento fuera de línea; pruebas de restore regulares.
Duplicación geográfica: activo-pasivo/activo-activo por región; DNS-failover con control TTL.
Directorio de dependencias críticas (PSP/KYC/agregadores de juegos) y planes de conmutación.
11) Incidentes y respuesta
Runbooks: para la caída del proveedor, el aumento de la latencia, el compromiso del token, DDoS.
On-call: 24/7, rotaciones y blast pages; práctica conjunta de «war-room».
Comunicaciones: plantillas de mensajes para clientes/socios y reguladores.
Post-mortem (blameless): acciones para evitar repeticiones, actualización de directivas/playbooks.
12) Cumplimiento y privacidad
RGPD: minimización de datos, registros de consentimiento, derecho de eliminación/portación; DPIA para nuevos proveedores.
PCI DSS: tokenización/zonas PAN aisladas, segmentos de red, registros de acceso rigurosos.
Requisitos locales (jurisdicciones de mercado): almacenamiento de datos en la región, informes, ventanas de actualización.
Línea de datos: dónde y cómo fluyen los PII/PAN; esquemas y DPIA en DevPortal.
13) Auditoría: tipos, artefactos y ciclo
Tipos de auditoría:- Interno (trimestral): cumplimiento de políticas, control de cambios, accesos, secretos, registros, pipelines.
- Externo (anual/según requisitos): PCI/GDPR/reguladores locales, pruebas de espuma, informes SOC de proveedores.
- Políticas de seguridad, matriz de roles IAM, lista de excepciones con fecha de caducidad.
- Registros de cambios de infraestructura (IaC), informes CI/CD (SBOM, firmas, pruebas).
- Registro de proveedores (PSP/KYC/juegos), DPIA/Vendor-riesgo-evaluación, contratos y SLA.
- Registros de acceso, resultados de rotación de secretos, informes SIEM/SOAR.
- Planes de DR/BCP y protocolos de las últimas pruebas de restore.
- «Evidence-first»: cada práctica es un artefacto verificable.
- "No humans in prod': máximo a través de pipelines y solicitudes aprobadas; todas las sesiones están bajo registro.
- «Trace everything»: correlaciona los cambios con incidentes/métricas.
14) Guardrails-as-Code: ejemplos
Conftest for Terraform (prohibición de los DB públicos):rego package terraform. deny deny[msg] {
input. resource. type == "aws_db_instance"
input. resource. publicly_accessible == true msg:= "RDS must not be public"
}
AdmissionPolicy (K8s): requerimos etiquetas de seguridad y límites de recursos
yaml apiVersion: kyverno. io/v1 kind: ClusterPolicy metadata:
name: enforce-security-labels-and-limits spec:
rules:
- name: require-labels match: {resources: {kinds: ["Deployment","StatefulSet"]}}
validate:
message: "security labels required"
pattern:
metadata:
labels:
security. tier: "?"
data. classification: "?"
- name: require-limits match: {resources: {kinds: ["Deployment","StatefulSet"]}}
validate:
message: "resources limits/requests required"
pattern:
spec:
template:
spec:
containers:
- resources:
limits:
cpu: "?"
memory: "?"
requests:
cpu: "?"
memory: "?"
15) Check-list de higiene diaria del medio ambiente prod
- Las políticas WAF/bot están activas, las firmas están actualizadas; anti-DDoS en el modo always-on.
- Controladores de administración en un clúster en estado enforce, no audit.
- Todas las imágenes prod están firmadas; SBOM está disponible y vinculado a la versión.
- Vulnerabilidades críticas/altas - Faltan o están registradas por excepciones con fecha.
- Rotación de secretos/certificados - según el calendario, no hay retraso.
- SIEM correlaciona eventos de entrada/cambios de IAM/lanzamientos; Se están probando los reproductores SOAR.
- Los baches han pasado, la prueba restore en el horario; El plan de DR es válido.
- Los accesos en prod son sólo a través de SSO + MFA/PAM; todas las sesiones se graban.
- "No PII in logs' - validado por los escáneres; enmascaramiento habilitado.
- Release gates y observabilidad actualizados «as-code».
16) Modelo de madurez (breve)
1. Básico - cambios manuales, perímetro único, monitoreo parcial.
2. Avanzado - segmentación, IAM/RBAC, artefactos firmados, WAF/DDoS, SIEM, parches regulares.
3. Experto - Confianza cero, guardrails-as-code, certificación SLSA, protección runtime, automatización SOAR, "no humans in prod', auditoría continua.
17) Hoja de ruta para la aplicación
M0-M1 (MVP): segmentación de red, WAF/DDoS, SSO + MFA, KMS, política básica de administración, registros/métricas/tracks estandarizados, SIEM.
M2-M3: firmas de imágenes y verificación de admission, SBOM, Conftest/OPA en IaC, PAM, plan de rotación, parches regulares, primeras pruebas de DR.
M4-M6: SOAR playbooks, eBPF/runtime-detect, EASM, paquete de cumplimiento (PCI/GDPR), conjunto completo de artefactos de auditoría, ring-DR por región.
M6 +: Red Zero-Trust (mTLS en todas partes), CIEM, informes de auditoría de control automatizados, pruebas constantes de «purple-team».
Salida rápida
Un prodo fuerte no es un conjunto de reglas «de hierro», sino un sistema: segmentación, identidades y secretos estrictos, suministro protegido, contenedores controlados, observabilidad y respuesta automatizada. Agregue a esto la verificabilidad (artefactos de auditoría, firmas/SBOM, registros), y el entorno prod se vuelve predecible, manejable y listo para verificaciones externas - sin comprometer la velocidad de las versiones y el SLO empresarial.