Fortalecimiento del entorno prod y auditoría

1) Objetivos y zona de responsabilidad

La producción no solo es el «entorno más estable», sino también el más atacado. Nuestra tarea es:

minimizar el área de ataque y Blast Radius;
proteger los canales, las cuentas, los secretos y los artefactos de suministro;
detectar y responder a incidentes más rápidamente que los objetivos MTTR;
Confirmar el cumplimiento de las normas (GDPR/PCI DSS/reglas locales);
mantener la verificabilidad (auditabilidad) de todas las acciones críticas.

Principios clave: Fideicomiso Cero, Privilegio Least, Segmentation, Everything-as-Code, Security-by-Default.

2) Perímetro de red y segmentación

Segmentos: Edge (WAF, bot management, DDoS), DMZ (gateway), App (microservicios), Data (DB/caché), Backoffice/Ops (CI/CD, observabilidad).
Políticas de L4/L7: deny-by-default, explícito allow por servicios/no space/puertos.
mTLS dentro del clúster; TLS 1. 2 + en el perímetro, HSTS, cifrados seguros.
Filtro de entrada: WAF (OWASP Top-10), anti-bot, rate limits, bloques geo/ASN, CAPTCHA en la ruta de riesgo.
Protección DDoS: always-on + auto-mitigation, perfiles individuales para API/contenido estático.
Control Egress: sólo los hosts externos necesarios para los proveedores (PSP/KYC/juegos).

3) Identidades, accesos y privilegios (IAM/PAM)

SSO (OIDC/SAML) + MFA para personas; Tokens OIDC/Identidad de taller para servicios.
RBAC/ABAC: roles con permisos mínimos requeridos; «break-glass» acceso bajo auditoría y TTL.
PAM: registro de sesiones privilegiadas bajo petición, registro completo y registro.
CIEM (nubes): búsqueda de derechos excesivos y roles muertos, auto-remediación.
Acceso a datos prod: sólo a través de jump/proxy aprobado, con enmascaramiento PII.

4) Secretos y criptografía

KMS/HSM: almacenamiento de claves, encriptación envelope, rotación con notificaciones.
Administrador de secretos: préstamos de vida corta, eliminar secretos de Git/logs.
Firmas: artefactos (cosign), webhooks (HMAC), tokens de servicio.
Campos PAN/PII: tokenización/encriptación at-nat; enmascaramiento en logs y previsualizaciones.
Directivas de rotación: claves/certificados/contraseñas - reglamentaria y forzada.

5) Contenedores y Kubernetes (CWPP/KSPM)

Imágenes básicas: mínimo, escaneo de vulnerabilidades en CI; rootless donde es posible.
Políticas de administración (OPA/Gatekeeper/Kyverno): prohibimos ': latest', 'privileged', hostPath; requerimos la firma de imágenes.
NetworkPolicies: comunicación entre servicios sólo por necesidad.
PodSecurity: capabilities limitadas, FS read-only, seccomp, AppArmor.
Secretos: de Secret Store CSI (KMS); ningún secreto de plain en los manifiestos.
Protección Runtime: reglas de comportamiento (eBPF), alertas a las anomalías.

Ejemplo de regla OPA (prohibición de imágenes no firmadas):

rego package k8sadmission deny[msg] {
input. request. kind. kind == "Pod"
some c image:= input. request. object. spec. containers[c].image not startswith(image, "registry. company. com/signed/")
msg:= sprintf("Image must be signed and come from trusted registry: %v", [image])
}

6) Cadena de suministro: confíe, pero compruebe

SBOM por cada billete; almacenamiento y vinculación con la versión.
Firmas de imágenes/manifiestos, validación en el controlador admission.
Certificación SLSA: origen probado de los artefactos.
Policy-as-Code: Conftest/OPA en el Terraform/Helm/K8s antes del merluza.
Prohibición de «patching last-minute» en la venta: todos los cambios son sólo a través de la línea de pago.

7) Gestión de vulnerabilidades y parches

SCA/SAST/DAST в CI; umbrales de bloqueo para critical/high.
Actualizaciones semanales batch (imágenes, paquetes OS, bibliotecas) + emergencia no programada.
Correcciones realizadas → tickets/versiones enlazadas a CVE/SBOM.
EASM: revisión externa de la superficie de ataque (subdominios, puertos abiertos, certificados).
Pruebas regulares de espuma: al menos una vez al año + dirigidas a flujos críticos (pagos/CUS).

8) Registros, métricas, rastreos y almacenamiento de artefactos de auditoría

Registros estandarizados (JSON) con 'trace _ id', 'request _ id', usuario/tenant/geo (alias), sin PII/PAN.
Métricas: p50/p95/p99, error-rate, saturación, DLQ, retrae, KPI de negocios (Time-to-Wallet).
Treasing (OTel): end-to-end para rutas críticas (depósito/CUS/retiro).
SIEM: correlación de eventos (autenticación, cambios de roles, acciones administrativas, reglas WAF/bots).
SOAR: reacción automática (aislamiento de poda, retirada de token, bloque IP/ASN, prohibición de lanzamiento).
Retén: registros operativos - 30-90 días de almacenamiento en caliente, artefactos de auditoría - más tiempo, por políticas.

Formato mínimo de registro (ejemplo):

json
{
"ts":"2025-11-05T15:00:00Z",
"sev":"WARN",
"svc":"payments-api",
"route":"POST /v1/payments",
"trace_id":"2f9f...e1",
"user":"anon",
"tenant":"eu-casino-12",
"geo":"EU",
"event":"circuit_breaker_open",
"provider":"psp-1"
}

9) Antibot, fraude y escenarios de protección

Bot Management: firmas/comportamiento, device-fingerprint, retos dinámicos.
Rate limits/quotas: per-user/tenant/IP; adaptable para anomalías.
Sensores RASP en endpoints críticos (intentos de eludir la firma webhooks, derivación del reloj, re-entrega).
Señales de fraud: correlación a través de canales (logins, pagos, KYC), escalada automática.

10) Redundancia, DR y BCP

Los objetivos RTO/RPO están definidos y probados (por ejemplo, RTO ≤ 1 hora, RPO ≤ 5 minutos para DAB de pago).
Backups: cifrado, periódicamente en almacenamiento fuera de línea; pruebas de restore regulares.
Duplicación geográfica: activo-pasivo/activo-activo por región; DNS-failover con control TTL.
Directorio de dependencias críticas (PSP/KYC/agregadores de juegos) y planes de conmutación.

11) Incidentes y respuesta

Runbooks: para la caída del proveedor, el aumento de la latencia, el compromiso del token, DDoS.
On-call: 24/7, rotaciones y blast pages; práctica conjunta de «war-room».
Comunicaciones: plantillas de mensajes para clientes/socios y reguladores.
Post-mortem (blameless): acciones para evitar repeticiones, actualización de directivas/playbooks.

12) Cumplimiento y privacidad

RGPD: minimización de datos, registros de consentimiento, derecho de eliminación/portación; DPIA para nuevos proveedores.
PCI DSS: tokenización/zonas PAN aisladas, segmentos de red, registros de acceso rigurosos.
Requisitos locales (jurisdicciones de mercado): almacenamiento de datos en la región, informes, ventanas de actualización.
Línea de datos: dónde y cómo fluyen los PII/PAN; esquemas y DPIA en DevPortal.

13) Auditoría: tipos, artefactos y ciclo

Tipos de auditoría:

Interno (trimestral): cumplimiento de políticas, control de cambios, accesos, secretos, registros, pipelines.
Externo (anual/según requisitos): PCI/GDPR/reguladores locales, pruebas de espuma, informes SOC de proveedores.

Artefactos clave (qué cocinar con antelación):

Políticas de seguridad, matriz de roles IAM, lista de excepciones con fecha de caducidad.
Registros de cambios de infraestructura (IaC), informes CI/CD (SBOM, firmas, pruebas).
Registro de proveedores (PSP/KYC/juegos), DPIA/Vendor-riesgo-evaluación, contratos y SLA.
Registros de acceso, resultados de rotación de secretos, informes SIEM/SOAR.
Planes de DR/BCP y protocolos de las últimas pruebas de restore.

Enfoque de auditoría:

«Evidence-first»: cada práctica es un artefacto verificable.
"No humans in prod': máximo a través de pipelines y solicitudes aprobadas; todas las sesiones están bajo registro.
«Trace everything»: correlaciona los cambios con incidentes/métricas.

14) Guardrails-as-Code: ejemplos

Conftest for Terraform (prohibición de los DB públicos):

rego package terraform. deny deny[msg] {
input. resource. type == "aws_db_instance"
input. resource. publicly_accessible == true msg:= "RDS must not be public"
}

AdmissionPolicy (K8s): requerimos etiquetas de seguridad y límites de recursos

yaml apiVersion: kyverno. io/v1 kind: ClusterPolicy metadata:
name: enforce-security-labels-and-limits spec:
rules:
- name: require-labels match: {resources: {kinds: ["Deployment","StatefulSet"]}}
validate:
message: "security labels required"
pattern:
metadata:
labels:
security. tier: "?"
data. classification: "?"
- name: require-limits match: {resources: {kinds: ["Deployment","StatefulSet"]}}
validate:
message: "resources limits/requests required"
pattern:
spec:
template:
spec:
containers:
- resources:
limits:
cpu: "?"
memory: "?"
requests:
cpu: "?"
memory: "?"

15) Check-list de higiene diaria del medio ambiente prod

Las políticas WAF/bot están activas, las firmas están actualizadas; anti-DDoS en el modo always-on.
Controladores de administración en un clúster en estado enforce, no audit.
Todas las imágenes prod están firmadas; SBOM está disponible y vinculado a la versión.
Vulnerabilidades críticas/altas - Faltan o están registradas por excepciones con fecha.
Rotación de secretos/certificados - según el calendario, no hay retraso.
SIEM correlaciona eventos de entrada/cambios de IAM/lanzamientos; Se están probando los reproductores SOAR.
Los baches han pasado, la prueba restore en el horario; El plan de DR es válido.
Los accesos en prod son sólo a través de SSO + MFA/PAM; todas las sesiones se graban.
"No PII in logs' - validado por los escáneres; enmascaramiento habilitado.
Release gates y observabilidad actualizados «as-code».

16) Modelo de madurez (breve)

1. Básico - cambios manuales, perímetro único, monitoreo parcial.
2. Avanzado - segmentación, IAM/RBAC, artefactos firmados, WAF/DDoS, SIEM, parches regulares.
3. Experto - Confianza cero, guardrails-as-code, certificación SLSA, protección runtime, automatización SOAR, "no humans in prod', auditoría continua.

17) Hoja de ruta para la aplicación

M0-M1 (MVP): segmentación de red, WAF/DDoS, SSO + MFA, KMS, política básica de administración, registros/métricas/tracks estandarizados, SIEM.
M2-M3: firmas de imágenes y verificación de admission, SBOM, Conftest/OPA en IaC, PAM, plan de rotación, parches regulares, primeras pruebas de DR.
M4-M6: SOAR playbooks, eBPF/runtime-detect, EASM, paquete de cumplimiento (PCI/GDPR), conjunto completo de artefactos de auditoría, ring-DR por región.
M6 +: Red Zero-Trust (mTLS en todas partes), CIEM, informes de auditoría de control automatizados, pruebas constantes de «purple-team».

Salida rápida

Un prodo fuerte no es un conjunto de reglas «de hierro», sino un sistema: segmentación, identidades y secretos estrictos, suministro protegido, contenedores controlados, observabilidad y respuesta automatizada. Agregue a esto la verificabilidad (artefactos de auditoría, firmas/SBOM, registros), y el entorno prod se vuelve predecible, manejable y listo para verificaciones externas - sin comprometer la velocidad de las versiones y el SLO empresarial.

Fortalecimiento del entorno prod y auditoría

Salida rápida

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos