Herramientas de auditoría y lógica
1) Por qué es necesario
Objetivos:- Trazabilidad de las acciones (quién/qué/cuándo/dónde/por qué).
- Investigaciones rápidas de incidentes y forenziques.
- Cumplimiento de reguladores y clientes.
- Gestión de riesgos y reducción de MTTR en incidentes.
- Soporte para modelos de riesgo, antifraude, cumplimiento (KYC/AML/RTBF/Legal Hold).
- La cobertura completa de las fuentes.
- Inmutabilidad e integridad de los registros.
- Esquemas estandarizados de eventos.
- Disponibilidad de búsqueda y correlación.
- Minimización de datos personales y control de privacidad.
2) Paisaje de herramientas
2. 1 Gestión de registros e indexación
Сбор/агенты: Fluent Bit/Fluentd, Vector, Logstash, Filebeat/Winlogbeat, OpenTelemetry Collector.
Almacenamiento y búsqueda: Elasticsearch/OpenSearch, Loki, ClickHouse, Splunk, Datadog Logs.
Streaming/bus: Kafka/Redpanda, NATS, Pulsar - para buffering y fan out.
Parsing y normalización: Grok/regex, OTel processors, Logstash pipelines.
2. 2 SIEM/Detect & Respond
SIEM: Splunk Enterprise Security, Microsoft Sentinel, Elastic Security, QRadar.
Análisis de comportamiento/UEBA: módulos integrados en SIEM, detectores ML.
SOAR/orquestación: Cortex/XSOAR, Tines, Shuffle - automatización de playbooks.
2. 3 Auditoría e inmutabilidad
Аудит подсистем: Linux auditd/ausearch, Windows Event Logs, DB-аудит (pgAudit, MySQL audit), Kubernetes Audit Logs, CloudTrail/CloudWatch/Azure Monitor/GCP Cloud Logging.
Almacenamiento inmutable: Backets WORM (Object Lock), S3 Glacier Vault Lock, write-once volumes, registro con escritura criptográfica/cadena de hash.
Etiquetas de tiempo/TSA: enlace a NTP/PTP, anclaje periódico de hash en tiempo de confianza externo.
2. 4 Observabilidad y trazabilidad
Métricas/Tracks: Prometheus + Tempo/Jaeger/OTel, correlación de registros ↔ trazados por trace_id/span_id.
Dashboards y alertas: Grafana/Kibana/Datadog.
3) Fuentes de eventos (recubrimiento scop)
Infraestructura: OS (syslog, auditd), contenedores (Docker), orquestación (Kubernetes Events + Audit), dispositivos de red, WAF/CDN, VPN, IAM.
Aplicaciones y API: puerta de enlace API, servicio de master, servidores web, backends, colas, planificadores, webhooks.
BD y almacenamiento: consultas, DDL/DML, acceso a secretos/claves, acceso al almacenamiento de objetos.
Integraciones de pago: PSP/equipairing, eventos de chargeback, 3DS.
Operaciones y procesos: inicio de sesión en consolas/CI/CD, paneles de administración, cambios de configuración/ficheros, versiones.
Seguridad: IDS/IPS, EDR/AV, escáneres de vulnerabilidad, DLP.
Eventos personalizados: autenticación, intentos de inicio de sesión, cambio de estado KYC, depósitos/retiros, apuestas/juegos (con anonimización si es necesario).
4) Esquemas y normas de datos
Un único modelo de evento: 'timestamp', 'evento. category`, `event. action`, `user. id`, `subject. id`, `source. ip`, `http. request_id`, `trace. id`, `service. name`, `environment`, `severity`, `outcome`, `labels.`.
Стандарты схем: ECS (Elastic Common Schema), OCSF (Open Cybersecurity Schema Framework), OpenTelemetry Logs.
Las claves de correlación son: 'trace _ id', 'session _ id', 'request _ id', 'device _ id', 'k8s. pod_uid`.
Calidad: campos obligatorios, validación, deduplicación, muestreo para fuentes «ruidosas».
5) Referencia arquitectónica
1. Recogida en nodos/agentes →
2. Preprocesamiento (parcing, edición PII, normalización) →
3. Neumático (Kafka) con retoque ≥ 3-7 días →
4. Horquillas de flujo:- Almacenamiento en línea (búsqueda/correlación, almacenamiento en caliente durante 7-30 días).
- Archivo inmutable (WORM/Glacier 1-7 años para auditoría).
- SIEM (detección e incidentes).
- 5. Dashboards/búsqueda (operaciones, seguridad, cumplimiento).
- 6. SOAR para automatizar reacciones.
- Hot: SSD/indexación, búsqueda rápida (respuesta rápida).
- Warm: compresión/acceso menos frecuente.
- Cold/Archive (WORM): almacenamiento barato a largo plazo, pero inmutable.
6) Inmutabilidad, integridad, confianza
WORM/objeto-lok: bloquear la eliminación y las modificaciones durante la duración de la política.
Criptopode y cadena de hashes: por batches/chancas de registros.
Anclaje hash: publicación periódica de hashes en un registro externo o tiempo de confianza.
Sincronización de tiempo: NTP/PTP, monitoreo de la deriva; grabar 'clock. source`.
Control de cambios: control de cuatro ojos/dual para las políticas de retention/Legal Hold.
7) Privacidad y cumplimiento
Minimizar PII: almacenar sólo los campos necesarios, editar/enmascarar en ingest.
Pseudonimización: 'user. pseudo_id', el almacenamiento de mapping es separado y limitado.
GDPR/DSAR/RTBF: clasificación de fuentes, eliminación/ocultación lógica administrada en réplicas, excepciones para responsabilidades legales de almacenamiento.
Legal Hold: etiquetas «freeze», suspensión de eliminación en archivos; registro de acciones alrededor de Hold.
Mapping a estándares: ISO 27001 A.8/12/15, SOC 2 CC7, PCI DSS Req. 10, regulaciones locales de los mercados.
8) Operaciones y procesos
8. 1 Playbooks/Runbooks
Pérdida de la fuente: cómo identificar (heartbeats), cómo restaurar (replay desde el bus), cómo compensar los pases.
Aumento de los retrasos: verificación de colas, charding, índices, backpressure.
Investigación del evento X: plantilla KQL/ES-query + combinación con el contexto del circuito.
Legal Hold: quién pone, cómo filma, cómo se documenta.
8. 2 RACI (en resumen)
R (Responsable): Observabilidad-equipo por recogida/envío; SecOps para las reglas de detección.
A (Accountable): CISO/Head of Ops para Políticas y Presupuesto.
C (Consultado): DPO/Legal para la privacidad; Arquitectura para circuitos.
I (Informed): Sapport/Producto/Gestión de riesgos.
9) Métricas de calidad (SLO/KPI)
Cobertura:% de las fuentes críticas están conectadas (objetivo ≥ 99%).
Registro: p95 retraso en la entrega (<30 segundos).
Éxito de indexación: proporción de eventos sin errores de parsing (> 99. 9%).
Search latency: p95 <2 segundos para las consultas típicas de la ventana 24h.
Drop rate: pérdida de eventos <0. 01%.
Alerta fidelidad: Precision/Recall por reglas, proporción de falsos positivos.
Costo por GB: costo de almacenamiento/índice para el período.
10) Políticas de retención (ejemplo)
Las políticas son aclaradas por Legal/DPO y regulaciones locales.
11) Detección y alertas (esqueleto)
Reglas (regla-as-code):- Autenticación sospechosa (no se puede mover, TOR, errores frecuentes).
- Escalada de privilegios/roles.
- Cambios en las configuraciones/secretos fuera del programa de lanzamiento.
- Patrones de transacción anormales (señales AML/antifraude).
- Descargas masivas de datos (desencadenadores DLP).
- Tolerancia a fallas: aluvión de 5xx, degradación latency, reestrenos múltiples de pod's.
- Enriquecer la reputación geo/IP, enlazar con lanzamientos/fichas, ligar con las pistas.
12) Seguridad de acceso a logotipos
RBAC y segregación de responsabilidades: roles separados para lectores/analistas/administradores.
Acceso justo en tiempo: tokens temporales, auditoría de todas las lecturas de índices «sensibles».
Encriptación: in-transit (TLS), at-nat (KMS/CMK), aislamiento de claves.
Secretos y claves: rotación, restricción de la exportación de eventos con PII.
13) Hoja de ruta para la aplicación
MVP (4-6 semanas):1. Directorio de origen + esquema mínimo (ECS/OCSF).
2. Agente en nodos + OTel Collector; parsing centralizado.
3. Almacenamiento Hot (OpenSearch/Elasticsearch/Loki) + dashboards.
4. alertas básicas (autenticación, 5xx, cambios de configuración).
5. Archivo en el almacenamiento de objetos con objeto lock (WORM).
Fase 2:- Kafka como neumático, réplicas, cola retray.
- SIEM + las primeras reglas de correlación, SOAR playbooks.
- Cryptopody batches, anclaje de hashes.
- Política Legal Hold, procedimientos DSAR/RTBF.
- Detección UEBA/ML.
- Catalogación de eventos (Data Catalog), lineage.
- Optimización de costes: muestreo de registros «ruidosos», tiering.
14) Errores frecuentes y cómo evitarlos
Ruido de registro sin esquema: → introducir campos obligatorios y sampling.
Sin rastros: → implementar trace_id en los servicios core y proxy.
Un único «monolito» de logs: → dividirse por dominios y niveles de criticidad.
Sin inmutabilidad: → habilitar WORM/Object Lock y la firma.
Secretos en los logs: filtros/editores →, escáneres de tokens, rugidos.
15) Lista de comprobación de inicio
- Registro de fuentes con prioridad de criticidad.
- Esquema único y validadores (IC para parsers).
- Estrategia de agencia (daemonset en k8s, Beats/OTel).
- Neumático y retiro.
- Almacenamiento en caliente/frío/archivado + WORM.
- RBAC, cifrado, registro de acceso.
- Alertas básicas y playbucks SOAR.
- Dashboards para Ops/Sec/Compliance.
- Políticas DSAR/RTBF/Legal Hold.
- KPI/SLO + presupuesto de almacenamiento.
16) Ejemplos de eventos (simplificado)
json
{
"timestamp": "2025-10-31T19:20:11.432Z",
"event": {"category":"authentication","action":"login","outcome":"failure"},
"user": {"id":"u_12345","pseudo_id":"p_abcd"},
"source": {"ip":"203.0.113.42"},
"http": {"request_id":"req-7f91"},
"trace": {"id":"2fe1…"},
"service": {"name":"auth-api","environment":"prod"},
"labels": {"geo":"EE","risk_score":72},
"severity":"warning"
}
17) Glosario (breve)
Audit trail es una secuencia de registros inmutables que captura las acciones del sujeto.
WORM - modo de almacenamiento «grabado-una vez, leído-varias veces».
SOAR - Automatizar la respuesta a incidentes a través de playbooks.
UEBA - Análisis del comportamiento de usuarios y entidades.
OCSF/ECS/OTel son los estándares de los esquemas de registro y telemetría.
18) Resultado
Un sistema de auditoría y lógica no es una «pila de registros», sino un programa administrado con un esquema de datos claro, un archivo inmutable, correlación y playbooks de reacción. El cumplimiento de los principios de este artículo aumenta la observancia, acelera las investigaciones y cierra los requisitos clave de Operaciones y Cumplimiento.