Detección de anomalías

La Detección de Anomalías (Anomaly Detection) es la identificación de observaciones, patrones o cambios inusuales en los datos que se desvían de la «norma» y pueden indicar fallas, fraudes, incidentes de seguridad, errores de datos o eventos empresariales raros. A continuación, una mirada sistémica: desde la formulación de tareas hasta el funcionamiento y control de alertas.

1) Tipos de anomalías y estadías

Puntos (point anomalies): observaciones unitarias fuera de lo normal (aumento de depósitos por usuario).
Contextuales: desviaciones teniendo en cuenta el contexto (alta carga nocturna - aprox., día - anomalía).
Colectivo: un grupo de puntos comunes en una secuencia inusual (una serie de transacciones pequeñas).
Estructural: cambio de modo/distribución (change-point; nueva estacionalidad).
Anomalías en la calidad de los datos: omisiones, duplicados, pegatinas, resincronización de marcas de tiempo, sensores «planos».

Modos de aprendizaje:

Supervisión: hay anomalías marcadas (raras, caras).
Semi-supervisión (una-clase): enseñamos la «norma», todo lo demás es anómalo.
No adulterado: buscamos «raro/lejano» sin etiquetas.

2) Datos y preparación

Límites de la norma: horizontes y estacionalidad (hora/día/semana), eventos del calendario, fines de semana, promociones.
Fichas: lags, estadísticas deslizantes (mean/median/EMA), caracteres cuantiles, encodings de categorías, contadores de rareza, agregados por ventanas 7/30/90.
Limpieza: desduplicación, corrección de zonas temporales, alineación de frecuencia, handling de pases (interpolación/forward-fill/modelos de recuperación).
Estandarización/robasticidad: RobustScaler/rangos/vinsorización para resistencia a las emisiones.
Corrección de punto en tiempo: sin fugas de futuro en la generación de fich.

3) Métodos de detección

3. 1. Estadísticas y normas

z-score/robastic z (median, MAD), IQR/box ball, suavizado exponencial con corredores de confianza.
Tarjetas de control (Shewhart, CUSUM, EWMA): para procesos de producción y métricas de flujo.
Umbrales cuantiles (dinámicos por ventanas), umbrales estacionales-cuantiles.

3. 2. Distancias, densidades, clústeres

kNN distance, Factor de salida local (LOF) - una rareza local.
DBSCAN/HDBSCAN son puntos de ruido fuera de los clústeres.
PCA/Robust PCA - anomalías → alto error residual/estadísticas SPE; Hotelling’s T².

3. 3. Conjuntos y árboles

Isolation Forest - aísla puntos raros en rutas cortas.
Randomized Thresholding/Bagging en las reglas básicas - bailes rápidos para el prod.

3. 4. Reconstrucción y probabilidades

Autoencoder/VAE (incluyendo LSTM/Transformer para secuencias): anomalía = error de reconstrucción alto.
Probabilistic forecasting (predicciones cuantiles): la salida más allá de los intervalos predichos es la señal.
Los modelos bayesianos/flujos de transformaciones normalizantes son una clara incertidumbre.

3. 5. Series de tiempo y cambios de modo

ARIMA/ETS/Prophet/TBATS - pronóstico + desviación.
Detección de puntos de cambio: BOCPD, RuLSIF/Criterios de divergencia, Tiempo de Línea Preexistente (PELT).
Matrix Profile/Discord discovery es una búsqueda de «las secuencias más diferentes».

3. 6. Multidimensional y gráfica

Multivariate TS: VAR, TCN/TFT, LSTM-VAE; correlaciones cruzadas e intervalos de confianza conjuntos.
Gráficos: subconjuntos/nodos anormales (por ejemplo, en el tráfico de red o en las cadenas de pago).

4) Selección del método: matriz práctica

Script	Datos	Recomendación
Métricas de ventas, telemetría	Flujo, estacionalidad	EWMA/CUSUM + corredores cuantiles; luego el Bosque de Isolación como segunda capa
Frod/transacciones	Placa de desequilibrio	LOF/Isolation Forest como beisline → Autoencoder/VAE; agregar reglas de dominio
Ventas/mercado	Filas diarias	Prophet/TBATS + intervalos cuantiles; change-point para turnos
Calidad de los datos	Registros crudos	Reglas de calidad + estadísticas; alertas en circuitos/NULL/duplicados
Flujos de eventos	Real Tiempo	Versiones en línea de CUSUM/EWMA + modelos ligeros de una sola clase; límite de demora

5) Evaluación de la calidad en anomalías raras

Desequilibrio: ROC-AUC puede ser engañoso; centrarse en PR-AUC, precision @ k, recall@FPR≤x%, F1, Matthews CC.
Métrica de tiempo: Tiempo de Anulación para Detección (ATTD), una fracción de «detección temprana».
Estabilidad: fracción de flapping (activación/apagado frecuentes de la alerta), longitud media de los períodos «silenciosos».
Costo-basado: matriz de costos (falsos positivos/falsos negativos), valor de los incidentes evitados.
Validación: splits temporales, ventanas fuera de tiempo, splits grupales (por usuario/dispositivo), pruebas de respaldo.

6) Estrategias de umbral y calibración

Umbrales estáticos: simples, pero se rompen con la estacionalidad.
Dinámico: por-segment/per-hour cuantil, adaptable a cargas y «reloj silencioso».
Percentil: 99. Quinto/99. 9º para alta precisión; puede hacer per-bucket por categoría.
Calibración de puntuación: isotonic/temperature para probabilidades; suavizar las alertas (debounce, "N de M').
Histéresis: diferentes umbrales para entrar/salir de un estado de anomalía.

7) Interpretabilidad y RCA (root cause analysis)

Globalmente: importancia del fich (gain/permutation), carga PCA, perfiles de segmentos, contribución de los componentes al error de reconstrucción.
Localmente: SHAP/LIME en scores o en modelos auxiliares.
Atribución por filas: contribución de tendencia/estacionalidad/regresivos (vacaciones, campañas).
Detalle: «un segmento anormal → un ficha anormal → objetos anormales».
Causalidad: difference-in-differences/contrafacts para separar el efecto de comercialización de una anomalía «real».

8) Producción y MLOps

Serving: sincrónico (baja latencia, gRPC/NAT) y asíncrono (batch/microbatch).
Fichastor: consistencia en línea/fuera de línea, punto en tiempo, SLA para la generación de señales.
Versificación: modelos, umbrales, esquemas, configuraciones; almacene los artefactos y los datos de «elimina».
Alerting: priorización (P1-P3), deduplicación, suppression de la ventana (noche/vacaciones), auto-cierre cuando se normaliza.
Fail-safe: degradación automática a reglas/detectores simples, temporizadores, restricción de QPS.
Shadow/Canary: comparación del nuevo detector con el actual, offline- →shadow - →canary - →full.
Feedback loop: interfaz de marcado de alertas, relabling semi-automático y dotening.

9) Reducción de alert-fatigue

Bandling: agrupe las alertas cercanas en un solo incidente.
SLO por alertas: objetivo por precisión/número de alertas por turno.
Política de escalación: aumento de prioridad en la duración/escala.
Rate limiting: no más de N alertas por ventana; «período tranquilo» después de la activación.
Circuito de dos niveles: detector bruto barato (alto recall) + verificador de precisión caro.

10) Lista de verificación de implementación

Se identifican los tipos de anomalías y el valor comercial de su detección
Se ha tenido en cuenta la estacionalidad/calendario; características contextuales construidas
Método seleccionado: Beisline rápido + potencialmente más complejo
Estrategia de umbral (dinámico/de segmento a segmento) e histéresis
Métricas: PR-AUC, ATTD, costmetrics, informes por segmentos
Plan de interpretación y RCA; dashboards Drill-down
Políticas de alerta, suppression, deduplicación
La lógica de la puntuación, la versión, la entrada fich; réplica de pruebas de respaldo
Procedimientos de retransmisión y control de la deriva (PSI/JS-amb)
Documentación: contratos de datos, SLO, runibooks

11) Patrones estándar

«Pronóstico + desviación»: enseñamos el pronóstico probabilístico (cuantili 5-95%), la señal al salir por intervalo.
«Reconstructor»: Autoencoder/Robust PCA → alerta por error de alta reconstructión.
«Aislador»: Bosque de Isolación para tableros/multifiches; rápido, pocos ajustes.
«Rareza local»: LOF/kNN-distance - es bueno para segmentos con diferentes densidades.
«Cambio de modo»: BOCKPD/PELT + validación de causa (lanzamiento, promoción, incidente).
«Dos pasos»: filtro rule-based → verificador ML (reducción de falsos).

12) Monitoreo del detector

Calidad: PR-AUC/precision @ k/ATTD en ventana deslizante, proporción de alertas confirmadas.
Datos: omisiones, lagunas, cardinalidad inusual, picos de eventos.
Deriva: PSI/KL/JS por fichas clave y corcho, deriva del objetivo (si hay etiquetas).
Operación: latencia del infierno, QPS, tolerancia a fallas, proporción de degradación.

13) Marcado y aprendizaje activo

Estrategias de marcado: top-k por corcho, variedad por cluster, casos «border».
Sintética: inyecciones de anomalías (controladas) para pruebas de estrés.
Aprendizaje activo: dosificamos las marcas de los analistas para los incidentes polémicos.
Weak supervision: reglas/heurísticas como etiquetas débiles + agregadores de accesos directos.

14) Seguridad, ética, cumplimiento

Privacidad: minimización de campos, seudonimización, acceso por roles.
Transparencia: la explicabilidad de las causas de la alerta y las acciones de automatización.
Auditoría: registro de soluciones, reproducibilidad de umbrales/versiones/datos.
Justicia: control de bias por segmentos (especialmente para antifraude/puntuación).

Mini glosario

Change-point: momento de cambio de distribución/modo de serie.
PR-AUC: área bajo la curva precision-recall, resistente a raros positivos.
PSI: índice de estabilidad de la población, métrica de la deriva de las distribuciones.
Matrix Profile/Discord: una forma de encontrar la sub-secuencia «más diferente».

Resultado

Un esquema eficaz de detección de anomalías no es un algoritmo «inteligente», sino una combinación: contexto correcto (estacionalidad/calendario), signos robustos, una política de umbral bien pensada interpretada por RCA, una operación dura (SLO/alert policy) y un ciclo de mejoras a través de la retroalimentación. Este enfoque reduce las falsas alarmas y aumenta los beneficios reales de las anomalías, desde la detección temprana de fallas hasta la prevención de pérdidas.

Detección de anomalías