Инструменты для аудита и логирования
1) Зачем это нужно
Цели:- Прослеживаемость действий (кто/что/когда/откуда/почему).
- Быстрые расследования инцидентов и форензика.
- Соответствие требованиям регуляторов и заказчиков.
- Управление рисками и снижение MTTR при инцидентах.
- Поддержка моделей риска, антифрода, комплаенса (KYC/AML/RTBF/Legal Hold).
- Полнота покрытия источников.
- Неизменяемость и целостность записей.
- Стандартизированные схемы событий.
- Поисковая доступность и корреляция.
- Минимизация персональных данных и контроль приватности.
2) Ландшафт инструментов
2.1 Менеджмент логов и индексация
Сбор/агенты: Fluent Bit/Fluentd, Vector, Logstash, Filebeat/Winlogbeat, OpenTelemetry Collector.
Хранилище и поиск: Elasticsearch/OpenSearch, Loki, ClickHouse, Splunk, Datadog Logs.
Стриминг/шины: Kafka/Redpanda, NATS, Pulsar — для буферизации и фан-аута.
Парсинг и нормализация: Grok/regex, OTel processors, Logstash pipelines.
2.2 SIEM/Detect & Respond
SIEM: Splunk Enterprise Security, Microsoft Sentinel, Elastic Security, QRadar.
UEBA/поведенческий анализ: встроенные модули в SIEM, ML-детекторы.
SOAR/оркестрация: Cortex/XSOAR, Tines, Shuffle — автоматизация плейбуков.
2.3 Аудит и неизменяемость
Аудит подсистем: Linux auditd/ausearch, Windows Event Logs, DB-аудит (pgAudit, MySQL audit), Kubernetes Audit Logs, CloudTrail/CloudWatch/Azure Monitor/GCP Cloud Logging.
Неизменяемое хранение: WORM-бакеты (Object Lock), S3 Glacier Vault Lock, write-once volumes, журналирование с криптоподписью/цепочкой хэшей.
TSA/временные метки: привязка к NTP/PTP, периодическое анкерование хэшей в внешнем доверенном времени.
2.4 Наблюдаемость и трассировки
Метрики/трейсы: Prometheus + Tempo/Jaeger/OTel, кореляция логов ↔ трассировок по trace_id/span_id.
Дашборды и алерты: Grafana/ Kibana/ Datadog.
3) Источники событий (скоуп покрытия)
Инфраструктура: ОС (syslog, auditd), контейнеры (Docker), оркестрация (Kubernetes Events + Audit), сетевые устройства, WAF/CDN, VPN, IAM.
Приложения и API: API-шлюз, сервис-мэш, веб-серверы, бэкенды, очереди, планировщики, вебхуки.
БД и хранилища: запросы, DDL/DML, доступ к секретам/ключам, доступ к объектному хранилищу.
Платежные интеграции: PSP/эквайринг, chargeback-ивенты, 3DS.
Операции и процессы: входы в консоли/CI/CD, админ-панели, изменения конфигураций/фичфлагов, релизы.
Безопасность: IDS/IPS, EDR/AV, сканеры уязвимостей, DLP.
Пользовательские события: аутентификация, попытки входа, смена KYC-статуса, депозиты/выводы, ставки/игры (с анонимизацией при необходимости).
4) Схемы данных и стандарты
Единая модель события: `timestamp`, `event.category`, `event.action`, `user.id`, `subject.id`, `source.ip`, `http.request_id`, `trace.id`, `service.name`, `environment`, `severity`, `outcome`, `labels.`.
Стандарты схем: ECS (Elastic Common Schema), OCSF (Open Cybersecurity Schema Framework), OpenTelemetry Logs.
Корреляционные ключи: `trace_id`, `session_id`, `request_id`, `device_id`, `k8s.pod_uid`.
Качество: обязательные поля, валидация, дедупликация, семплирование для «шумных» источников.
5) Архитектурный референс
1. Сбор на нодах/агентах →
2. Пре-процессинг (парсинг, PII-редакция, нормализация) →
3. Шина (Kafka) с ретеншном ≥ 3–7 дней →
4. Форки потоков:- Оперативное хранилище (поиск/корреляция, горячее хранение 7–30 дней).
- Неизменяемый архив (WORM/Glacier 1–7 лет для аудита).
- SIEM (детекция и инциденты).
- 5. Дашборды/поиск (операции, безопасность, комплаенс).
- 6. SOAR для автоматизации реакций.
- Hot: SSD/индексация, быстрый поиск (оперативное реагирование).
- Warm: компрессия/менее частый доступ.
- Cold/Archive (WORM): дешевое долговременное хранение, но неизменяемое.
6) Неизменяемость, целостность, доверие
WORM/объект-лок: блокировка удаления и модификации на срок политики.
Криптоподпись и цепочка хэшей: по батчам/чанкам логов.
Hash-анкеринг: периодическая публикация хэшей в внешнем реестре или доверенном времени.
Синхронизация времени: NTP/PTP, мониторинг дрейфа; запись `clock.source`.
Контроль изменений: четырехглазие/dual control для политик retention/Legal Hold.
7) Приватность и комплаенс
Минимизация PII: хранить только необходимые поля, редактировать/маскировать в ingest.
Псевдонимизация: `user.pseudo_id`, хранение маппинга отдельно и ограниченно.
GDPR/DSAR/RTBF: классификация источников, управляемое логическое удаление/скрытие в репликах, исключения для юридических обязанностей хранения.
Legal Hold: метки «freeze», приостановка удаления в архивах; журнал действий вокруг Hold.
Маппинг на стандарты: ISO 27001 A.8/12/15, SOC 2 CC7, PCI DSS Req. 10, локальные регуляции рынков.
8) Оперирование и процессы
8.1 Плейбуки/Runbooks
Потеря источника: как выявить (heartbeats), как восстановить (replay с шины), как компенсировать пропуски.
Рост задержек: проверка очередей, шардинг, индексы, backpressure.
Расследование события X: шаблон KQL/ES-query + связка с трейсовым контекстом.
Legal Hold: кто ставит, как снимает, как документируется.
8.2 RACI (вкратце)
R (Responsible): Observability-команда за сбор/доставку; SecOps за правила детекции.
A (Accountable): CISO/Head of Ops за политики и бюджет.
C (Consulted): DPO/Legal для приватности; Архитектура для схем.
I (Informed): Саппорт/Продукт/Риск-менеджмент.
9) Метрики качества (SLO/KPI)
Coverage: % критичных источников подключено (цель ≥ 99%).
Ingest lag: p95 задержка доставки (< 30 сек).
Indexing success: доля событий без ошибок парсинга (> 99.9%).
Search latency: p95 < 2 сек на типовые запросы 24h окна.
Drop rate: потеря событий < 0.01%.
Alert fidelity: Precision/Recall по правилам, доля фальш-позитивов.
Cost per GB: стоимость хранения/индекса за период.
10) Политики хранения (пример)
Политики уточняются Legal/DPO и локальными регуляциями.
11) Детекция и алерты (скелет)
Правила (rule-as-code):- Подозрительная аутентификация (невозможное перемещение, TOR, частые ошибки).
- Эскалация привилегий/ролей.
- Изменения конфигураций/секретов вне графика релиза.
- Аномальные паттерны транзакций (AML/антифрод сигналы).
- Массовые выгрузки данных (DLP-триггеры).
- Отказоустойчивость: шквал 5xx, деградация latency, многократные рестарты pod’ов.
- Обогащение гео/IP-репутацией, привязка к релизам/фичфлагам, связка с трассами.
12) Безопасность доступа к логам
RBAC и сегрегация обязанностей: отдельные роли для читателей/аналитиков/админов.
Just-in-time доступ: временные токены, аудит всех чтений «чувствительных» индексов.
Шифрование: in-transit (TLS), at-rest (KMS/CMK), изоляция ключей.
Секреты и ключи: ротация, ограничение экспорта событий с PII.
13) Дорожная карта внедрения
MVP (4–6 недель):1. Каталог источников + минимальная схема (ECS/OCSF).
2. Агент на нодах + OTel Collector; централизованный парсинг.
3. Хранилище Hot (OpenSearch/Elasticsearch/Loki) + дашборды.
4. Базовые алерты (аутентификация, 5xx, изменения конфигов).
5. Архив в Object Storage с объект-локом (WORM).
Фаза 2:- Kafka как шина, реплеи, ретрай-очереди.
- SIEM + первые корреляционные правила, SOAR-плейбуки.
- Криптоподпись батчей, анкеринг хэшей.
- Политики Legal Hold, DSAR/RTBF процедуры.
- UEBA/ML-детекция.
- Каталогирование событий (Data Catalog), lineage.
- Оптимизация стоимости: семплирование «шумных» логов, tiering.
14) Частые ошибки и как их избежать
Лог-шум без схемы: → ввести обязательные поля и семплинг.
Нет трассировок: → внедрить trace_id в кор-сервисы и прокси.
Единый «монолит» логов: → разделить по доменам и уровням критичности.
Отсутствие неизменяемости: → включить WORM/Object Lock и подпись.
Секреты в логах: → фильтры/редакторы, сканеры токенов, ревью.
15) Чек-лист запуска
- Реестр источников с приоритетом критичности.
- Единая схема и валидаторы (CI для парсеров).
- Агентская стратегия (daemonset в k8s, Beats/OTel).
- Шина и ретеншн.
- Горячее/холодное/архивное хранение + WORM.
- RBAC, шифрование, журнал доступа.
- Базовые алерты и плейбуки SOAR.
- Дашборды для Ops/Sec/Compliance.
- Политики DSAR/RTBF/Legal Hold.
- KPI/SLO + бюджет на хранение.
16) Примеры событий (упрощенно)
json
{
"timestamp": "2025-10-31T19:20:11.432Z",
"event": {"category":"authentication","action":"login","outcome":"failure"},
"user": {"id":"u_12345","pseudo_id":"p_abcd"},
"source": {"ip":"203.0.113.42"},
"http": {"request_id":"req-7f91"},
"trace": {"id":"2fe1…"},
"service": {"name":"auth-api","environment":"prod"},
"labels": {"geo":"EE","risk_score":72},
"severity":"warning"
}
17) Глоссарий (кратко)
Audit trail — последовательность неизменяемых записей, фиксирующая действия субъекта.
WORM — режим хранения «записал-однажды, прочитал-многораз».
SOAR — автоматизация реагирования на инциденты по плейбукам.
UEBA — анализ поведения пользователей и сущностей.
OCSF/ECS/OTel — стандарты схем логов и телеметрии.
18) Итог
Система аудита и логирования — это не «стек логов», а управляемая программа с четкой схемой данных, неизменяемым архивом, корреляцией и плейбуками реакции. Соблюдение принципов из этой статьи повышает наблюдаемость, ускоряет расследования и закрывает ключевые требования Операций и Комплаенса.