Zentralisierung der Protokolle

1) Warum Protokolle zentralisieren

Zentrale Protokolle sind die Grundlage für Beobachtbarkeit, Auditierung und Compliance. Sie sind:

Beschleunigung der Suche nach den Wurzeln von Vorfällen (Korrelation nach request-id/trace-id);
ermöglichen es Ihnen, Signalalerts auf Symptomen (Fehler, Anomalien) aufzubauen;
geben einen Audit-Trail (wer/wann/was getan hat);
Kostensenkung durch Vereinheitlichung von Retention und Lagerung.

2) Grundprinzipien

1. Nur strukturierte Protokolle (JSON/RFC5424) - kein „Freitext“ ohne Schlüssel.
2. Das einheitliche Schema der Schlüssel: ' ts, level, service, env, region, tenant, trace_id, span_id, request_id, user_id (masked), msg, kv... '.
3. Standardkorrelation: Führen Sie trace_id von Gateway zu Backends und Protokollen.
4. Geräuschminimierung: korrekte Pegel, Sampling, Deduplizierung von Wiederholungen.
5. Sicherheit durch Design: PII-Masking, RBAC/ABAC, Unveränderlichkeit.
6. Wirtschaft: heiß/warm/kalt, Kompression, Aggregationen, TTL und Rehydration.

3) Typische Architekturen

EFK/ELK: (Fluent Bit/Fluentd/Filebeat) → (Kafka — опц.) → (Elasticsearch/OpenSearch) → (Kibana/OpenSearch Dashboards). Universelle Suche und Aggregation.
Loki-like: Promtail/Fluent Bit → Loki → Grafana. Billiger für große Mengen, leistungsstarker Etikettenfilter + lineare Anzeige.
Clouds: CloudWatch/Cloud Logging/Log Analytics + Export in Cold Storage (S3/GCS/ADLS) und/oder SIEM.
Data Lake-Ansatz: Schipper → Objektspeicher (Parkett/Iceberg) → billige analytische Abfragen (Athena/BigQuery/Spark) + Online-Layer (OpenSearch/Loki) für die letzten N Tage.

Empfehlung: für Prod-Oncoll Online-Schicht (7-14 Tage heiß) und Archiv (Monate/Jahre) im See mit rehydrate Fähigkeit zu halten.

4) Schema und Format der Protokolle (Empfehlung)

Minimales JSON-Format:

json
{
"ts":"2025-11-01T13:45:12. 345Z",
"level":"ERROR",
"service":"payments-api",
"env":"prod",
"region":"eu-central",
"tenant":"tr",
"trace_id":"0af7651916cd43dd8448eb211c80319c",
"span_id":"b7ad6b7169203331",
"request_id":"r-7f2c",
"user_id":"",        // masked
"route":"/v1/payments/charge",
"code":"PSP_TIMEOUT",
"latency_ms":1200,
"msg":"upstream PSP timeout",
"kv":{"provider":"psp-a","attempt":2,"timeout_ms":800}
}

Standards: RFC3339 für die Zeit, Level aus dem Set 'TRACE/DEBUG/INFO/WARN/ERROR/FATAL', Schlüssel im snake_case.

5) Protokollierungsstufen und Sampling

DEBUG - nur in dev/stage; in prod durch Flagge und mit TTL.
INFO - Lebenszyklus von Abfragen/Ereignissen.
WARN - Verdächtige Situationen ohne Einfluss auf SLO.
ERROR/FATAL - Einfluss auf Anfrage/Benutzer.

Sampling:

rate-limit für wiederkehrende Fehler (z.B. 1/sec/key).
Tail-Sampling-Tracks (vollständige Logs/Trails nur für „schlechte“ Anfragen hinterlassen).
dynamisch: Bei einem Sturm von Fehlern reduzieren Sie die Details, behalten Sie die Zusammenfassung bei.

6) Lieferung von Protokollen (Agenten und Schipper)

Auf dem Knoten: Fluent Bit/Filebeat/Promtail sammeln stdout Dateien/Jurnals, machen Parsing, Maskierung, Pufferung.
Netzwerk-Warteschlangen: Kafka/NATS zum Glätten von Spitzen, Retrays und Ordnen.
Zuverlässigkeit: Backpress, Festplattenpuffer, Zustellbestätigungen (at-least-once), idempotente Indizes (Key-Hash).
Filterung am Rand: Entfernen Sie „Geschwätz“ und Geheimnisse, bevor Sie ins Netzwerk gelangen.

7) Indexierung und Speicherung

Partitionierung nach Zeit (täglich/wöchentlich) + nach 'env/region/tenant' (über Index-Templates oder Labels).

Speicherebenen:

Hot (SSD, 3-14 Tage): schnelle Suche und Warnungen.
Warm (HDD/Gefrierschrank, 30-90 Tage): Manchmal suchen wir.
Cold/Archive (Objekt, Monate/Jahre): Compliance und seltene Untersuchungen.
Komprimierung und Rotationen: ILM/ISM (Lebenszyklusrichtlinien), gzip/zstd, Downsampling (Aggregationstabellen).
Rehydration: temporäres Laden von Archivpartien in einen „heißen“ Cluster zur Untersuchung.

8) Suche und Analyse: typische Abfragen

Incident: Zeitfilter × 'service =...' × 'level> = ERROR' × 'trace _ id '/' request _ id'.
Anbieter: 'code: PSP _' und 'kv. Anbieter: psp-a 'mit Gruppierung nach Region.
Anomalien: Zunahme der Nachrichtenfrequenz oder Änderung der Feldverteilungen (ML-Detektoren, regelbasiert).
Audit: 'category: audit' + 'actor '/' resource' + Ergebnis.

9) Korrelation mit Metriken und Traces

Identische IDs: 'trace _ id/span _ id' in allen drei Signalen (Metriken, Logs, Traces).
Links aus Diagrammen: klickbarer Übergang vom p99-Panel zu den Protokollen durch 'trace _ id'.
Release Annotationen: Versionen/Kanarienvögel in Metriken und Logs zur schnellen Verlinkung.

10) Sicherheit, PII und Compliance

Feldklassifizierung: PII/Geheimnisse/Finanzen - am Eingang maskieren oder löschen (Fluent Bit/Lua-Filter, Re2).
RBAC/ABAC: Zugriff auf Indizes/Labels nach Rolle, row-/field-level-security.
Unveränderlichkeit (WORM/append-only) für Audits und regulatorische Anforderungen.
Retention und „Recht auf Vergessenwerden“: TTL/Schlüssellöschung, Tokenisierung 'user _ id'.
Signaturen/Hashes: Integrität kritischer Protokolle (Admin-Aktivitäten, Zahlungen).

11) SLO und Pipeline-Metriken von Protokollen

Lieferung: 99. 9% der Hot-Layer-Ereignisse ≤ 30-60 Sek.
Verluste: <0. 01% über eine Strecke von 24 Stunden (nach Kontrollmarken).
Suchverfügbarkeit: ≥ 99. 9% in 28 Tagen.
Latenz der Abfragen: p95 ≤ 2-5 Sekunden auf typischen Filtern.
Kosten: $/1M Ereignisse und $/Speicher/GB im Schnitt der Schichten.

12) Dashboards (Minimum)

Pipline Gesundheit: Eingang/Ausgang Schipper, Retrays, Puffer füllen, Kafka Lag.
Fehler nach Diensten/Codes: Top N, Trends, Perzentil 'latency _ ms'.
Audit-Aktivität: Admin-Aktionen, Anbieterfehler, Zugriffe.
Ökonomie: Volumen/Tag, Index-Gewinn, Wert nach Schichten, „teure“ Anfragen.

13) Operationen und Playbooks

Sturm der Protokolle: Aktivieren Sie aggressives Sampling/Rate-Limit auf dem Agenten, heben Sie die Puffer an und übertragen Sie vorübergehend einen Teil des Flusses in warm.
Schema-Drift: Alert auf die Entstehung neuer Schlüssel/Typen, Start der Schemaanpassung (Schema-Katalog).
Langsame Suche: Indizes neu zusammensetzen, Replikate vergrößern, „schwere“ Abfragen analysieren, alte Chargen archivieren.
Sicherheitsvorfall: Sofortige Aktivierung der Unveränderlichkeit, Hochladen von Artefakten, rollenbasierte Zugriffsbeschränkung, RCA.

14) FinOps: Wie man nicht auf den Protokollen pleite geht

Verbosität entfernen: Mehrzeilige Stacktrace in ein 'Stack' -Feld verwandeln und Wiederholungen sampeln.
Aktivieren Sie die TTL: unterschiedlich für 'env '/' level '/' category'.
Verwenden Sie Loki/Archiv + on-demand rehydrate für seltenen Zugriff.
Parteien und Squeeze: Große Parteien sind billiger, aber achten Sie auf die SLA-Suche.
Materialisieren Sie häufige Auswertungen (tägliche Aggregate).

15) Instrumentelle Beispiele

Fluent Bit (Maskieren und Senden an OpenSearch)

ini
[INPUT]
Name       tail
Path       /var/log/app/.log
Parser      json
Mem_Buf_Limit   256MB

[FILTER]
Name       modify
Match
Remove_key    credit_card, password

[OUTPUT]
Name       es
Host       opensearch. svc
Port       9200
Index       logs-${tag}-${date}
Logstash_Format  On
Suppress_Type_Name On

Nginx access log в JSON с trace_id

nginx log_format json escape=json '{ "ts":"$time_iso8601","remote":"$remote_addr",'
'"method":"$request_method","path":"$uri","status":$status,'
'"bytes":$body_bytes_sent,"ua":"$http_user_agent","trace_id":"$http_trace_id"}';
access_log /var/log/nginx/access. json json;

OpenSearch ILM-Richtlinie (hot→warm→delete)

json
{
"policy": {
"phases": {
"hot":  { "actions": { "rollover": { "max_age": "7d", "max_size": "50gb" } } },
"warm": { "min_age": "7d", "actions": { "forcemerge": { "max_num_segments": 1 } } },
"delete":{ "min_age": "90d", "actions": { "delete": {} } }
}
}
}

16) Checkliste Umsetzung

Das Feldschema und die Logebenen wurden übernommen; Die trace/request-id-Korrelation ist aktiviert.
Konfigurierte Agenten (Fluent Bit/Promtail) mit Maskierung und Puffern.
Online-Layer (OpenSearch/Loki/Cloud) und Archiv (S3/GCS + Parkett) ausgewählt.
Retentionsrichtlinien ILM/ISM + hot/warm/cold, rehydrate-Prozess.
RBAC/ABAC, Unveränderlichkeit für Audit, Zugriffsprotokoll.
Pipline Dashboards, Alerts für Loss/Lag/Disk Buffer.
Playbooks: Storm of Logs, Schema Drift, Slow Search, Security-Incident.
Finanzielle Grenzen: $/1M Ereignisse, Quoten für „teure“ Anfragen.

17) Anti-Muster

Textprotokolle ohne Struktur → die Unfähigkeit zu filtern und zu aggregieren.
Riesige Stacktrace in INFO → eine Explosion des Volumens.
Fehlende Korrelation → „Flattern“ über alle Dienste hinweg.
Die Speicherung „alles für immer“ → die Cloud-Rechnung wie ein Flugzeug.
Geheimnisse/PII in den Protokollen → Compliance-Risiken.
Manuelle Indexänderungen in der Produktion → Drift und lange Suchausfallzeiten.

18) Ergebnis

Logzentralisierung ist ein System, nicht nur ein Stack. Ein standardisiertes Schema, Korrelation, sichere Schipper, Schichtspeicher und strenge Zugriffsrichtlinien machen Protokolle zu einem leistungsstarken Werkzeug für SRE, Sicherheit und Produkt. Die richtigen Retentionen und FinOps schonen das Budget und die SLOs der Pipeline und Playbooks machen die Untersuchungen schnell und reproduzierbar.

Zentralisierung der Protokolle

Nginx access log в JSON с trace_id

OpenSearch ILM-Richtlinie (hot→warm→delete)

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet