Überwachung und Zustandsüberwachung

1) Ziele und Grundsätze

Ziel: Verstehen Sie in Echtzeit das „Was passiert“ und „Warum“, um Vorfälle zu verhindern und sich schnell zu erholen, ohne das SLO zu stören oder das OPEX aufzublähen.
Prinzipien: SLO-first, „goldene Signale“ (Latenz, Verkehr, Fehler, Sättigung), einheitlicher Telemetrie-Standard (OpenTelemetry), minimal ausreichende Details, Erklärbarkeit, Cost-Aware-Beobachtbarkeit.

2) Beobachtbare Schichten

1. Metriken: Aggregate für SLI/SLO, Kapazität und Trends (RED/USE-Modelle).
2. Traces: Ursache-Wirkungs-Ketten von Anfragen, Zahlungs- und Spieltransaktionen.
3. Logs/Events: detaillierter Kontext und Audit der Aktivitäten der Betreiber/Dienste.
4. Synthetik (Black-Box): externe Überprüfungen von APIs/Web-Pfaden, PSP/KYC-Hels-Pings.
5. RUM (realer Benutzer): Front-End-Metriken (TTFB, LCP, JS-Fehler), Geo-/Geräteschnitte.
6. Low-Level-Telemetrie: eBPF/CPU/IO/Alloc-Profiling, Netzwerk-Perzentilverzögerungen.

3) SLI-Set und „goldene Signale“

Latenz: p50/p95/p99 auf kritischen Pfaden (Login, Einzahlung, Wette, Auszahlung).
Errors: Anteil 5xx/timeout/decline (mit Normalisierung nach Anbietern/Banken).
Traffic/Throughput: RPS/TPS, aktive Sitzungen, Ereignisse/Sek.
Sättigung: CPU/RAM/IO-Boot, Warteschlangentiefe, Pool-Nutzung, Replikation lag.
Business SLI: erfolgreiche Einzahlungen/% -Raten pro Fenster, KYC/PSP-Konversionsabweichungen, Chargeback-Anteil.

4) Telemetrie-Architektur

Standardisierte Injektion: OpenTelemetry SDK/Collector → Normalisierung, Sampling, Privacy-Filter → Speicher (TSDB, Traces, Logs).
Korrelation: trace-id/span-id in Protokollen und Metriken (Beispiele); Einheitliche Korrelationskennung für Zahlungen/Spielereignisse.
Topologie: Service-Mapa (Service-Graph), abhängige externe Anbieter mit Live-SLI.
Kostenmanagement: Retentionsstufen, Aggregationen, dynamisches Sampling, „heiße „/“ kalte “Speicherklassen.

5) Metriken: Design und Kardinalität

Regeln: kleine Anzahl von Labels, Verbot von High-cardinality (userId, sessionId) in der Zeitreihe; solche Teile - nur in Tracks/Logs.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors für die Infrastruktur.
Beispiele: Bindung hoher Perzentile an spezifische Trace-Beispiele.
Geschäftsmetriken: $/RPS, PSP-Konvertierung nach Banken/GEO, Anbieter-Fehlertoleranz.

6) Tracing: Tiefe und Sampling

Kontext: Wir durchlaufen den Trace-Kontext durch die Front → API → Broker → Worker → DB/PSP.
Sampling: Basis 1-10%, mit Anomalien - dynamischer Anstieg nach den Regeln (tailbased).
Schwerpunkte: Payment Flow (init → auth → capture/settle), Spieltransaktionen (bet → settle), KYC (init → verify).
Anmerkungen: PSP-Antwortcode, Bank-BIN/Issuer-Kategorie, Region, Risikograd.

7) Protokolle und Audit

Strukturierte Protokolle: JSON, Ebene nach Profil (INFO auf dem Produkt, DEBUG im Debugging).
Privatsphärenfilter: PII-Maskierung, Verbot von rohen KYC-Dokumenten in Protokollen.
Audit-Ereignisse: Wer/Was/Wo/Wann/Warum, Ticket-ID, Pre/Post-Werte für risikoreiche Transaktionen (Boni, Limits, PSP-Routing).
Unwiderruflichkeit: WORM/immutable, Unterschrift, Politik retention.

8) Zustandsüberwachung (Gesundheit)

Liveness/Readiness/Startup: die richtigen Tests (keine Überprüfung externer Abhängigkeiten in Liveness).
Degradierter Modus: Explizite Flags der Dienstdegradierung, so dass Alerts und Statusseite konsistent sind.
Budgetgesundheit: Burn-Rate des Fehlerbudgets (schnelles/langsames Fenster), Headroom nach Ressourcen und Warteschlangen.

9) Alerting und Frühwarnung

SLO-Warnungen: nach Fehlerbudget (4-Stunden- und 1-Stunden-Fenster) statt „roh“ p95.
Anomalien: STL/IQR/Online-Detektoren für 5xx-Bursts, PSP-Berechtigungsabfall in einem bestimmten GEO/Bank.
Wurzel-Grund-Hinweise: Verknüpfen Sie Alerts mit den neuesten Releases/Ficheflags/geplanten Arbeiten.
Runbooks: Jede Alert hat Links zum Playbook, Grafiken, "Quick Checks'.

10) Dashboards (wer und was sieht)

Exec: Aptime/SLO, Burn-Rate, erfolgreiche Einzahlungen/Wetten, Status der Anbieter, Kapazitätsprognose und $/RPS.
SRE/Plattform: RED/USE nach Diensten, Warteschlangen/Lag, Pool-Nutzung, Replikation Lag, CDN/WAF, eBPF-Profile.
Zahlungen/Risiko: PSP/Banken/GEO Autorisierungserfolge, Soft/Hard Declines, KYC Zeit, Chargeback Frühsignale.
Support/CS: Status-Panel von Vorfällen, SLA-Antworten, FAQ-Makros.

11) Kostenmanagement der Beobachtbarkeit (FinOps-Observability)

Retention: 7-14 Tage für „rohe“ Strecken, Einheiten länger; selektiv - heiße Dienste.
Sampling/Aggregation: Dynamisches Sampling von Anomalien, Downsampling von alten Reihen.
Ingest-Richtlinien: Schneiden Sie das Rauschen (Gesundheit Pings, redundante Protokolle), Quoten für High-cardinality Metriken.
Kosten-KPI: $/GB ingest, $/trace, $/SLI dashboard; regelmäßige Revue Top-Esser.

12) Datenschutz und Compliance

PII/Finanzen: Maskierung, Tokenisierung, Datenminimierung in der Telemetrie.
Geo-Lokalisierung: Speicherung und Verarbeitung nach Gerichtsbarkeit; Log-Export - nur über genehmigte Workflows mit Verschlüsselung und TTL.
Telemetrie Access Audit: RBAC/ABAC, SoD für Uploads, Anforderungsprotokoll.

13) Integration mit Incident Management und Releases

Status-Seite: Automatisches Update-Feed aus der Incident-Card.
Release-Gate: Kanarienanalyse nach SLI, Auto-Stop-Release bei Burn-Rate> Schwelle.
Post-mortem: Zeitleiste von Tracks/Logs, tatsächliche SLIs und Verletzungsfenster.

14) Praktische Implementierungstechnik (8-12 Wochen)

Ned. 1-2: Inventarisierung kritischer Pfade und SLI; Auswahl des Stacks (OTel, TSDB, Logs, Traces); Abhängigkeitszuordnung.
Ned. 3-4: Implementierung von OTel in 3-5 Schlüsseldienste (Login/Einzahlung/Wette), grundlegende RED/USE, Trace-Kontext in den Protokollen.
Ned. 5-6: SLO und Burn-Rate-Alerts; Synthetik nach PSP/KYC; die ersten Runbooks; RUM auf Web/Mobile.
Ned. 7-8: dynamisches Sampling, Beispiele, Service-Mapa; Dashboards Exec/SRE/Zahlungen.
Ned. 9-10: eBPF/Profiling von heißen Engpässen; Privacy-Filter; Quoten/Rückstellungen.
Ned. 11-12: Release-Gates und Auto-Rollback über SLI; Integration mit der Status-Seite; Tabletop-Übungen.

15) Artefaktmuster

SLO-Karte des Dienstes: SLI, Ziele, Fenster, Fehlerbudget, Warnungen, Besitzer.
Alert Spec: Metrik/Bedingung, Schwellenwerte, Dedup/Silence, Empfänger, Runbook.
Dashboard Spec: Publikum, Fragen, 6-8 Widgets, Datenquelle, Aktualisierungsrate.
Telemetriepolitik: welche Felder zulässig/verboten sind, Retention, Maskierung, Export.
Cost Review Pack: Top-Serien/Log-Streams, Sampling/TTL-Angebot, erwartete Einsparungen.

16) KPI der Beobachtungsfunktion

MTTA/MTTR (Verbesserung nach Einführung von SLO-Alerting).
% der Vorfälle, die von Synthetics/SLI vor Nutzerbeschwerden entdeckt wurden.
Anteil der Releases, die ohne manuellen Eingriff das Gate per SLI passiert haben.
Reduzierung von $/RPS auf Telemetrie unter Beibehaltung der Diagnosefähigkeit.
Tracing-Abdeckung kritischer Pfade (> 90%).
Die Genauigkeit der Korrelation „Status-Update ↔ tatsächliche SLI“.

17) Antipatterns

„Wir protokollieren alles“ → Kostenexplosion und Lärm.
Alerts für „rohe“ Metriken anstelle von SLO/burn-rate → pager-fatigue.
Hohe Kardinalität der Metriken (userId) → TSDB-Stürme.
Traces ohne Geschäftskontext (PSP/Bank/GEO) → keine Einsicht.
Es gibt keinen Zusammenhang der Beobachtbarkeit mit Releases/Incidents → die Telemetrie lebt getrennt.

Summe

Die Überwachung und Zustandssteuerung ist keine Toolbox, sondern ein verwaltetes System: korrekte SLI/SLO → standardisierte Telemetrie und Korrelation → SLO-Alerting und Runbooks → Integration mit Releases und Status-Kommunikation → Cost-Aware-Betrieb und Privatsphäre. Eine solche Schaltung liefert frühe Signale, schnelle RCAs und Geschäftsresilienz auch bei extremen Verkehrsspitzen.

Überwachung und Zustandsüberwachung

Summe

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet