Operationen und Management → Vorhersage von Vorfällen
Vorhersage von Vorfällen
1) Warum es notwendig ist
Die Vorfälle würden selten „aus dem Nichts explodieren“. Vor der Ablehnung sendet die Plattform Signale: beschleunigtes p99-Wachstum, langsames Error-Budget-Burnout, Warteschlangen-Verzögerungen, steigende Retrays bei einem bestimmten Downstream, Annäherung der Anbieterquoten. Die systemische Vorhersage von Vorfällen übersetzt die Reaktion von „Brandbekämpfung“ in „frühzeitiges Eingreifen“, wodurch die MTTR, die Änderungsfehlerrate und die Umsatzverluste reduziert werden.
Die Ziele sind:- Erkennen Sie Vorläufermuster und leiten Sie automatisch Präventionsmaßnahmen ein.
- Reduzieren Sie den P1/P2 durch eine Verschiebung nach links (Pre-Incident Detect Rate).
- Integrieren Sie Vorhersagen in Release-, Failover- und Capacity-Awareness-Prozesse.
2) Signalkarte (Leitindikatoren)
Plattform/infra:- Beschleunigung p95/p99 (Gradient), „Schwänze“ von Verzögerungen, Variationswachstum.
- Warteschlangen/Streams: 'lag' Wachstum und positive Ableitung von lag; Die HPA ist am Maximum.
- DB/Cache: 'active _ conns/max _ conns', 'replication _ lag', 'evictions', fall 'cache _ hit'.
- Netzwerk: mTLS/handshake bugs, growth 5xx/timeout out out.
- 'outbound _ error _ rate '/' retry _ rate' zu einem bestimmten Anbieter, 'circuit _ open', 'quota _ usage> 0. 9`.
- SLA-Anbieter: geplante Fenster, Degradation.
- Abnormale Belastung (Kampagnen/Matches), RPS/TPS-Sprünge, ungewöhnliche Mischungen von Regionen/Kanälen.
- Die Umwandlung von Einlagen/Wetten sinkt mit dem Anstieg des p99 → Quasi-Proxy des Vorfalls.
- Burn-rate error-budget> Schwelle (z.B.> 4 × für 10-15 min).
- Häufige kleine Störungen des SLO (Micro-Degradation) als Marker für einen nahenden Ausfall.
3) Datenquellen und Schaukästen
Online-TV-Metrik: Prometheus/OTel (Metriken, Logs, Traces).
Incident Events: Tickets/Status/Postmortems (Wahrheit für das Ziel).
Change Plan/Facts: Releases, Ficheflags, Migrationen, Provider-Fenster.
Verzeichnisse: Abhängigkeitskarte, Quoten, Besitzer.
DWH-Bilder: Aggregate für Training/Validierung (synchrones Fenster!).
Qualitätsanforderungen: ≥99% Vollständigkeit, Stunde/Minute TZ Ausrichtung, einheitliche Definitionen p95/p99.
4) Prognoseansätze
4. 1 Nichtparametrische/Regeln (Schnellstart)
Schwellenalarme für die Änderungsrate: 'deriv (p99)', 'z-score' für kurze Fenster.
Zusammengesetzte Bedingungen: „lag↑ + HPA = max + circuit_open (to =“ PSP-X „)“.
SLO-burn-gates: release/canary stop bei burn-rate> X.
4. 2 Erkennung von Anomalien
Saisonale Grundlagen (STL/Prophet-ähnliche Ideen), Rolling Median + MAD.
Multivariat: gemeinsame Anomalie „p99 + retry + open_circuit + quota“.
Change-point detection: CUSUM/BOCPD für Trendverschiebungen.
4. 3 ML-Modelle (supervised)
Einstufung „Vorfall bei T + K?“ durch das Fenster der Zeichen (zum Beispiel 10-30 Minuten vor).
Merkmale: Statistiken, Ableitungen, saisonale Residuen, One-Hot-Anbieter/Regionen, Release-Flags.
Tags: 'incident{severity∈[P1,P2]}' im Intervall [t, t + K].
Erklärbarkeit: SHAP/Permutation wichtig für Vertrauen und Operationalität.
4. 4 SRE-erster Hybrid
Modell → Risiko-Scoring (0-1) → Aktionspolitik (Ficheflags/Failover/Pre-Scale), mit HITL für Kritik.
5) Konstruktion von Merkmalen (Feature Engineering)
Schiebefenster (1/5/15 min): mean, p95/p99, std, max, slope.
Relative Indikatoren: „p99/baseline _ 1d“, „error _ rate _ delta“.
Kohortenfeatures: Anbieter, Region, Spieltyp/Match, Gerätekanal.
„Last“ -Features: RPS, Payload-Größe, Anzahl der offenen WS.
System: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
Event-Flaggen: „Release im Gange“, „Canary 10%“, „Provider-Fenster“.
6) Die Mechanik der Vorhersagen und Handlungen
Entscheidungskette:1. Scoring des Risikos alle N Sekunden nach Domains (Payments/Bets/Games/KYC).
2. Alert-Politik:- Risiko ≥ 0. 8 + Bestätigungssignale → Seite des Domaininhabers;
- 0. 6–0. 8 → Warnung + Vorbereitung von Maßnahmen.
- Pre-scale (HPA minReplicas↑), Einbeziehung von Caches, Einschränkung schwerer Funktionen;
- Umschalten auf einen Standby-Anbieter/eine Standby-Route;
- Pause/Rollback Kanarienvogel;
- Retracement-Limit zum „engen“ Downstream.
4. HITL: Eine Person bestätigt Maßnahmen der Ebene „Änderung des Geschäftsverhaltens“.
7) Integration in tägliche Prozesse
Releases: Predictive Gates auf Kanarienvögeln (Vorher/Nachher-Vergleich und Risiko-Scoring).
Failover: automatisches Vorbereiten/Aufwärmen der Backup-Route bei Anbieterrisiko.
Kapazität: „early uplift“, wenn der Kopfraum fällt und die Verzögerungen steigen.
Warnungen: separates Band „pre-incident“ + Anmerkungen in Dashboards.
8) Beobachtbarkeit und Dashboards
Risikoübersicht: Risiko nach Domains und Anbietern, Trends, Merkmalsbeitrag.
Lead Signals: Top-N-Vorläufer (p99-Gradient, Lag, offene Breaker).
Aktionen & Outcomes: Was eingeschaltet wurde, Wirkung auf p95/Fehler, stornierte Vorfälle.
Modellgesundheit: Präzision/Rückruf/Latenz, Drift-Zeichen, Häufigkeit von Autotätigkeiten.
9) Qualitätsmetriken für Vorhersagen
Recall @ P1/P2 (Sensitivität bei kritischen Vorfällen).
Präzision (weniger „falsche Pages“).
Lead Time (Median „wie viele Minuten vor der Tat“).
Intervention Win-Rate (Anteil der Fälle, in denen die Maßnahme das Risiko/die Kosten reduziert hat).
Alert Fatigue Index (alert/shift/person).
Drift Score (stat. Unterschiede der Merkmalsverteilungen vs Lernperiode).
Die Standardziele sind Recall (P1) ≥ 0. 7, Precision ≥ 0. 6, Lead Time Median ≥ 8-10 min.
10) Modellrisikomanagement (ML Ops/Governance)
Versionierung von Daten/Code/Artefakten, Reproduzierbarkeit.
Champion/Challenger: Das neue Modell läuft parallel, der Vergleich offline/online.
Drift: PSI/KL-Divergenz, automatische Überschreitung der Schwellen, alert „Modell veraltet“.
Erklärbarkeit: Speichern Sie für jede Entscheidung die Bedeutung von Merkmalen und die Datenreferenz.
Sicherheit/Ethik: Zugriffe, PII-Maskierung, Kontrolle von Auto-Aktivitäten durch Politiker.
11) Beispiele für Regeln und Richtlinien
SLO-burn und Kanarienvogel (Konzept):
policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
Verbundrisiko des Anbieters:
risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
Lag-Sturm im Streaming:
if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching
12) Implementierung Checkliste (30-60 Tage)
- Katalog von Signalen und „Wahrheiten“ zu Vorfällen (Severity, Timelines).
- Basislinien und Saisonalität für Schlüsselmetriken (vor/nach der Veröffentlichung).
- Regeln für frühe Signale (Gradienten p99, lag, burn-rate).
- Risiko/Lead Signale/Aktionen Dashboards.
- Integration mit Ficheflagen/Kanarienvögeln, HPA Pre-scale.
- ML-Klassifikator-Pilot auf einer Domäne (z. B. Zahlungen).
- HITL-Richtlinien und Auto Activity Log.
- Qualitätsmetriken und Alerts auf Drift/Gesundheit Modelle.
13) Anti-Muster
„Kristallkugeln“: ein komplexes ML-Modell ohne Grundlinien und einfache Regeln.
Keine Handlungsfähigkeit: Wir sagen „schlecht“ voraus, machen aber nichts automatisch.
Ignorieren Sie Saisonalität/Veranstaltungskalender (Spiele/Turniere) → Fehlalarme.
Zeitzonen mischen → falsche Metrik-/Incident-Fenster.
Mangel an Erklärbarkeit → Misstrauen, Deaktivieren des Prädikts durch Befehle.
Eine einzige globale Schwelle für alle Domänen/Regionen → eine geringe Genauigkeit.
14) Besonderheiten der Domains (iGaming)
Zahlungen: Anbieter/Quoten, Wachstum von 'retry _ rate' und 'circuit _ open' → früher Failover.
Bets: Verzögerung der Koeffizientenaktualisierung, Wachstum des WS-Fan-Outs → Sendelimit.
Spiele/Live: Verbindungsausbrüche, Studio-Limits → UI/Cache-Degradation.
KYC/AML: Webhook-Verzögerungen, Prüfwarteschlangen → HITL und verzögerte Verarbeitung.
15) Beispiele für Metriken und Alerts (Ideen)
ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}
ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}
ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}
16) KPIs des Prognoseprogramms
Pre-Incident Detect Rate (Anteil an verhinderten/verminderten Vorfällen).
Avg Lead Time vor dem Vorfall.
Reduktion in P1/P2 Q./Q.
MTTR (erwartet ↓ aufgrund des frühen Kontextes).
False Alarm Rate/Alert Fatigue (stabil ↓)
Cost Avoidance (Schätzung der verhinderten Verluste/Strafen/Overscale).
17) Schnellstart (Rezept)
1. Aktivieren Sie Gradientenregeln auf p99/lag und SLO-burn;
2. Fügen Sie zusammengesetzte Bedingungen für Anbieter hinzu;
3. Verknüpfen Sie das Prädikt mit den Ficheflagen und dem Pre-Skale;
4. Bericht „Vorhersage → Wirkung → Wirkung“;
5. ML-Pilot in einer Domäne; nach dem Wachstum von Precision/Recall skalieren.
18) FAQ
F: Wo fange ich ohne ML an?
A: Saisonale Basislinien + Gradienten + zusammengesetzte Regeln. Dies führt zu einem spürbaren Anstieg von Recall ohne Komplexität.
F: Wie kann man nicht in Fols-Positiven ertrinken?
A: Signale kombinieren, Hysterese und Bestätigungszeit eingeben, Schwellenwerte pro Domäne/Region anpassen, Precision und Alert Fatigue auswerten.
Q: Welche Tätigkeiten zuerst automatisieren?
A: Sicher und reversibel: Pre-Scale, Caches/Degradation einschalten, Pause/Rollback des Kanarienvogels, Anbieterwechsel bei bestätigten Signalen.