System powiadamiania i ostrzegania
(Sekcja: Operacje i zarządzanie)
1) Cel i zasady
Celem jest dostarczenie niewiele, ale dokładnie: tylko istotne sygnały, w odpowiednim czasie i do odpowiedzialnej osoby/robota z zrozumiałym następnym krokiem.
Zasady:- Działanie domyślne: każdy alert ma właściciela, priorytet, czas reakcji i przycisk akcji.
- SLO-pierwszy: Alerty są wokół SLI/SLO, nie arbitralne metryki.
- Kontrola hałasu: terminy, korelacje, tłumienie sztormu.
- Bogate w kontekst: metadane (region, najemca, wersja, trace_id) i link do runbooka.
- Audyt gotowy: wszystkie wpisy i reakcje są uznawane i zapisywane w niezmienionym dzienniku.
2) Źródła sygnału
Te. telemetria: dostępność, p95/p99, szybkość błędów, opóźnienie kolejki, limity zasobów.
Wydarzenia biznesowe: Niedopasowanie, WebhookLag, RTP Drift, sygnały oszustwa.
Bezpieczeństwo/zgodność: naruszenia SoD, dostęp PII, wygaśnięcie klucza/certyfikatu.
Harmonogram: wygasłe zadania SLA, lawiny DLQ, powtórne burze.
3) Klasyfikacja i priorytety
Poręcze: alerty są formułowane w odniesieniu do budżetu SLO/błędu (wskaźnik oparzenia).
4) Routing i eskalacja 24 × 7
Trasa według kontekstu: „region/najemca/produkt/dostawca/dotkliwość”.
Drabina schodów ruchomych: inżynier dyżurny → dowództwo → Menedżer obowiązków → Exec/Legal (dla PII/Finance).
Obowiązek: obrót według roli (SRE, Aplikacja, Dane, Bezpieczeństwo, Płatności), kontakty kopii zapasowych (czat/głos/SMS).
Okna ciszy: noc, zwolnienie, marketing; wyjątki dla P1.
5) Redukcja hałasu i korelacje
Deduplikacja: przez '(odcisk palca, region, najemca, trasa)' i 'trace _ id'.
Tłumienie burzy: tymczasowe tłumienie duplikatów z aktywnym P1.
Korelacje: grupowanie sygnałów wokół przyczyny głównej (release/feature/provider).
Histereza: wejście/wyjście z progu - inne, aby uniknąć „piły”.
6) Treść alarmu (szablon)
Tytuł: zwięzły i merytoryczny - „EU/Checkout: p95> 250ms (naruszenie SLO)”.
Pola kluczowe: priorytet, czas, region, najemca, wersja, trace_id, dotknięte%, †. powód.
Co teraz zrobić: pierwsze 1-3 kroki + link do runbooka/przycisków (Re-route, Rollback, Pause Promo).
Następna komunikacja: w N minut, właściciel (IC/dyżur).
7) Kanały dostawy
Czat/posłaniec: główny kanał triage (karty bot z przyciskami).
Pager/głos/SMS: dla P1.
Poczta: raporty i niepotrzebne (P3/Info).
Haki internetowe: integracja z biletami/orkiestrami.
Strona statusu: zewnętrzne powiadomienie klientów i partnerów.
8) Integracje i przyciski akcji
Bot incydent: tworzy kartę, przypisuje IC, otwiera most wideo, uruchamia zegary.
Руна (automatyczne działania): Ponowna trasa, Rollback, Podnieść limit, Flush Cache, Wyłączyć Webhooks, Włącz tryb bezpieczny.
Prawa: Start runów ograniczony do ról; wszystkie działania są podpisywane i rejestrowane.
9) Wielobranżowy i wielopoziomowy
niezależne SLO/progi w podziale na regiony; miejscowe incydenty nie „malują” całego świata.
Filtry widoczności: partnerzy/najemcy widzą tylko swoje.
Wymogi jurysdykcyjne: teksty zgłoszeń, języki, strefy czasowe.
10) Zasady, harmonogramy, okna ciszy
Polityka ostrzegania: właściciele, progi, kanały, eskalacje, szablony.
Kalendarze: godziny pracy/pracy, okna wydania/marketingu.
Zmiana zamrożenia: Łagodzenie progów lub tłumienie „non-P1” podczas dużych zapasów.
11) Kontrola i utrwalenie prawa
Paragony: dla alertów krytycznych - 'receipt _ hash' i podpis DSSE.
Dzienniki WORM: niezmienne przechowywanie zdarzeń i reakcji (którzy potwierdzili, co zrobili).
Łańcuch opieki: śledzenie eskalacji i decyzji.
12) Wskaźniki systemu powiadomień i SLO
MTTA (potwierdzenie): P1 ≤ 5-10 min; P2 ≤ 30 min.
Stawka strony/Obciążenie dyżuru: sygnały na zmianę - w zakresie docelowym.
Fałszywy dodatni%: próg docelowy ≤ (zazwyczaj <10-15%).
Skuteczność korelacji: odsetek zgrupowanych sygnałów ≥ 80%.
SLO dostawy: czat ≥ 99. 9%, SMS/głos ≥ 99. 5%.
Czas do działania: p95 do uruchomienia biegów z alarmu.
13) Deski rozdzielcze i sprawozdania
Operacja: aktywne incydenty, szybkość spalania, mapa regionu/lokatora, kolejka alarmowa.
Jakość alarmu: hałas, FP, powtórzenia progów, ciche strefy.
Obciążenie dyżurne: częstotliwość przywoływania, czas reakcji, „poza godzinami”.
Po incydencie: sprawność biegów, powodowanie nawrotu.
14) Specyfika iGaming/fintech
Płatności/PSP: P1 - awaria dostawcy, wzrost awarii autoryzacji; auto-trasa do kopii zapasowej PSP.
RTP & Limits: Alerts to observed RTP drift, over limits, suspicious win patterns.
Partnerzy/webhooks: opóźnienie dostawy, podwójny wzrost, spadek potwierdzonych wpływów.
Cena/FX/Podatek: vitrina, niedopasowanie transakcji, brak synchronizacji wersji artefaktu.
Odpowiedzialna gra: wyzwalacze RG i ich terminowa eskalacja w zakresie wsparcia/zgodności.
15) RACI
16) Lista kontrolna wdrażania
- Zdefiniować Gwiazdę Północną i SLI/SLO; powiązać wpisy z szybkością spalania.
- Wprowadź katalog zasad: progi, kanały, eskalacje, okna ciszy.
- Wdrożenie impasu, korelacji, histerezy, tłumienia burzy.
- Skonfiguruj zasady widoczności dla wielu regionów i dla wielu najemców.
- Podłącz „przyciski akcji” i książki startowe; Ograniczyć prawa startowe.
- Włącz WORM/Bill, trace_id Trace and Runtime Audit.
- Budowa desek rozdzielczych jakości (hałas, FP, MTTA, wskaźnik stron).
- Мровеста GileDay: PSP przerwy, WebhookLag,, RTP Drift.
- Regularne przeglądy progów; Progi A/B na „głupich” metrykach.
- Miesięczne sprawozdanie z obciążenia dyżurnego i poprawy.
17) Playbooks (odniesienie)
Przerwa PSP (P1): automatyczna droga do rezerwacji, obniżenie czasu klienta, kwarantanna transakcji „szare”, aktualizacja stanu w 15 minut.
WebhookLag (P2): zwiększenie liczby pracowników/partii, priorytet kolejki, pauzowanie czasu opcjonalnych punktów końcowych.
• Niedopasowanie (P1/P2): niepełnosprawność cache force, 'fx _ version/tax _ rule _ version' pojednanie, artifact rollback, kompensacje.
RTP Drift (P2): pauza bonusowa/promocyjna, audyt profilu, rozszerzenie okna monitorowania.
Bezpieczeństwo: SoD/MFA nie powiodło się (P1/P2): blokowanie operacji, ponowna kontrola JIT, techniki sądowe i prawne, jeśli to konieczne.
18) FAQ
Jak zmniejszyć fałszywe pozytywy?
Zasady zorientowane na SLO, korelacje, histereza, okna treningowe i regularne korekty progów.
Co jest ważniejsze - zasięg lub dokładność?
Dla P1 - dokładność i prędkość (najlepiej mniej, ale krytyczne). Dla P3 - pokrycie trendów i kosztów.
Potrzebuję wezwania telefonicznego?
Tak, dla P1; czat może być niedostępny lub „uciszony”.
Jak nie „spalić” dyżurnego dowództwa?
Limity prędkości strony, redystrybucja obciążenia, follow-the-sun, miesięczne opinie na temat hałasu.
Podsumowanie: System powiadamiania i ostrzegania jest kontrolowanym rurociągiem od sygnału do działania. Zbuduj go na SLO, tłumić szum, trasę po kontekście, dać przyciski akcji i naprawić wszystko legalnie. W ten sposób można zmniejszyć MTTA, usunąć obciążenie z dyżuru i zwiększyć odporność biznesu nawet z ostrymi kolcami i awariami dostawcy.