Automatyczna korekta błędów

1) Cel i zasady

Cel: Ograniczenie MTTR i zapobieganie eskalacji incydentów poprzez zachowanie SLO, dochodów i zgodności.

Zasady:

SLO-first: Automatyczne działania są dozwolone tylko wtedy, gdy istnieje potwierdzone zagrożenie dla budżetu błędu.
Bezpieczeństwo po pierwsze: minimalny promień wybuchu, wyraźne ograniczenia i skrzynki czasowe.
Możliwe do wytłumaczenia z projektu: Każda akcja jest tłumaczalna i kontrolna.
Rollback-ready: każdemu krokowi towarzyszą kryteria zwrotu.
Człowiek w pętli, gdzie ryzyko jest wysokie: P1-critical zmiany - poprzez podwójną kontrolę lub potwierdzenie IC/dyżur (chyba że polityka stanowi inaczej).

2) Warunki

Auto-remediacja: reakcja programowa na zdarzenie (alert/anomalia) bez interwencji człowieka.
Poręcze: polityka ograniczania (próg, czas trwania, liczba prób, obszar oddziaływania).
Runbook-Action: operacja atomowa z kontrolą wstępną/pocztową i rolką.
Decision Engine - usługa, która odwzorowuje zdarzenie na politykę i uruchamia działania.

3) Architektura rozwiązania

1. Sygnały: SLO/szybkość spalania, KRI, syntetyka, RUM, głębokie zdrowie.
2. Korelacja kontekstowa: wydania, flagi funkcji, planowane prace, dostawcy zależni.
3. Silnik decyzji: zasady/polityki (kod polityki), ocena wpływu i ryzyka, wybór scenariusza.
4. Wykonanie: orkiestrator akcji runbooka (idempotencja, retrai z jitterem).
5. Sterowanie: prewalidatory, post-weryfikatory, skrzynka czasowa, rolka.
6. Audyt i obserwowalność: ślad aktywności, wskaźniki sukcesu, dziennik (WORM/immutable).
7. Komunikacja: strona stanu (za pośrednictwem Comms Lead), var-room, makro do obsługi.

4) Kod polityki

Przykłady warunków (pseudo-Rego/logika): PSP awaryjny:

"w razie burn_rate (płatności. auth)> fast & impact> threshold & & & psp_alt. healthy & within_limits („psp _ reroute”) '

Funkcje degradacji niekrytyczne:

'allow if p99 (bet_settlement)> 3x & & queue_lag>limit & feature („replay _ center”). włączone "

Autoskale przez Lag:

"allow jeśli consumer_lag>target & cost_budget. ok & region_capacity. dostępny "

Blok PII Eksport:

„jeżeli export_spike & no_ticket & & data_class=PII -> działanie = blok + powiadom (Zgodność)”

Każda polityka zawiera: warunek, działanie, limit (zakres/czas/częstotliwość), kryteria sukcesu, zwrot.

5) Katalog bezpiecznych działań (atomowe runbook-działania)

Płatności: przełączyć ruch na alternatywny PSP/bank; zmienia priorytety trasowania zdrowia × opłata × konwersja; Włącz uproszczone 3DS podnieść limity retray z jitter.
Zakłady/gry: skala osiedla pracowników; Włączanie pamięci podręcznej czasowo wyłącza funkcje niekrytyczne (animacje, kanały wtórne); włącz poczekalnię/kolejkę.
Infrastruktura: usuwanie zdegradowanych przypadków (detektor zewnętrzny), ewakuacja ruchu do sąsiedniego AZ/regionu; Zwiększenie puli/kwoty uruchom ponownie pracowników za pomocą kontroli krawędzi.
Dane/kolejki: strony redystrybucji; zwiększenie ograniczeń dla konsumentów; przełączyć ruch odczytu na zdrową replikę; Umożliwia pobieranie próbek na trasie adaptacyjnej.
Bezpieczeństwo/zgodność: tymczasowo zablokować wywóz PII bez biletu; Wzmocnienie limitów wyjściowych prędkości umożliwia podwójną kontrolę wrażliwych operacji.
Warstwa przecinka: auto-draft status + sloty aktualizacji dla Comms Lead; powiadamianie partnerów, gdy PSP ulegnie degradacji.

6) Pre- i po walidacji

Przed:

Sprawdź, czy problem jest prawdziwy i świeży (okna N-of-M; brak ciszy/planowanej pracy).
Sprawdź, czy działanie jest dozwolone przez politykę i czy istnieje budżet zasobów.
Szacunkowy koszt (FinOp) i ograniczenia zgodności.

Post:

Potwierdź redukcję prędkości spalania/metryki; odnotowuje wynik; Zaplanuj auto-rollback zgodnie z warunkami.

7) Rollback „escape hatch”

Automatyczny powrót podczas stabilizacji mierników i poprzez działania max-TTL.
Przycisk Roll z powrotem do IC/dyżur w pokoju var.
Szkło break tylko dla dostępu awaryjnego; wymagany jest post-audyt.

8) Integracja z alarmem i incydentami

Każda automatyczna akcja jest dołączona do karty incydentu: kto/co/kiedy/dlaczego, wynik, linki do wykresów.
Pager jest wyciszony dla duplikatów, ale nie dla nieudanych automatycznych poprawek (eskalacja).
Strona stanu jest aktualizowana za pomocą polecenia Comms Lead z szablonu.

9) Projekt bezpieczeństwa i zgodności

Najmniej przywilejów dla orkiestry; poszczególne role na akcję/domenę.
SoD i podwójna kontrola dla wysokiego ryzyka: routing PSP, limity premii, eksport PII.
Audyt WORM/immutable wszystkich automatycznych rozwiązań, w tym wejść i wersji polityki.
Higiena PII: bez osobistych identyfikatorów w etykietach i dziennikach akcji.

10) Obserwowalność automatycznych pętli

Metryka: szybkość działania, czas reakcji,% rolki, oszczędności MTTR, wpływ na SLO.
Ślady: końcowe ślady sygnału → decyzja → działanie → efekt.
Dzienniki: ustrukturyzowane, z policy_id, wersjami i kontrolami wstępnymi/pocztowymi.
Deski rozdzielcze: Exec (wpływ przychodu/SLO), Ops (macierz akcji × domeny), FinOp (koszt automatycznych środków).

11) Przykładowe scenariusze (iGaming)

11. 1 degradacja PSP (TR/UE)

Sygnał: automatyczny sukces w PSP-1 w ciągu 10 minut o 25%, zasięg> 30% transakcji.
Działania: redystrybucja 40% ruchu do PSP-2/3; Włącz uproszczone 3DS podnieść retras żądań banku X z jitter.
Granice: nie więcej niż 60% całkowitego ruchu na alternatywny PSP; TTL 45 min.
Rollback: przy normalizacji szybkości sukcesu ≥ cel przez 15 min.

11. 2 Wzrost p99 w stawkach rozliczeniowych

Sygnał: p99 „bet → settle”> 3 × norma + consumer-lag> próg.
Działania: skala pracowników przed pułapem; współczynnik podgrzewania pamięci podręcznej; tymczasowo wyłączyć „historię redo”.
Rollback: po zagłówku> X i p99 zwykle 20 min.

11. 3 Lags repliki bazy danych

Sygnał: replikacja-lag> N sekund, wzrost blokady-wait.
Działania: przekierowanie odczytu ruchu do zdrowej repliki; umożliwia operacje zapisu o niskim priorytecie.
Rollback: po opóźnieniu normalizacji i blokady błędów.

11. 4 Kolec eksportowy PII

Sygnał: wskaźnik eksportu> wartość wyjściowa × K, brak biletów.
Działania: blok eksportu, powiadomienie o zgodności, włączona podwójna kontrola.
Rollback: po potwierdzeniu żądań i zamknięciu anomalii.

12) KPI - KRI

MTTR w przypadku incydentów, w których działa auto-fix.
TTD → Działanie: czas od wykrycia do działania.
Sukces działań i wskaźnik Rollback (niski - dobry, jeśli nie z powodu fałszywych pozytywów).
Wskaźnik fałszywego działania (działania bez skutku lub z negatywnym skutkiem).
Zaoszczędzone uderzenie SLO.
Zmęczenie pagerem, z tym samym/lepszym SLO (mniejsza liczba pagerów ręcznych).

13) Plan realizacji (8-12 tygodni)

Ned. 1-2: wybierz 3-5 wysokich scenariuszy ROI (PSP-feilover, autoskale po opóźnieniu, funkcja-degradacja); opisać zasady/limity/zwroty.
Ned. 3-4: wdrożenie orkiestry działania, tajemnic i ról, integracja z platformą incydentów; dodać obserwowalność i audyt.
Ned. 5-6: pilot w trybie „cień” (tylko symulacja) → oszacowanie efektu A/B; następnie zawierać w produkcie o niskim zasięgu.
Ned. 7-8: rozszerzyć katalog skryptów (baza danych/pamięć podręczna/kolejki/przód), skojarzyć ze stroną statusu i poleceniami.
Ned. 9-10: dodać zasady limitu FinOps (koszt/SLI), wdrożyć podwójną kontrolę dla wysokiego ryzyka.
Ned. 11-12: nauki o tablopie/chaosie, przegląd KPI/KRI, publikacja wytycznych i szkolenie dyżurne.

14) Artefakty i wzory

Zasady Auto-Remediation: stan, działanie, limity, TTL, rollback, właściciel, klasa ryzyka.
Runbook-Action Spec: warunki wstępne, kroki, kontrole, błędy, monitorowanie, logika rolki.
Change-Control: Kto może rządzić polityką, opiniami PR, testami, diff i wersją.
Opakowanie dowodowe: kłody uderzeniowe SLO/ścieżki/mierniki, sprawozdanie dotyczące pośmiertnego/audytu.

15) Antypattery

„Leczenie objawów” bez sprawdzania przyczyny i SLO → klapki.
Działania bez rolki i TTL → zamrożona degradacja.
Uniwersalne skrypty bez barier → awarie kaskadowe.
Brak audytu i weryfikacji polityki.
Ignorowanie kosztów (autoskale bez limitu) i zgodności (eksport PII).
Pełna autonomia bez zagrożenia dla człowieka w pętli w P1.

Razem

Automatyczna korekcja błędów jest pętla zarządzana: sygnały SLO → polityki z barierkami → bezpieczne działania runbook z rollback → obserwowalność i audyt → szkolenia incydentów. Podejście to mierzalnie zmniejsza MTTR, utrzymuje przychody w spadkach i usuwa rutynę z dyżuru przy zachowaniu zgodności z wymogami bezpieczeństwa i przepisami.

Automatyczna korekta błędów

Razem

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami