Odtwarzanie incydentów w płatnościach
TL; DR
Incydent płatniczy jest operacją kontrolowaną: szybko zaklasyfikować → ustabilizować UX (feiler/degradacja) → zaoszczędzić pieniądze (idempotencja/zasady bloku) → przejrzysto komunikować → przywrócić → naprawić RCA. Główne SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, zero tolerancji dla podwójnej opłaty/zwrotu.
1) Matryca dotykowa i uderzeniowa
Triggers: SLA/Treasury/pojednanie alerty, szczyty wsparcia, AR/latency/webhooks monitoring.
2) Role i kanał komunikacji
Incydent Commander (IC) jest właścicielem linii czasowej i rozwiązań.
Płatności Tech Lead - routing, idempotencja, flagi funkcji.
Ołów skarbowy - płynność, prefunduszenie, rezerwy naprężeń.
Ryzyko/AML - sankcje, zasady grupowe, SoF/SoW.
Menedżer komunikatorów - szablony dla wsparcia/partnerów, aktualizacje stanu.
Recon/Finance - pojednanie, cofanie/czasopisma, szacunki strat.
Siedziba: # payments-incident-warroom (chat), Zoom-bridge + dokument linii czasu na żywo (UTC).
3) Uniwersalna pętla (dla każdego incydentu)
1. Wykryć & Triage → potwierdzić mierniki/pokrycie, przypisać Sev.
2. Stabilizacja UX → feiler routingu, funkcja degradacji, zamrażanie niebezpiecznych akcji automatycznych.
3. Bezpieczeństwo pieniędzy → włącz idempotencję/bloki (zwrot/wypłata), naprawić dzienniki.
4. Komunikuj → aktualizacja wewnętrzna (15/30/60 min), wiadomości zewnętrzne (status/ETA/obroty robocze).
5. Odzyskać → przyrostowy rollback/open, zweryfikować SLO.
6. Reconcile → porównaj księgę/PSP/bank, oblicz wpływ finansowy.
7. RCA (≤ 5 jednostek biznesowych) → korzeń, działania, zapobiegacze, zadania.
4) Typowe scenariusze i Runbook "oraz
4. 1 Auth Drop/Latency Spike (Cards/A2A)
Objawy: AR, miękkie zmniejszenie, p95 auth> 1-2 s.
Działania:- Inteligentne routing: PSP_A→PSP_B, zwiększyć 3DS-challenge na podatnych BIN.
- Przekładki limitu (backoff + jitter), chronią idempotencję 'auth _ key'.
- Segment-toggle: wysokie ryzyko do „ścisłego” skryptu; zmniejszyć wysokie limity biletów.
- Komunikacja: „uwaga degradacji”, zalecam alternatywną metodę.
- Odzyskiwanie: stopniowy zwrot udziału w ruchu, kontrola AR w kontekście BIN × GEO.
4. 2 Webhooks opóźnienie/duplikat
Objawy: p95> 3-5 c, luki przechwytywania/zwrotu/wypłaty, duplikaty.
Działania:- Przełącznik do sondażu; zwiększenie idempotencji TTL.
- Zamrażanie auto-refands i ryzykowne automatyczne płatności.
- Anty-double: store-once by 'idempotence _ key/provider _ txid'.
- przeprowadzić proces doładowywania; pojednanie z rejestrami PSP.
- Odzyskiwanie: włącz haki internetowe, porównaj spójność z raportami.
4. 3 Awaria wypłaty/degradacja TtW
Symptomy: Sukces -%, TtW - 95, powraca/czas.
Działania:- Feilover do szyny czuwania (RTP/SEPA/inne PSP).
- Skarb Państwa: prefund doładowania puli wypłat, aktywacja Systemu Res.
- Blokada wypłat dla wysokiego ryzyka, priorytety VIP.
- Komunikacja: ETA i alternatywy, przejrzystość statusów na koncie osobistym.
4. 4 Błędy zwrotu/ryzyko podwójnego zwrotu pieniędzy
Symptomy: Wskaźnik błędu zwrotu, spór/duplikat zwrotów.
Działania:- Globalny zwrot-zamrożenie na auto-trasie, instrukcja tylko z prawami.
- Twardy idempotence 'payment _ id + amount + reason'; blokada wiersza na balansie.
- Ponowna kalibracja zgodnie z raportem PSP; odwrócenie duplikatów w rejestrze, przypadki w DLQ.
- Kommunikatsii:模板 dla kart (T + 1-T + 5 bp), natychmiastowy - do 60 s.
4. 5 Opóźnienie rozliczenia/niedopasowanie partii PSP
Objawy: D + N nie zapisane, różnią się kwotami/opłatą.
Działania:- Skarbówka: Włącz urządzenie, ograniczaj natychmiastowe wypłaty.
- Recon: zaznaczyć partię „SUSPENSE”, podnieść bilet PSP, poprosić o oświadczenie.
- FX/Opłaty: akceptować tymczasowe „prawda” (polityka) lub czekać na korektę.
- Komunikaty: Pytania i odpowiedzi dotyczące wsparcia (bezpieczeństwo funduszy, czas rozliczenia).
4. 6 Crypto On/Off-Ramp Degradacja
Objawy: TtH, poślizg, brak płynności witryny.
Działania:- SOR → alternativnyy CEX/OTC, zmniejszyć rozmiar partii (TWAP).
- Przeniesienie osób wchodzących do stajni/fiata, limit ekspozycji depeg.
- Kill-switch jeśli dywergencja wyroczni> limit bps.
4. 7 Voucher/anomalie portfela
Objawy: Nieprawidłowy kolec PIN, prędkość, geosiatka.
Działania:- Limity/cofnięcie, wykup wiązania do urządzenia, blokada wypłat + obrót.
- Żądanie kontroli/SoF, uzupełnienie list blokowych (e-mail/urządzenie/ASN/sprzedawca detaliczny).
5) Listy kontrolne akcji
5. 1 Pierwsze pięć minut (P0/P1)
- Przypisz IC, otwarty pokój wojenny.
- Rekord Sev, zasięg, początek linii czasowej (UTC).
- Włącz bezpieczne flagi funkcji (idempotencja, zamrożenie niezbędnych procesów automatycznych).
- Uruchom funkcję awaryjną/degradację.
- Pierwsza aktualizacja wewnętrzna (kontekst, środki, kolejna ETA).
5. 2 Przed zamknięciem incydentu
- Przywrócone SLO (AR/latency/webhooks/TtW/TtR).
- Pojednanie (wewnętrzne, PSP i bank), bez czarnych dziur.
- Wycena skutków finansowych, cofnięcia/czasopisma wydawane.
- Zewnętrzna aktualizacja/status kanału post.
- Właściciel RCA i zadanie profilaktyczne są przypisane.
6) Monitorowanie, wpisy i deski rozdzielcze
Najważniejsze wpisy:- "AR _ brutto"> 3 pp (do mediany p7) "→ P1/P0 w zakresie.
- "Auth p95> 1. 5 s/Webhook p95> 5 s/Capture Success <98% '→ P1.
- 'Payout TtW p95> SLO' ила 'Sukces% <99%' → P1.
- "Błąd zwrotu pieniędzy> 0. 3% 'ила' Podwójny zwrot pieniędzy> 0 '→ P0.
- „Rozrachunek na czas <99% ”/„ Raport dostawy SLA naruszenie” → P1.
1. Próba Fanel → Auth → Capture (porównanie do linii bazowej).
2. Heatmap AR ма BIN × GEO × PSP.
3. Webhook p50/p95, duplikaty, odbijanie.
4. Wypłata/zwrot zdrowia (sukces%, TtW/TtR).
5. Skarb państwa: saldo L0, prefunda, Res.
6. Recon: Wskaźnik niedopasowania, Starzenie DLQ.
7) Komunikaty (szablony)
Wewnętrzne (15 min):8) Pojednanie i pieniądze (po stabilizacji)
Uruchom automatyczne pojednanie: provider_txid/idem_key/amount/time-bucket.
Wybierz DLQ: sierota/duplikat/amount mismatch/fee drift.
Dokonaj odwrócenia/korekty w księdze rejestracyjnej, ponowne obliczenie kosztów/GGR i utraty oszustw.
Ministerstwo skarbu: środki tymczasowe zamknięte (w ramach Programu Res, blokada wypłat), puli środków na rzecz przywrócenia równowagi.
9) Szablon RCA (Root Cause Analysis)
Kontekst: Data/Czas (UTC), Sev, Zasięg, Metryka.
Objawy: to, co widziałeś (wykresy/zrzuty ekranu).
Powód: root (te/procesy/kontrahent).
Co działało/nie działało: feilover, flagi funkcyjne, komunikacja.
Efekt finansowy: umorzenia/niepłacenie/prowizje/pożyczki SLA.
- Te: granice, idempotencja, rekolekcje, testy.
- Procesy: aktualizacja playbook, QBR z PSP, zmiany SLA.
- Terminy i właściciele zadań.
10) Automatyzacja i integracja
Platforma flaga funkcji: natychmiastowy routing/degradacja według kraju/BIN/metoda.
Runbook-bot: polecenia '/failover PSP_A→B', '/freeze returns ', '/enable polling'.
Wykrywacz anomalii: statystyczne odchylenie AR/opóźnienia z wiedzą o sezonowości.
Makro powypadkowe: automatyczne otwieranie szablonu RCA, kolekcja dzienników/wykresów, lista kontrolna pojednania.
11) Kalendarz wiertła i UAT
Miesięcznie: wiertarka „Auth drop” (15 min od detecta do feilover).
Kwartalnik: „Webhook przerwa” + „Zwrot podwójnego uderzenia” (idempotencja).
Półroczne: „Opóźnienie rozliczenia + stres skarbowy”.
Pakiet UAT: testowe przypadki idempotencji, feilover, pojednanie, komunikacja.
12) Playbook Success Metrics (operacyjne KPI)
MTTA/MTTR: mediana/p95 według P0/P1.
Procent automatycznych awarii w ciągu 10 min.
Incydenty uniemożliwiające podwójną opłatę/zwrot (= 100%).
Po incydencie zwiad kompletny ≤ D + 1.
Odzyskiwane kredyty usługowe/miesiąc (ма СЛА).
Minuty uderzenia użytkownika.
13) Częste błędy i jak ich uniknąć
Późna aktywacja feilover (brak automatycznych progów).
Brak „zamrożenia” na automatycznych refansach, gdy odbijają się haki.
Brak blokady wiersza/wersji → częściowy zwrot pieniędzy> reszta.
Komunikacja bez faktów/ETA → eskalacja do wsparcia.
Brak powiązania ze skarbem → TtP/TtW wyjście SLO.
Pominięcie pojednania → „czarne dziury” w przychodach.
14) Aplikacje (bloki odniesienia wewnątrz wiki)
SLA z dostawcami płatności - progi alarmowe i kredyty.
Uzgodnienie płatności i raportów PSP - procedury recon/DLQ.
Skarbu Państwa: Płynność i rezerwy - Kas/Prefunding.
Pętla płatnicza KPI - AR/TtW/TtR/Zwrot wzorów zdrowotnych.
Częściowe i kompletne refiny to idempotencja i polityka.
Podsumowanie
Roboczy odtwarzacz jest scenariuszem runbook'i + automatyzacja + dyscyplina pośmiertnych. Zmniejsza MTTR, chroni pieniądze (idempotencja/pojednanie/skarbiec), minimalizuje szkody dla użytkowników i systematycznie poprawia relacje z dostawcami usług płatniczych na SLA. Wynik - AR powyżej, TtW/TtR w korytarzach, zero bierze, przewidywalny przepływ pieniędzy.