პლეიბუკის ინციდენტები გადახდებში
TL; DR
გადახდის ინციდენტი კონტროლირებადი ოპერაციაა: სწრაფად კლასიფიკაცია - UX სტაბილიზაცია (ფალოვერი/დეგრადაცია), დაზოგე ფული (იდემპოტენტურობა/ბლოკის წესები) - გამჭვირვალე კომუნიკაცია და აღდგენა და RCA- ს დაფიქსირება. მთავარი SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, ნულოვანი ტოლერანტობა ორმაგი ჩარევის/რეფუნდის მიმართ.
1) სერიოზულობის მატრიცა (Severity & Impact)
გამომწვევი მიზეზები: SLA ალერტები/ხაზინა/კრეკერები, საფორტეპიანო მწვერვალები, AR/ლატენტობის/webhooks- ის მონიტორინგი.
2) როლები და საკომუნიკაციო არხი
Incident Commander (IC) - დროისა და გადაწყვეტილებების მფლობელი.
Payments Tech Lead - მარშრუტიზაცია, idempotence, fick დროშები.
Treasury Lead - ლიკვიდობა, prefunding, stress რეზერვები.
Risk/AML - სანქციები, ბლოკის წესები, SoF/SoW.
Comms Manager - შაბლონები საფორტეპიანო/პარტნიორებისთვის, სტატუს აპდეიტი.
Recon/Finance - Crocket, storn/ჟურნალები, ზარალის შეფასებები.
შტაბი: # payments-incident-warroom (chat), Zoom-Bridge + ცოცხალი დროის დოკუმენტი (UTC).
3) უნივერსალური ციკლი
1. Detect & Triage შეუძლია დაადასტუროს მეტრიკა/გაშუქება, მიანიჭოს Sev.
2. Stabilize UX - Routing Faylover, Ficks- ის დეგრადაცია, საშიში გზების გაყინვა.
3. Money Safety - ჩართეთ idempotence/ბლოკი (refund/payout), ჩაწერეთ ჟურნალები.
4. კომუნიკაცია - შიდა განახლება (15/30/60 წთ), გარე შეტყობინებები (სტატუსი/ETA/შემოვლითი მარშრუტები).
5. Recover - ეტაპობრივი გამოტოვება/აღმოჩენა, SLO- ს გადამოწმება.
6. Reconcile- ს შეუძლია შეადაროს დამსაქმებელი/PSP/Bank, გამოთვალოს ფინანსური impact.
7. RCA (5 გვ.) - ფესვი, მოქმედებები, პრევენციები, დავალებები.
4) ტიპიური სცენარები და Runbook 'და
4. 1 Auth Drop/Latency Spike (ბარათები/A2A)
სიმპტომები: AR -, რბილი declines -, p95 aut> 1-2 s.
მოქმედებები:- Smart-routing: PSP _ A - PSP _ B, გაზარდოს 3DS-გამოწვევა დაუცველი BIN.
- შეზღუდეთ retrai (backoff + gitter), დაიცავით idempotence 'auth _ key'.
- სეგმენტი-toggle: high-risk „მკაცრი“ სცენარში; შეამცირეთ მაღალი ტიკეტის ლიმიტები.
- კომუნიკაციები: „შენიშვნა დეგრადაციის შესახებ“, გირჩევთ ალტერნატიული მეთოდი.
- აღდგენა: ტრაფიკის წილის ეტაპობრივი დაბრუნება, AR- ის კონტროლი BIN × GEO კონტექსტში.
4. 2 Webhooks Delay / Duplicate
სიმპტომები: p95> 3-5 c, capture/refund/payout, დუბლიკატები.
მოქმედებები:- გადასვლა polling- ზე; TTL idempotent- ის გაძლიერება.
- გაყინეთ რეფანდები და სარისკო მანქანები.
- ანტი ორმაგი: store-once 'idempotency _ key/provider _ txid'.
- ჩაატარეთ catch-up დამუშავება; PSP რეესტრების შერწყმა.
- აღდგენა: ჩართეთ webhooks, შეადარეთ თანმიმდევრულობა მოხსენებებთან.
4. 3 Payout Fail / TtW Degradation
სიმპტომები: Success%, TtW p95, Success/Time.
მოქმედებები:- სარეზერვო სარკინიგზო ფეილოვერი (RTP/SEPA/სხვა PSP).
- Treasury: prefund top-up payout-pula, StressRes გააქტიურება.
- Payout-lock for high-risk, პრიორიტეტული VIP.
- კომუნიკაციები: ETA და ალტერნატივები, პირად ანგარიშში სტატუსის გამჭვირვალობა.
4. 4 Refund Errors / Double Refund Risk
სიმპტომები: Refund error rate, საკამათო/სარეზერვო ანაზღაურება.
მოქმედებები:- გლობალური refund-freeze მანქანის მარშრუტზე, მხოლოდ უფლებების სახელმძღვანელო.
- მკაცრი idempotence 'payment _ id + amount + reason'; row-lock დარჩენილი.
- PSP ანგარიშის ხელახალი შერჩევა; ჟრპაჳჲრნჲ გ ლვდლვპ, კჲთრჲ ჟა დლსოჲჟრთ.
- კომუნიკაციები: რუქებისთვის (T + 1-T + 5 bd), ინსტანცია - 60-მდე.
4. 5 Settlement Delay / PSP Batch Mismatch
სიმპტომები: D + N არ არის დათვლილი, diff თანხებში/fee.
მოქმედებები:- Treasury: ჩართეთ StressRes, შეზღუდეთ მყისიერი გადახდები.
- ჩანაწერი: შეავსეთ batch „SUSPENSE“, აამაღლეთ PSP თიკეტი, მოითხოვეთ statement.
- FX/Fees: მიიღოთ დროებითი „ჭეშმარიტება“ ან დაელოდოთ კორექტირებას.
- კომუნიკაციები: Q&A საფოსტო მომსახურებისთვის (სახსრების უსაფრთხოება, მოგვარების დრო).
4. 6 Crypto On/Off-Ramp Degradation
სიმპტომები: TtH, ცრემლი, საიტის ლიკვიდობის დეფიციტი.
მოქმედებები:- SOR - ალტერნატიული CEX/OTC, შეამციროს ლოტის ზომა (TWAP).
- Stable/fiyat- ში შეტანილი თარგმანები, depeg ექსპოზიციის ლიმიტი.
- Kill-switch ორაკულის განსხვავების დროს> bps ლიმიტი.
4. 7 Voucher/Wallet Anomalies
სიმპტომები: Invalid PIN spike, velocity, geo-misk.
მოქმედებები:- Limites/coldown, მოწყობილობის redeem კავშირი, payout-lock + turnover.
- ჩეკების/SoF მოთხოვნა, ბლოკის ფურცლების შევსება (email/device/ASN/retailer).
5) მოქმედების ჩეკის ფურცლები
5. 1 პირველი ხუთი წუთი (P0/P1)
- დანიშნეთ IC, გახსნათ ომის ოთახი.
- დაფიქსირება Sev, გაშუქება, დროის დაწყება (UTC).
- ჩართეთ უსაფრთხო წინა დროშები (imempotence, სასურველი ავტოპოსტირების უფასო).
- დაიწყეთ ფეილოვერი/ფუნქციების დეგრადაცია.
- პირველი შიდა განახლება (კონტექსტი, ზომები, მიმოწერა ETA).
5. 2 ინციდენტის დახურვამდე
- აღდგენილია SLO (AR/latence/webhooks/TtW/TtR).
- შერიგება (internal - PSP, Bank), არ არის „შავი ხვრელები“.
- ფინანსური impact შეფასებულია, storn/ჟურნალები გაიცემა.
- გარე განახლება/პოსტი სტატუს არხში.
- დაინიშნა RCA- ს მფლობელი და პრევენციის ამოცანები.
6) მონიტორინგი, ალერტები და დაშბორდები
საკვანძო ალერტები:- 'AR _ gross'> 3 პროცენტული პუნქტი (p7 საშუალო) 'P1/P0 გაშუქებით.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt - Auth - Capture (შედარება ბაზის ხაზთან).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, დუბლიკატები, drebezg.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: ბალანსი L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) კომუნიკაციები (შაბლონები)
შიდა (15 წუთი):8) შერწყმა და ფული (სტაბილიზაციის შემდეგ)
გადაიტანეთ მანქანა: provider _ txid/idem _ key/amount/time-bucket.
მონიშნეთ DLQ: orphan/duplicate/amount mismatch/fee drift.
შეადგინეთ სტორნო/კორექტირება მენეჯერში, გამოთვალეთ Cost/GGR და Fraud Loss.
ხაზინა: დახურეთ დროებითი ზომები (StressRes, payout-lock), ტყვიების რებალანსი.
9) RCA შაბლონი (Root Cause Analysis)
კონტექსტი: თარიღი/დრო (UTC), Sev, გაშუქება, მეტრიკა.
სიმპტომები: რაც მათ ნახეს (გრაფიკა/ეკრანის კადრები).
მიზეზი: ფესვი (ეს/პროცესები/კონტრაგენტი).
რა მუშაობდა/არ მუშაობდა: ფეილოვერი, წინა დროშები, კომუნიკაციები.
ფინანსური ეფექტი: ჩამოწერის/გადაუხდელობის/საკომისიო/SLA სესხები.
- ისინი: ლიმიტები, idempotence, retrais, ტესტები.
- პროცესები: ფლეიბუკის განახლება, QBR PSP, SLA ცვლილებები.
- ვადები და დავალებების მფლობელები.
10) ავტომატიზაცია და ინტეგრაცია
Feature-flag პლატფორმა: მყისიერი როუტინგი/დეგრადაცია ქვეყნის მასშტაბით/BIN/მეთოდი.
Runbook bot: ბრძანებები '/failover PSP _ A-B ', '/freeze refunds', '/enable polling '.
ანომალიური დეტექტორი: AR/ლატენტობის სტატისტიკური გადახრა სეზონური ცოდნით.
Post-incident macros: RCA შაბლონის ავტომატური გახსნა, ლოგოების/გრაფიკების შეგროვება, კრიკეტის შემოწმების სია.
11) Drill კალენდარი და UAT
ყოველთვიურად: „Auth drop“ drill (15 წუთი დეტექტიდან ფეილოვერამდე).
კვარტალი: Webhook outage + Refund double-strike (imempotence).
ექვს თვეში ერთხელ: Settlement delay + Treasury stress (StressRes).
UAT პაკეტი: იდემპოტენტურობის, ფეილოვერის, კრიკეტების, კომუნიკაციების ტესტის შემთხვევები.
12) პლეიბუკის წარმატების მეტრიკა (ოპერაციული KPI)
MTTA/MTTR: საშუალო/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (ინციდენტის თანხა).
13) ხშირი შეცდომები და როგორ მოვერიდოთ მათ
Faylover- ის გვიანდელი გააქტიურება (არ არსებობს ავტომატური ბარიერი).
რეფანდის მანქანებზე „უფასო“ არარსებობა webhooks- ის დრაკონის დროს.
არ არსებობს row-lock/ვერსია - partial refund> ნარჩენები.
კომუნიკაციები ფაქტების გარეშე/ETA - ესკალაცია საფორტეპიანო.
ხაზინასთან კავშირი არ არსებობს - TtP/TtW ტოვებს SLO- ს.
კრიკეტის გამოტოვება შემოსავალში შავი ხვრელია.
14) პროგრამები (ბმულები თქვენს ვიკში)
SLA გადახდის პროვაიდერებით - ალერტებისა და სესხების ბარიერები.
PSP გადახდისა და ანგარიშების შერწყმა - ჩანაწერების/DLQ პროცედურები.
ხაზინა: ლიკვიდობა და რეზერვები - StressRes/Prefunding.
KPI გადახდის წრე - ფორმულები AR/TtW/TtR/Refund Health.
ნაწილობრივი და სრული რეფანდები არის იდემპოტენტობა და პოლიტიკა.
რეზიუმე
სამუშაო ფლეიბუკი არის სცენარის runbook 'და + ავტომატიზაცია + პოსტ-mortem დისციპლინა. ის ამცირებს MTTR- ს, იცავს ფულს (idempotence/cryptence/ხაზინა), ამცირებს მომხმარებლის ზიანს და სისტემატურად აუმჯობესებს ურთიერთობებს PSP- სთან SLA- სთვის. შედეგი - AR უფრო მაღალია, TtW/TtR დერეფნებში, ნულოვანი დუბლი, პროგნოზირებადი ფულის ფლეშ.