To’lovlardagi hodisalar pleybuki
TL; DR
To’lov hodisasi boshqariladigan operatsiyadir: tezda tasniflang → UX (feylover/degradatsiya) ni barqarorlashtiring → pulni saqlang (idempotentlik/blok-qoidalar) → shaffof aloqa → tiklang → RCAni tuzating. Asosiy SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund.
1) Jiddiylik matritsasi (Severity & Impact)
Triggerlar: SLA/g’aznachilik/solishtirmalar, sapport cho’qqilari, AR/latency/webhooks monitoringi.
2) Aloqa rollari va kanali
Incident Commander (IC) - taymline va yechimlar egasi.
Payments Tech Lead - marshrutlash, idempotentlik, fich-bayroqlar.
Treasury Lead - likvidlik, prefunding, stress-zaxiralar.
Risk/AML - sanksiyalar, blok-qoidalar, SoF/SoW.
Comms Manager - safport/hamkorlar uchun namunalar, maqom yangilanishlari.
Recon/Finance - solishtirish, storno/jurnallar, yo’qotishlarni baholash.
Shtab: #payments-incident-warroom (chat), Zoom-bridge + jonli taymline hujjati (UTC).
3) Universal sikl (for any incident)
1. Detect & Triage → metrik/qamrovni tasdiqlash, Sev.
2. Stabilize UX → feylover routing, degradatsiya fich, muzlatish xavfli avtomashinalar.
3. Money Safety → idempotentlik/bloklarni (refund/payout) yoqish, jurnallarni qayd etish.
4. Communicate → ichki yangilanish (15/30/60 min), tashqi xabarlar (maqom/ETA/aylanma yo’llar).
5. Recover → bosqichma-bosqich orqaga qaytish/ochish, SLOni tekshirish.
6. Reconcile → ledger/PSP/bankni solishtirish, financial impact hisoblash.
7. RCA (≤ 5 r.d.) → ildiz, harakatlar, oldini oluvchilar, vazifalar.
4) Namunaviy stsenariylar va Runbook’i
4. 1 Auth Drop/Latency Spike (kartalar/A2A)
Simptomlari: AR ↓, soft declines ↑, p95 auth> 1-2 s.
Amallar:- Smart-routing: PSP_A→PSP_B, zaif BINlarga 3DS-challenge oshirish.
- Retrajni cheklash (backoff + jitter), idempotentlikni himoya qilish’auth _ key’.
- Segment-toggle: «qat’iy» stsenariyga high-risk; high-ticket limitlarini pasaytirish.
- Kommunikatsiyalar: «tanazzul haqida eslatma», muqobil usulni tavsiya etish.
- Tiklash: trafik ulushini bosqichma-bosqich qaytarish, BIN × GEO kesimida AR nazorati.
4. 2 Webhooks Delay / Duplicate
Alomatlar: p95> 3-5 s, capture/refund/payout yo’llari, dublikatlar.
Amallar:- Pollingga oʻtish; TTL idempotentligini kuchaytirish.
- Avto-refandlar va xavfli avto-to’lovlarni muzlatish.
- Anti-dubl: store-once bo’yicha’idempotency _ key/provider _ txid’.
- catch-up ishlov berish; PSP reyestrlari bilan solishtirish.
- Qayta tiklash: webhooksni yoqish, hisobotlar bilan taqqoslash.
4. 3 Payout Fail / TtW Degradation
Simptomlar: Success% ↓, TtW p95 ↑, qaytarmalar/taym-autlar.
Amallar:- Feylover zaxira relsiga (RTP/SEPA/boshqa PSP).
- Treasury: prefund top-up payout-pula, StressRes aktivatsiyasi.
- Payout-lock uchun high-risk, ustuvorlik VIP.
- Kommunikatsiyalar: ETA va muqobillari, shaxsiy kabinetdagi maqomlarning shaffofligi.
4. 4 Refund Errors / Double Refund Risk
Simptomlar: Refund error rate ↑, bahsli/takrorlanuvchi qaytarmalar.
Amallar:- Avtomagistralda global refund-freeze, faqat huquqlar bilan qo’lda.
- Qattiq idempotentlik’payment _ id + amount + reason’; qoldiq uchun row-lock.
- PSP hisobotini qayta solishtirish; ledjerda yuz dubl, DLQdagi keyslar.
- Kartalar uchun Kommunikatsii:模板 (T + 1-T + 5 b.d.), instant - 60 s gacha
4. 5 Settlement Delay / PSP Batch Mismatch
Simptomlar: D + N hisobga olinmagan, diff so’m/fee.
Amallar:- Treasury: StressRes’ni yoqish, tezkor to’lovlarni cheklash.
- Recon: «SUSPENSE» batchini belgilash, PSP chiptasini ko’tarish, statement so’rash.
- FX/Fees: vaqtinchalik «haqiqatni» qabul qilish yoki tuzatishni kutish.
- Kommunikatsiyalar: sapport uchun Q&A (vositalar xavfsizligi, tartibga solish muddatlari).
4. 6 Crypto On/Off-Ramp Degradation
Alomatlar: TtH ↑, slippage ↑, maydon likvidligi tanqisligi.
Amallar:- SOR → muqobil CEX/OTC, lot hajmini kamaytirish (TWAP).
- Steybl/fiatga kiradiganlarni tarjima qilish, depeg-ekspozitsiya limiti.
- Oracle> bps chegarasi farqlanganda kill-switch.
4. 7 Voucher/Wallet Anomalies
Alomatlar: Invalid PIN spike, velocity, geo-misk.
Amallar:- Limitlar/quldaun, redeem’ni qurilmaga bogʻlash, payout-lock + turnover.
- Cheklarni/SoF so’rash, blok-varaqlarni to’ldirish (email/device/ASN/retailer).
5) Harakat chek-varaqalari
5. 1 Dastlabki besh daqiqa (P0/P1)
- IC tayinlash, war-room ochish.
- Sev, qamrab olish, taymline boshlash (UTC).
- Xavfsiz fich bayroqlarni (idempotentlik, zarur avtoprotsesslarni freze) yoqish.
- Funksiyalarning feyloveri/degradatsiyasini ishga tushirish.
- Birinchi ichki yangilanish (kontekst, chora-tadbirlar, keyingi ETA).
5. 2 Hodisa yopilishidan oldin
- SLO (AR/latency/webhooks/TtW/TtR) qayta tiklandi.
- Taqqoslash amalga oshirildi, «qora teshiklar» yo’q.
- Moliyaviy impact baholandi, storno/jurnallar rasmiylashtirildi.
- Status-kanaldagi tashqi yangilanish/post.
- RCA egasi va oldini olish vazifalari tayinlandi.
6) Monitoring, alertlar va dashbordlar
Asosiy alertlar:- ’AR _ gross ↓> 3 p.p. (p7 medianga)’ → qamrov bo’yicha P1/P0.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt → Auth → Capture (bazis chizig’iga taqqoslash).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, dublikatlar, drebezg.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: balans L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Kommunikatsiyalar (shablonlar)
Ichki (15 min):8) Solishtirish va pul (barqarorlashgandan keyin)
Avto- solishtirishni haydash: provider_txid/idem_key/amount/time-bucket.
DLQ: orphan/duplicate/amount mismatch/fee drift.
Ledjerda storno/tuzatishlarni rasmiylashtirish, Cost/GGR va Fraud Loss ni qayta hisoblash.
G’aznachilik: vaqtinchalik choralarni (StressRes, payout-lock), pullarning rebalansini yopish.
9) RCA (Root Cause Analysis) namunasi
Kontekst: sana/vaqt (UTC), Sev, qamrov, metrika.
Alomatlar: ko’rgan narsalar (grafiklar/skrinshotlar).
Sababi: ildiz (tex/jarayonlar/kontragent).
Nima ishladi/ishlamadi: feylover, fich bayroqlar, kommunikatsiyalar.
Moliyaviy samarasi: hisobdan chiqarish/to’lamaslik/vositachilik haqi/SLA kreditlari.
- Texnik: limitlar, idempotentlik, retrajlar, testlar.
- Jarayonlar: pleybukni yangilash, PSP bilan QBR, SLA oʻzgarishlar.
- Muddatlar va vazifalar egalari.
10) Avtomatlashtirish va integratsiya
Feature-flag platform: mamlakat/BIN/usul boʻyicha tezkor routing/degradatsiya.
Runbook-bot: ’/failover PSP_A→B', ’/freeze refunds’, ’/enable polling’buyruqlari.
Anomaly-detektor: mavsumiylikni bilish bilan AR/latency statistik og’ishi.
Post-incident macros: RCA shablonini avtomatik ochish, log/grafiklarni yigʻish, tekshirish varaqasi.
11) Drill-kalendar va UAT
Har oyda: «Auth drop» drill (detektdan feylovergacha 15 daqiqa).
Chorakda: «Webhook outage» + «Refund double-strike» (idempotentlik).
Har yarim yilda bir marta: «Settlement delay + Treasury stress» (StressRes).
UAT-paket: idempotentlik, feylover, solishtirma, kommunikatsiya test-keyslari.
12) Pleybukning muvaffaqiyat metrikasi (operatsion KPI)
MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (hodisalar boʻyicha summa).
13) Tez - tez xatolar va ulardan qanday qochish mumkin
Feyloverning kech faollashuvi (avtomatik chegara yoʻq).
Webhooks mushtlashuvida avto-refandada «freeze» ning yo’qligi.
Row-lock/versiya yoʻq → partial refund> qoldiq.
Faktsiz kommunikatsiyalar/ETA → sapportga eskalatsiya.
G’aznachilik bilan bog’lanish yo’q → TtP/TtW SLOdan chiqadi.
Solishtirma o’tkazib yuborish → tushumdagi «qora tuynuklar».
14) Ilovalar (wiki ichidagi havola bloklari)
to’lov provayderlari bilan SLA - alertlar va kreditlar chegarasi.
PSP to’lovlari va hisobotlarini solishtirish - recon/DLQ tartib-taomillari.
G’aznachilik: likvidlik va zaxiralar - StressRes/Prefunding.
To’lov konturining KPI - AR/TtW/TtR/Refund Health formulalari.
Qisman va toʻliq refandlar - idempotentlik va siyosat.
Xulosa
Ishchi pleybuk - bu ssenariy runbook’i + avtomatlashtirish + post-mortem intizomi. U MTTRni qisqartiradi, pulni himoya qiladi (idempotentlik/solishtirish/g’aznachilik), foydalanuvchi zararini kamaytiradi va PSP bilan SLA munosabatlarini tizimli ravishda yaxshilaydi. Natija - AR yuqori, TtW/TtR koridorlarda, nol dubl, oldindan aytib bo’ladigan pul flousi.