Ödənişlərdə hadisələrin playbook
TL; DR
Ödənişlərdə insident idarə olunan əməliyyatdır: tez təsnif et → UX (feylover/deqradasiya) stabilləşdirin → pulu saxla (idempotentlik/blok qaydaları) → şəffaf əlaqə → bərpa et → RCA-nı düzəlt. Əsas SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund üçün sıfır dözümlülük.
1) Ciddilik matrisi (Severity & Impact)
Tetikləyicilər: SLA/Xəzinədarlıq/Müqayisələr, Sapport Zirvələri, AR/latency/webhooks monitorinqi.
2) Rollar və rabitə kanalı
Incident Commander (IC) - zamanın və həllərin sahibidir.
Payments Tech Lead - marşrutlaşdırma, idempotentlik, fich bayraqları.
Treasury Lead - likvidlik, prefundinq, stress ehtiyatları.
Risk/AML - sanksiyalar, blok qaydaları, SoF/SoW.
Comms Manager - sapport/partnyor şablonları, status update.
Recon/Finance - müqayisə, storno/jurnallar, itki qiymətləndirmələri.
Qərargah: #payments -incident-warroom (chat), Zoom-bridge + Canlı Time Line Sənəd (UTC).
3) Universal dövr (for any incident)
1. Detect & Triage → metrik/əhatə təsdiq, Sev təyin.
2. Stabilize UX → Feylover routing, deqradasiya fich, dondurma təhlükəli avtomobil hərəkətləri.
3. Money Safety → idempotentlik/blokları (refund/payout) daxil edin, jurnalları qeyd edin.
4. Communicate → daxili yeniləmə (15/30/60 dəq), xarici mesajlar (status/ETA/bypass).
5. Recover → addım-addım geri/açılış, SLO yoxlamaq.
6. Reconcile → ledger/PSP/bank müqayisə, maliyyə impact hesablayın.
7. RCA (≤ 5 r.d.) → kök, hərəkətlər, qarşısının alıcılar, vəzifələr.
4) Tipik ssenarilər və Runbook 'və
4. 1 Auth Drop/Latency Spike (kartlar/A2A)
Simptomları: AR ↓, soft declines ↑, p95 auth> 1-2 s.
Fəaliyyət:- Smart-routing: PSP_A→PSP_B, həssas BIN 3DS-challenge artırmaq.
- Retrajları məhdudlaşdırın (backoff + jitter), idempotantlığı qoruyun 'auth _ key'.
- Seqment-toggle: «sərt» ssenaridə yüksək risk; aşağı high-ticket limitləri.
- Rabitə: «deqradasiya haqqında qeyd», alternativ metodu tövsiyə edin.
- Bərpa: trafik payının mərhələli qaytarılması, BIN × GEO kəsiyində AR nəzarəti.
4. 2 Webhooks Delay / Duplicate
Simptomlar: p95> 3-5 c, capture/refund/payout, dublikatlar.
Fəaliyyət:- polling keçid; TTL idempotentlik gücləndirmək.
- Avto-refandları və riskli avto ödənişləri dondurun.
- Anti-dubl: store-once by 'idempotency _ key/provider _ txid'.
- catch-up emal edin; PSP reyestrləri ilə müqayisə.
- Recovery: webhooks aktiv, hesabatlar ilə sabitlik müqayisə.
4. 3 Payout Fail / TtW Degradation
Simptomları: Success% ↓, TtW p95 ↑, geri qaytarmalar/zaman-aut.
Fəaliyyət:- Ehtiyat relsdə feylover (RTP/SEPA/digər PSP).
- Treasury: prefund top-up payout-hovuz, StressRes aktivləşdirilməsi.
- Yüksək risk üçün Payout-lock, VIP prioritetləşdirilməsi.
- Kommunikasiyalar: ETA və alternativlər, şəxsi kabinetdəki statusların şəffaflığı.
4. 4 Refund Errors / Double Refund Risk
Simptomlar: Refund error rate ↑, mübahisəli/təkrarlanan qaytarmalar.
Fəaliyyət:- avtomobil marşrutu üzrə qlobal refund-freeze, yalnız hüquqları ilə əl.
- Sərt idempotentlik 'payment _ id + amount + reason'; row-lock qalıq.
- PSP hesabatının yenidən yoxlanılması; yüz ledger ikiqat, DLQ cases.
- Kart Kommunikatsii:模板 (T + 1-T + 5 s), instant - 60 s-ə qədər
4. 5 Settlement Delay / PSP Batch Mismatch
Simptomlar: D + N daxil deyil, diff/fee.
Fəaliyyət:- Treasury: StressRes aktiv, ani ödənişləri məhdudlaşdırmaq.
- Recon: batch «SUSPENSE» işarələyin, PSP biletini qaldırın, statement tələb edin.
- FX/Fees: müvəqqəti «həqiqət» (policy) qəbul və ya düzəliş gözləmək.
- Kommunikasiyalar: Q&A sapport üçün (vasitələrin təhlükəsizliyi, tənzimləmə müddəti).
4. 6 Crypto On/Off-Ramp Degradation
Simptomları: TtH ↑, slippage ↑, saytın likvidlik çatışmazlığı.
Fəaliyyət:- SOR → alternativ CEX/OTC, lot ölçüsünü azaltmaq (TWAP).
- Stabl/fiata daxil olanların tərcüməsi, depeg-ekspozisiya limiti.
- Kill-switch oracle> bps limitinin uyğunsuzluğu zamanı.
4. 7 Voucher/Wallet Anomalies
Simptomları: Invalid PIN spike, velocity, geo misk.
Fəaliyyət:- Limitlər/kuldaun, redeem cihaza bağlama, payout-lock + turnover.
- Çeklərin/SoF sorğusu, blok vərəqlərin doldurulması (email/device/ASN/retailer).
5) Fəaliyyət yoxlama vərəqləri
5. 1 İlk beş dəqiqə (P0/P1)
- IC təyin, war-room açmaq.
- Sabit Sev, əhatə, Başlanğıc Time Line (UTC).
- Təhlükəsiz fiç bayraqlarını işə salın (idempotentlik, lazımi avtomobil proseslərini freeze).
- Feylover/funksiyaların deqradasiyasını başlatın.
- İlk daxili yeniləmə (kontekst, tədbirlər, iz. ETA).
5. 2 Hadisənin bağlanmasından əvvəl
- SLO (AR/latency/webhooks/TtW/TtR) bərpa edildi.
- Bir yoxlama aparıldı (internal, PSP, bank), «qara dəliklər» yoxdur.
- Maliyyə impact qiymətləndirilir, gizli/jurnallar rəsmiləşdirilmişdir.
- Status-kanalda xarici yeniləmə/post.
- RCA sahibi təyin və qarşısının alınması vəzifələri.
6) Monitorinq, alertlər və daşbordlar
Əsas alertlər:- 'AR _ gross ↓> 3 p.p. (p7 mediana)' → əhatə dairəsinə görə P1/P0.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt → Auth → Capture (bazis xəttinə müqayisə).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, təkrarlanan, drebling.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: balans L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Kommunikasiyalar (şablonlar)
Daxili (15 dəq):8) Yoxlama və pul (sabitləşmədən sonra)
Avto-yoxlama sürmək: provider_txid/idem_key/amount/time-bucket.
DLQ seçin: orphan/duplicate/amount mismatch/fee drift.
Cost/GGR və Fraud Loss-da storno/düzəlişlər edin.
Xəzinədarlıq: müvəqqəti tədbirləri bağlamaq (StressRes, payout-lock), hovuzların yenidən balansı.
9) RCA şablon (Root Cause Analysis)
Kontekst: tarix/vaxt (UTC), Sev, əhatə, metrika.
Simptomlar: gördükləri (qrafiklər/ekran görüntüləri).
Səbəb: kök (tech/proseslər/kontragent).
Nə işlədi/işləmədi: feylover, fiç bayraqları, kommunikasiyalar.
Maliyyə effekti: silinmiş/ödənilməmiş/komissiya/SLA kreditləri.
- Tech: limitlər, idempotentlik, retray, testlər.
- Proseslər: playbook yeniləmə, PSP ilə QBR, SLA dəyişikliklər.
- Son tarixlər və tapşırıqların sahibləri.
10) Avtomatlaşdırma və inteqrasiya
Feature-flag platforması: ölkə/BIN/metodu ilə ani marşrut/deqradasiya.
Runbook-bot: '/failover PSP_A→B', '/freeze refunds ', '/enable polling' komandaları.
Anomaly Detector: Mövsümlük biliyi ilə AR/latency statistik sapma.
Post-incident macros: RCA şablonunun avtomatik açılması, qeydlərin/qrafiklərin toplanması, yoxlama siyahısı.
11) Drill təqvimi və UAT
Aylıq: «Auth drop» drill (detektordan feyloverə qədər 15 dəq).
Üç aylıq: «Webhook outage» + «Refund double-strike» (idempotentlik).
Hər altı ayda bir: «Settlement delay + Treasury stress» (StressRes).
UAT paketi: idempotentlik, faylover, yoxlama, kommunikasiya test halları.
12) Playbook müvəffəqiyyət metrikası (əməliyyat KPI)
MTTA/MTTR: media/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (hadisələr üzrə məbləğ).
13) Tez-tez səhvlər və onlardan necə qaçmaq olar
Feyloverin gec aktivləşdirilməsi (avtomatik eşik yoxdur).
webhooks davası zamanı avto-refanda «freeze» olmaması.
No row-lock/version → partial refund> qalıq.
Fakt olmadan əlaqə/ETA → sapport eskalasiya.
Xəzinədarlıqla əlaqə yoxdur → TtP/TtW SLO-dan çıxır.
Gəlirdə → «qara dəliklər» yoxlanılması.
14) Proqramlar (wiki daxilində link blokları)
Ödəniş provayderləri ilə SLA - alertlərin və kreditlərin həddi.
PSP ödənişlərinin və hesabatlarının müqayisəsi - recon/DLQ prosedurları.
Xəzinədarlıq: likvidlik və ehtiyatlar - StressRes/Prefunding.
Ödəniş dövrəsinin KPI - AR/TtW/TtR/Refund Health düsturları.
Qismən və tam refandlar - idempotentlik və siyasət.
Xülasə
İş playbook runbook və + avtomatlaşdırma + post-mortem intizamıdır. Bu MTTR azaldır, pulu qoruyur (idempotentlik/yoxlama/xəzinə), istifadəçi zərərini minimuma endirir və SLA-da PSP ilə münasibətləri sistematik olaraq yaxşılaşdırır. Nəticə - AR yuxarıda, TtW/TtR dəhlizlərdə, sıfır dubl, proqnozlaşdırıla bilən pul flow.