GH GambleHub

Ödənişlərdə hadisələrin playbook

TL; DR

Ödənişlərdə insident idarə olunan əməliyyatdır: tez təsnif et → UX (feylover/deqradasiya) stabilləşdirin → pulu saxla (idempotentlik/blok qaydaları) → şəffaf əlaqə → bərpa et → RCA-nı düzəlt. Əsas SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund üçün sıfır dözümlülük.

1) Ciddilik matrisi (Severity & Impact)

SevTərifNümunələrMəqsədlər
P0Kütləvi təsir, pul itkiləri/ödəyə bilməməkAuth <− 20 pp, ikiqat silinmə, kütləvi payout-feyl, settlement stopMTTA ≤ 15 dəq, MTTR ≤ 2 saat
P1Seqmentlər üçün əhəmiyyətli deqradasiyaWebhook p95> 30 c, payout TtW p95> SLO, BIN/ölkə üzrə AR − 8 p.p. MTTA ≤ 30 dəq, MTTR ≤ 4 saat
P2Məhdud seqment/fich0-a qədər refund error. 5%, PSP hesabatlarının gecikməsiMTTA ≤ 4 saat, MTTR ≤ 2 r.d.
P3Minor/« kağız »Drebezg log, kiçik schema driftPlanlı

Tetikləyicilər: SLA/Xəzinədarlıq/Müqayisələr, Sapport Zirvələri, AR/latency/webhooks monitorinqi.

2) Rollar və rabitə kanalı

Incident Commander (IC) - zamanın və həllərin sahibidir.
Payments Tech Lead - marşrutlaşdırma, idempotentlik, fich bayraqları.
Treasury Lead - likvidlik, prefundinq, stress ehtiyatları.
Risk/AML - sanksiyalar, blok qaydaları, SoF/SoW.
Comms Manager - sapport/partnyor şablonları, status update.
Recon/Finance - müqayisə, storno/jurnallar, itki qiymətləndirmələri.

Qərargah: #payments -incident-warroom (chat), Zoom-bridge + Canlı Time Line Sənəd (UTC).

3) Universal dövr (for any incident)

1. Detect & Triage → metrik/əhatə təsdiq, Sev təyin.
2. Stabilize UX → Feylover routing, deqradasiya fich, dondurma təhlükəli avtomobil hərəkətləri.
3. Money Safety → idempotentlik/blokları (refund/payout) daxil edin, jurnalları qeyd edin.
4. Communicate → daxili yeniləmə (15/30/60 dəq), xarici mesajlar (status/ETA/bypass).
5. Recover → addım-addım geri/açılış, SLO yoxlamaq.
6. Reconcile → ledger/PSP/bank müqayisə, maliyyə impact hesablayın.
7. RCA (≤ 5 r.d.) → kök, hərəkətlər, qarşısının alıcılar, vəzifələr.

4) Tipik ssenarilər və Runbook 'və

4. 1 Auth Drop/Latency Spike (kartlar/A2A)

Simptomları: AR ↓, soft declines ↑, p95 auth> 1-2 s.

Fəaliyyət:
  • Smart-routing: PSP_A→PSP_B, həssas BIN 3DS-challenge artırmaq.
  • Retrajları məhdudlaşdırın (backoff + jitter), idempotantlığı qoruyun 'auth _ key'.
  • Seqment-toggle: «sərt» ssenaridə yüksək risk; aşağı high-ticket limitləri.
  • Rabitə: «deqradasiya haqqında qeyd», alternativ metodu tövsiyə edin.
  • Bərpa: trafik payının mərhələli qaytarılması, BIN × GEO kəsiyində AR nəzarəti.

4. 2 Webhooks Delay / Duplicate

Simptomlar: p95> 3-5 c, capture/refund/payout, dublikatlar.

Fəaliyyət:
  • polling keçid; TTL idempotentlik gücləndirmək.
  • Avto-refandları və riskli avto ödənişləri dondurun.
  • Anti-dubl: store-once by 'idempotency _ key/provider _ txid'.
  • catch-up emal edin; PSP reyestrləri ilə müqayisə.
  • Recovery: webhooks aktiv, hesabatlar ilə sabitlik müqayisə.

4. 3 Payout Fail / TtW Degradation

Simptomları: Success% ↓, TtW p95 ↑, geri qaytarmalar/zaman-aut.

Fəaliyyət:
  • Ehtiyat relsdə feylover (RTP/SEPA/digər PSP).
  • Treasury: prefund top-up payout-hovuz, StressRes aktivləşdirilməsi.
  • Yüksək risk üçün Payout-lock, VIP prioritetləşdirilməsi.
  • Kommunikasiyalar: ETA və alternativlər, şəxsi kabinetdəki statusların şəffaflığı.

4. 4 Refund Errors / Double Refund Risk

Simptomlar: Refund error rate ↑, mübahisəli/təkrarlanan qaytarmalar.

Fəaliyyət:
  • avtomobil marşrutu üzrə qlobal refund-freeze, yalnız hüquqları ilə əl.
  • Sərt idempotentlik 'payment _ id + amount + reason'; row-lock qalıq.
  • PSP hesabatının yenidən yoxlanılması; yüz ledger ikiqat, DLQ cases.
  • Kart Kommunikatsii:模板 (T + 1-T + 5 s), instant - 60 s-ə qədər

4. 5 Settlement Delay / PSP Batch Mismatch

Simptomlar: D + N daxil deyil, diff/fee.

Fəaliyyət:
  • Treasury: StressRes aktiv, ani ödənişləri məhdudlaşdırmaq.
  • Recon: batch «SUSPENSE» işarələyin, PSP biletini qaldırın, statement tələb edin.
  • FX/Fees: müvəqqəti «həqiqət» (policy) qəbul və ya düzəliş gözləmək.
  • Kommunikasiyalar: Q&A sapport üçün (vasitələrin təhlükəsizliyi, tənzimləmə müddəti).

4. 6 Crypto On/Off-Ramp Degradation

Simptomları: TtH ↑, slippage ↑, saytın likvidlik çatışmazlığı.

Fəaliyyət:
  • SOR → alternativ CEX/OTC, lot ölçüsünü azaltmaq (TWAP).
  • Stabl/fiata daxil olanların tərcüməsi, depeg-ekspozisiya limiti.
  • Kill-switch oracle> bps limitinin uyğunsuzluğu zamanı.

4. 7 Voucher/Wallet Anomalies

Simptomları: Invalid PIN spike, velocity, geo misk.

Fəaliyyət:
  • Limitlər/kuldaun, redeem cihaza bağlama, payout-lock + turnover.
  • Çeklərin/SoF sorğusu, blok vərəqlərin doldurulması (email/device/ASN/retailer).

5) Fəaliyyət yoxlama vərəqləri

5. 1 İlk beş dəqiqə (P0/P1)

  • IC təyin, war-room açmaq.
  • Sabit Sev, əhatə, Başlanğıc Time Line (UTC).
  • Təhlükəsiz fiç bayraqlarını işə salın (idempotentlik, lazımi avtomobil proseslərini freeze).
  • Feylover/funksiyaların deqradasiyasını başlatın.
  • İlk daxili yeniləmə (kontekst, tədbirlər, iz. ETA).

5. 2 Hadisənin bağlanmasından əvvəl

  • SLO (AR/latency/webhooks/TtW/TtR) bərpa edildi.
  • Bir yoxlama aparıldı (internal, PSP, bank), «qara dəliklər» yoxdur.
  • Maliyyə impact qiymətləndirilir, gizli/jurnallar rəsmiləşdirilmişdir.
  • Status-kanalda xarici yeniləmə/post.
  • RCA sahibi təyin və qarşısının alınması vəzifələri.

6) Monitorinq, alertlər və daşbordlar

Əsas alertlər:
  • 'AR _ gross ↓> 3 p.p. (p7 mediana)' → əhatə dairəsinə görə P1/P0.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Dashbord hadisələri:

1. Fanel Attempt → Auth → Capture (bazis xəttinə müqayisə).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, təkrarlanan, drebling.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: balans L0, prefund, StressRes.

6. Recon: Mismatch Rate, Aging DLQ.

7) Kommunikasiyalar (şablonlar)

Daxili (15 dəq):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
Oyunçular (status-səhifə/FAQ):
💡 "İndi bəzi istifadəçilər üçün ödənişlərin və çıxarışların təsdiqlənməsində gecikmələr var. Ödənişlər təhlükəsiz saxlanılır. X. alternativ metodu tövsiyə edirik. 30 dəqiqədən sonra yenilənir"
Tərəfdaşlar/satıcılar (qısa):
💡 "DACH regionlarında A provayderində avtorizasiyaların deqradasiyası. B provayderinə Feylover aktiv. SLA hesabatı və qarşısının alınması tədbirləri RCA-nın nəticələrinə əsasən göndəriləcək"

8) Yoxlama və pul (sabitləşmədən sonra)

Avto-yoxlama sürmək: provider_txid/idem_key/amount/time-bucket.
DLQ seçin: orphan/duplicate/amount mismatch/fee drift.
Cost/GGR və Fraud Loss-da storno/düzəlişlər edin.
Xəzinədarlıq: müvəqqəti tədbirləri bağlamaq (StressRes, payout-lock), hovuzların yenidən balansı.

9) RCA şablon (Root Cause Analysis)

Kontekst: tarix/vaxt (UTC), Sev, əhatə, metrika.
Simptomlar: gördükləri (qrafiklər/ekran görüntüləri).
Səbəb: kök (tech/proseslər/kontragent).
Nə işlədi/işləmədi: feylover, fiç bayraqları, kommunikasiyalar.
Maliyyə effekti: silinmiş/ödənilməmiş/komissiya/SLA kreditləri.

Prevention:
  • Tech: limitlər, idempotentlik, retray, testlər.
  • Proseslər: playbook yeniləmə, PSP ilə QBR, SLA dəyişikliklər.
  • Son tarixlər və tapşırıqların sahibləri.

10) Avtomatlaşdırma və inteqrasiya

Feature-flag platforması: ölkə/BIN/metodu ilə ani marşrut/deqradasiya.
Runbook-bot: '/failover PSP_A→B', '/freeze refunds ', '/enable polling' komandaları.
Anomaly Detector: Mövsümlük biliyi ilə AR/latency statistik sapma.
Post-incident macros: RCA şablonunun avtomatik açılması, qeydlərin/qrafiklərin toplanması, yoxlama siyahısı.

11) Drill təqvimi və UAT

Aylıq: «Auth drop» drill (detektordan feyloverə qədər 15 dəq).
Üç aylıq: «Webhook outage» + «Refund double-strike» (idempotentlik).
Hər altı ayda bir: «Settlement delay + Treasury stress» (StressRes).
UAT paketi: idempotentlik, faylover, yoxlama, kommunikasiya test halları.

12) Playbook müvəffəqiyyət metrikası (əməliyyat KPI)

MTTA/MTTR: media/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (hadisələr üzrə məbləğ).

13) Tez-tez səhvlər və onlardan necə qaçmaq olar

Feyloverin gec aktivləşdirilməsi (avtomatik eşik yoxdur).
webhooks davası zamanı avto-refanda «freeze» olmaması.
No row-lock/version → partial refund> qalıq.
Fakt olmadan əlaqə/ETA → sapport eskalasiya.
Xəzinədarlıqla əlaqə yoxdur → TtP/TtW SLO-dan çıxır.
Gəlirdə → «qara dəliklər» yoxlanılması.

14) Proqramlar (wiki daxilində link blokları)

Ödəniş provayderləri ilə SLA - alertlərin və kreditlərin həddi.
PSP ödənişlərinin və hesabatlarının müqayisəsi - recon/DLQ prosedurları.
Xəzinədarlıq: likvidlik və ehtiyatlar - StressRes/Prefunding.
Ödəniş dövrəsinin KPI - AR/TtW/TtR/Refund Health düsturları.
Qismən və tam refandlar - idempotentlik və siyasət.

Xülasə

İş playbook runbook və + avtomatlaşdırma + post-mortem intizamıdır. Bu MTTR azaldır, pulu qoruyur (idempotentlik/yoxlama/xəzinə), istifadəçi zərərini minimuma endirir və SLA-da PSP ilə münasibətləri sistematik olaraq yaxşılaşdırır. Nəticə - AR yuxarıda, TtW/TtR dəhlizlərdə, sıfır dubl, proqnozlaşdırıla bilən pul flow.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.