Töleglerdäki hadysalaryň pleýbugy
TL; DR
Töleglerdäki waka dolandyrylýan amaldyr: çalt klassifikasiýa ediň → UX (feýlower/degradasiýa) durnuklaşdyryň → pul tygşytlaň (idempotentlik/blok düzgünleri) → aç-açan aragatnaşyk ediň → dikeldiň → RCA düzediň. Esasy SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund çydamlylygy ýok.
1) Agyrlyk matrisi (Severity & Impact)
Triggerler: SLA/Gazna/deňeşdirme alertleri, sapport pikleri, AR/latency/webhooks gözegçiligi.
2) Aragatnaşyk rollary we kanaly
Incident Commander (IC) - wagt we çözgütleriň eýesi.
Payments Tech Lead - marşrutlaşdyryş, idempotentlik, fiç-baýdaklar.
Treasury Lead - likwidlik, prefunding, stress ätiýaçlyklary.
Töwekgelçilik/AML - sanksiýalar, blok düzgünleri, SoF/SoW.
Comms Manager - sapport/hyzmatdaşlar üçin şablonlar, status-täzelenmeler.
Recon/Finance - deňeşdirme, ýüz/magazinesurnallar, ýitgilere baha bermek.
Ştab-kwartirasy: #payments -incident-warroom (söhbetdeşlik), Zoom-bridge + göni wagtlaýyn resminama (UTC).
3) Ähliumumy sikl (for any incident)
1. Detect & Triage → metrikleri/gurşawy tassyklamak, Sev bellemek.
2. Stabilize UX → Feylower routing, degradasiýa fich, doňdurma howply awto hereketler.
3. Money Safety → idempotentligi/bloklary (refund/payout) goşmak, magazinesurnallary ýazga almak.
4. Communicate → içerki täzelenme (15/30/60 minut), daşarky habarlar (status/ETA/aýlaw ýollary).
5. Recover → ädimme-ädim yza gaýdyp/açmak, SLO-ny barlamak.
6. Reconcile → deňeşdirmek ledger/PSP/bank, hasaplamak financial impact.
7. RCA (≤ 5 r.d.) → kök, hereketler, öňüni alyjylar, meseleler.
4) Adaty ssenariler we Runbook 'i
4. 1 Auth Drop/Latency Spike (kartoçkalar/A2A)
Alamatlary: AR ↓, soft declines ↑, p95 auth> 1-2 s.
Hereket:- Smart-routing: PSP_A→PSP_B, gowşak BIN-de 3DS-challenge artdyrmak.
- Retraini çäklendirmek (backoff + jitter), 'auth _ key' -ni goramak.
- Segment-toggle: "berk" ssenaride ýokary töwekgelçilik; ýokary-söwda çäklerini peseltmek.
- Aragatnaşyklar: "pese gaçmak barada bellik", alternatiw usuly maslahat bermek.
- Dikeldiş: traffigiň paýynyň tapgyrlaýyn yzyna gaýtarylmagy, BIN × GEO boýunça AR gözegçiligi.
4. 2 Webhooks Delay / Duplicate
Alamatlary: p95> 3-5 c, capture/refund/payout geçişleri, dublikatlar.
Hereket:- Polling geçiň; TTL-ni güýçlendirmek.
- Awto-refandlary we töwekgelçilikli awto-tölegleri doňduryň.
- Anti-dubl: store-once by 'idempotency _ key/provider _ txid'.
- Catch-up amalyny geçirmek; PSP sanawlary bilen deňeşdirme.
- Dikeldiş: webhooks-y açyň, yzygiderliligi hasabatlar bilen deňeşdiriň.
4. 3 Payout Fail / TtW Degradation
Alamatlary: Success% ↓, TtW p95 ↑, yzyna gaýtarmalar/wagt-autlar.
Hereket:- Feýlower ätiýaçlyk relsine (RTP/SEPA/beýleki PSP).
- Treasury: prefund top-up payout-pula, StressRes işjeňleşýär.
- Ýokary töwekgelçilik üçin töleg-lock, VIP-iň ileri tutulmagy.
- Aragatnaşyk: ETA we alternatiwalar, şahsy hasabyňyzdaky statuslaryň aç-açanlygy.
4. 4 Refund Errors / Double Refund Risk
Alamatlary: Refund error rate ↑, jedelli/gaýtalanýan gaýdyp gelişler.
Hereket:- Global refund-freeze awto-marşrutda, diňe hukuklary bolan el bilen.
- Gaty idempotentlik 'payment _ id + amount + reason'; galyndy üçin row-lock.
- PSP hasabatyny gaýtadan barlamak; ledjerde ýüz goşa, DLQ-daky ýagdaýlar.
- Kartlar üçin Kommunikatsii:模板 (T + 1-T + 5 b.d.), instant - 60 s.-e çenli
4. 5 Settlement Delay / PSP Batch Mismatch
Alamatlary: D + N hasaba alynmady, diff/fee.
Hereket:- Treasury: StressRes-i açyň, derrew tölegleri çäklendiriň.
- Recon: "SUSPENSE" batçyny belläň, PSP biletini galdyryň, statement soraň.
- FX/Fees: Wagtlaýyn "hakykaty" (policy) kabul etmek ýa-da düzedişe garaşmak.
- Aragatnaşyk: Sapport üçin Q&A (serişdeleriň howpsuzlygy, düzgünleşdirmegiň möhletleri).
4. 6 Crypto On/Off-Ramp Degradation
Alamatlary: TtH ↑, slippage ↑, saýtyň likwidliginiň ýetmezçiligi.
Hereket:- SOR → alternatiw CEX/OTC, lot ululygyny azaltmak (TWAP).
- Steýbl/fiata girýänleriň terjimesi, depeg-ekspozisiýa çägi.
- Oracle> bps çägi tapawutlananda öldürmek-switch.
4. 7 Voucher/Wallet Anomalies
Alamatlary: Invalid PIN spike, velocity, geo-misk.
Hereket:- Çäklendirmeler/kuldaun, redeem enjamyna baglanyşyk, payout-lock + turnover.
- Çekleri soramak/SoF, blok sahypalaryny doldurmak (email/device/ASN/retailer).
5) Hereketleriň çek-listleri
5. 1 Ilkinji bäş minut (P0/P1)
- IC bellemek, war-room açmak.
- Sev, örtük, wagt aralygyny (UTC) düzetmek.
- Howpsuz fiç baýdaklaryny goşuň (idempotentlik, zerur awtoulag prosesslerini freeze).
- Funksiýalaryň feýlowerini/zaýalanmagyny başla.
- Ilkinji içerki täzelenme (kontekst, çäreler, indiki ETA).
5. 2 Waka ýapylmazdan öň
- SLO (AR/latency/webhooks/TtW/TtR) dikeldildi.
- Deňeşdirme geçirildi (internal, PSP, bank), "gara deşikler" ýok.
- Maliýe impact baha berildi, storno/magazinesurnallar düzüldi.
- Status kanalyndaky daşarky täzelenme/ýazgy.
- RCA eýesi we öňüni alyş wezipeleri bellendi.
6) Gözegçilik, alertler we daşbordlar
Esasy alertler:- 'AR _ gross ↓> 3 p.p. (p7 medianyna)' → P1/P0 boýunça.
- `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
- `Payout TtW p95> SLO` или `Success%<99%` → P1.
- `Refund Error>0. 3%` или `Double Refund>0` → P0.
- `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
1. Fanel Attempt → Auth → Capture (bazis çyzygyna deňeşdirme).
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, dublikatlar, gyrgyç.
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: balans L0, prefund, StressRes.
6. Recon: Mismatch Rate, Aging DLQ.
7) Aragatnaşyk (şablonlar)
Içerki (15 minut):8) Deňeşdirme we pul (durnuklaşdyrylandan soň)
Awto-barlagy kowmak: provider_txid/idem_key/amount/time-bucket.
DLQ: orphan/duplicate/amount mismatch/fee drift
Ledjerde storno/düzedişleri resmileşdirmek, Cost/GGR we Fraud Loss sanamak.
Gazna: wagtlaýyn çäreleri ýapmak (StressRes, payout-lock), howuzlaryň deňagramlylygy.
9) RCA şablony (Root Cause Analysis)
Kontekst: senesi/wagty (UTC), Sev, gurşaw, metrika.
Alamatlary: gören zatlary (grafikler/ekran suratlary).
Sebäbi: kök (tech/prosesler/kontragent).
Näme işledi/işlemedi: feýlower, fiç-baýdaklar, aragatnaşyk.
Maliýe täsiri: hasapdan çykarmak/tölemezlik/komissiýa/SLA karzlary.
- Tech: limitler, idempotentlik, retralar, synaglar.
- Amallar: playbook täzelenmesi, PSP bilen QBR, SLA üýtgeşmeleri.
- Möhletler we wezipe eýeleri.
10) Awtomatlaşdyryş we integrasiýa
Feature-flag platform: ýurt boýunça/BIN/usuly boýunça derrew marşrut/zaýalanma.
Runbook-bot: '/failover PSP_A→B', '/freeze refunds ', '/enable polling' buýruklary.
Anomaly-detektor: möwsümliligi bilmek bilen AR/latency statistik gyşarma.
Post-incident macros: RCA şablonyny awtomatiki açmak, ýazgylary/grafikleri ýygnamak, barlamak sanawy.
11) Drill-senenama we UAT
Aýda: "Auth drop" drill (detektordan feýlowere çenli 15 minut).
Çärýek: "Webhook outage" + "Refund double-strike" (idempotentlik).
Her alty aýda bir gezek: "Settlement delay + Treasury stress" (StressRes).
UAT-bukjasy: idempotentligiň, feýloweriň, deňeşdirmeleriň, aragatnaşyklaryň synag-ýagdaýlary.
12) Playbukyň üstünlik metrikleri (KPI operasiýa otaglary)
MTTA/MTTR: mediana/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (hadysalar boýunça jemi).
13) Ýygy-ýygydan ýalňyşlyklar we olardan nädip gaça durmaly
Feýloweriň giç işjeňleşdirilmegi (awtomatiki bosagalar ýok).
Webhooks söweşinde awto-refandada "freeze" ýok.
Row-lock/wersiýa ýok → partial refund> galyndy.
Faktsyz aragatnaşyk/ETA → Sapportda eskalasiýa.
Gazna bilen baglanyşyk ýok → TtP/TtW SLO-dan çykýar.
Girdejilerdäki "gara deşikler".
14) Programmalar (wiki içindäki baglanyşyk bloklary)
Töleg üpjün edijileri bilen SLA - alertleriň we karzlaryň çäkleri.
PSP töleglerini we hasabatlaryny deňeşdirmek - recon/DLQ amallary.
Gazna: likwidlik we ätiýaçlyklar - StressRes/Prefunding.
Töleg konturynyň KPI - AR/TtW/TtR/Refund Health formulalary.
Bölekleýin we doly refandlar - idempotentlik we syýasat.
Gysgaça maglumat
Iş pleýbugy - ssenariý runbook 'we + awtomatlaşdyryş + post-mortemleriň tertibi. MTTR-i gysgaldýar, pullary goraýar (idempotentlik/deňeşdirme/gazna), ulanyjy zyýanyny azaldýar we PSP bilen SLA gatnaşyklaryny yzygiderli gowulandyrýar. Netije - AR ýokary, TtW/TtR koridorlarda, nol dubllar, öňünden aýdyp boljak pul akymy.