GH GambleHub

Төлөмдөрдөгү инциденттерди ойнотуу

TL; DR

Төлөмдөрдөгү окуя - бул башкарылуучу операция: тез классификация → UX турукташтыруу (фейловер/деградация) → акча сактоо (демпотенттүүлүк/блок-эрежелер) → ачык-айкын байланыш → калыбына келтирүү → RCA бекитүү. Негизги SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, double charge/refund үчүн нөлдүк сабырдуулук.

1) олуттуу матрица (Severity & Impact)

SevАныктамаМисалдарМаксаттар
P0Массалык таасир, акча жоготуу/төлөй албайAuth <− 20 p.p., кош эсептен чыгаруу, массалык PayOut-Fail, settlement stopMTTA ≤ 15 мин, MTTR ≤ 2 саат
P1Сегменттер үчүн олуттуу деградацияWebhook p95> 30 c, payout TtW p95> SLO, BIN/өлкө боюнча AR − 8 p.p. MTTA ≤ 30 мин, MTTR ≤ 4 саат
P2Чектелген сегмент/фигура0 чейин refund error өсүшү. 5%, PSP отчетторунун кечигишиMTTA ≤ 4 саат, MTTR ≤ 2 р.д.
P3Minor/" кагаз "Дребезг лога, майда схема driftПландуу

Триггерлер: SLA/Казыналыктын/салыштыруу, саппорттун чокулары, AR/latency/webhooks мониторинг.

2) Ролдору жана байланыш каналы

Incident Commander (IC) - таймлайн жана чечимдердин ээси.
Payments Tech Lead - багыттоо, боштук, fich желектери.
Treasury Lead - ликвиддүүлүк, преференция, стресс резервдери.
Тобокелдик/AML - санкциялар, блок эрежелери, SoF/SoW.
Comms Manager - саппорт/өнөктөштөр үчүн шаблондор, статус-апдейттер.
Recon/Finance - салыштыруу, сторно/журналдар, жоготууларга баа берүү.

Штаб: #payments -incident-warroom (чат), Zoom-bridge + Live Times Document (UTC).

3) Универсалдуу цикл (for any incident)

1. Detect & Triage → метрика/камтууну ырастоо, Sev ыйгаруу.
2. Stabilize UX → Feylover роутинг, phich деградация, тоңдуруп коркунучтуу унаа жардам.
3. Money Safety → демпотенттикти/блокторду (refund/payout) кошуу, журналдарды жазуу.
4. Communicate → ички жаңылоо (15/30/60 мин), тышкы билдирүүлөр (статус/ETA/айланма жолдор).
5. Recover → кадам артка/ачуу, SLO текшерүү.
6. Reconcile → ledger/PSP/банк салыштырып, каржылык таасир эсептөө.
7. RCA (≤ 5 р.д.) → тамыры, иш-аракеттер, алдын алуучулар, милдеттери.

4) типтүү жагдайлар жана Runbook 'и

4. 1 Auth Drop/Latency Spike (карталар/A2A)

Белгилери: AR ↓, soft declines ↑, p95 auth> 1-2 s.

Иш-аракеттер:
  • Smart-routing: PSP_A→PSP_B, аялуу BIN боюнча 3DS-challenge көбөйтүү.
  • Retrains (backoff + Jitler) чектөө, 'auth _ key' демпотенттигин коргоо.
  • Сегмент-toggle: "катуу" жагдайда жогорку тобокелдик; high-ticket чектерин төмөндөтүү.
  • Байланыш: "деградация жөнүндө эскертүү", альтернативдик ыкманы сунуш кылуу.
  • Калыбына келтирүү: трафиктин үлүшүн этап-этабы менен кайтаруу, BIN × GEO бөлүгүндө AR контролдоо.

4. 2 Webhooks Delay / Duplicate

Белгилери: p95> 3-5 c, capture/refund/payout, кайталанышы.

Иш-аракеттер:
  • polling өтүү; TTL демпотенттигин күчөтүү.
  • Авто-рефандаларды жана кооптуу авто төлөмдөрдү тоңдуруу.
  • Анти-дубль: store-once 'idempotency _ key/provider _ txid'.
  • catch-up иштетүү жүргүзүү; PSP реестрлери менен салыштыруу.
  • Калыбына келтирүү: webhooks күйгүзүү, отчеттор менен консистенттүүлүгүн салыштыруу.

4. 3 Payout Fail / TtW Degradation

Белгилери: Success% ↓, TtW p95 ↑, кайтарымдар/тайм-ауттор.

Иш-аракеттер:
  • Фейловер резервдик рельске (RTP/SEPA/башка PSP).
  • Treasury: prefund top-up payout-бассейн, StressRes жандандыруу.
  • Жогорку тобокелдик үчүн Payout-lock, VIP артыкчылыктуу.
  • Байланыш: ETA жана альтернативалар, жеке кабинетте статустардын ачыктыгы.

4. 4 Refund Errors / Double Refund Risk

Белгилери: Refund error rate ↑, талаштуу/кайталанма кайтарымдар.

Иш-аракеттер:
  • авто-маршруту боюнча Global refund-freeze, укуктар менен гана кол менен.
  • Катуу боштук 'payment _ id + amount + reason'; row-lock калдыгына.
  • PSP отчетун кайра текшерүү; жүз эсе көп, DLQ учурларда.
  • Kommunikatsii:模板 карталар үчүн (T + 1-T + 5 б.д.), instant - 60 с. чейин

4. 5 Settlement Delay / PSP Batch Mismatch

Симптомдору: D + N эсепке алынган эмес, суммалар/fee diff.

Иш-аракеттер:
  • Treasury: StressRes күйгүзүү, тез төлөмдөрдү чектөө.
  • Recon: "SUSPENSE" батч белгилөө, PSP билетин жогорулатуу, statement сурап.
  • FX/Fees: убактылуу "чындыкты" кабыл алуу (policy) же түзөтүү күтүп.
  • Байланыш: Саппорт үчүн Q&A (каражаттардын коопсуздугу, жөнгө салуу мөөнөтү).

4. 6 Crypto On/Off-Ramp Degradation

Белгилери: TtH ↑, slippage ↑, сайттын ликвиддүүлүгүнүн жетишсиздиги.

Иш-аракеттер:
  • SOR → CEX/OTC альтернатива, лот өлчөмүн азайтуу (TWAP).
  • Стейблге/фиатка киргендерди которуу, депег-экспозициянын лимити.
  • oracle айырмачылыктар> bps чеги боюнча Kill-switch.

4. 7 Voucher/Wallet Anomalies

Белгилери: Invalid PIN spike, velocity, geo-misk.

Иш-аракеттер:
  • Лимиттер/кулдаун, redeem аппаратка байлап, payout-lock + turnover.
  • Чек суроо/SoF, блок-барактарды толуктоо (email/device/ASN/retailer).

5) Иш-аракеттердин чек-баракчалары

5. 1 Беш биринчи мүнөт (P0/P1)

  • IC дайындоо, war-room ачуу.
  • Sev чечүү, камтуу, Таймлайн баштоо (UTC).
  • Коопсуз фич-желектерди күйгүзүү (идемпотенттүүлүк, керектүү автопроцессорлорду фризе).
  • Feylover/функциялардын бузулушун баштоо.
  • Биринчи ички жаңылоо (контекст, чаралар, ээ. ETA).

5. 2 Окуя жабылганга чейин

  • калыбына SLO (AR/latency/webhooks/TtW/TtR).
  • Жүргүзүлгөн салыштыруу (internal, PSP, банк), эч кандай "кара тешиктер".
  • Каржылык таасири бааланган, storno/журналдар түзүлгөн.
  • Статус-каналдагы тышкы жаңылануу/пост.
  • RCA ээси жана алдын алуу милдеттери дайындалды.

6) Мониторинг, алерталар жана дашборддор

Негизги алерталар:
  • 'AR _ gross ↓> 3 p.p. (p7 медианасы)' → Камтуунун P1/P0.
  • `Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
  • `Payout TtW p95> SLO` или `Success%<99%` → P1.
  • `Refund Error>0. 3%` или `Double Refund>0` → P0.
  • `Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Dashbord окуялар:

1. Fanel Attempt → Auth → Capture (базис сызыгына салыштыруу).

2. Heatmap AR по BIN×GEO×PSP.

3. Webhook p50/p95, кайталанышы, drebezg.

4. Payout/Refund Health (Success%, TtW/TtR).

5. Treasury: баланс L0, prefund, StressRes.

6. Recon: Mismatch Rate, Aging DLQ.

7) Байланыш (шаблондор)

Ички (15 мин):
💡 `P1 Payments | Auth drop on PSP_A GEO-DE, AR −9pp vs baseline. Failover to PSP_B in progress, 3DS policy tightened for BIN 4250. Auto-refunds paused. Next update 30 min.`
Оюнчулар (статус-бет/FAQ):
💡 "Азыр кээ бир колдонуучулар үчүн төлөмдөрдү жана корутундуларды ырастоо кечеңдеп жатат. Төлөмдөр коопсуз сакталат. X. альтернативдик ыкмасын сунуш. 30 мүнөттөн кийин жаңыртуу"
Өнөктөштөр/соодагерлер (кыскача):
💡 "DACH региондорунда А провайдеринде авторизациялардын бузулушу. В провайдери боюнча Failover иштетилди. SLA-отчет жана алдын алуу чаралары RCA жыйынтыгы боюнча жөнөтүлөт"

8) Салыштыруу жана акча (турукташтыруудан кийин)

Auto-текшерүү айдап: provider_txid/idem_key/amount/time-bucket.
DLQ бөлүү: orphan/duplicate/amount mismatch/fee drift.
Сторно/коррекцияларды леджерде тариздөө, Cost/GGR жана Fraud Loss.
Казыналык: убактылуу чараларды жабуу (StressRes, payout-lock), пулдардын ребалансы.

9) RCA шаблон (Root Cause Analysis)

Контекст: Date/Time (UTC), Sev, камтуу, метрика.
Белгилери: көргөн (сүрөттөр/скриншоттор).
Себеби: тамыры (тех/процесстер/контрагент).
Эмне иштеди/иштебеди: фейловер, фич-желектер, коммуникациялар.
Финансылык эффект: эсептен чыгаруу/төлөбөө/комиссиялар/SLA кредиттери.

Prevention:
  • Тех: лимиттер, демпотенттик, ретра, тесттер.
  • Процесстер: playbook жаңыртуу, PSP менен QBR, SLA өзгөрүүлөр.
  • Мөөнөтү жана тапшырмалардын ээлери.

10) Автоматташтыруу жана интеграция

Feature-flag платформа: өлкө/BIN/ыкмасы боюнча тез роутинг/деградация.
Runbook-бот: команда '/failover PSP_A→B', '/freeze refunds ', '/enable polling'.
Anomaly Detector: сезондук билүү менен статистикалык четтөө AR/latency.
Post-incident macros: автоматтык ачуу RCA-шаблон, жыйноо логиндер/графиктер, текшерүү тизмеси.

11) Drill календары жана UAT

Ай сайын: "Auth drop" drill (детектордон Фейловерге чейин 15 мин).
Квартал: "Webhook outage" + "Refund double-strike" (демпотенттик).
Алты айда бир жолу: "Settlement delay + Treasury stress" (StressRes).
UAT пакети: idempotentity, Failover, салыштыруу, байланыш сыноо учурлары.

12) Playbook ийгилик көрсөткүчтөрү (KPI иштетүү)

MTTA/MTTR: медиа/p95 P0/P1.
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (инциденттер боюнча сумма).

13) Көп каталар жана аларды алдын алуу үчүн кантип

Feylover кеч жандандыруу (эч кандай автоматтык босоголор).
Жок "freeze" auto-refanda учурда webhooks.
Жок row-lock/версия → partial refund> калдыгы.
Фактысыз байланыш/ETA → саппортто эскалация.
Казыналык менен байланыш жок → TtP/TtW SLOдан чыгат.
Чек → "кара тешиктер" киреше.

14) Тиркемелер (сиздин wiki ичинде шилтеме блоктору)

төлөм провайдерлери менен SLA - алерттердин жана кредиттердин босоголору.
PSP төлөмдөрүн жана отчетторун салыштыруу - recon/DLQ жол-жоболору.
Казыналык: ликвиддүүлүк жана камдар - StressRes/Prefunding.
Төлөм контурунун KPI - AR/TtW/TtR/Refund Health формулалары.
Жарым-жартылай жана толук рефандар - демпотенттүүлүк жана саясат.

Резюме

Жумушчу playbook - бул скрипт runbook 'жана + автоматташтыруу + пост-мортем тартип. Бул MTTR кыскартат, акча (демпотенттик/салыштыруу/казына) коргойт, колдонуучунун зыянды азайтуу жана системалуу PSP менен мамилелерди жакшыртат SLA. натыйжасы - жогоруда AR, коридорлордо TtW/TtR, нөл дубль, алдын ала акча.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.