GH GambleHub

دفترچه حوادث در پرداخت

TL ؛ دکتر متخصص

یک حادثه پرداخت یک عملیات کنترل شده است: به سرعت طبقه بندی → تثبیت UX (feiler/degradation) → صرفه جویی در هزینه (قوانین idempotency/block) → شفاف ارتباط → تعمیر RCA. SLO های اصلی: MTTA، MTTR، TtW/TtR، AR، Webhook p95، تحمل صفر برای دو برابر هزینه/بازپرداخت.

1) ماتریس شدت و ضربه

سرمایه گذاریتعریف هانمونه هااهداف شرکت
صفحه اصلیتاثیر جرم، از دست دادن پول نقد/عدم توانایی پرداختAuth <− 20 pp، اتهامات دو برابر، پرونده پرداخت انبوه، توقف حل و فصلMTTA ≤ 15 دقیقه، MTTR ≤ 2 ساعت
P1تخریب قابل توجه برای بخش هاوب سایت p95> 30 c، پرداخت TtW p95> SLO، AR توسط BIN/کشور − 8 pp MTTA ≤ 30 دقیقه، MTTR ≤ 4 ساعت
P2بخش محدود/ویژگیافزایش خطای بازپرداخت به 0. 5%, گزارش PSP تاخیرMTTA ≤ 4 ساعت, MTTR ≤ 2P
P3جزئی/کاغذگزاف گویی، رانش طرح کوچکطبق برنامه

محرک ها: هشدارهای SLA/خزانه داری/آشتی، قله های پشتیبانی، نظارت بر AR/latency/webhooks.

2) نقش ها و کانال ارتباطی

فرمانده حادثه (IC) صاحب جدول زمانی و راه حل ها است.
پرداخت سرب فنی - مسیریابی، idemotence، پرچم ویژگی.
سرب خزانه داری - نقدینگی، prefunding، ذخایر استرس.
ریسک/AML - تحریم ها، قوانین بلوک، SoF/SoW.
Comms Manager - قالب برای پشتیبانی/شرکا، به روز رسانی وضعیت.
Recon/Finance - آشتی، معکوس/مجلات، برآورد از دست دادن.

دفتر مرکزی: # payments-incident-warroom (چت)، Zoom-bridge + سند جدول زمانی زنده (UTC).

3) حلقه جهانی (برای هر حادثه)

1. Detect & Triage → تأیید معیارها/پوشش، اختصاص Sev.
2. تثبیت UX → مسیریابی feiler، تخریب ویژگی، انجماد اقدامات خودکار خطرناک.
3. ایمنی پول → فعال idemotence/بلوک (بازپرداخت/پرداخت), رفع سیاهههای مربوط.
4. ارتباط → به روز رسانی داخلی (15/30/60 دقیقه)، پیام های خارجی (وضعیت/ETA/راه حل).
5. بازیابی → بازگشت افزایشی/باز، بررسی SLO.
6. تطبیق → مقایسه دفتر کل/PSP/بانک، محاسبه تاثیر مالی.
7. RCA (واحدهای کسب و کار ≤5) → ریشه، اقدامات، preventers، وظایف.

4) سناریوهای معمول و Runbook "و

4. 1 قطره قطره/اسپایک تاخیر (Cards/A2A)

علائم: AR↓، declines↑ نرم، p95 auth> 1-2 s.

فعالیت ها:
  • مسیریابی هوشمند: PSP_A→PSP_B، افزایش 3DS-challenge در BIN های آسیب پذیر.
  • محدود کردن retrays (برگشت + jitter)، محافظت از idempointency 'auth _ key'.
  • تغییر بخش: خطر بالا به اسکریپت «سخت» ؛ محدودیت های بلیط را کاهش دهید.
  • ارتباطات: «یادداشت تخریب»، یک روش جایگزین را توصیه می کند.
  • بازیابی: بازگشت مرحله ای از سهم ترافیک، کنترل AR در زمینه BIN × GEO.

4. 2 کتاب تاخیر/تکراری

علائم: p95> 3-5 c، شکاف گرفتن/بازپرداخت/پرداخت، تکراری.

فعالیت ها:
  • سودهی به رأیگیری ؛ افزایش idempotency TTL.
  • توقف خودکار بازپرداخت و پرداخت خودکار خطرناک.
  • ضد دوگانه: فروشگاه یک بار توسط «idempotency _ key/provider _ txid».
  • انجام پردازش گرفتن ؛ سازگاری با ثبت PSP
  • بازیابی: فعال کردن وب سایت ها، مقایسه سازگاری با گزارش ها.

4. 3 خرابی پرداخت/تخریب TtW

علائم: Success%↓، p95↑ TtW، بازده/وقفه.

فعالیت ها:
  • Feilover به راه آهن آماده به کار (RTP/SEPA/PSP دیگر).
  • خزانه داری: استخر پرداخت پیش پرداخت، فعال سازی StressRes.
  • قفل پرداخت برای اولویت بندی VIP با ریسک بالا.
  • ارتباطات: ETA و جایگزین ها، شفافیت وضعیت در حساب شخصی.

4. 4 خطاهای بازپرداخت/خطر بازپرداخت دوگانه

علائم: rate↑ خطای بازپرداخت، بازپرداخت متضاد/تکراری.

فعالیت ها:
  • بازپرداخت جهانی در مسیر خودکار، فقط با حقوق دستی.
  • idemotency سخت 'پرداخت _ id + مقدار + دلیل'; ردیف قفل در تعادل.
  • کالیبراسیون مجدد با توجه به گزارش PSP ؛ معکوس کردن تکراری در دفتر کل، موارد در DLQ.
  • Kommunikatsii:模板 برای کارت (T + 1-T + 5 bp)، فوری - تا 60 ثانیه.

4. 5 حل و فصل تاخیر/عدم تطابق دسته PSP

علائم: D + N ثبت نام نکرده است، تفاوت در مقدار/هزینه.

فعالیت ها:
  • خزانه داری: StressRes را روشن کنید، پرداخت های فوری را محدود کنید.
  • Recon: علامت دسته ای «SUSPENSE»، بالا بردن بلیط PSP، درخواست بیانیه.
  • FX/هزینه: قبول موقت «حقیقت» (سیاست) و یا منتظر اصلاح.
  • ارتباطات: پرسش و پاسخ برای پشتیبانی (امنیت وجوه، زمان حل و فصل).

4. 6 تخریب خاموش/خاموش رمپ

علائم: TtH↑، slippage↑، عدم نقدینگی سایت.

فعالیت ها:
  • SOR → جایگزین CEX/OTC، کاهش اندازه لات (TWAP).
  • انتقال کسانی که وارد پایدار/فیات, حد قرار گرفتن در معرض depeg.
  • Kill-switch اگر واگرایی اوراکل> حد bps.

4. 7 کوپن/کیف پول ناهنجاری

علائم: سنبله پین نامعتبر، سرعت، geo-bowl.

فعالیت ها:
  • محدودیت/cooldown، بازخرید اتصال به دستگاه، پرداخت قفل + گردش مالی.
  • درخواست چک/SoF، دوباره پر کردن لیست بلوک (ایمیل/دستگاه/ASN/خرده فروش).

5) چک لیست عمل

5. 1 پنج دقیقه اول (P0/P1)

  • اختصاص IC، باز جنگ اتاق.
  • ضبط Sev، پوشش، شروع جدول زمانی (UTC).
  • فعال کردن پرچم ویژگی های امن (idempointency, یخ از فرآیندهای خودکار لازم).
  • ویژگی شروع شکست/تخریب.
  • اولین به روز رسانی داخلی (زمینه، اقدامات، ETA بعدی).

5. ۲ قبل از پایان حادثه

  • SLO بازسازی شده (AR/latency/webhooks/TtW/TtR).
  • آشتی (internal↔PSP↔bank)، بدون سیاهچاله.
  • تاثیر مالی valuated، معکوس/مجلات صادر شده است.
  • پست کانال به روز رسانی/وضعیت خارجی.
  • صاحب RCA و وظیفه پیشگیری اختصاص داده شده است.

6) نظارت، هشدار و داشبورد

هشدارهای کلیدی:
  • 'AR_gross↓> 3 pp (به p7 میانه) → P1/P0 در پوشش.
  • 'Auth p95> 1. 5 s/Webhook p95> 5 s/موفقیت ضبط <98٪ → P1.
  • 'پرداخت TtW p95> SLO' или 'موفقیت٪ <99٪' → P1.
  • 'خطای بازپرداخت> 0. 3٪ 'или' بازپرداخت دو> 0 '→ P0.
  • 'حل و فصل در زمان <99٪ '/' گزارش تحویل SLA نقض → P1.
حوادث داشبورد:

1. تلاش فنل → Auth → ضبط (مقایسه با خط پایه).

2. نقشه حرارتی AR по BIN × GEO × PSP.

3. وبهوک p50/p95، تکراری، گزاف گویی.

4. پرداخت/بازپرداخت سلامت (موفقیت٪، TtW/TtR).

5. خزانه داری: تعادل L0، prefund، StressRes.

6. Recon: میزان عدم تطابق، DLQ پیری.

7) ارتباطات (قالب ها)

داخلی (15 دقیقه):
💡 'پرداخت P1 | افت Auth در PSP_A GEO-DE، AR −9pp در مقابل پایه. شکست به PSP_B در حال پیشرفت، سیاست 3DS برای BIN 4250 تشدید شد. بازپرداخت خودکار متوقف شد. به روز رسانی بعدی 30 دقیقه.
بازیکنان (صفحه وضعیت/پرسش و پاسخ):
  • در حال حاضر تأخیری در تأیید پرداختها و برداشتها برای برخی از کاربران وجود دارد. پرداختها امن نگه داشته میشوند. ما توصیه می کنیم روش جایگزین X. به روز رسانی در 30 دقیقه"
شرکا/بازرگانان (کوتاه):
💡 "تخریب مجوز در ارائه دهنده A در مناطق DACH. Feilover در ارائه دهنده B فعال شده است. ما گزارش SLA و اقدامات پیشگیرانه را بر اساس نتایج RCA ارسال خواهیم کرد"

8) آشتی و پول (پس از تثبیت)

اجرای خودکار آشتی: provider_txid/idem_key/amount/time-bucket.
DLQ را انتخاب کنید: بی نظمی یتیم/تکراری/مقدار/رانش هزینه.
معکوس کردن/اصلاح در دفتر کل، محاسبه هزینه/GGR و از دست دادن تقلب.
خزانه داری: اقدامات موقت نزدیک (StressRes، پرداخت قفل)، تعادل استخر.

9) RCA (ریشه تجزیه و تحلیل علت) قالب

زمینه: تاریخ/زمان (UTC)، Sev، Coverage، Metrics.
علائم: آنچه شما دیدید (نمودارها/تصاویر).
دلیل: ریشه (آن/فرآیندها/طرف قرارداد).
چه چیزی کار می کرد/کار نمی کرد: feilover، پرچم های ویژگی، ارتباطات.
اثر مالی: نوشتن آف/عدم پرداخت/کمیسیون/وام SLA.

پیشگیری از:
  • کسانی که: محدودیت ها، idemotency، عقب نشینی، آزمون.
  • فرآیندها: به روز رسانی playbook، QBR با PSP، تغییرات SLA.
  • مهلت ها و صاحبان وظایف

10) اتوماسیون و ادغام

پلت فرم ویژگی پرچم: مسیریابی/تخریب فوری توسط کشور/BIN/روش.
Runbook-bot: دستورات "/failover PSP_A→B' "،/freeze returns"، "/enable polling ".
آشکارساز ناهنجاری: انحراف آماری AR/latency با دانش فصلی.
ماکروهای پس از حادثه: باز کردن خودکار قالب RCA، مجموعه ای از سیاههها/نمودارها، چک لیست آشتی.

11) تقویم مته و UAT

ماهانه: مته «Auth drop» (15 دقیقه از detecta تا feilover).
سه ماهه: «قطع Webhook» + «بازپرداخت دو اعتصاب» (idempotence).
نیمه سالانه: «تاخیر حل و فصل + استرس خزانه داری» (StressRes).
بسته UAT: موارد تست idempotency، feilover، آشتی، ارتباطات.

12) معیارهای موفقیت Playbook (KPI های عملیاتی)

MTTA/MTTR: میانه/p95 توسط P0/P1.
درصد خودکار شکست در عرض 10 دقیقه.
حوادث جلوگیری از دو بار/بازپرداخت (= 100٪).
شناسایی پس از حادثه کامل ≤ D + 1.
اعتبار خدمات بهبود/ماه (по SLA).

دقیقه تاثیر کاربر

13) اشتباهات مکرر و چگونگی اجتناب از آنها

فعال شدن اواخر feilover (بدون آستانه خودکار).
عدم «توقف» در خودکار refands زمانی که webhooks گزاف گویی.
بدون ردیف قفل/نسخهبندی → بازپرداخت جزئی> باقیمانده.
ارتباط بدون حقایق/ETA → تشدید برای حمایت.
بدون کراوات با خزانه داری → TtP/TtW SLO خروج.
پرش آشتی → «سیاه چاله ها» در درآمد.

14) برنامه های کاربردی (بلوک های مرجع در داخل ویکی خود را)

SLA با ارائه دهندگان پرداخت - آستانه هشدار و وام.
آشتی پرداخت PSP و گزارش - روش recon/DLQ.
خزانه داری: نقدینگی و ذخایر - StressRes/Prefunding.
حلقه پرداخت KPI - فرمول های بهداشتی AR/TtW/TtR/Refund.
ردصلاحیتهای جزئی و کامل، آرمانگرایی و سیاست هستند.

خلاصه

playbook کار یک runbook سناریو "و + اتوماسیون + نظم و انضباط پس از مرگ است. MTTR را کاهش می دهد، از پول محافظت می کند (idempotence/reconciliation/treasury)، آسیب کاربر را به حداقل می رساند و به طور سیستماتیک روابط با PSP ها را در SLA بهبود می بخشد. نتیجه - AR بالا، TtW/TtR در راهروها، صفر طول می کشد، جریان پول قابل پیش بینی است.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.