دفترچه حوادث در پرداخت
TL ؛ دکتر متخصص
یک حادثه پرداخت یک عملیات کنترل شده است: به سرعت طبقه بندی → تثبیت UX (feiler/degradation) → صرفه جویی در هزینه (قوانین idempotency/block) → شفاف ارتباط → تعمیر RCA. SLO های اصلی: MTTA، MTTR، TtW/TtR، AR، Webhook p95، تحمل صفر برای دو برابر هزینه/بازپرداخت.
1) ماتریس شدت و ضربه
محرک ها: هشدارهای SLA/خزانه داری/آشتی، قله های پشتیبانی، نظارت بر AR/latency/webhooks.
2) نقش ها و کانال ارتباطی
فرمانده حادثه (IC) صاحب جدول زمانی و راه حل ها است.
پرداخت سرب فنی - مسیریابی، idemotence، پرچم ویژگی.
سرب خزانه داری - نقدینگی، prefunding، ذخایر استرس.
ریسک/AML - تحریم ها، قوانین بلوک، SoF/SoW.
Comms Manager - قالب برای پشتیبانی/شرکا، به روز رسانی وضعیت.
Recon/Finance - آشتی، معکوس/مجلات، برآورد از دست دادن.
دفتر مرکزی: # payments-incident-warroom (چت)، Zoom-bridge + سند جدول زمانی زنده (UTC).
3) حلقه جهانی (برای هر حادثه)
1. Detect & Triage → تأیید معیارها/پوشش، اختصاص Sev.
2. تثبیت UX → مسیریابی feiler، تخریب ویژگی، انجماد اقدامات خودکار خطرناک.
3. ایمنی پول → فعال idemotence/بلوک (بازپرداخت/پرداخت), رفع سیاهههای مربوط.
4. ارتباط → به روز رسانی داخلی (15/30/60 دقیقه)، پیام های خارجی (وضعیت/ETA/راه حل).
5. بازیابی → بازگشت افزایشی/باز، بررسی SLO.
6. تطبیق → مقایسه دفتر کل/PSP/بانک، محاسبه تاثیر مالی.
7. RCA (واحدهای کسب و کار ≤5) → ریشه، اقدامات، preventers، وظایف.
4) سناریوهای معمول و Runbook "و
4. 1 قطره قطره/اسپایک تاخیر (Cards/A2A)
علائم: AR↓، declines↑ نرم، p95 auth> 1-2 s.
فعالیت ها:- مسیریابی هوشمند: PSP_A→PSP_B، افزایش 3DS-challenge در BIN های آسیب پذیر.
- محدود کردن retrays (برگشت + jitter)، محافظت از idempointency 'auth _ key'.
- تغییر بخش: خطر بالا به اسکریپت «سخت» ؛ محدودیت های بلیط را کاهش دهید.
- ارتباطات: «یادداشت تخریب»، یک روش جایگزین را توصیه می کند.
- بازیابی: بازگشت مرحله ای از سهم ترافیک، کنترل AR در زمینه BIN × GEO.
4. 2 کتاب تاخیر/تکراری
علائم: p95> 3-5 c، شکاف گرفتن/بازپرداخت/پرداخت، تکراری.
فعالیت ها:- سودهی به رأیگیری ؛ افزایش idempotency TTL.
- توقف خودکار بازپرداخت و پرداخت خودکار خطرناک.
- ضد دوگانه: فروشگاه یک بار توسط «idempotency _ key/provider _ txid».
- انجام پردازش گرفتن ؛ سازگاری با ثبت PSP
- بازیابی: فعال کردن وب سایت ها، مقایسه سازگاری با گزارش ها.
4. 3 خرابی پرداخت/تخریب TtW
علائم: Success%↓، p95↑ TtW، بازده/وقفه.
فعالیت ها:- Feilover به راه آهن آماده به کار (RTP/SEPA/PSP دیگر).
- خزانه داری: استخر پرداخت پیش پرداخت، فعال سازی StressRes.
- قفل پرداخت برای اولویت بندی VIP با ریسک بالا.
- ارتباطات: ETA و جایگزین ها، شفافیت وضعیت در حساب شخصی.
4. 4 خطاهای بازپرداخت/خطر بازپرداخت دوگانه
علائم: rate↑ خطای بازپرداخت، بازپرداخت متضاد/تکراری.
فعالیت ها:- بازپرداخت جهانی در مسیر خودکار، فقط با حقوق دستی.
- idemotency سخت 'پرداخت _ id + مقدار + دلیل'; ردیف قفل در تعادل.
- کالیبراسیون مجدد با توجه به گزارش PSP ؛ معکوس کردن تکراری در دفتر کل، موارد در DLQ.
- Kommunikatsii:模板 برای کارت (T + 1-T + 5 bp)، فوری - تا 60 ثانیه.
4. 5 حل و فصل تاخیر/عدم تطابق دسته PSP
علائم: D + N ثبت نام نکرده است، تفاوت در مقدار/هزینه.
فعالیت ها:- خزانه داری: StressRes را روشن کنید، پرداخت های فوری را محدود کنید.
- Recon: علامت دسته ای «SUSPENSE»، بالا بردن بلیط PSP، درخواست بیانیه.
- FX/هزینه: قبول موقت «حقیقت» (سیاست) و یا منتظر اصلاح.
- ارتباطات: پرسش و پاسخ برای پشتیبانی (امنیت وجوه، زمان حل و فصل).
4. 6 تخریب خاموش/خاموش رمپ
علائم: TtH↑، slippage↑، عدم نقدینگی سایت.
فعالیت ها:- SOR → جایگزین CEX/OTC، کاهش اندازه لات (TWAP).
- انتقال کسانی که وارد پایدار/فیات, حد قرار گرفتن در معرض depeg.
- Kill-switch اگر واگرایی اوراکل> حد bps.
4. 7 کوپن/کیف پول ناهنجاری
علائم: سنبله پین نامعتبر، سرعت، geo-bowl.
فعالیت ها:- محدودیت/cooldown، بازخرید اتصال به دستگاه، پرداخت قفل + گردش مالی.
- درخواست چک/SoF، دوباره پر کردن لیست بلوک (ایمیل/دستگاه/ASN/خرده فروش).
5) چک لیست عمل
5. 1 پنج دقیقه اول (P0/P1)
- اختصاص IC، باز جنگ اتاق.
- ضبط Sev، پوشش، شروع جدول زمانی (UTC).
- فعال کردن پرچم ویژگی های امن (idempointency, یخ از فرآیندهای خودکار لازم).
- ویژگی شروع شکست/تخریب.
- اولین به روز رسانی داخلی (زمینه، اقدامات، ETA بعدی).
5. ۲ قبل از پایان حادثه
- SLO بازسازی شده (AR/latency/webhooks/TtW/TtR).
- آشتی (internal↔PSP↔bank)، بدون سیاهچاله.
- تاثیر مالی valuated، معکوس/مجلات صادر شده است.
- پست کانال به روز رسانی/وضعیت خارجی.
- صاحب RCA و وظیفه پیشگیری اختصاص داده شده است.
6) نظارت، هشدار و داشبورد
هشدارهای کلیدی:- 'AR_gross↓> 3 pp (به p7 میانه) → P1/P0 در پوشش.
- 'Auth p95> 1. 5 s/Webhook p95> 5 s/موفقیت ضبط <98٪ → P1.
- 'پرداخت TtW p95> SLO' или 'موفقیت٪ <99٪' → P1.
- 'خطای بازپرداخت> 0. 3٪ 'или' بازپرداخت دو> 0 '→ P0.
- 'حل و فصل در زمان <99٪ '/' گزارش تحویل SLA نقض → P1.
1. تلاش فنل → Auth → ضبط (مقایسه با خط پایه).
2. نقشه حرارتی AR по BIN × GEO × PSP.
3. وبهوک p50/p95، تکراری، گزاف گویی.
4. پرداخت/بازپرداخت سلامت (موفقیت٪، TtW/TtR).
5. خزانه داری: تعادل L0، prefund، StressRes.
6. Recon: میزان عدم تطابق، DLQ پیری.
7) ارتباطات (قالب ها)
داخلی (15 دقیقه):- در حال حاضر تأخیری در تأیید پرداختها و برداشتها برای برخی از کاربران وجود دارد. پرداختها امن نگه داشته میشوند. ما توصیه می کنیم روش جایگزین X. به روز رسانی در 30 دقیقه"
8) آشتی و پول (پس از تثبیت)
اجرای خودکار آشتی: provider_txid/idem_key/amount/time-bucket.
DLQ را انتخاب کنید: بی نظمی یتیم/تکراری/مقدار/رانش هزینه.
معکوس کردن/اصلاح در دفتر کل، محاسبه هزینه/GGR و از دست دادن تقلب.
خزانه داری: اقدامات موقت نزدیک (StressRes، پرداخت قفل)، تعادل استخر.
9) RCA (ریشه تجزیه و تحلیل علت) قالب
زمینه: تاریخ/زمان (UTC)، Sev، Coverage، Metrics.
علائم: آنچه شما دیدید (نمودارها/تصاویر).
دلیل: ریشه (آن/فرآیندها/طرف قرارداد).
چه چیزی کار می کرد/کار نمی کرد: feilover، پرچم های ویژگی، ارتباطات.
اثر مالی: نوشتن آف/عدم پرداخت/کمیسیون/وام SLA.
- کسانی که: محدودیت ها، idemotency، عقب نشینی، آزمون.
- فرآیندها: به روز رسانی playbook، QBR با PSP، تغییرات SLA.
- مهلت ها و صاحبان وظایف
10) اتوماسیون و ادغام
پلت فرم ویژگی پرچم: مسیریابی/تخریب فوری توسط کشور/BIN/روش.
Runbook-bot: دستورات "/failover PSP_A→B' "،/freeze returns"، "/enable polling ".
آشکارساز ناهنجاری: انحراف آماری AR/latency با دانش فصلی.
ماکروهای پس از حادثه: باز کردن خودکار قالب RCA، مجموعه ای از سیاههها/نمودارها، چک لیست آشتی.
11) تقویم مته و UAT
ماهانه: مته «Auth drop» (15 دقیقه از detecta تا feilover).
سه ماهه: «قطع Webhook» + «بازپرداخت دو اعتصاب» (idempotence).
نیمه سالانه: «تاخیر حل و فصل + استرس خزانه داری» (StressRes).
بسته UAT: موارد تست idempotency، feilover، آشتی، ارتباطات.
12) معیارهای موفقیت Playbook (KPI های عملیاتی)
MTTA/MTTR: میانه/p95 توسط P0/P1.
درصد خودکار شکست در عرض 10 دقیقه.
حوادث جلوگیری از دو بار/بازپرداخت (= 100٪).
شناسایی پس از حادثه کامل ≤ D + 1.
اعتبار خدمات بهبود/ماه (по SLA).
دقیقه تاثیر کاربر
13) اشتباهات مکرر و چگونگی اجتناب از آنها
فعال شدن اواخر feilover (بدون آستانه خودکار).
عدم «توقف» در خودکار refands زمانی که webhooks گزاف گویی.
بدون ردیف قفل/نسخهبندی → بازپرداخت جزئی> باقیمانده.
ارتباط بدون حقایق/ETA → تشدید برای حمایت.
بدون کراوات با خزانه داری → TtP/TtW SLO خروج.
پرش آشتی → «سیاه چاله ها» در درآمد.
14) برنامه های کاربردی (بلوک های مرجع در داخل ویکی خود را)
SLA با ارائه دهندگان پرداخت - آستانه هشدار و وام.
آشتی پرداخت PSP و گزارش - روش recon/DLQ.
خزانه داری: نقدینگی و ذخایر - StressRes/Prefunding.
حلقه پرداخت KPI - فرمول های بهداشتی AR/TtW/TtR/Refund.
ردصلاحیتهای جزئی و کامل، آرمانگرایی و سیاست هستند.
خلاصه
playbook کار یک runbook سناریو "و + اتوماسیون + نظم و انضباط پس از مرگ است. MTTR را کاهش می دهد، از پول محافظت می کند (idempotence/reconciliation/treasury)، آسیب کاربر را به حداقل می رساند و به طور سیستماتیک روابط با PSP ها را در SLA بهبود می بخشد. نتیجه - AR بالا، TtW/TtR در راهروها، صفر طول می کشد، جریان پول قابل پیش بینی است.