ספר משחקים של תקריות בתשלומים
TL; DR
תקרית תשלום היא פעולה מבוקרת: סיווג מהיר = לייצב את UX (feiler/degradation) * לחסוך כסף (idempotency/block rules) * תקשורת שקופה = לתקן RCA. SLOS ראשי: MTTA, MTR, TTW/TtR, AR, Webhook p95, אפס סובלנות לטעינה כפולה/החזר.
1) חומרה ומטריצת פגיעה
גורמים: SLA/אוצר/התראות פיוס, פסגות תמיכה, ניטור AR/latency/webhooks.
2) תפקידים וערוץ תקשורת
מפקד האירוע (IC) הוא הבעלים של ציר הזמן והפתרונות.
תשלומים טק עופרת - ניתוב, אידמפוטנטיות, דגלים.
עופרת אוצר - נזילות, מימון מראש, מאגרי לחץ.
סיכון/AML - סנקציות, כללי חסימה, SOF/SOW.
מנהל תקשורת - תבניות לתמיכה/שותפים, עדכוני מצב.
איסוף מידע/מימון - פיוס, היפוך/יומנים, הערכות הפסד.
מטה: # תשלומים-תקרית-חדר מלחמה (צ 'אט), מסמך Zoom-bridge + live line time (UTC).
3) לולאה אוניברסלית (לכל אירוע)
1. איתור & Triage _ לאשר מדדים/כיסוי, להקצות Sev.
2. ייצוב UX * ניתוב feiler, הפלת תכונה, הקפאת פעולות אוטומטיות מסוכנות.
3. בטיחות בכסף * מאפשרת אידמפוטנטיות/בלוקים (החזר/תשלום), תיקון יומנים.
4. תקשר * עדכון פנימי (15/30/60 min), הודעות חיצוניות (סטטוס/ETA/מעגלים).
5. Recovermental rollback/open, לאמת SLO.
6. השווה בין ספר חשבונות/PSP/Bank, חישוב השפעה פיננסית.
7. RCA (5 יחידות עסקיות) = שורש, פעולות, מניעות, משימות.
4) תרחישים טיפוסיים ו ־ Runbook "ו ־
4. 1 Auth Drop/Latency Spike (Cards/A2A)
סימפטומים: AR, הידרדרות רכה, p95 auth> 1-2 s.
פעולות:- ניתוב חכם: PSP_A→PSP_B, להגדיל את 3DS-challenge על BINs פגיע.
- הגבל מגשים מחדש (backoff + jitter), הגן על idempotency 'auth _ key'.
- קטע-טוגל: סיכון גבוה לתסריט ”קפדני”; להפחית מגבלות של כרטיסים גבוהים.
- תקשורת: ”הערת השפלה”, ממליצה על שיטה חלופית.
- התאוששות: החזרה שלבית של נתח התנועה, בקרת AR בהקשר של BIN × GEO.
4. 2 חוברות אינטרנט עיכוב/שכפול
סימפטומים: p95> 3-5 C, פערים ללכוד/החזר/תשלום, כפילויות.
פעולות:- לעבור לסקרים; להגביר את האידמפוטנטיות של טי-טי-אל.
- להקפיא תיקונים אוטומטיים ותשלומים אוטומטיים מסוכנים.
- Anti-double: stork-once by 'idempotency _ key/despect _ txid.
- ביצוע עיבוד תופסת; פיוס עם רישומי PSP.
- התאוששות: אפשר אינטרנט, להשוות עקביות עם דיווחים.
4. 3 כשל בתשלום/השפלה של TTW
סימפטומים: הצלחה%, TTW p95, חוזר/פסק זמן.
פעולות:- Feilover to standby rail (RTP/SEPA/other PSP).
- בריכת תשלום מעולה, הפעלת RES.
- נעילת תשלום עבור סיכון גבוה, עדיפות אח "מים.
- תקשורת: זמן הגעה משוער וחלופות, שקיפות של מדינות בחשבון האישי.
4. 4 שגיאות החזר/סיכון החזר כפול
סימפטומים: שיעור שגיאת החזר, מחזירה מחלוקת/שכפול.
פעולות:- הקפאת החזר גלובלית במסלול אוטומטי, ידני רק עם זכויות.
- אידמפוטנטיות קשה 'תשלום _ id + כמות + סיבה'; שורה-לנעול על איזון.
- כיול מחדש לפי דו "ח PSP; היפוך של כפילויות בספר החשבונות, מקרים ב-DLQ.
- Kommunikatsii:模板 לקלפים (T + 1-T + 5 bp), מיידית - עד 60 s.
4. 5 השהיית הסדר/PSP Batch Mismatch
סימפטומים: D + N לא רשום, diff בסכומים/עמלה.
פעולות:- הפעל Res , להגביל תשלום מיידי.
- Recon: לסמן את הקבוצה ”SUSENSE”, להעלות את כרטיס PSP, לבקש הצהרה.
- FX/Tames: לקבל ”אמת” זמנית (מדיניות) או לחכות לתיקון.
- תקשורת: Q&A לתמיכה (ביטחון קרנות, תזמון התיישבות).
4. 6 קריפטו On/Off-Ramp Degradation
סימפטומים: TTH lought, החלקה, חוסר נזילות של האתר.
פעולות:- SOR # alternativnyy CEX/OTC, להקטין את גודל לוט (TWAP).
- העברה של אלה שנכנסים לאורווה/פיאט, מגבלת חשיפה.
- מתג חיסול אם אורקל סטייה> bps גבול.
4. 7 שובר/אנומליות ארנק
תסמינים: קפיצת סיכה לא תקפה, מהירות, גיאו-בול.
פעולות:- גבולות/התקררות, כפייה מחייבת למכשיר, תשלום-lock + תחלופה.
- בקש צ 'קים/SOF, חידוש רשימות בלוקים (דוא "ל/התקן/ASN/קמעונאי).
5) רשימות פעולה
5. 1 חמש דקות ראשונות (P0/P1)
[ הקצאת ] איי-סי, חדר מלחמה פתוח.
[ ] Record Sev, סיקור, תחילת ציר הזמן (UTC).
[ ] אפשר דגלים מאובטחים (אידמפוטנטיות, הקפאת התהליכים האוטומטיים הדרושים).
[ ] Start Feature Failover/Degradation.
[ ] עדכון פנימי ראשון (הקשר, מדידות, זמן הגעה משוער הבא).
5. 2 לפני סגירת התקרית
[ ] SLO שוחזר (AR/latency/webhooks/TTW/TtR).
[ ] פיוס (internal↔PSP↔bank), אין חורים שחורים.
[ ] השפעה פיננסית מוערכת, היפוך/כתבי עת הונפקו.
[ ] עדכון חיצוני/ערוץ סטטוס.
[ ] הבעלים של RCA ומשימת המניעה מוטלת.
6) מעקב, התראות ולוחות מחוונים
התראות מפתח:- 'AR _ ברוטו> 3 pp (עד p7 חציוני) "P1/P0 בכיסוי.
- 'Auth p95> 1. 5 S/Webhook p95> 5 S/Capture Success <98% '# P1.
- 'Payout TW p95> SLO' le 'Success'% <99' P1.
- 'שגיאת החזר> 0. 3 אחוז החזר כפול> 0 'P0.
- 'יישוב בזמן <99% '/' Resport SLA Break' # P1.
1. Panel Trusion # Auth # Capture (בהשוואה לקו הבסיס).
2. מפת AR של BIN × GEO × PSP.
3. Webhook p50/p95, כפילויות, להקפיץ.
4. בריאות תשלום/החזר (הצלחה%, TTW/TTR).
5. שיווי משקל, פרה-פונד, פרה-אר.
6. Recon: קצב התאמה שגוי, DLQ הזדקנות.
7) תקשורת (תבניות)
פנימי (15 דקות):8) פיוס וכסף (לאחר ההתייצבות)
הפעל פיוס אוטומטי: provider_txid/idem_key/amount/time-bucket.
בחר DLQ: יתום/שכפול/חוסר התאמה/סחיפה.
הפוך/תיקון בספר החשבונות, לחשב מחדש עלות/GGR ואובדן הונאה.
אוצר: צעדים זמניים קרובים (Res, תשלום-lock), בריכות איזון מחדש.
9) RCA (ניתוח סיבה שורשית) תבנית
הקשר: תאריך/זמן (UTC), סב, סיקור, מטריצות.
תסמינים: מה שראית (גרפים/צילומי מסך).
סיבה: root (אלה/תהליכים/מקביל).
מה שעבד/לא עבד: פיילובר, דגלים, תקשורת.
אפקט פיננסי: מחיקה/אי תשלום/עמלות/הלוואות SLA.
- אלה: גבולות, אידמפוטנטיות, נסיגות, בדיקות.
- תהליכים: ספר מהלכים מעודכן, QBR עם PSP, SLA משתנה.
- מועדים ובעלי משימות.
10) אוטומציה ואינטגרציה
פלטפורמת דגל תכונה: ניתוב מיידי/הידרדרות על ידי מדינה/BIN/שיטה.
Runbook-bot: פקודות '/כשל PSP_A→B', '/hape return', '/אפשר סקרים '.
גלאי אנומליה: סטייה סטטיסטית של AR/Latency עם ידע על העונות.
פתיחה אוטומטית של תבנית RCA, אוסף של יומנים/גרפים, רשימת פיוס.
11) לוח שנה מקדחה וכיו "ב
מקדחה חודשית: ”Auth drop” (15 דקות מ-detecta ל-feilover).
רבעון: ”Webhook offage” + ”Refund double-strike” (אידמפוטנציה).
חצי-שנתי: ”עיכוב הסדר + לחץ אוצר” (RES).
חבילת UAT: מקרי מבחן של אידמפוטנטיות, פליאובר, פיוס, תקשורת.
12) ספר משחקים ”הצלחה מטריצה” (Operational KPIs)
MTTA/MTR: חציוני/p95 על ידי P0/P1.
אחוז כשל אוטומטי בתוך 10 דקות.
תקריות המונעות תשלום/החזר כפול (= 100%).
איסוף מידע לאחר התקרית הושלם ב-D + 1.
נקודות שירות התאוששו/חודש (SLA).
דקות פגיעת משתמש.
13) טעויות תכופות וכיצד להימנע מהן
הפעלה מאוחרת של הפילובר (ללא סף אוטומטי).
חוסר ”להקפיא” על החזרה אוטומטית כאשר מחברות האינטרנט קופצות.
אין רו-lock/versioning = החזר חלקי> שארית.
תקשורת ללא עובדות/זמן הגעה משוער = הסלמה לתמיכה.
אין קשר עם משרד האוצר * TTP/TW יציאה SLO.
דילוג פיוס = ”חורים שחורים” בהכנסות.
14) יישומים (חסימות התייחסות בתוך הוויקי שלך)
סלאחים עם ספקי תשלומים - סף התראה והלוואות.
פיוס תשלומי PSP ודיווחים - הליכי פיוס/DLQ.
אוצר: נזילות ורזרבות - Res/Prefunding.
לולאת תשלום KPI - נוסחאות בריאות של AR/TTW/TtR/Recond.
ריפודים חלקיים ומוחלטים הם אידמפוטנטיות ופוליטיקה.
תקציר
ספר המהלכים של העבודה הוא תרחיש של ריצת ספר ו + אוטומציה + משמעת שלאחר המוות. הוא מקטין את MTTR, מגן על כסף (אידמפוטנציה/פיוס/אוצר), ממעיט את הנזק למשתמש, ומשפר באופן שיטתי את היחסים עם PSPs על SLAs. תוצאה - AR לעיל, TTW/TTR במסדרונות, אפס טייקים, זרימת כסף צפויה.