Պլեյբուկը նշված է օրինագծերում
TL; DR
Օրինագծերում տեղի ունեցող միջադեպը կառավարվող վիրահատություն է. Արագ դասակարգել UX (ֆեյլովեր/դեգրադացիա) ստանդարտ պահեք գումարը (idempotention/բլոկային կանոններ), որն ուղղված է RCA-ի վերականգնմանը։ Հիմնական SLO: MTTA, MTR, TTW/TtR, AR, Webhook p95, զրոյական հանդուրժողականություն double charge/refund։
1) Լուրջ մատրիցա (Severity & Impact)
Ձգողականներ ՝ SLA/գանձարանի/հասակի, կոշիկի պիկի, AR/latency/webhooks։
2) Դերերն ու հաղորդակցման ալիքը
Incident Commander (IC) - թայմլինի և լուծումների սեփականատերը։
Payments Tech Lead-ը միկրոօրգանիզմն է, կուռքերը, ֆիչի դրոշները։
Treasury Lead-ը ինտենսիվությունն է, www.funding, stress-պահուստներ։
Risk/AML - սանկցիաներ, բլոկային կանոններ, SoF/SoW։
Comics Express-ը saport/գործընկերների, apdeit-ի ձևանմուշներ են։
Recon/Finance-ը մի շարք է, հարյուր/ամսագրեր, գնահատականներ։
Շտաբը ՝ # payments-incident-warro.ru (chate), Zoom-Bridge + կենդանի թայմլայնի փաստաթուղթը (UTC)։
3) Համընդհանուր ցիկլ (any incident)
1. Detault & Triage-ը խորհուրդ է տալիս հաստատել մետրերը/108, նշանակել Sev։
2. Stabilize UX-ը մեջբերում է ռոտինգի ֆեյլերը, ֆիչի քայքայումը, վտանգավոր մեքենաների սառեցումը։
3. Money Safety-ը նախատեսում է ներառել idmpotenty/բլոկներ (refund/payout), գրել ամսագրեր։
4. Communicate-ը ներքին ապդեյթ է (15/30/60 րոպե), արտաքին հաղորդագրությունները (կարգավիճակը/ETA/շրջանցիկ ճանապարհներ)։
5. Recover-ը հակադարձում/բացահայտում, հավատում SLO-ին։
6. Reconcile-ը պատրաստվում է համեմատել/PMS/բանկը, հաշվարկել financial impact-ը։
7. RCA (355 rdd) բացատրվում է արմատը, գործողությունները, կանխիչները, առաջադրանքները։
4) Տիպիկ սցենարներ և Runbook 'i
4. 1 Auth Drop/Latency Spike (քարտեզներ/A2A)
Ախտանիշները ՝ AR, softdeclines, p95 auth> 1-2 s։
Գործողությունները
Smart-routing: PMS _ A no PMS _ B, ավելացնել 3DS-challenge խոցելի BIN-ի վրա։
Սահմանափակել retrai (backoff + jitter), պաշտպանել «auth _ key» -ը։
Սեգմենտը-toggle: high-risk-ը «խիստ» սցենարի մեջ։ նվազեցնել high-ticket limites։
Հաղորդակցություն '«նշումը դեգրադացիայի մասին», առաջարկեք այլընտրանքային մեթոդ։
Վերականգնումը 'միգրացիայի մասնիկի հիբրիդային կարգավորումը, AR վերահսկումը BIN Records GEO-ում։
4. 2 Webhooks Delay / Duplicate
Ախտանիշները ՝ p95> 3-5 c, բաց թողեք capture/refund/payout, կրկնօրինակներ։
Գործողությունները
Գնալ poling; Ուժեղացնել TL idempotenty։
Սառեցնել ռեփանդները և ռիսկային ավտոմեքենաների վճարումները։
Անտի դուբլ 'store-once' idempotency _ key/provider _ txid "։
Մշակել catch-up; PBS-ի ռեստրասի հետ։
Վերականգնումը 'ներառել webhooks, համեմատել հետևողականությունը զեկույցների հետ։
4. 3 Payout Fail / TtW Degradation
Ախտանիշները ՝ Success% 2019, TtW p95 ռուբլիներ, բարձրացումներ/թայմ-աուտներ։
Գործողությունները
Ֆեյլերը պահեստային ռելսերի վրա (RTP/SEPA/մեկ այլ PSA)։
Treasury: wwww.fund top-up payout-pula, StressRes ակտիվացում։
Payout-4k-ը high-risk-ի համար, VIP-ի գերակայությունը։
Հաղորդակցություն 'ETA և այլընտրանքներ, կարգավիճակների թափանցիկությունը անձնական գրասենյակում։
4. 4 Refund Errors / Double Refund Risk
Ախտանիշները ՝ Refund error rate, հակասական/կրկնվող բարձրացումներ։
Գործողությունները
Գլոբալ refund-freeze-ը մեքենայի երթուղու վրա, միայն իրավունքների ձեռքով։
Կոշտ կուռք «payment _ id + amount + reason»; row-link մնացորդի համար։
Կրկնվող PMS report; ԴԼՀ-ում ժապավենի, ԴԼՀ-ի մասշտաբով։
Հաղորդակցություն ՝ քարտեզների համար (T + 1-T + 5 b.d.), instam-մինչև 60 վրկ։
4. 5 Settlement Delay / PSP Batch Mismatch
Ախտանիշները ՝ D + N չի ասվել, diff-ը սումերում/fee-ում։
Գործողությունները
Treasury: Միացրեք StressRes-ը, սահմանափակեք ակնթարթային վճարումները։
Recon 'նշեք «SUSPENSE» մարտը, բարձրացրեք PSA-ի հյուսվածքը, խնդրեք stations։
FX/Fees: Ընդունել ժամանակավոր «ճշմարտությունը» (policy) կամ սպասել։
Հաղորդակցություն ՝ Q&A կոշիկների համար (միջոցների անվտանգություն, վճարման ժամկետներ)։
4. 6 Crypto On/Off-Ramp Degradation
Ախտանիշները ՝ TtH 210, slippage 210, կայքի բարդության պակասը։
Գործողությունները
SOR-ը կանխատեսում է այլընտրանքային CEX/OTC, նվազեցնել լոտի չափը (TWAP)։
Ստեյբլ/ֆիաթ, depeg-էքսպոզիայի սահմանափակում։
Kill-switch-ը oracula _ limita bps.
4. 7 Voucher/Wallet Anomalies
Ախտանիշները ՝ Medalid PIN spike, velocity, geo-misk։
Գործողությունները
Limits/kuldown, redeem կապումը սարքին, payout-4k + turnover-ին։
Չեկների հարցումը/SoF, բլոկային թերթերի համալրումը (email/device/ASN/retailer)։
5) Գործողությունների թերթիկները
5. 1 Առաջին հինգ րոպեները (P0/P1)
- Նշանակել IC, բացել war-room։
- Ամրագրել Sev, ռուսական, թայմլայնի սկիզբը (UTC)։
- Միացրեք ապահով ֆիգուրային դրոշները (idempotention, freeze ճիշտ մեքենաներ)։
- Սկսել ֆեյլովերը/ֆունկցիաների քայքայումը։
- Առաջին ներքին ապդեյթը (համատեքստը, միջոցները, հետևելով ETA)։
5. 2 Նախքան փակելը
- Վերականգնված SLO (AR/latency/webhooks/TtW/TtR)։
- Կատարվել է մի շարք (wwww.PSA no Bank), ոչ սև անցքեր։
- Ֆինանսական իմպակտը գնահատված է, սթրեսը/ամսագրերը կազմված են։
- Արտաքին ապդեյթ/փոստ կարգավիճակում։
- Նշանակվել է RCA սեփականատերը և կանխման խնդիրները։
6) Մոսկվա, Ալբերտ և Դաշբորդներ
Հիմնական ալերտները
«AR _ gross 24> 3 p.p. (p7 մեդիա)» P1/P0 ծածկույթով։
`Auth p95>1. 5 s / Webhook p95>5 s / Capture Success<98%` → P1.
`Payout TtW p95> SLO` или `Success%<99%` → P1.
`Refund Error>0. 3%` или `Double Refund>0` → P0.
`Settlement on-time<99%` / `Report Delivery SLA breach` → P1.
Dashbord 2019
1. Attempt no Auth no Capture (համեմատությունը բազիսի գծին)։
2. Heatmap AR по BIN×GEO×PSP.
3. Webhook p50/p95, կրկնօրինակներ, drebesg։
4. Payout/Refund Health (Success%, TtW/TtR).
5. Treasury: L0 հավասարակշռությունը, ww.fund, StressRes-ը։
6. Recon: Mismatch Rate, Aging DLQ.
7) Հաղորդակցություն (ձևանմուշներ)
Ներքին (15 րոպե)
Խաղացողներին (կարգավիճակ-էջ/FAQ)
Մոսկվա/Մերչանտամ (կարճ)
8) Սվերկան և փողը (բյուջեից հետո)
Հեռացնել մեքենան 'provider _ txid/idem _ key/amount/time-bucket։
DLQ: orphan/duplicate/amount mismatch/fee drift։
Նախագծել storno/www.ru, հաշվել Cost/GGR և Fraud Loss-ը։
Գանձարանը 'փակել ժամանակավոր միջոցները (StressRes, payout-71), փամփուշտների ռեբալանսը։
9) RCA (Root Cause Analysis)
Համատեքստը 'ամսաթիվը/ժամանակը (UTC), Sev, 112, մետրիկները։
Ախտանիշները ՝ ինչ տեսան (գրաֆիկներ/սկրինշոտներ)։
Պատճառն այն է, որ արմատը (այդ/գործընթացները/հակադրումը)։
Այն, ինչ աշխատում/չի աշխատում, կեղծ դրոշներ, հաղորդակցություն։
Ֆինանսական էֆեկտը 'մարել/չվճարել/վարկեր/SLA վարկեր։
Prevention:- Դրանք ՝ լիմիտներ, կուռքեր, ռետերաններ, թեստեր։
- Գործընթացները 'պլեյբուկի նորարարություն, QBR PSA, SLA փոփոխություններով։
- Դեդլայնները և առաջադրանքների սեփականատերերը։
10) Ավտոմատիզացիան և իրականացումը
Feature-flag platform: ակնթարթային routing/քայքայումը երկրում/BIN/մեթոդով։
Runbook-bot: «/failover PMS _ A 35B », «/freeze refunds», «/enable poling »։
Anomaly-դետեկտորը 'AR/latency վիճակագրական շեղումը սեզոնային իմացությամբ։
Post-incident macros-ը 'RCA-ձևանմուշների ավտոմատ բացահայտումը, լոգարանների/գրաֆիկների հավաքումը, չեկի թերթիկը։
11) Systel-օրացույցը և UAT-ը
Ամեն ամիս «Auth drop» -ը արտադրում է ill (15 րոպե մանկական մինչև ֆեյլերը)։
Եռամսյակային ՝ «Webhook entage» + «Refund double-strike» (idempotention)։
Մեկ անգամ վեց ամիս '«Settlementay + Treasury stress» (StreessRes)։
UAT փաթեթը 'idempotenty, failover, shake, հաղորդակցության թեստեր։
12) Պլեյբուկի հաջողության մետրերը (վիրահատական KPI)
MTTA/MTTR: Median/P95 P0/P1։
Percent auto-failover within 10 min.
Incidents preventing double charge/refund (=100%).
Post-incident recon complete ≤ D+1.
Service credits recovered / month (по SLA).
User impact minutes (պատահականության գումարը)։
13) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
Ֆեյլերի ուշ ակտիվացումը (ավտոմատ շեմեր չկան)։
«Freeze» -ի բացակայությունը ավտոմեքենայի ռեֆանդայի վրա webhooks-ի վրա։
Չկա row-pork/տարբերակումը wwww.partial refund> մնացորդը։
Հաղորդակցությունը առանց փաստերի/ETA-ի հաստատեց շարժասանդուղքը։
Ոչ մի կապ չկա TtP/TtW-ի գանձարանի հետ դուրս գալիս SLO-ից։
Լվացքը փոխանցվում է «սև անցքեր» եկամուտների մեջ։
14) Ծրագրեր (հղման բլոկներ ձեր wiki ներսում)
SLA-ն բյուջետային պրովայդերների հետ 'ալտերի և վարկերի շեմեր։
Վճարումների և PMS-ի կրճատումը recon/DLQ ընթացակարգերն են։
Գանձապահությունը 'կայունությունը և պահուստները' StressRes/Winfunding։
KPI հիբրիդային լուծումը AR/TtW/TtR/Refund Health բանաձևն է։
Մասնակի և ամբողջական ռեֆանդները գաղափարախոսություն և քաղաքականություն են։
Ռեզյումե
Աշխատանքային պլեյբուկը բեմական runbook "և + ավտոմատիզացիան + post-morthem կարգապահությունն է։ Այն կրճատում է MTTR-ը, պաշտպանում է գումարը (idempotention/ծծմբը/գանձարանը), նվազեցնում է օգտագործողի վնասը և համակարգված բարելավում է հարաբերությունները SLA-ի հետ։ Արդյունքը AR-ն է, TtW/TtR-ը միջանցքներում, զրոյական դուբլի, կանխատեսելի փողի ֆլոուն։