결제 사건 플레이 북
TL; DR
결제 사고는 통제 된 작업입니다. → 신속하게 분류하면 UX (feiler/deasition) → 비용을 절약합니다 (idempotency/block rul) → 투명하게 통신 → 수정 → RCA 수정. 주요 SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, 이중 충전/환불에 대한 무관 용.
1) 심각성 및 영향 매트릭스
방아쇠: SLA/재무부/조정 경고, 지원 피크, AR/대기 시간/웹 후크 모니터링.
2) 역할 및 통신 채널
IC (Incident Commander) 는 타임 라인 및 솔루션의 소유자입니다.
Payments Tech Lead-라우팅, demmpotence, 기능 플래그.
재무부 리드-유동성, 사전 자금 조달, 스트레스 준비금.
위험/AML-제재, 블록 규칙, SoF/SoW.
Comms Manager - 지원/파트너를위한 템플릿, 상태 업데이트.
정찰/금융-조정, 반전/저널, 손실 추정치.
본사: # 결제 사건-워룸 (채팅), Zoom-bridge + 라이브 타임 라인 문서 (UTC).
3) 범용 루프 (모든 사건에 대해)
1. Detect & Triage → 메트릭/커버리지를 확인하고 Sev를 할당하십시오.
2. UX → 라우팅 페일러를 안정화하고 열화, 위험한 자동 동작의 동결을 특징으로합니다.
3. Money Safety → 는 demempotence/block (환불/지불) 을 가능하게하고 로그를 수정합니다.
4. 통신 → 내부 업데이트 (15/30/60 분), 외부 메시지 (상태/ETA/해결 방법).
5. → 증분 롤백/개방을 복구하고 SLO를 확인하십시오.
6. 화해 → 원장/PSP/은행을 비교하고 재정적 영향을 계산하십시오.
7. RCA (λ5 사업부) → 루트, 행동, 예방 조치, 작업.
4) 전형적인 시나리오와 런북 '및
4. 1 Auth Drop/Latency Spike (카드/A2A)
증상: AR 겠습니다. 소프트 감소합니다Name, p95 약> 1-2 초.
동작:- 스마트 라우팅: PSP _ A → PSP _ B는 취약한 BIN에 대한 3DS 챌린지를 증가시킵니다.
- 배상을 제한하고 (백오프 + 지터) demmpotency '을 보호하십시오.
- 세그먼트 토글: "엄격한" 스크립트로 고위험; 높은 티켓 제한을 줄입니다.
- 커뮤니케이션: "저하 노트" 는 대체 방법을 권장합니다.
- 복구: BIN × GEO와 관련하여 트래픽 점유율의 단계적 반환, AR 제어.
4. 웹 후크 2 개 지연/중복
증상: p95> 3-5 c, 갭 캡처/환불/지불, 중복.
동작:- 폴링으로 전환; TTL demempotency를 향상시킵니다.
- 자동 수리 및 위험한 자동 결제를 동결하십시오.
- 이중 방지: 'dedempotency _ key/provider _ txid' 로 한 번 저장합니다.
- 캐치 업 처리 수행; PSP 레지스트리와의 조정.
- 복구: 웹 후크를 활성화하고 보고서와 일관성을 비교하십시오.
4. 3 지불 실패/TtW 분해
증상: 성공% 리, TtW p95, 반환/타임 아웃.
동작:- Feilover to standby rail (RTP/SEPA/기타 PSP).
- 재무부: 프리 펀드 최고 지불 풀, StressRes 활성화.
- 고위험 VIP 우선 순위에 대한 지불 잠금.
- 커뮤니케이션: ETA 및 대안, 개인 계정의 상태 투명성.
4. 4 환불 오류/이중 환불 위험
증상: 오류율 환불, 분쟁/중복 수익률.
동작:- 자동 경로에 대한 글로벌 환불 동결, 권리가있는 매뉴얼.
- 어려운 demempotency 'payment _ id + 금액 + 이유'; 균형에 행 잠금.
- PSP 보고서에 따른 재정렬; 원장의 복제 반전, DLQ의 경우
- Kommunikatsii: 카드 (T + 1-T + 5 bp), 즉시 최대 60 초.
4. 5 정산 지연/PSP 배치 불일치
증상: D + N이 등록되지 않았으며 금액/수수료가 부과됩니다.
동작:- 재무부: StressRes를 켜고 즉시 지불금을 제한하십시오.
- 정찰: 배치 "SUSPENSE" 를 표시하고 PSP 티켓을 올리고 명령문을 요청하십시오.
- FX/수수료: 일시적인 "진실" (정책) 을 수락하거나 수정을 기다립니다.
- 커뮤니케이션: 지원을위한 Q&A (자금 보안, 결제 시점).
4. 6 Crypto On/Off-Ramp 악화
증상: TtH RAM, 미끄러짐, 사이트 유동성 부족.
동작:- SOR → alternativnyy CEX/OTC, 로트 크기 (TWAP) 감소.
- 안정/피아트로 들어가는 사람들의 이동, depeg 노출 한계.
- 오라클 발산> bps 제한이있는 경우 킬 스위치.
4. 7 바우처/월렛 이상
증상: 잘못된 IN 스파이크, 속도, 지오 볼.
동작:- 제한/재사용, 바인딩 장치에 대한 상환, 지불 잠금 + 회전율.
- 요청 수표/SoF, 블록 목록 보충 (이메일/장치/ASN/소매 업체).
5) 조치 점검표
5. 1 처음 5 분 (P0/P1)
- IC, 열린 전쟁 실.
- 레코드 세브, 적용 범위, 타임 라인 시작 (UTC).
- 안전한 기능 플래그를 사용하십시오 (demempotency, 필요한 자동 프로세스의 동결).
- 시작 기능 실패/분해.
- 첫 번째 내부 업데이트 (컨텍스트, 측정, 다음 ETA).
5. 사건을 종결하기 전에 2
- SLO 복원 (AR/대기 시간/웹 후크/TtW/TtR).
- 블랙홀이없는 조정 (내부 PSP 은행).
- 재무 영향 평가, 반전/저널 발행.
- 외부 업데이트/상태 채널 게시물.
- RCA의 소유자와 예방 작업이 할당됩니다.
6) 모니터링, 경고 및 대시 보드
주요 경고:- 적용 범위에서 'AR _ Gross ° 3 pp (p7 중앙값)' → P1/P0.
- 'Auth p95> 1. 5 s/Webhook p95> 5 s/Capture Success <98% '→ P1.
- 'Payout TtW p95> SLO' и독특한 '성공% <99%' → P1.
- '오류 환불> 0. 3% 'и찌꺼기' 이중 환불> 0 '→ P0.
- '정산 시간 <99% '/' 보고 배송 SLA 위반' → P1.
1. Fanel 시도 → Auth → 캡처 (기본 라인과 비교).
2. 히트 맵 AR 계정 BIN × GEO × PSP.
3. 웹훅 p50/p95, 복제, 바운스.
4. 지불/환불 건강 (성공%, TtW/TtR).
5. 재무부: L0 잔액, 프리 펀드, StressRes.
6. 정찰: 불일치 속도, 노화 DLQ.
7) 통신 (템플릿)
내부 (15 분):8) 화해와 돈 (안정화 후)
자동 조정 실행: 공급자 _ txid/idem _ key/amount/time-bucket.
DLQ 선택: 고아/중복/금액 불일치/수수료 드리프트.
원장에서 반전/수정, 비용/GGR 및 사기 손실을 다시 계산하십시오.
재무부: 임시 조치 (StressRes, 지불 잠금), 재조정 수영장.
9) RCA (루트 원인 분석) 템플릿
상황: 날짜/시간 (UTC), Sev, 적용 범위, 지표.
증상: 본 것 (그래프/스크린 샷).
이유: 루트 (해당/프로세스/카운터 파티).
작동/작동하지 않는 것: feilover, 기능 플래그, 커뮤니케이션.
재무 효과: 상각/비 지불/수수료/SLA 대출.
- 그것들: 한계, dempotency, 후퇴, 테스트.
- 프로세스: 플레이 북 업데이트, PSP로 QBR, SLA 변경.
- 마감일 및 작업 소유자.
10) 자동화 및 통합
기능 플래그 플랫폼: 국가/BIN/방법별 즉석 라우팅/저하.
런북 봇: 명령 '/failover PSP _ A → B ', '/프리즈 리턴', '/활성화 폴링 '.
변칙적 탐지기: 계절성에 대한 지식이있는 AR/대기 시간의 통계적 편차.
사건 후 매크로: RCA 템플릿의 자동 개방, 로그/그래프 모음, 조정 점검표.
11) 드릴 캘린더 및 UAT
월간: "Auth drop" 드릴 (detecta에서 feilover까지 15 분).
분기 별: "웹훅 중단" + "환불 더블 스트라이크" (demempotence).
반기: "정착 지연 + 재무부 스트레스" (StressRes).
UAT 패키지: dempotency, feilover, 조정, 통신 사례 테스트.
12) Playbook Success Metrics (운영 KPI)
MTTA/MTTR: P0/P1의 중앙값/p95.
10 분 이내에 자동 장애 백분율.
이중 충전/환불을 방지하는 사건 (= 100%).
사고 후 정찰이 완전히 D + 1입니다.
서비스 크레딧 복구/월 (
사용자 영향 분.
13) 빈번한 실수와 피하는 방법
feilover의 늦은 활성화 (자동 임계 값 없음).
웹 후크가 바운스 될 때 자동 리팬드에 "동결" 이 부족합니다.
행 잠금/버전 지정 → 부분 환불> 나머지.
사실없는 통신/ETA → 에스컬레이션을 지원합니다.
Treasury → TtP/TtW 종료 SLO와의 제휴가 없습니다.
조정 건너 뛰기 → 수익에서 "블랙홀".
14) 응용 프로그램 (위키 내부의 참조 블록)
결제 제공 업체와의 SLA-경고 임계 값 및 대출.
PSP 지불 및 보고서의 조정-정찰/DLQ 절차.
재무부: 유동성 및 준비금-StressRes/Prefunding.
결제 루프 KPI-AR/TtW/TtR/Refund Health 공식.
부분적이고 완벽한 개조는 dempotence와 정치입니다.
요약
작동하는 플레이 북은 시나리오 런북 및 + 자동화 + 사후 모템 분야입니다. MTTR을 줄이고 돈을 보호하며 (데모 펜스/화해/재무부) 사용자 손상을 최소화하며 SLA의 PSP와의 관계를 체계적으로 개선합니다. 결과-위의 AR, 복도의 TtW/TtR, 제로 테이크, 예측 가능한 자금 흐름.