GH GambleHub

결제 사건 플레이 북

TL; DR

결제 사고는 통제 된 작업입니다. → 신속하게 분류하면 UX (feiler/deasition) → 비용을 절약합니다 (idempotency/block rul) → 투명하게 통신 → 수정 → RCA 수정. 주요 SLO: MTTA, MTTR, TtW/TtR, AR, Webhook p95, 이중 충전/환불에 대한 무관 용.

1) 심각성 및 영향 매트릭스

세브정의목적
P0대량 영향, 현금 손실/지불 불가능Auth <-20 pp, 이중 요금, 대량 지불 파일, 결제 중지MTTA 자전거 타기 15 분, MTTR 자동차 2 시간
P1세그먼트의 상당한 저하웹훅 p95> 30 c, 지불 TtW p95> SLO, AR by BIN/country-8 pp MTTA
P2제한된 세그먼트/기능환불 오류가 0으로 증가합니다. 5%, PSP보고 지연MTTA
P3마이너/페이퍼로그 바운스, 작은 스키마 드리프트계획에 따르면

방아쇠: SLA/재무부/조정 경고, 지원 피크, AR/대기 시간/웹 후크 모니터링.

2) 역할 및 통신 채널

IC (Incident Commander) 는 타임 라인 및 솔루션의 소유자입니다.
Payments Tech Lead-라우팅, demmpotence, 기능 플래그.
재무부 리드-유동성, 사전 자금 조달, 스트레스 준비금.
위험/AML-제재, 블록 규칙, SoF/SoW.
Comms Manager - 지원/파트너를위한 템플릿, 상태 업데이트.
정찰/금융-조정, 반전/저널, 손실 추정치.

본사: # 결제 사건-워룸 (채팅), Zoom-bridge + 라이브 타임 라인 문서 (UTC).

3) 범용 루프 (모든 사건에 대해)

1. Detect & Triage → 메트릭/커버리지를 확인하고 Sev를 할당하십시오.
2. UX → 라우팅 페일러를 안정화하고 열화, 위험한 자동 동작의 동결을 특징으로합니다.
3. Money Safety → 는 demempotence/block (환불/지불) 을 가능하게하고 로그를 수정합니다.
4. 통신 → 내부 업데이트 (15/30/60 분), 외부 메시지 (상태/ETA/해결 방법).
5. → 증분 롤백/개방을 복구하고 SLO를 확인하십시오.
6. 화해 → 원장/PSP/은행을 비교하고 재정적 영향을 계산하십시오.
7. RCA (λ5 사업부) → 루트, 행동, 예방 조치, 작업.

4) 전형적인 시나리오와 런북 '및

4. 1 Auth Drop/Latency Spike (카드/A2A)

증상: AR 겠습니다. 소프트 감소합니다Name, p95 약> 1-2 초.

동작:
  • 스마트 라우팅: PSP _ A → PSP _ B는 취약한 BIN에 대한 3DS 챌린지를 증가시킵니다.
  • 배상을 제한하고 (백오프 + 지터) demmpotency '을 보호하십시오.
  • 세그먼트 토글: "엄격한" 스크립트로 고위험; 높은 티켓 제한을 줄입니다.
  • 커뮤니케이션: "저하 노트" 는 대체 방법을 권장합니다.
  • 복구: BIN × GEO와 관련하여 트래픽 점유율의 단계적 반환, AR 제어.

4. 웹 후크 2 개 지연/중복

증상: p95> 3-5 c, 갭 캡처/환불/지불, 중복.

동작:
  • 폴링으로 전환; TTL demempotency를 향상시킵니다.
  • 자동 수리 및 위험한 자동 결제를 동결하십시오.
  • 이중 방지: 'dedempotency _ key/provider _ txid' 로 한 번 저장합니다.
  • 캐치 업 처리 수행; PSP 레지스트리와의 조정.
  • 복구: 웹 후크를 활성화하고 보고서와 일관성을 비교하십시오.

4. 3 지불 실패/TtW 분해

증상: 성공% 리, TtW p95, 반환/타임 아웃.

동작:
  • Feilover to standby rail (RTP/SEPA/기타 PSP).
  • 재무부: 프리 펀드 최고 지불 풀, StressRes 활성화.
  • 고위험 VIP 우선 순위에 대한 지불 잠금.
  • 커뮤니케이션: ETA 및 대안, 개인 계정의 상태 투명성.

4. 4 환불 오류/이중 환불 위험

증상: 오류율 환불, 분쟁/중복 수익률.

동작:
  • 자동 경로에 대한 글로벌 환불 동결, 권리가있는 매뉴얼.
  • 어려운 demempotency 'payment _ id + 금액 + 이유'; 균형에 행 잠금.
  • PSP 보고서에 따른 재정렬; 원장의 복제 반전, DLQ의 경우
  • Kommunikatsii: 카드 (T + 1-T + 5 bp), 즉시 최대 60 초.

4. 5 정산 지연/PSP 배치 불일치

증상: D + N이 등록되지 않았으며 금액/수수료가 부과됩니다.

동작:
  • 재무부: StressRes를 켜고 즉시 지불금을 제한하십시오.
  • 정찰: 배치 "SUSPENSE" 를 표시하고 PSP 티켓을 올리고 명령문을 요청하십시오.
  • FX/수수료: 일시적인 "진실" (정책) 을 수락하거나 수정을 기다립니다.
  • 커뮤니케이션: 지원을위한 Q&A (자금 보안, 결제 시점).

4. 6 Crypto On/Off-Ramp 악화

증상: TtH RAM, 미끄러짐, 사이트 유동성 부족.

동작:
  • SOR → alternativnyy CEX/OTC, 로트 크기 (TWAP) 감소.
  • 안정/피아트로 들어가는 사람들의 이동, depeg 노출 한계.
  • 오라클 발산> bps 제한이있는 경우 킬 스위치.

4. 7 바우처/월렛 이상

증상: 잘못된 IN 스파이크, 속도, 지오 볼.

동작:
  • 제한/재사용, 바인딩 장치에 대한 상환, 지불 잠금 + 회전율.
  • 요청 수표/SoF, 블록 목록 보충 (이메일/장치/ASN/소매 업체).

5) 조치 점검표

5. 1 처음 5 분 (P0/P1)

  • IC, 열린 전쟁 실.
  • 레코드 세브, 적용 범위, 타임 라인 시작 (UTC).
  • 안전한 기능 플래그를 사용하십시오 (demempotency, 필요한 자동 프로세스의 동결).
  • 시작 기능 실패/분해.
  • 첫 번째 내부 업데이트 (컨텍스트, 측정, 다음 ETA).

5. 사건을 종결하기 전에 2

  • SLO 복원 (AR/대기 시간/웹 후크/TtW/TtR).
  • 블랙홀이없는 조정 (내부 PSP 은행).
  • 재무 영향 평가, 반전/저널 발행.
  • 외부 업데이트/상태 채널 게시물.
  • RCA의 소유자와 예방 작업이 할당됩니다.

6) 모니터링, 경고 및 대시 보드

주요 경고:
  • 적용 범위에서 'AR _ Gross ° 3 pp (p7 중앙값)' → P1/P0.
  • 'Auth p95> 1. 5 s/Webhook p95> 5 s/Capture Success <98% '→ P1.
  • 'Payout TtW p95> SLO' и독특한 '성공% <99%' → P1.
  • '오류 환불> 0. 3% 'и찌꺼기' 이중 환불> 0 '→ P0.
  • '정산 시간 <99% '/' 보고 배송 SLA 위반' → P1.
대시 보드 사건:

1. Fanel 시도 → Auth → 캡처 (기본 라인과 비교).

2. 히트 맵 AR 계정 BIN × GEO × PSP.

3. 웹훅 p50/p95, 복제, 바운스.

4. 지불/환불 건강 (성공%, TtW/TtR).

5. 재무부: L0 잔액, 프리 펀드, StressRes.

6. 정찰: 불일치 속도, 노화 DLQ.

7) 통신 (템플릿)

내부 (15 분):
💡 'P1 지불 | PSP _ A GEO-DE, AR-9pp vs 기준선에서 자동 하락. 진행중인 PSP _ B에 대한 실패로 BIN 4250에 대한 3DS 정책이 강화되었습니다. 자동 환불이 일시 중지되었습니다. 다음 업데이트 30 분. '
플레이어 (상태 페이지/FAQ):
💡 "현재 일부 사용자의 지불 및 인출 확인이 지연되고 있습니다. 지불은 안전하게 유지됩니다. 대체 방법 X를 권장합니다. 30 분 안에 업데이트 "
파트너/판매자 (짧은):
💡 "DACH 지역의 공급자 A에서 승인이 잘못되었습니다. 공급자 B의 Feilover가 활성화됩니다. 우리는 RCA의 결과에 따라 SLA 보고서와 예방 조치를 보낼 것입니다. "

8) 화해와 돈 (안정화 후)

자동 조정 실행: 공급자 _ txid/idem _ key/amount/time-bucket.
DLQ 선택: 고아/중복/금액 불일치/수수료 드리프트.
원장에서 반전/수정, 비용/GGR 및 사기 손실을 다시 계산하십시오.
재무부: 임시 조치 (StressRes, 지불 잠금), 재조정 수영장.

9) RCA (루트 원인 분석) 템플릿

상황: 날짜/시간 (UTC), Sev, 적용 범위, 지표.
증상: 본 것 (그래프/스크린 샷).
이유: 루트 (해당/프로세스/카운터 파티).
작동/작동하지 않는 것: feilover, 기능 플래그, 커뮤니케이션.
재무 효과: 상각/비 지불/수수료/SLA 대출.

예방:
  • 그것들: 한계, dempotency, 후퇴, 테스트.
  • 프로세스: 플레이 북 업데이트, PSP로 QBR, SLA 변경.
  • 마감일 및 작업 소유자.

10) 자동화 및 통합

기능 플래그 플랫폼: 국가/BIN/방법별 즉석 라우팅/저하.
런북 봇: 명령 '/failover PSP _ A → B ', '/프리즈 리턴', '/활성화 폴링 '.
변칙적 탐지기: 계절성에 대한 지식이있는 AR/대기 시간의 통계적 편차.
사건 후 매크로: RCA 템플릿의 자동 개방, 로그/그래프 모음, 조정 점검표.

11) 드릴 캘린더 및 UAT

월간: "Auth drop" 드릴 (detecta에서 feilover까지 15 분).
분기 별: "웹훅 중단" + "환불 더블 스트라이크" (demempotence).
반기: "정착 지연 + 재무부 스트레스" (StressRes).
UAT 패키지: dempotency, feilover, 조정, 통신 사례 테스트.

12) Playbook Success Metrics (운영 KPI)

MTTA/MTTR: P0/P1의 중앙값/p95.
10 분 이내에 자동 장애 백분율.
이중 충전/환불을 방지하는 사건 (= 100%).
사고 후 정찰이 완전히 D + 1입니다.

서비스 크레딧 복구/월 (

사용자 영향 분.

13) 빈번한 실수와 피하는 방법

feilover의 늦은 활성화 (자동 임계 값 없음).
웹 후크가 바운스 될 때 자동 리팬드에 "동결" 이 부족합니다.
행 잠금/버전 지정 → 부분 환불> 나머지.
사실없는 통신/ETA → 에스컬레이션을 지원합니다.
Treasury → TtP/TtW 종료 SLO와의 제휴가 없습니다.
조정 건너 뛰기 → 수익에서 "블랙홀".

14) 응용 프로그램 (위키 내부의 참조 블록)

결제 제공 업체와의 SLA-경고 임계 값 및 대출.
PSP 지불 및 보고서의 조정-정찰/DLQ 절차.
재무부: 유동성 및 준비금-StressRes/Prefunding.
결제 루프 KPI-AR/TtW/TtR/Refund Health 공식.
부분적이고 완벽한 개조는 dempotence와 정치입니다.

요약

작동하는 플레이 북은 시나리오 런북 및 + 자동화 + 사후 모템 분야입니다. MTTR을 줄이고 돈을 보호하며 (데모 펜스/화해/재무부) 사용자 손상을 최소화하며 SLA의 PSP와의 관계를 체계적으로 개선합니다. 결과-위의 AR, 복도의 TtW/TtR, 제로 테이크, 예측 가능한 자금 흐름.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.