GH GambleHub

支払いにおけるインシデントのプレイブック

TL;DR(ドクター)

支払いインシデントは制御された操作です:迅速に分類→UX(ファイラー/劣化)を安定させる→お金を節約する(idempotency/ブロックルール)→透過的に通信する→復元→RCAを修正する。主要なSLO: MTTA、 MTTR、 TtW/TtR、 AR、 Webhook p95の二重充満/払い戻しのためのゼロ許容。

1)重大度とインパクトマトリックス

Sev(セブ)[定義]例:[目的]
P0マスインパクト、キャッシュロス/支払い不能認証<− 20 pp、二重請求、大量支払いファイル、決済停止MTTA ≤ 15分、MTTR ≤ 2 h
P1 (P1)セグメントの大幅な劣化Webhook p95> 30 c、ペイアウトTtW p95> SLO、 AR by BIN/country − 8 pp MTTA ≤ 30分、MTTR ≤ 4 h
P2制限されたセグメント/フィーチャー返金エラーが0に上昇しました。5%、 PSPレポートの遅延MTTA ≤ 4h、 MTTR ≤ 2p
P3 (P3)マイナー/ペーパーログバウンス、スモールスキーマドリフトプランによると

トリガー:SLA/財務省/和解アラート、サポートピーク、AR/レイテンシ/Webhooks監視。

2)役割とコミュニケーションチャネル

インシデントコマンダー(IC)は、タイムラインとソリューションの所有者です。
Payments Tech Lead-ルーティング、idempotence、フィーチャーフラグ。
Treasury Lead-流動性、プレハンドリング、ストレスリザーブ。
リスク/AML-制裁、ブロック規則、SoF/SoW。
Comms Manager-サポート/パートナーのテンプレート、ステータスの更新。
リコン/ファイナンス-和解、逆転/ジャーナル、損失推定。

本社:#payments-incident-warroom(チャット)、Zoom-bridge+ライブタイムラインドキュメント(UTC)。

3)普遍的なループ(あらゆる事件のために)

1.検出とトリアージ→メトリック/カバレッジを確認し、Sevを割り当てます。
2.UX→ルーティングフィーラーの安定化、機能の劣化、危険な自動動作の凍結。
3.Money Safety→idempotence/blocks(払い戻し/支払い)を有効にし、ログを修正します。
4.コミュニケーション→内部更新(15/30/60分)、外部メッセージ(ステータス/ETA/回避策)。
5.Recover→incremental rollback/open、 SLOを検証します。
6.調整→元帳/PSP/銀行を比較し、財務影響を計算します。
7.RCA (≤ 5ビジネスユニット)→ルート、アクション、予防、タスク。

4)典型的なシナリオとRunbook 'and

4.1オートドロップ/レイテンシースパイク(Cards/A2A)

症状:AR#、柔らかい衰退します#、P95 auth> 1-2 s。

アクション:
  • スマートルーティング:PSP_A→PSP_B、脆弱なBINの3DS-challengeを増加させます。
  • リトレイ(バックオフ+ジッタ)を制限し、idempotency 'auth_key'を保護します。
  • Segment-toggle: "strict'スクリプトへの高リスク。高い切符の限界を減らして下さい。
  • コミュニケーション:「劣化ノート」、代替方法をお勧めします。
  • 回復:トラフィックシェアの段階的なリターン、BIN × GEOのコンテキストでのAR制御。

4.2 Webhookの遅延/重複

症状:p95> 3-5 c、ギャップキャプチャ/払い戻し/支払い、重複。

アクション:
  • ポーリングに切り替える。TTL idempotencyを強化します。
  • 凍結の自動refandsおよび危険な自動支払。
  • Anti-double: 'idempotency_key/provider_txid'によって1回保存されます。
  • キャッチアップ処理を実行します。PSPレジストリとの和解。
  • リカバリ:Webhookを有効にし、レポートとの整合性を比較します。

4.3ペイアウト失敗/TtW劣化

症状:Success%→、TtW p95→、returns/timeouts。

アクション:
  • スタンバイレール(RTP/SEPA/他のPSP)へのFeilover。
  • Treasury:プレファンドトップアップペイアウトプール、StressResアクティベーション。
  • ハイリスク、VIP優先順位付けのためのペイアウトロック。
  • コミュニケーション:ETAと代替、個人アカウントのステータスの透明性。

4.4返金エラー/二重返金リスク

症状:払い戻しのエラー率:、紛争/重複したリターン。

アクション:
  • 自動ルートでのグローバル払い戻し-フリーズ、権利のみのマニュアル。
  • Hard idempotency 'payment_id+amount+reason';バランスの行ロック。
  • PSPのレポートに従うRecalibration;レジャーの重複の逆転、DLQの場合。
  • カードのKommunikatsii:模板 (T+1-T+5 bp)、インスタント-最大60秒。

4.5決済遅延/PSPバッチの不一致

症状:D+Nが登録されていない、金額/手数料の差分。

アクション:
  • 財務省:StressResをオンにし、即時支払いを制限します。
  • Recon:バッチ「SUSPENSE」をマークし、PSPチケットを上げ、ステートメントを要求します。
  • FX/手数料:一時的な「真実」(ポリシー)を受け入れるか、修正を待ちます。
  • コミュニケーション:サポートのためのQ&A(資金の保証、決済のタイミング)。

4.6暗号オン/オフランプの劣化

症状:TtH (TtH)、スリッページ(slippage)、サイトの流動性の欠如。

アクション:
  • SOR→alternativnyy CEX/OTC、ロットサイズを削減(TWAP)。
  • stable/fiat、 depeg露出限界に入るそれらの移動。
  • オラクル発散>bps制限の場合はキルスイッチ。

4.7バウチャー/ウォレット異常

症状:無効なPINスパイク、速度、ジオボウル。

アクション:
  • 限界/クールダウン、デバイスへのバインディング交換、ペイアウトロック+ターンオーバー。
  • 要求チェック/SoF、ブロックリストの補充(電子メール/デバイス/ASN/小売業者)。

5)アクションチェックリスト

5.1最初の5分(P0/P1)

  • IC、オープンウォールルームを割り当てます。
  • 記録Sev、カバレッジ、タイムライン開始(UTC)。
  • セキュアなフィーチャーフラグ(idempotency、必要な自動プロセスのフリーズ)を有効にします。
  • Feature Failover/Degradationを起動します。
  • 最初の内部更新(コンテキスト、メジャー、次のETA)。

5.2事件を終える前に

  • SLO復元(AR/レイテンシ/webhooks/TtW/TtR)。
  • 和解(internal↔PSP↔bank)、ブラックホールなし。
  • 財務インパクト評価、リバース/ジャーナル発行。
  • 外部更新/ステータスチャンネルの投稿。
  • RCAの所有者と防止タスクが割り当てられます。

6)監視、アラート、ダッシュボード

キーアラート:
  • 'AR_gross→3 pp (to p7 median)'→カバレッジのP1/P0。
  • 'Auth p95> 1。5 s/Webhook p95> 5 s/Capture Success <98%'→P1。
  • 'Payout TtW p95> SLO'и-'成功%<99%'→P1。
  • '返金エラー>0。[3%][ダブル払い戻し>0]→[P0]。
  • 'Settlement on-time <99%'/'Report Delivery SLA違反'→P1。
ダッシュボードインシデント:

1.Fanel Attempt→Auth→Capture(ベースラインとの比較)。

2.ヒートマップAR BIN × GEO × PSP。

3.Webhook p50/p95、重複、バウンス。

4.支払い/払い戻しの健康(成功%、TtW/TtR)。

5.財務省:L0バランス、プレファンド、ストレスレス。

6.Recon:ミスマッチ率、老化DLQ。

7)コミュニケーション(テンプレート)

内部(15分):
💡 'P1支払い| PSP_A GEO-DE、 AR − 9pp vsベースラインの認証ドロップ。進行中のPSP_Bへのフェイルオーバーにより、BIN 4250の3DSポリシーが強化されました。自動返金は一時停止しました。次のアップデート30分"
プレイヤー(ステータスページ/FAQ):
💡 "現在、一部のユーザーの支払いと引き出しの確認に遅延があります。支払いは安全に行われます。30分で代替方法X。 Updateをお勧めします"
パートナー/商人(ショート):
💡 "DACH地域のプロバイダーAでの認可の低下。プロバイダBのFeiloverが有効になります。RCAの結果に基づいてSLAレポートと予防措置を送信します"

8)和解とお金(安定化後)

自動調整:provider_txid/idem_key/amount/time-bucketを実行します。
DLQ: orphan/duplicate/amount mismatch/fee driftを選択します。
レジャーで反転/修正を行い、コスト/GGRと不正損失を再計算します。
財務省:緊密な一時的な措置(StressRes、ペイアウトロック)、リバランスプール。

9) RCA(根本原因分析)テンプレート

コンテキスト:日付/時刻(UTC)、 Sev、カバレッジ、メトリクス。
症状:あなたが見たもの(グラフ/スクリーンショット)。
理由:ルート(それら/プロセス/取引相手)。
機能/機能しなかったもの:feilover、特徴の旗、コミュニケーション。
財務効果:書き込みオフ/非払い/手数料/SLAローン。

予防:
  • それら:限界、idempotency、後退、テスト。
  • プロセス:Playbookの更新、PSPのQBR、 SLAの変更。
  • 締め切りとタスクの所有者。

10)オートメーションと統合

Feature-flagプラットフォーム:country/BIN/methodによるインスタントルーティング/劣化。
Runbook-bot:コマンド'/failover PSP_A→B'、 '/freeze return'、 '/enable polling'。
異常検出器:季節性の知識を持つAR/レイテンシーの統計的偏差。
事後マクロ:RCAテンプレートの自動開始、ログ/グラフの収集、調整チェックリスト。

11)ドリルカレンダーとUAT

毎月:「Auth drop」ドリル(detectaからfeiloverまで15分)。
四半期:「Webhookの停止」+「返金ダブルストライク」(idempotence)。
半年間:「決済遅延+財務ストレス」(StressRes)。
UATパッケージ:idempotency、 feilover、和解、通信のテストケース。

12) Playbook成功指標(運用KPI)

MTTA/MTTR: P0/P1による中央値/p95。
10分以内の自動フェイルオーバーのパーセント。
二重充電/払い戻し(=100%)を防止するインシデント。
インシデント後のリコンはD+1 ≤完了します。
サービスクレジット回収/月(SLA)。
ユーザーのインパクト分。

13)頻繁な間違いとそれらを回避する方法

feiloverの遅延活性化(自動しきい値なし)。
Webhookがバウンスしたときにオートリファンドに「フリーズ」がない。
row-lock/versioning→partial refund> remainderはありません。
事実のないコミュニケーション/ETA→サポートへのエスカレーション。
財務省→TtP/TtW出口SLOとの提携はありません。
収益の和解→「ブラックホール」をスキップします。

14)アプリケーション(wiki内の参照ブロック)

決済プロバイダとのSLA-アラートのしきい値とローン。
PSPの支払いとレポートの調整-recon/DLQ手順。
Treasury:流動性と準備金-StressRes/Prefunding。
支払のループKPI-AR/TtW/TtR/払い戻しの健康の方式。
部分的で完全な拒否は、偶像性と政治です。

概要

作業中のプレイブックはシナリオランブックと+オートメーション+ポストモーテムの規律です。MTTRを削減し、お金(idempotence/reconciliation/treasury)を保護し、ユーザーのダメージを最小限に抑え、SLA上のPSPとの関係を体系的に改善します。結果-上記のAR、通路のTtW/TtR、ゼロテイク、予測可能なマネーフロー。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。