支払いにおけるインシデントのプレイブック
TL;DR(ドクター)
支払いインシデントは制御された操作です:迅速に分類→UX(ファイラー/劣化)を安定させる→お金を節約する(idempotency/ブロックルール)→透過的に通信する→復元→RCAを修正する。主要なSLO: MTTA、 MTTR、 TtW/TtR、 AR、 Webhook p95の二重充満/払い戻しのためのゼロ許容。
1)重大度とインパクトマトリックス
トリガー:SLA/財務省/和解アラート、サポートピーク、AR/レイテンシ/Webhooks監視。
2)役割とコミュニケーションチャネル
インシデントコマンダー(IC)は、タイムラインとソリューションの所有者です。
Payments Tech Lead-ルーティング、idempotence、フィーチャーフラグ。
Treasury Lead-流動性、プレハンドリング、ストレスリザーブ。
リスク/AML-制裁、ブロック規則、SoF/SoW。
Comms Manager-サポート/パートナーのテンプレート、ステータスの更新。
リコン/ファイナンス-和解、逆転/ジャーナル、損失推定。
本社:#payments-incident-warroom(チャット)、Zoom-bridge+ライブタイムラインドキュメント(UTC)。
3)普遍的なループ(あらゆる事件のために)
1.検出とトリアージ→メトリック/カバレッジを確認し、Sevを割り当てます。
2.UX→ルーティングフィーラーの安定化、機能の劣化、危険な自動動作の凍結。
3.Money Safety→idempotence/blocks(払い戻し/支払い)を有効にし、ログを修正します。
4.コミュニケーション→内部更新(15/30/60分)、外部メッセージ(ステータス/ETA/回避策)。
5.Recover→incremental rollback/open、 SLOを検証します。
6.調整→元帳/PSP/銀行を比較し、財務影響を計算します。
7.RCA (≤ 5ビジネスユニット)→ルート、アクション、予防、タスク。
4)典型的なシナリオとRunbook 'and
4.1オートドロップ/レイテンシースパイク(Cards/A2A)
症状:AR#、柔らかい衰退します#、P95 auth> 1-2 s。
アクション:- スマートルーティング:PSP_A→PSP_B、脆弱なBINの3DS-challengeを増加させます。
- リトレイ(バックオフ+ジッタ)を制限し、idempotency 'auth_key'を保護します。
- Segment-toggle: "strict'スクリプトへの高リスク。高い切符の限界を減らして下さい。
- コミュニケーション:「劣化ノート」、代替方法をお勧めします。
- 回復:トラフィックシェアの段階的なリターン、BIN × GEOのコンテキストでのAR制御。
4.2 Webhookの遅延/重複
症状:p95> 3-5 c、ギャップキャプチャ/払い戻し/支払い、重複。
アクション:- ポーリングに切り替える。TTL idempotencyを強化します。
- 凍結の自動refandsおよび危険な自動支払。
- Anti-double: 'idempotency_key/provider_txid'によって1回保存されます。
- キャッチアップ処理を実行します。PSPレジストリとの和解。
- リカバリ:Webhookを有効にし、レポートとの整合性を比較します。
4.3ペイアウト失敗/TtW劣化
症状:Success%→、TtW p95→、returns/timeouts。
アクション:- スタンバイレール(RTP/SEPA/他のPSP)へのFeilover。
- Treasury:プレファンドトップアップペイアウトプール、StressResアクティベーション。
- ハイリスク、VIP優先順位付けのためのペイアウトロック。
- コミュニケーション:ETAと代替、個人アカウントのステータスの透明性。
4.4返金エラー/二重返金リスク
症状:払い戻しのエラー率:、紛争/重複したリターン。
アクション:- 自動ルートでのグローバル払い戻し-フリーズ、権利のみのマニュアル。
- Hard idempotency 'payment_id+amount+reason';バランスの行ロック。
- PSPのレポートに従うRecalibration;レジャーの重複の逆転、DLQの場合。
- カードのKommunikatsii:模板 (T+1-T+5 bp)、インスタント-最大60秒。
4.5決済遅延/PSPバッチの不一致
症状:D+Nが登録されていない、金額/手数料の差分。
アクション:- 財務省:StressResをオンにし、即時支払いを制限します。
- Recon:バッチ「SUSPENSE」をマークし、PSPチケットを上げ、ステートメントを要求します。
- FX/手数料:一時的な「真実」(ポリシー)を受け入れるか、修正を待ちます。
- コミュニケーション:サポートのためのQ&A(資金の保証、決済のタイミング)。
4.6暗号オン/オフランプの劣化
症状:TtH (TtH)、スリッページ(slippage)、サイトの流動性の欠如。
アクション:- SOR→alternativnyy CEX/OTC、ロットサイズを削減(TWAP)。
- stable/fiat、 depeg露出限界に入るそれらの移動。
- オラクル発散>bps制限の場合はキルスイッチ。
4.7バウチャー/ウォレット異常
症状:無効なPINスパイク、速度、ジオボウル。
アクション:- 限界/クールダウン、デバイスへのバインディング交換、ペイアウトロック+ターンオーバー。
- 要求チェック/SoF、ブロックリストの補充(電子メール/デバイス/ASN/小売業者)。
5)アクションチェックリスト
5.1最初の5分(P0/P1)
- IC、オープンウォールルームを割り当てます。
- 記録Sev、カバレッジ、タイムライン開始(UTC)。
- セキュアなフィーチャーフラグ(idempotency、必要な自動プロセスのフリーズ)を有効にします。
- Feature Failover/Degradationを起動します。
- 最初の内部更新(コンテキスト、メジャー、次のETA)。
5.2事件を終える前に
- SLO復元(AR/レイテンシ/webhooks/TtW/TtR)。
- 和解(internal↔PSP↔bank)、ブラックホールなし。
- 財務インパクト評価、リバース/ジャーナル発行。
- 外部更新/ステータスチャンネルの投稿。
- RCAの所有者と防止タスクが割り当てられます。
6)監視、アラート、ダッシュボード
キーアラート:- 'AR_gross→3 pp (to p7 median)'→カバレッジのP1/P0。
- 'Auth p95> 1。5 s/Webhook p95> 5 s/Capture Success <98%'→P1。
- 'Payout TtW p95> SLO'и-'成功%<99%'→P1。
- '返金エラー>0。[3%][ダブル払い戻し>0]→[P0]。
- 'Settlement on-time <99%'/'Report Delivery SLA違反'→P1。
1.Fanel Attempt→Auth→Capture(ベースラインとの比較)。
2.ヒートマップAR BIN × GEO × PSP。
3.Webhook p50/p95、重複、バウンス。
4.支払い/払い戻しの健康(成功%、TtW/TtR)。
5.財務省:L0バランス、プレファンド、ストレスレス。
6.Recon:ミスマッチ率、老化DLQ。
7)コミュニケーション(テンプレート)
内部(15分):8)和解とお金(安定化後)
自動調整:provider_txid/idem_key/amount/time-bucketを実行します。
DLQ: orphan/duplicate/amount mismatch/fee driftを選択します。
レジャーで反転/修正を行い、コスト/GGRと不正損失を再計算します。
財務省:緊密な一時的な措置(StressRes、ペイアウトロック)、リバランスプール。
9) RCA(根本原因分析)テンプレート
コンテキスト:日付/時刻(UTC)、 Sev、カバレッジ、メトリクス。
症状:あなたが見たもの(グラフ/スクリーンショット)。
理由:ルート(それら/プロセス/取引相手)。
機能/機能しなかったもの:feilover、特徴の旗、コミュニケーション。
財務効果:書き込みオフ/非払い/手数料/SLAローン。
- それら:限界、idempotency、後退、テスト。
- プロセス:Playbookの更新、PSPのQBR、 SLAの変更。
- 締め切りとタスクの所有者。
10)オートメーションと統合
Feature-flagプラットフォーム:country/BIN/methodによるインスタントルーティング/劣化。
Runbook-bot:コマンド'/failover PSP_A→B'、 '/freeze return'、 '/enable polling'。
異常検出器:季節性の知識を持つAR/レイテンシーの統計的偏差。
事後マクロ:RCAテンプレートの自動開始、ログ/グラフの収集、調整チェックリスト。
11)ドリルカレンダーとUAT
毎月:「Auth drop」ドリル(detectaからfeiloverまで15分)。
四半期:「Webhookの停止」+「返金ダブルストライク」(idempotence)。
半年間:「決済遅延+財務ストレス」(StressRes)。
UATパッケージ:idempotency、 feilover、和解、通信のテストケース。
12) Playbook成功指標(運用KPI)
MTTA/MTTR: P0/P1による中央値/p95。
10分以内の自動フェイルオーバーのパーセント。
二重充電/払い戻し(=100%)を防止するインシデント。
インシデント後のリコンはD+1 ≤完了します。
サービスクレジット回収/月(SLA)。
ユーザーのインパクト分。
13)頻繁な間違いとそれらを回避する方法
feiloverの遅延活性化(自動しきい値なし)。
Webhookがバウンスしたときにオートリファンドに「フリーズ」がない。
row-lock/versioning→partial refund> remainderはありません。
事実のないコミュニケーション/ETA→サポートへのエスカレーション。
財務省→TtP/TtW出口SLOとの提携はありません。
収益の和解→「ブラックホール」をスキップします。
14)アプリケーション(wiki内の参照ブロック)
決済プロバイダとのSLA-アラートのしきい値とローン。
PSPの支払いとレポートの調整-recon/DLQ手順。
Treasury:流動性と準備金-StressRes/Prefunding。
支払のループKPI-AR/TtW/TtR/払い戻しの健康の方式。
部分的で完全な拒否は、偶像性と政治です。
概要
作業中のプレイブックはシナリオランブックと+オートメーション+ポストモーテムの規律です。MTTRを削減し、お金(idempotence/reconciliation/treasury)を保護し、ユーザーのダメージを最小限に抑え、SLA上のPSPとの関係を体系的に改善します。結果-上記のAR、通路のTtW/TtR、ゼロテイク、予測可能なマネーフロー。