自動エラー訂正
1)目的と原則
目的:SLO、収益およびコンプライアンスを維持することにより、MTTRを削減し、インシデントのエスカレーションを防止する。
原則:- SLO-first:自動操作は、エラー予算に確認された脅威がある場合にのみ許可されます。
- セキュリティファースト:最小限のブラスト半径、明示的な制限とタイムボックス。
- 設計によって説明可能:各アクションは説明可能で監査可能です。
- rollback-ready:すべてのステップには返品条件が付いています。
- リスクが高いヒューマン・イン・ザ・ループ:P1-criticalの変更-デュアル制御またはIC/オンコール確認(ポリシーで別段の定めがない限り)。
2)利用規約
自動修復:人間の介入なしにイベントに対するプログラム的反応(アラート/異常)。
ガードレール:制限ポリシー(しきい値、期間、試行回数、影響領域)。
Runbook-Action:プリチェック/ポストチェックとロールバックによる原子操作。
Decision Engine-イベントをポリシーにマッピングし、アクションをトリガーするサービス。
3)ソリューションアーキテクチャ
1.信号:SLO/バーンレート、 KRI、合成、RUM、ディープヘルス。
2.コンテキスト相関:リリース、フィーチャーフラグ、計画作業、依存プロバイダ。
3.意思決定エンジン:ルール/ポリシー(ポリシーとしてコード)、影響とリスク評価、シナリオの選択。
4.実行:runbookアクションのオーケストレータ(idempotency、ジッタ付きレトライ)。
5.コントロール:プリバリデータ、検証後、タイムボックス、ロールバック。
6.監査とオブザビリティ:アクティビティトレース、成功指標、ログ(WORM/immutable)。
7.コミュニケーション:ステータスページ(Comms Lead経由)、var-room、サポート用マクロ。
4)ポリシー・アズ・コード
条件の例(擬似レゴ/論理): フェイルオーバーPSP:- 'allow if burn_rate(支払い。auth)> fast&&impact>しきい値&&psp_alt。healthy&&within_limits (「psp_reroute」)'
- 'allow if p99 (bet_settlement)> 3x&&queue_lag>limit&&feature (「replay_center」)。有効にする'
- 'allow if consumer_lag>target&&cost_budget。ok&®ion_capacity。利用可能です'
- 'allow if export_spike&&&no_ticket&&data_class=PII->action=block+notify (Compliance)'
各ポリシーには、条件、アクション、制限(スコープ/時間/頻度)、成功基準、ロールバックが含まれます。
5)安全なアクションディレクトリ(atomic runbook-actions)
支払い:代替PSP/銀行にトラフィックを切り替えます。健康×手数料×変換のルーティングの優先順位を変更します。ジッタを使用して3DSレイズのリトレイ制限を簡素化します。
賭け/ゲーム:スケール解決労働者;キャッシュウォームアップを有効にすると、重要でない機能(アニメーション、セカンダリフィード)を一時的に無効にできます。waiting-room/queue-pageを有効にします。
インフラ:劣化したインスタンス(外側検出器)を削除し、隣接するAZ/regionにトラフィックを避難させます。プール/クォータを増やし、リントチェックでワーカーを再起動します。
データ/キュー:パーティーの再配布;消費者を上限に引き上げる。読み取りトラフィックを健全なレプリカに切り替えます。アダプティブルートサンプリングを有効にします。
セキュリティ/コンプライアンス:チケットなしでPIIエクスポートを一時的にブロックします。速度出力制限を強化することで、機密操作を二重に制御できます。
コンマ層:自動ドラフトステータス+コムリードの更新スロット;PSPが劣化したときにパートナーに通知します。
6)プリバリデーションとポストバリデーション
前に:- 問題が本当で新鮮であることを確認してください(N-of-Mウィンドウ;無声/予定された仕事無し)。
- アクションがポリシーによって許可されていること、およびリソース予算があることを確認します。
- 見積りコスト(FinOps)とコンプライアンスの制約。
- バーンレート/メトリクスの削減を確認します。結果を記録する。条件に応じて自動ロールバックをスケジュールします。
7)ロールバックエスケープハッチ"
メトリクスの安定化とmax-TTLアクションによる自動リターン。
varルームのIC/オンコール用ロールバックボタン。
緊急アクセス専用のブレークガラス。事後監査が必要です。
8)アラートとインシデントとの統合
任意の自動アクションがインシデントカードに添付されます:who/what/when/why、 result、 link to graphs。
ページャは重複のためにミュートされますが、失敗した自動修正(エスカレーション)はミュートされません。
ステータスページは、テンプレートからComms Lead経由で更新されます。
9)安全および承諾の設計
オーケストレーターのための少なくとも特権;アクション/ドメインごとの個々の役割。
ハイリスクのためのSoDとデュアルコントロール:PSPルーティング、ボーナス制限、PIIエクスポート。
入力とポリシーのバージョンを含むすべての自動ソリューションのWORM/immutableを監査します。
PII衛生:ラベルとアクションログの個人識別子なし。
10)オートループの可視性
メトリクス:アクションの成功率、反応時間、%ロールバック、MTTR節約、SLOへの影響。
トレース:シグナル→意思決定→アクション→エフェクトのエンドツーエンドのトレース。
ログ:構造化、policy_id、バージョン、および事前/ポストチェック。
ダッシュボード:Exec(収益インパクト/SLO)、 Ops(アクションマトリックス×ドメイン)、FinOps(自動測定のコスト)。
11)シナリオ例(iGaming)
11.1 PSP劣化(TR/EU)
Signal: 10分で25%、トランザクションの30%を超えるPSP-1での認証成功。
アクション:トラフィックの40%をPSP-2/3に再配布する。jitterを使用したBank Xリクエストの3DSレイズの簡素化を有効にします。
境界:代替PSPごとの総トラフィックの60%以下。TTL 45分。
ロールバック:成功率の≥目標の正規化で15分。
11.2セトルステークスでの上昇P99
信号:p99 「bet→settle」> 3 × norm+consumer-lag>しきい値。
行為:帽子の前の労働者のスケールアウト;係数キャッシュのウォームアップ;一時的に「やり直し履歴」をオフにします。
ロールバック:ヘッドルームの後>Xとp99普通20分。
11.3データベースレプリカの遅れ
信号:replication-lag> N秒、lock-waitの成長。
アクション:健全なレプリカに読み取りトラフィックを転用します。低い優先順位のスロットリング書き込み操作を有効にします。
ロールバック:遅延正規化とロックエラーの後。
11.4 PII輸出スパイク
信号:輸出率>ベースライン× K、チケットなし。
アクション:エクスポートブロック、コンプライアンス通知、デュアルコントロールが有効。
ロールバック:要求を確認し、異常を閉じた後。
12) KPIのKRI
オートフィックスが機能したインシデントのためのMTTR:- TTD→アクション:検出からアクションまでの時間。
- アクションの成功率とロールバックレート(低-良好、偽陽性のためではない場合)。
- 誤動作レート(効果のないアクションまたは悪影響のあるアクション)。
- SLOインパクトが保存されました。
- Pager fatigue(同じ/より良いSLOを持つマニュアルページャの数が少ない)。
13)実施ロードマップ(8-12週)
ネッド。1-2:3-5高ROIシナリオを選択します(PSP-feilover、遅延によるオートスケール、機能低下)。ポリシー/リミット/ロールバックを記述します。
ネッド。3-4:アクションオーケストレーター、秘密と役割、インシデントプラットフォームとの統合を実装する。オブザビリティと監査を追加します。
ネッド。5-6:「影」モードのパイロット(シミュレートのみ)→A/B効果推定;それから低い適用範囲のプロダクトに含んで下さい。
ネッド。7-8:スクリプトのディレクトリ(database/cache/queues/front)を展開し、ステータスページとCommsに関連付けます。
ネッド。9-10: FinOps制限ルール(コスト/SLI)を追加し、高リスクのためのデュアルコントロールを実装します。
ネッド。11-12:卓上/カオスの教え、KPI/KRIの改訂、ガイドラインの公表、およびオンコールトレーニング。
14)アーティファクトとパターン
自動修復ポリシー:条件、アクション、制限、TTL、ロールバック、所有者、リスククラス。
Runbook-Action Spec:必須条件、ステップ、チェック、エラー、モニタリング、ロールバック・ロジック。
Change-Control:誰がポリシー、PRレビュー、テスト、差分とバージョンをルールすることができます。
証拠パック:SLOインパクトログ/トレイル/メトリクス、死後/監査後のレポート。
15) Antipatterns
原因とSLO→フラップを確認せずに「症状を治療する」
ロールバックとTTLのないアクション→凍結劣化。
ガードレールのないユニバーサルスクリプト→カスケーディングクラッシュ。
監査とポリシーのバージョン管理の欠如。
コスト(制限なしのオートスケール)とコンプライアンス(PIIエクスポート)を無視します。
P1リスクにおけるヒューマン・イン・ザ・ループのない完全な自律性。
合計
自動エラー訂正は管理ループです:SLOシグナル→ガードレール付きポリシー→ロールバック→オブザビリティと監査→インシデントトレーニングによる安全なランブックアクション。このアプローチは、MTTRを大幅に削減し、スペードの収益を維持し、安全および規制要件に準拠したまま、オンコールからルーチンを削除します。