自動エラー訂正

1）目的と原則

目的：SLO、収益およびコンプライアンスを維持することにより、MTTRを削減し、インシデントのエスカレーションを防止する。

原則：

SLO-first：自動操作は、エラー予算に確認された脅威がある場合にのみ許可されます。
セキュリティファースト：最小限のブラスト半径、明示的な制限とタイムボックス。
設計によって説明可能：各アクションは説明可能で監査可能です。
rollback-ready：すべてのステップには返品条件が付いています。
リスクが高いヒューマン・イン・ザ・ループ：P1-criticalの変更-デュアル制御またはIC/オンコール確認（ポリシーで別段の定めがない限り）。

2）利用規約

自動修復：人間の介入なしにイベントに対するプログラム的反応（アラート/異常）。
ガードレール：制限ポリシー（しきい値、期間、試行回数、影響領域）。
Runbook-Action：プリチェック/ポストチェックとロールバックによる原子操作。
Decision Engine-イベントをポリシーにマッピングし、アクションをトリガーするサービス。

3）ソリューションアーキテクチャ

1.信号：SLO/バーンレート、 KRI、合成、RUM、ディープヘルス。
2.コンテキスト相関：リリース、フィーチャーフラグ、計画作業、依存プロバイダ。
3.意思決定エンジン：ルール/ポリシー（ポリシーとしてコード）、影響とリスク評価、シナリオの選択。
4.実行：runbookアクションのオーケストレータ（idempotency、ジッタ付きレトライ）。
5.コントロール：プリバリデータ、検証後、タイムボックス、ロールバック。
6.監査とオブザビリティ：アクティビティトレース、成功指標、ログ（WORM/immutable）。
7.コミュニケーション：ステータスページ（Comms Lead経由）、var-room、サポート用マクロ。

4）ポリシー・アズ・コード

条件の例（擬似レゴ/論理）：フェイルオーバーPSP：

'allow if burn_rate（支払い。auth）> fast&&impact>しきい値&&psp_alt。healthy&&within_limits （「psp_reroute」）'

重要でない機能の劣化：

'allow if p99 （bet_settlement）> 3x&&queue_lag>limit&&feature （「replay_center」）。有効にする'

遅れによるAutoscale：

'allow if consumer_lag>target&&cost_budget。ok&®ion_capacity。利用可能です'

ブロックPIIエクスポート：

'allow if export_spike&&&no_ticket&&data_class=PII->action=block+notify （Compliance）'

各ポリシーには、条件、アクション、制限（スコープ/時間/頻度）、成功基準、ロールバックが含まれます。

5）安全なアクションディレクトリ（atomic runbook-actions）

支払い：代替PSP/銀行にトラフィックを切り替えます。健康×手数料×変換のルーティングの優先順位を変更します。ジッタを使用して3DSレイズのリトレイ制限を簡素化します。
賭け/ゲーム：スケール解決労働者；キャッシュウォームアップを有効にすると、重要でない機能（アニメーション、セカンダリフィード）を一時的に無効にできます。waiting-room/queue-pageを有効にします。
インフラ：劣化したインスタンス（外側検出器）を削除し、隣接するAZ/regionにトラフィックを避難させます。プール/クォータを増やし、リントチェックでワーカーを再起動します。
データ/キュー：パーティーの再配布；消費者を上限に引き上げる。読み取りトラフィックを健全なレプリカに切り替えます。アダプティブルートサンプリングを有効にします。
セキュリティ/コンプライアンス：チケットなしでPIIエクスポートを一時的にブロックします。速度出力制限を強化することで、機密操作を二重に制御できます。
コンマ層：自動ドラフトステータス+コムリードの更新スロット；PSPが劣化したときにパートナーに通知します。

6）プリバリデーションとポストバリデーション

前に：

問題が本当で新鮮であることを確認してください（N-of-Mウィンドウ；無声/予定された仕事無し）。
アクションがポリシーによって許可されていること、およびリソース予算があることを確認します。
見積りコスト（FinOps）とコンプライアンスの制約。

ポスト：

バーンレート/メトリクスの削減を確認します。結果を記録する。条件に応じて自動ロールバックをスケジュールします。

7）ロールバックエスケープハッチ"

メトリクスの安定化とmax-TTLアクションによる自動リターン。
varルームのIC/オンコール用ロールバックボタン。
緊急アクセス専用のブレークガラス。事後監査が必要です。

8）アラートとインシデントとの統合

任意の自動アクションがインシデントカードに添付されます：who/what/when/why、 result、 link to graphs。
ページャは重複のためにミュートされますが、失敗した自動修正（エスカレーション）はミュートされません。
ステータスページは、テンプレートからComms Lead経由で更新されます。

9）安全および承諾の設計

オーケストレーターのための少なくとも特権；アクション/ドメインごとの個々の役割。
ハイリスクのためのSoDとデュアルコントロール：PSPルーティング、ボーナス制限、PIIエクスポート。
入力とポリシーのバージョンを含むすべての自動ソリューションのWORM/immutableを監査します。
PII衛生：ラベルとアクションログの個人識別子なし。

10）オートループの可視性

メトリクス：アクションの成功率、反応時間、％ロールバック、MTTR節約、SLOへの影響。
トレース：シグナル→意思決定→アクション→エフェクトのエンドツーエンドのトレース。
ログ：構造化、policy_id、バージョン、および事前/ポストチェック。
ダッシュボード：Exec（収益インパクト/SLO）、 Ops（アクションマトリックス×ドメイン）、FinOps（自動測定のコスト）。

11）シナリオ例（iGaming）

11.1 PSP劣化（TR/EU）

Signal： 10分で25％、トランザクションの30％を超えるPSP-1での認証成功。
アクション：トラフィックの40％をPSP-2/3に再配布する。jitterを使用したBank Xリクエストの3DSレイズの簡素化を有効にします。
境界：代替PSPごとの総トラフィックの60％以下。TTL 45分。
ロールバック：成功率の≥目標の正規化で15分。

11.2セトルステークスでの上昇P99

信号：p99 「bet→settle」> 3 × norm+consumer-lag>しきい値。
行為：帽子の前の労働者のスケールアウト；係数キャッシュのウォームアップ；一時的に「やり直し履歴」をオフにします。
ロールバック：ヘッドルームの後>Xとp99普通20分。

11.3データベースレプリカの遅れ

信号：replication-lag> N秒、lock-waitの成長。
アクション：健全なレプリカに読み取りトラフィックを転用します。低い優先順位のスロットリング書き込み操作を有効にします。
ロールバック：遅延正規化とロックエラーの後。

11.4 PII輸出スパイク

信号：輸出率>ベースライン× K、チケットなし。
アクション：エクスポートブロック、コンプライアンス通知、デュアルコントロールが有効。
ロールバック：要求を確認し、異常を閉じた後。

12） KPIのKRI

オートフィックスが機能したインシデントのためのMTTR：

TTD→アクション：検出からアクションまでの時間。
アクションの成功率とロールバックレート（低-良好、偽陽性のためではない場合）。
誤動作レート（効果のないアクションまたは悪影響のあるアクション）。
SLOインパクトが保存されました。
Pager fatigue（同じ/より良いSLOを持つマニュアルページャの数が少ない）。

13）実施ロードマップ（8-12週）

ネッド。1-2：3-5高ROIシナリオを選択します（PSP-feilover、遅延によるオートスケール、機能低下）。ポリシー/リミット/ロールバックを記述します。
ネッド。3-4：アクションオーケストレーター、秘密と役割、インシデントプラットフォームとの統合を実装する。オブザビリティと監査を追加します。
ネッド。5-6：「影」モードのパイロット（シミュレートのみ）→A/B効果推定；それから低い適用範囲のプロダクトに含んで下さい。
ネッド。7-8：スクリプトのディレクトリ（database/cache/queues/front）を展開し、ステータスページとCommsに関連付けます。
ネッド。9-10： FinOps制限ルール（コスト/SLI）を追加し、高リスクのためのデュアルコントロールを実装します。
ネッド。11-12：卓上/カオスの教え、KPI/KRIの改訂、ガイドラインの公表、およびオンコールトレーニング。

14）アーティファクトとパターン

自動修復ポリシー：条件、アクション、制限、TTL、ロールバック、所有者、リスククラス。
Runbook-Action Spec：必須条件、ステップ、チェック、エラー、モニタリング、ロールバック・ロジック。
Change-Control：誰がポリシー、PRレビュー、テスト、差分とバージョンをルールすることができます。
証拠パック：SLOインパクトログ/トレイル/メトリクス、死後/監査後のレポート。

15） Antipatterns

原因とSLO→フラップを確認せずに「症状を治療する」

ロールバックとTTLのないアクション→凍結劣化。
ガードレールのないユニバーサルスクリプト→カスケーディングクラッシュ。
監査とポリシーのバージョン管理の欠如。
コスト（制限なしのオートスケール）とコンプライアンス（PIIエクスポート）を無視します。
P1リスクにおけるヒューマン・イン・ザ・ループのない完全な自律性。

合計

自動エラー訂正は管理ループです：SLOシグナル→ガードレール付きポリシー→ロールバック→オブザビリティと監査→インシデントトレーニングによる安全なランブックアクション。このアプローチは、MTTRを大幅に削減し、スペードの収益を維持し、安全および規制要件に準拠したまま、オンコールからルーチンを削除します。

自動エラー訂正

合計

お問い合わせ

迅速な連絡

動画はまもなく更新されます

現在、私たちはプロジェクトで非常に多忙です