セントラルコントロールダッシュボード
1)目的と原則
中央制御ダッシュボード(以下、CDUという。)は、オペレーションの意思決定を行うための単一のウィンドウです。テレメトリー、ITSM、 CI/CD、サービスカタログ、ワークカレンダー、プロバイダからの信号を集約し、実用的なウィジェットに変換します。
原則:- SLO-first: top-ターゲットSLOとバーンレート(Tier-0/1)。
- ワンクリックで操作:ウィジェットからPlaybook/Runbookまたはチケットまで。
- 統一辞書:同じSEV、ステータス、色、しきい値。
- イベントアノテーション:すべてのグラフのreleases/configs/window。
- 役割と権限:個人的なビュー(オンコール、IC、管理)。
- 低ノイズ-ソースクォーラム、重複排除、およびウィンドウング。
2)役割と主なシナリオ
オンコール(P1/P2):「何がオンになっているのか」をすばやく理解し、プレイブックを開きます(≤ 1クリック)。
IC: SEVの宣言、開始戦争部屋モード、com更新の制御ケイデンス。
リリースマネージャ:ゲート、カナリアの進捗状況、ロールバック準備状況を参照してください。
サービスオーナー/製品:ビジネスSLI(支払い/登録の成功)、機能の影響。
SRE/プラットフォーム:容量、オートスケール、異常、DR対応。
FinOps: $/unit、 overspending、予算アラート。
セキュリティ/法的:姿勢、キー証明書、回転ウィンドウ、WORM監査リンク。
3) CDA情報アーキテクチャ
上の棚(英雄のパネル):- SLO Tier-0/1 (availability/latency/succcess)燃焼率2-de。
- SEVステータス:アクティブなインシデントとそのタイムライン。
- リリース状況:カナリア/ブルーグリーン、アクティブなゲート。
- 信号プロバイダ(PSP/KYC/CDN)。
- メンテナンスウィンドウ(現在/24時間)、サプレッションカード。
- 容量:予測とのCPU/RAM/IO/queue-depth/p95レイテンシ。
- FinOps: $/1k txn、毎日の支出と予算、ログボリュームの異常。
- DataOps:ショーケースの鮮度、SLAパイプライン、DQエラー。
- セキュリティ:証明書の用語、シークレットローテーション、重大な脆弱性(年齢/SLA)。
- 相関「release ↔ SLO」、 「provider ↔ failure/latency」。
- クイックリンク:ログ、トレイル、チケット、プレイブック、SOP、エスカレーションマトリックス。
4)ウィジェット(参照セット)
1.SLO&バーンレート
現在のSLI、ターゲット、およびエラー予算消費量(1h/6h)を示します。
アクション:サービスの劣化プレイブックを開きます。
2.インシデント(SEVパネル)
Active/Recent、 Declare/Comms Timers、 IC/Commsロール。
アクション:オープンウォールルーム、更新テンプレート、ICチェックリスト。
3.リリース/構成
カナリア1→5→25%、フラグ、ロールバック(ボタン/SOPリンク)。
注釈:バージョン、コミット、作者。
4.メンテナンスウィンドウ
現在/今後の、影響を受けたサービス/地域;抑制マスク。
アクション:通知を調整し、SLOガードを有効にします。
5.容量/オートスケール
消費予測(ナイーブ/AR)、ホットスポットカード、ウォームプール。
アクション:リクエストクォータ/スケールルール(PR to repo policy)。
6.FinOps
$/unit、トップ「高価な」クエリ/ログ、毎日の書き込みと予算。
アクション:レポートと推薦(サンプリングログ、アーカイブ)を開きます。
7.プロバイダ
SLA/PSP/KYC/CDNの状態、ルートの重量、folbackの準備。
アクション:重量、パートナーへのコミュニケーションテンプレートを切り替えます。
8.セキュリティ
証明書(≤ 30d)、ローテーションの遅延、脆弱性(年齢)、疑わしいイベント。
アクション:IRプレイブック/チケットを開きます。
9.DataOps
ウィンドウの鮮度、スキップ率、パイプライン障害、DLQ。
アクション:バックフィル/検疫/ロールバック変換。
5)状態/色/しきい値(参照)
グリーン:ターゲット内のSLI、バーンレート<1 ×。
Amber: SLIが劣化し、燃焼率1-2 ×、 P95が増加しますが、回避策があります。
赤:違反または予測バーンアウト<1h;SEV-1/0を開きます。
グレー:抑制、テレメトリーなし(ソースエラー)。
6)注釈と相関関係
リリース/設定/ウィンドウ/プロバイダのステータスがSLOグラフに表示されます。
→差分マーカー、著者、ゲート、ロールバック/フォールバック/SOPボタンをクリックします。
インシデントでは、タイムラインはChatOpsの注釈とアクションから構築されます。
7)データソースと検証
テレメトリー:trace_idを使用したメトリック/トレイル/ログ。
ITSM:インシデント/問題/変更(ステータス/SLA)。
CI/CD:リリース、署名、アーティファクト、テスト。
サービスディレクトリ/CMDB:所有者、SLO、依存関係。
カレンダー:メンテナンスウィンドウ。
プロバイダ:status-API+手動確認(別のショーケースに着陸)。
FinOps:課金/リソースタグ、ログボリューム、egress。
品質管理:クォーラム、重複プローブ、SLAの鮮度、「ダム」ソースへのアラート。
8)表示モード
War-room:固定レイアウトSLO/インシデント/リリース/Comms-timer。
エグゼクティブ(28日):トレンドMTTR/MTTD/SEVミックス、$/ユニット、SLO遵守。
オンコール:コンパクトな「夜」パネル(ダークモード、多数)。
マルチテナント/リージョン:サービス/リージョン/テナントフィルタ;プリセット。
9)ナビゲーションとアクション(ワンクリック)
ボタン:'/declare sev1'、'/freeze'、 '/rollback'、'/status update'、 'open playbook'。
Drill- ดาวn: SLO→graph→logs/trails with prefilled filter (trace_id、 release_id)。
共有:チケット/ステータスページ内のパネルのスナップショット。
10)セキュリティ、アクセス、監査
SSO/OIDC+RBAC/ABAC:役割とスコープ(ビュー/アクション)。
JIT/JEA:「危険」行動は一時的な昇給でのみ利用可能です。
Audit unchangeable: who pressed who、 which requests/commands left。
秘密:表示されません。秘密マネージャーへのリンクのみです。
11) CDU成熟度の指標
アクション性≥ 90%:クリックすると、グラフだけでなくアクションにつながります。
≤中のCCDから最初のアクションまでの時間SEV-1/0 2分。
CDUが「真実の源」だった事件の割合≥ 95%です。
ウィジェットの鮮度:データ「新鮮な5分」で%。
カバレッジ:SLOカードとリリースアノテーションによる重要なサービスの%。
ゼロブラインドスポット:今週のサイレントソース=0。
12)チェックリスト
デザイン・デザイン
- 役割とスクリプトについて説明します(P1/P2/IC/Exec/FinOps/Security/DataOps)。
- color/SEV/threshold辞書は一貫しています。
- 量子と鮮度SLAを持つデータソース。
- War-room/On-call/Executiveレイアウト。
- ChatOps/ITSM/CI/CD/CMDB統合計画。
操作
- ウィジェットパスリンタ(必須フィールド、所有者、しきい値)。
- 週1回-DPCの改善によるエスカレーション/アラートレビュー。
- AAR/RCAにインシデントスナップショットが添付されています。
- ダークモード/モバイルデューティプリセット。
- 「ミュート」ソースと注釈の正確性のテスト。
13)テンプレート(アイデア)
13.1ウィジェット定義(YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13.2インシデントカード(JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13.3リリースとの接続
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13.4 FinOpsウィジェット
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14)アンチパターン
アクションやプレイブックのない「グラフの壁」。
コマンドの異なる色/しきい値→SEVの混乱。
リリース/ウィンドウの注釈なし-複雑な原因相関。
クォーラムのない重複ソースはfalse Page/noiseです。
パネルの秘密/キー-漏洩のリスク。
スローレンダリング(リクエスト/集計はキャッシュされません)-戦闘でパネルが開かれません。
15)導入ロードマップ(4〜8週間)
1.ネッド。1:役割による要件の収集、ステータス/色の辞書、3つのモードのレイアウト。
2.ネッド。2: SLO/インシデント/リリース/Windows接続、注釈、ChatOpsアクション。
3.ネッド。3: FinOps/容量/プロバイダ/DataOps/セキュリティ、ソースのクォーラムを追加します。
4.ネッド。4:戦争部屋モード、ITSMのスナップショット、Tier-0のパイロット。
5.ネッド。5-6:パフォーマンスの最適化、モバイル/コールプリセット、ウィジェットリンタ。
6.ネッド。7-8:成熟度の指標、毎週のレビュー、自動推奨事項(サンプリングログ、クォータ、フォールバック)。
16)ボトムライン
CDUは「美しいグラフ」ではなく、SLOと上記のバーンレート、1つのコンテキストでのインシデント/リリース/ウィンドウ、ChatOpsとSOPによるインスタントアクション、確認されたソースと注釈。このダッシュボードは、MTTA/MTTRを削減し、通信を簡素化し、FinOpsをサポートし、操作を透明で予測可能にします。