SREの文化とエンジニアリングの原則

1） SRE文化とは

SRE文化は、信頼性を管理可能にする価値と実践のセットです。SLOの目標→エラー予算→変更の意識的なリスク→迅速な安定化→インシデントに関するトレーニング。
キーパラダイム：速度≠信頼性の敵です。リリーススピードは、リスクを計測して自動化する場合に可能です。

コア値：

ユーザー中心：ユーザーが見ている信頼性（SLI/SLO）を示します。
Automation-first-反復可能なアクション→スクリプト/ポリシー/コントローラ。
責任のない：エラーは全身的であり、人々ではなく原因を調査します。
データ駆動型：メトリクスとエラー予算に基づいたソリューション。
シンプルさ：シンプルでテスト可能なメカニズム>「魔法」ソリューション。

2） SREエンジニアリング哲学

1.SLO/SLIとエラー予算は優先順位とアラートの基礎です。
2.インシデント→安定化→RCA-最初の症状、その後、原因。
3.手作業（toil）の削減は、SRE時間の50％ ≤目標であり、時間の経過とともに減少します。
4.生産準備-外部トラフィックの前に「生産準備」が必要です。
5.シンプルさと孤立-リレーションシップが少なくなり、ブラスト半径の制限が増えます。
6.デフォルトの可視性-メトリック/ログ/トレース、SLOウィジェット、合成。
7.変更は管理されます-プログレッシブデリバリ、カナリア計算、自動ロールバック。
8.設計によるセキュリティ-秘密、アクセス、監査、最小権限。
9.研究サイクル-ドリル、カオスゲーム、死後、レトロスペクティブ。
10.FinOps-awareness-「ナインの価格」、費用対効果の高いSLO。

3）儀式とプロセス

3.1生産準備レビュー（PRR）

トラフィックを有効にする前に、サービスには次のものが必要です：

SLI/SLO、ダッシュボード、アラート（高速/遅い書き込み）。
ヘルスエンドポイント'/healthz'、'/readyz'、 '/startupz'。
インシデントのRunbook/Playbook、オーナー/オンコール、エスカレーションチェーン。
バックアップ/DR計画、リソース制限、予算計算。
フォールトトレランステスト（フィーチャーフラグ、ロールバックスクリプト）

3.2週間のSLOブリーフィング

サービスエラーバジェットのステータス。
ウィークリーインシデント、CAPAの進捗状況。
リリースリスク：入金（予算）によって許可/制限されています。

3.3費用なしの死後

事実とタイムライン、ユーザーの影響、助け/妨げられました。
全身的な原因（プロセス/ツール）、ない「犯人」。
所有者と期限、社内の宣伝と特定のCAPA。

3.カオスとドレアルの4つのゲーム

故障の計画インジェクション（ネットワーク、データベース、キャッシュ、ノード）+ターゲットSLO。
「ゲームの日」：安定化の時間、MTTRの測定、playbookの調節。

4）警報および騒音

原則：

症状のみ警告：壊れたSLOまたはユーザーパス。
マルチウィンドウ、マルチバーン：高速かつ遅いチャンネル。
クォーラム/アンチフラッピング：'for'遅延、メンテナンス中の抑制。
「CPU> 80％」でダウン-ダッシュボードへのそのような信号は、ページャーではありません。

アラート品質KPI：

実用的なの割合≥ 80％です。
ACK時間中央値≤ 5分（P1）です。
Pagerの疲労軽減：エンジニア1人あたり週1泊のページを≤します。

5）変更管理

進歩的な配達：カナリア→10％→25％→50％→100％。
SLO信号の自動ロールバック（エラー/レイテンシ）。
グローバルロールバックの代わりにフィーチャーフラグとキルスイッチ。
リスクによるポリシーの変更：高速レーンrow-risk；CAB-ハイリスクのみ。

カナリアステップパターン（イデオロギー的に）：

yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6） toil（日常的な手作業）の削減)

toilソースの例：手動デプロイ、再起動、「give access」チケット、キューのクリーニング。

アプローチ：

繰り返し可能なタスクインベントリ→オートメーション/セルフサービス。
KPI：「自動化されたステップ/インシデント」、「セルフサービスへの分」の時間。
プラットフォームサービスカタログ（名前空間、DB、キュー、ダッシュボード、アラート）。

7）観察可能性およびSLO第1設計

ゴールデンシグナル（レイテンシー、トラフィック、エラー、飽和）。
各チームのSLOカード：ゴール、ウィンドウ、予算、バーンアラート。

ドリルダウン： メトリックからログ/トレースへ；デフォルトのログの'trace_id'

合成：blackbox+ヘッドレススクリプト（ログイン/入金/チェックアウト）。

8）容量管理および持続可能性

容量計画：目標RPS/競争力、AZ/regionによる在庫。
隔壁/取除くこと：隔離のプール、失敗の二次機能最初に。
バックプレッシャーとキュー：ラグ制御、DLQ、適応的競争力。
フェイルオーバーとDR： RPO/RTO、通常のDRドリル。

9）信頼性の一部としての安全

秘密：秘密マネージャー、JITアクセス、監査。
周囲のWAF/DDoSガード、クライアント/テナントの制限。
PII最小化、DSAR/Legal Hold in incidents。
サプライチェーンセキュリティ：アーティファクトの署名、基本画像ポリシー。

10）電話での健康

「シングル」なしの回転、残りの明確な窓。
夜間のスレッショルドはSLO P1/P2のみです。
Psychohygiene：睡眠不足は、運用上のリスクとして記録されています。
メトリクス：ページ/週、ナイトページ/エンジニア、回復時間。

11） SRE成熟度指標

SLOカバレッジ：SLO/アラートが90％ ≥のクリティカルパスの割合。
エラー-予算ガバナンス：フリーズルールがあり、適用されます。
Toil：時間の≤ 30-40％、下降傾向。
MTTD/MTTR：四半期ダイナミクスの中央値。

自動緩和率： 自動操作によるインシデントの％

PRRパスレート：生産準備が完了したリリースの割合。
Postmortem SLA： SEV-1-postmortem ≤ 48時間。

12）ドキュメントと知識

最小セット：

ランブック/プレイブック（トップスクリプト：5xxスパイク、DBラグ、Kafkaラグ、NodeNotReady、 TLS）。
SLOカードとダッシュボード。
PRRチェックリストとリリーステンプレート。
プラットフォームサービスカタログおよびOLA/SLA。
トレーニング資料：SRE 101、 Chaos 101、 On-call 101。

13）アンチパターン

ヒーロー文化：システム修正の代わりに「救助者」。
騒々しいアラート：CPU/ドライブ、数百の不要な信号。
「DevOpsは男です」：smeared責任、所有者はありません。
SLOの欠如：「すべてを緑に保つ」→優先カオス。

遅延した死後と「魔女狩り」

カナリアのないグローバルロールバック。
config/repoの秘密;アクティビティ監査はありません。
実用的な信号なしで「美しいグラフ」としての観測性。

14）アーティファクトパターン

14.1 SRE-Charter（フラグメント）

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14.2 ミニPRRチェックリスト

SLI/SLOとバーンアラートが設定されている
健康エンドポイントと合成
Runbook/Playbook+owner/on-call
ロールバック/フィーチャーフラグ/カナリア
レイテンシ/エラー/トラフィック/彩度ダッシュボード
制限/クォータ/ガードレールのセキュリティ
DR計画とバックアップのテスト

15）ステージ別の実装（4スプリント）

スプリント1-財団

重要なユーザーパスとSLIを定義します。
SLOを策定し、バーンアラートを実行します。
PRRと最低限のプレイブックを入力します。

スプリント2-変更管理

カナリア計算、SLOによる自動ロールバック。
セルフサービスの操作、サービスカタログ。
在庫と自動化計画を作成します。

スプリント3-トレーニングサイクル

死後の儀式、カオスゲームカレンダー。
ダッシュボードSLO+インシデント、レポートのエラー予算。

スプリント4-最適化とスケール

SLOポートフォリオ、FinOps 「9あたりのコスト」。
DR規律の実施、安全監査。
KPIオンコール、バーンアウト防止。

16）ミニFAQ

SRE=「すべてを修正」？
いいえ、そうではありません。SREは、SLO、アラート、プロセス、自動化、トレーニングなどの信頼性システムを管理します。

信頼性に投資するためにビジネスを説得する方法は？
ROIを表示：MTTRの低減、コンバージョン率の向上、SLAクレジットの削減、コスト・ツー・サーブの低減、安定したリリース。

別のSREコマンドが必要ですか？
ハイブリッドモデル：重要な製品におけるプラットフォーム+組み込みSREの戦略的SRE。

合計

SRE文化は位置ではなく、リスクを扱う方法です。SLO→エラー予算→マネージド変更→自動化→トレーニング。原則を修正し、儀式（PRR、 post-mortems、 chaos games）を開始し、toilを撃ち、「デフォルトで」観測可能性を構築し、それを呼び出します。これにより、持続可能な開発スピード、予測可能なリリース、信頼性の高い経済的なプラットフォームが得られます。

SREの文化とエンジニアリングの原則

スプリント2-変更管理

スプリント3-トレーニングサイクル

スプリント4-最適化とスケール

合計

お問い合わせ

迅速な連絡

動画はまもなく更新されます

現在、私たちはプロジェクトで非常に多忙です