職務の変更と業務の移転
1)なぜデューティシフトを正式化するのか
義務の変更はリスクの重要な瞬間です。コンテキストが失われ、反応時間が増加し、アクションが複製されます。形式化されたプロセスは、MTTA/MTTRを削減し、「忘れられた尾」を排除し、コンプライアンス(誰が責任を受け入れるか、いつ)を保証します。
2)役割とカバレッジモデル
プライマリオンコール(P1)-IC到着前の最初の応答、トリアージ、調整。
セカンダリ・オン・コール(P2)-バックアップ、過負荷/エスカレーション中に接続します。
デューティマネージャー/IC-of-the-dayは、SEV-1+のインシデントリーダーです。
フォロー・ザ・サン(マルチタイムゾーン)またはフォロー・ザ・ムーン(他の地域の夜間カバレッジ)。
時間ウィンドウ:シフトから30分±リリース/危険な作業を避けます。
3)回転スケジュール(例)
24/7、8時間シフト:朝/昼/夜、3旅団、P1+P2。
24/7、12時間シフト:スイッチ数が少なく、疲労のリスクが高い-「補償ウィンドウ」が必要です。
5 × 8(仕事日)+週末プール:プロダクトチーム、週末-プラットフォーム/SREによる一次カバレッジ。
ハイブリッド:平日「オフィス時間」、夜/週末-太陽に従ってください。
公平性の規則:カレンダーの回転、休日/休暇の会計、期間あたりの最大Nの夜間シフト。
4)シフトハンドオーバーカード
最低の内容の標準:- Whenとwho: 'Date/time (UTCとlocal)'、 transmits→accept;連絡先をP1/P2します。
- システムステータス:SLO/SLAサマリー、アクティブアラート、既知の劣化。
- オープンインシデント:ID、 SEV、現在のステップ、所有者は誰ですか、次のアクション/ETA。
- シフトウィンドウのリスク:計画作業、リリース、移行、制限状態(プロバイダ割り当て)。
- 重要なチケット/タスク:優先度、ブロッカー、期限。
- 外部のコミュニケーション:ステータスページ/クライアントの更新でアクティブな投稿。
- 既知の回避策:含まれる劣化フィーチャーフラグ、時間制限。
- Domenica:決済プロバイダ/KYC/CDN-ステータスとルーティング。
- ハウスキーピング:誰が明日コール、人々が利用できないウィンドウ(集会/フライト)。
5)「ハンドオーバーシフト」チェックリスト(発行者)
- シフトカード(すべてのフィールド)を更新し、'#oncall-handover'チャンネルのリンクを修正しました。
- 「口頭知識」をチケット/ノートに翻訳しました。「頭の中」のタスクはありません。
- すべてのインシデントがあります:SEV、所有者、次のステップ、次の更新時間。
- ステータスページとクライアントの更新は、実際のステータスに対応しています。
- (手順に従って)騒々しい/偽のアラートを無効にするか、カードにマークされています。
- 次のシフトウィンドウの外部プロバイダのクォータ/制限を確認しました。
- 音声/ビデオで5〜10分間同期(SEV-1+がアクティブな場合)。
- 転送(ボット/チケット)の事実を記録し、受信者を示した。
6)「私はシフトを受け入れます」チェックリスト(受信パーティー)
- カードを読んで、オープンな質問を明確にしました。
- 過去2〜4時間でSLO/アラートダッシュボードをチェックしました。
- ボット内のP1/P2の役割(アサイン)とポットのサウンド/チャンネルを確認しました。
- アクティブインシデントの所有権を想定し、更新タイマーを更新。
- 予定されている作品/リリースをチェックし、最初の30分間危険な操作をキャンセルしました。
- チャンネルに"エコーメッセージ"を作りました:"私はシフト、アクティブなインシデントを取りました:……、言葉。update in"……
7)通信規格
検索:'#oncall'、'#incident-warroom- <ID>'、'#statuspage'。
更新間隔:SEV-0: 15分、SEV-1: 30分、SEV-2+:60分。
更新形式:Impact-Diagnostics-Actions-Next update (time)。
エスカレーション:N分で進捗がない→行列でTL/Platform/DB/Secを接続します。
所有権の明確さ:すべてのアクションにはパフォーマーとETAがあります。
8)タスクの転送(ないインシデント)
転送基準:タスクブロックSLO/リリース/コンプライアンスまたは期限切れ。
デザイン:「次のステップの定義」と予想される結果を持つチケット、すべてのアーティファクト(ログ/写真/グラフ)が添付されています。
優先順位付け:Kanban-スイムレーン「オンコールハンドオーバー」。
締め切り:送信には期日があります。遅延はサービスの所有者にエスカレートされます。
9)オートメーションと統合
回転カレンダー:ページャーとの同期;ボットはシフトの初めに「誰が勤務しているのか」を公開します。
ChatOps: '/handover start'、ソースからのカードの自動収集(SLOステータス、オープンインシデント、リリース)。
発券:P1/P2による所有者の自動割り当て。「handover」タグ。
ステータスページ:テンプレートを使用して公開アップデートをブリッジします。
監査:送信ログ(誰/受け入れられたとき)、SEVとの通信およびレポート。
10)疲労管理
制限:最大Xページ/時間と夜の行のY-P2/escalationに移動します。
非クリティカルアラート(ページングの代わりにチケット)の静かな時間。
アフタータイム補償とポストインシデント休息。
新しいオンコールエンジニアのためのトレーニングとシャドーイング。
騒々しいシフトの振り返り→アラートとプレイブックのチューニング。
11)シフトとパスの品質指標
ハンドオーバーディフェクトレート:シフト中のコンテキスト損失を伴うインシデントの割合。
シフト周りのMTTA:中央/ピーク±スイッチから30分。
ミス/レイトアップデート:期限切れのSEVアップデート。
アラート衛生:%False Pages;runbook/ownerなしのアラート。
シフトあたりの負荷:ページ/時間、アクティブな作業の平均期間。
満足度:NPSシフト(オンコール調査)、スケールでの疲労。
12)インシデント管理およびRCAとのコミュニケーション
アクティブインシデントはシフト時に閉鎖されません。責任は明示的に移され固定されます。
RCAでは"、Shift Impact'セクションが必要です。コンテキストドリフト、遅延更新、ダブルアクションがありました。
CAPA:カードの改善、チェックリスト、自動化、訓練。
13)セキュリティ、コンプライアンス、機密性
PII/秘密はカードの無料テキストで禁止されています。セキュアなリポジトリへのリンク。
一時アクセス:シフトウィンドウ(JIT/JEA)、キーの回転のために通話中の権利が発行されます。
監査証跡:カードとステータスページを読み取り/変更した不変のログ。
規制:クライアント通知の条件はシフトカードで制御されます。
14)アンチパターン
カード/チケットなしで「口頭で渡します」。
ICとバックアップなしでシフト時に正確にリリースします。
P2なしで「飛行機/地下鉄」の人のポケモン。
次のステップ/ETAなしで「シート」としてカード。
個人チャットのトリアージ-情報が失われ、監査は不可能です。
移送の事実の記録はありません-「誰が答えた」紛争。
15)テンプレート
シフトカードテンプレート(圧縮)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
Echoテンプレートの受信
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16)毎日の練習に埋め込むこと
毎日のシフトの儀式:アクティブなインシデントで5〜10分の音声同期。
毎週のカード監査:選択的に完全性/関連性をチェックします。
ゲームデイ:多くの平行イベントを伴うシフトのシミュレーション。
Dockディレクトリ:リポジトリ内のカード/チェックリストのテンプレート、コードとしてレビュー。
17)ボトムライン
よく組織化されたシフトとトランスファーは、オペレーティングマシン全体の「潤滑」です。シフトカード、短い同期、厳格なチェックリスト、オートメーション、チームの安定性に対する懸念は、品質を損なうことなく、危険な瞬間をルーチンに変えます。コンテキストは保存され、反応時間は安定しており、ユーザーは義務の変更にまったく気づきません。