チームの回転とシフト
1)回転目標
回転は、連続的なカバレッジ、予測可能な負荷、およびバーンアウトやコンテキストの損失なしで迅速な応答を提供するための全身的な方法です。主な目的:- ページや夜の時間の配布でも;
- 不可抗力の場合の保証された取り替え;
- スケジュール、休暇、制限の透明性;
- SLA/コンプライアンス要件の遵守と監査の保持。
2)役割とカバレッジ
P1(プライマリオンコール):最初の応答、トリアージ、ICとの同期。
P2(セカンダリ・オン・コール):過負荷/エスカレーションのバックアップ。
IC-of-the-day/Duty Manager: SEV-1+のリーダー、意思決定の調整。
オブザーバー/シャドウ:ページなしのシャドウ学習。
- シフトから30分±解放を避けて下さい;
- 複雑なウィンドウの場合は、2つのアクティブスロット(P1+P2)を保持します。
- ICには専用のシフトがあり、P1は結合しません。
3)回転モデル
朝/昼/夜(3人の乗組員)。最低の疲労、より多くの切換え。
12時間シフトで24時間365日:スイッチ数が少なく、補償が必要で、制限が厳しくなります。
フォロー・ザ・サン:地域はタイムゾーンを越えてカバレッジを送信します。深夜のページが少なくなります。
Follow-the-moon:夜のカバレッジは、局所的なプライムタイム外の負荷のために「遠い」領域に移動されます。
ウィークオン/ウィークオフ:1週間のオンコール、そして1週間のページなし(成熟したチームと低騒音のために)。
4)公平性・持続可能性に関するルール
夜/週末のクォータ:期間ごとに1人あたり最大のN泊とM週末のシフト。
ページのバランス:エンジニアが期間ごとに>ターゲットのしきい値を持っている場合-再配布/修復。
シングルの禁止:夜の窓のみP1+P2。
利用不可ウィンドウ:事前に計画されている(休暇/病気/トレーニング)、スケジュールは自動的に再計算されます。
シャドウ期間:新しいオンコールでは、シェードで≥ 2シフトがかかります。
5)スケジュールの企画・出版
計画の地平線:6-8週間、改訂-2週間ごと。
ローテーションの一般カレンダー(公開読み取り専用)、各スロット-P1/P2/IC/Shadow、連絡先。
交換(スワップ)はチケット/アプリケーションで発行され、ブリッジボットによって確認されます。
パブリケーション:T-14日間、変更-チーム通知。
6)引き渡し手続き
シフトカード(必須フィールド):アクティブインシデント(ID/SEV/所有者)、次のステップ/ETA、ウィンドウリスク(リリース/移行/クォータ)、SLOステータス、有効な劣化フィーチャーフラグ、ステータスページ/comms。
チェックリスト「パス」:カードが更新され、すべての口頭知識→チケット、更新のタイマーが設定されている、連絡先P2が確認されています。
私はチェックリストを「受け入れる」:私はカードを読み、2-4時間でダッシュボードをチェックし、インシデントを手に入れ、チャンネルにエコーメッセージを出しました。
7)疲労管理(疲労)
ページングの制限/時間および/またはシフト、超過したときにP2への自動エスカレーション。
P2/P3信号の静かな時間(ページクリティカル信号のみ)。
事故後の休息:重い夜(SEV-1+)の後に必須の休暇。
週間アラートレビュー→ノイズリダクション、ルール編集。
負荷監視:ページ/人のスケジュールとチームムード(NPSシフト)。
8)安全性とコンプライアンス
JIT/JEAアクセス:通話中の権利はシフトウィンドウにのみ付与されます。
監査証跡:誰が勤務していたのか、誰がどのような行動を取ったのか。不変の貯蔵。
敏感な操作(PII/支払)の義務:別の転位および許容クラス;パーソナルデバイスの無効化、SSO+mTLS。
Legal/PR/Privacyの連絡先はシフトカードにマークされています。
9)オートメーション
Calendar ↔ pager ↔ ChatOps:ボットは「who on-call」を発行し、'/swap'を許可し、ソース(ダッシュボード、チケット、リリース)からハンドオーバーカードを作成します。
シフト開始時の準備チェック:ポケットサウンド、VPN/SSO、アクセス、通信。
ドキュメントテンプレート:ルーチンとインシデントのためのSOP/Runbook;アラート内の自動参照。
リリースとの統合:リリースアノテーション→最初の30分間の非キーアラートの一時的な抑制。
10)回転品質指標
MTTA/MTTRシフト周り(切り替えから± 30分)。
ハンドオーバー欠陥率-シフトあたりの失われたコンテキストインシデントの割合。
通話時間あたりのアラート(中央値/95パーセンタイル)、%実行可能。
1人あたりの負荷-ページ/人/週;参加者間の差異。
Missed/Late Updates-Comms SLAの遅延。
スワップレートと原因(疲労/休暇/競合)。
NPSシフト(短調)とトレンド。
11)スケジュールテンプレート
A。 24/7、8時間(3旅団)
Brigade A: 08: 00-16: 00
Brigade B: 16: 00-00: 00
Brigade C: 00: 00-08: 00
Each team: P1 + P2, IC on a separate schedule (day slot)
Rotation: A→B→C every week; weekend moves in a circle
B。フォローザサン(3地域)
EU: 07:00–15:00 AMER: 15:00–23:00 APAC: 23:00–07:00 (UTC)
Each region: P1 local, P2 neighboring
IC: coincides with active region; transfer 15 minutes before shift
B。 Week-on/Week-off(低騒音)
Week 1: Team X (P1/P2) Week 2: Team Y
Daily IC common to both
Limit: no more than 2 consecutive weeks for one person
12)チェックリスト
グラフを公開する前に
- 穴のない24/7カバレッジ、各スロットのP1+P2。
- 休日/トレーニング/可用性の制限が考慮されています。
- 夜/週末のバランスは公平です。
- ICとShadowが割り当てられました。
- pager/calendarとの自動同期が有効になっています。
シフト開始
- 存在を確認したP1/P2/IC(ボット/チャット)。
- アクセス、通信、ダッシュボードのチェック。
- 受け取ったハンドオーバーカード、エコー送信。
シフト完了
- ハンドオーバーカードを更新しました。
- 次のステップ/ETAから転送されたインシデント。
- 短いAARが実行され、改善が記録された(失敗があった場合)。
13)アンチパターン
バックアップなしの夜の孤独なP1。
地平線と交換なしの1週間のスケジュールの公開。
ICとゲートなしでシフト時にリリース。
カードとチケットなしの「口頭」プログラム。
重い夜の後のゼロ補償/タイムオフ。
スワップの監査や交換の理由はありません。
トレーニングなしのローテーション:新しいオンコールはすぐに「戦いに」。
14)導入ロードマップ(4〜6週間)
1.ネッド。1:カバレッジインベントリ、モデル選択(24/7またはフォローザサン)、役割割り当て。
2.ネッド。2:開始カレンダー+pager+ボット、ハンドオーバー/SOPテンプレート。
3.ネッド。3:パイロット2-3週間サイクル、メトリクスの収集(アラート/時間、シフト周りのMTTA)。
4.ネッド。4:アラートレビュー、チューニングノイズとクォータ、シャドウシフトに入ります。
5.ネッド。5-6:補償/静かな時間の形式化、管理のためのレポート、スワップの自動化。
15)ボトムライン
回転はExcelではなくプロセスです。透明なグラフ、ロール、ハンドオーバーカード。カレンダーとページオートメーション;公正な疲労の規則および限界;質の測定基準および規則的なレビュー。このアプローチにより、シフトは予測可能になり、人々は安定し、ユーザーとパートナーはチームが時間ごとに変化することに気付きません。