GH GambleHub

職務の変更と業務の移転

1)なぜデューティシフトを正式化するのか

義務の変更はリスクの重要な瞬間です。コンテキストが失われ、反応時間が増加し、アクションが複製されます。形式化されたプロセスは、MTTA/MTTRを削減し、「忘れられた尾」を排除し、コンプライアンス(誰が責任を受け入れるか、いつ)を保証します。

2)役割とカバレッジモデル

プライマリオンコール(P1)-IC到着前の最初の応答、トリアージ、調整。
セカンダリ・オン・コール(P2)-バックアップ、過負荷/エスカレーション中に接続します。
デューティマネージャー/IC-of-the-dayは、SEV-1+のインシデントリーダーです。
フォロー・ザ・サン(マルチタイムゾーン)またはフォロー・ザ・ムーン(他の地域の夜間カバレッジ)。
時間ウィンドウ:シフトから30分±リリース/危険な作業を避けます。

3)回転スケジュール(例)

24/7、8時間シフト:朝/昼/夜、3旅団、P1+P2。
24/7、12時間シフト:スイッチ数が少なく、疲労のリスクが高い-「補償ウィンドウ」が必要です。
5 × 8(仕事日)+週末プール:プロダクトチーム、週末-プラットフォーム/SREによる一次カバレッジ。
ハイブリッド:平日「オフィス時間」、夜/週末-太陽に従ってください。

公平性の規則:カレンダーの回転、休日/休暇の会計、期間あたりの最大Nの夜間シフト。

4)シフトハンドオーバーカード

最低の内容の標準:
  • Whenとwho: 'Date/time (UTCとlocal)'、 transmits→accept;連絡先をP1/P2します。
  • システムステータス:SLO/SLAサマリー、アクティブアラート、既知の劣化。
  • オープンインシデント:ID、 SEV、現在のステップ、所有者は誰ですか、次のアクション/ETA。
  • シフトウィンドウのリスク:計画作業、リリース、移行、制限状態(プロバイダ割り当て)。
  • 重要なチケット/タスク:優先度、ブロッカー、期限。
  • 外部のコミュニケーション:ステータスページ/クライアントの更新でアクティブな投稿。
  • 既知の回避策:含まれる劣化フィーチャーフラグ、時間制限。
  • Domenica:決済プロバイダ/KYC/CDN-ステータスとルーティング。
  • ハウスキーピング:誰が明日コール、人々が利用できないウィンドウ(集会/フライト)。

5)「ハンドオーバーシフト」チェックリスト(発行者)

  • シフトカード(すべてのフィールド)を更新し、'#oncall-handover'チャンネルのリンクを修正しました。
  • 「口頭知識」をチケット/ノートに翻訳しました。「頭の中」のタスクはありません。
  • すべてのインシデントがあります:SEV、所有者、次のステップ、次の更新時間。
  • ステータスページとクライアントの更新は、実際のステータスに対応しています。
  • (手順に従って)騒々しい/偽のアラートを無効にするか、カードにマークされています。
  • 次のシフトウィンドウの外部プロバイダのクォータ/制限を確認しました。
  • 音声/ビデオで5〜10分間同期(SEV-1+がアクティブな場合)。
  • 転送(ボット/チケット)の事実を記録し、受信者を示した。

6)「私はシフトを受け入れます」チェックリスト(受信パーティー)

  • カードを読んで、オープンな質問を明確にしました。
  • 過去2〜4時間でSLO/アラートダッシュボードをチェックしました。
  • ボット内のP1/P2の役割(アサイン)とポットのサウンド/チャンネルを確認しました。
  • アクティブインシデントの所有権を想定し、更新タイマーを更新。
  • 予定されている作品/リリースをチェックし、最初の30分間危険な操作をキャンセルしました。
  • チャンネルに"エコーメッセージ"を作りました:"私はシフト、アクティブなインシデントを取りました:……、言葉。update in"……

7)通信規格

検索:'#oncall'、'#incident-warroom- <ID>'、'#statuspage'。
更新間隔:SEV-0: 15分、SEV-1: 30分、SEV-2+:60分。
更新形式:Impact-Diagnostics-Actions-Next update (time)。
エスカレーション:N分で進捗がない→行列でTL/Platform/DB/Secを接続します。
所有権の明確さ:すべてのアクションにはパフォーマーとETAがあります。

8)タスクの転送(ないインシデント)

転送基準:タスクブロックSLO/リリース/コンプライアンスまたは期限切れ。
デザイン:「次のステップの定義」と予想される結果を持つチケット、すべてのアーティファクト(ログ/写真/グラフ)が添付されています。
優先順位付け:Kanban-スイムレーン「オンコールハンドオーバー」。
締め切り:送信には期日があります。遅延はサービスの所有者にエスカレートされます。

9)オートメーションと統合

回転カレンダー:ページャーとの同期;ボットはシフトの初めに「誰が勤務しているのか」を公開します。
ChatOps: '/handover start'、ソースからのカードの自動収集(SLOステータス、オープンインシデント、リリース)。
発券:P1/P2による所有者の自動割り当て。「handover」タグ。
ステータスページ:テンプレートを使用して公開アップデートをブリッジします。
監査:送信ログ(誰/受け入れられたとき)、SEVとの通信およびレポート。

10)疲労管理

制限:最大Xページ/時間と夜の行のY-P2/escalationに移動します。
非クリティカルアラート(ページングの代わりにチケット)の静かな時間。
アフタータイム補償とポストインシデント休息。
新しいオンコールエンジニアのためのトレーニングとシャドーイング。
騒々しいシフトの振り返り→アラートとプレイブックのチューニング。

11)シフトとパスの品質指標

ハンドオーバーディフェクトレート:シフト中のコンテキスト損失を伴うインシデントの割合。
シフト周りのMTTA:中央/ピーク±スイッチから30分。
ミス/レイトアップデート:期限切れのSEVアップデート。
アラート衛生:%False Pages;runbook/ownerなしのアラート。
シフトあたりの負荷:ページ/時間、アクティブな作業の平均期間。
満足度:NPSシフト(オンコール調査)、スケールでの疲労。

12)インシデント管理およびRCAとのコミュニケーション

アクティブインシデントはシフト時に閉鎖されません。責任は明示的に移され固定されます。
RCAでは"、Shift Impact'セクションが必要です。コンテキストドリフト、遅延更新、ダブルアクションがありました。
CAPA:カードの改善、チェックリスト、自動化、訓練。

13)セキュリティ、コンプライアンス、機密性

PII/秘密はカードの無料テキストで禁止されています。セキュアなリポジトリへのリンク。
一時アクセス:シフトウィンドウ(JIT/JEA)、キーの回転のために通話中の権利が発行されます。
監査証跡:カードとステータスページを読み取り/変更した不変のログ。
規制:クライアント通知の条件はシフトカードで制御されます。

14)アンチパターン

カード/チケットなしで「口頭で渡します」。
ICとバックアップなしでシフト時に正確にリリースします。
P2なしで「飛行機/地下鉄」の人のポケモン。
次のステップ/ETAなしで「シート」としてカード。
個人チャットのトリアージ-情報が失われ、監査は不可能です。
移送の事実の記録はありません-「誰が答えた」紛争。

15)テンプレート

シフトカードテンプレート(圧縮)


Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex      P2: @duty-olga      IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.

Echoテンプレートの受信


[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.

16)毎日の練習に埋め込むこと

毎日のシフトの儀式:アクティブなインシデントで5〜10分の音声同期。
毎週のカード監査:選択的に完全性/関連性をチェックします。
ゲームデイ:多くの平行イベントを伴うシフトのシミュレーション。
Dockディレクトリ:リポジトリ内のカード/チェックリストのテンプレート、コードとしてレビュー。

17)ボトムライン

よく組織化されたシフトとトランスファーは、オペレーティングマシン全体の「潤滑」です。シフトカード、短い同期、厳格なチェックリスト、オートメーション、チームの安定性に対する懸念は、品質を損なうことなく、危険な瞬間をルーチンに変えます。コンテキストは保存され、反応時間は安定しており、ユーザーは義務の変更にまったく気づきません。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。