Team- und Schichtrotation
1) Ziele der Rotation
Rotation ist ein systematischer Weg, um eine kontinuierliche Abdeckung, vorhersehbare Belastung und schnelle Reaktion ohne Burnout und Kontextverlust zu gewährleisten. Die Hauptziele sind:- gleichmäßige Verteilung von Pages und Nachtstunden;
- garantierter Ersatz im Falle höherer Gewalt;
- Transparenz von Zeitplänen, Urlaub und Einschränkungen;
- Einhaltung der SLA/Compliance-Anforderungen und Aufrechterhaltung des Audits.
2) Rollen und Abdeckung
P1 (Primary on-call): erste Antwort, Triage, Synchronisation mit IC.
P2 (Secondary on-call): Backup für Überlastungen/Eskalationen.
IC-of-the-day/Duty Manager: führend bei SEV-1 +, Koordination von Entscheidungen.
Observer/Shadow: Lernen im Schattenmodus ohne Pages.
- Vermeiden Sie Freigaben ± 30 Minuten nach der Schicht;
- für komplexe Fenster halten zwei aktive Steckplätze (P1 + P2);
- IC hat eine dedizierte Schicht, kombiniert P1 nicht.
3) Rotationsmodelle
24/7 mit 8-Stunden-Schichten: Morgen/Tag/Nacht (3 Teams). Minimale Ermüdung, mehr Schaltungen.
24/7 mit 12-Stunden-Schichten: Weniger Umstellungen, Ausgleich nötig und strenge Grenzen.
Follow-the-sun: Regionen übertragen Abdeckung nach Zeitzonen; Weniger nächtliche Pages.
Follow-the-moon: Die nächtliche Abdeckung wird für die Belastung außerhalb der lokalen Primetime in die „ferne“ Region verlegt.
Week-on/Week-off: eine Woche on-call, dann eine Woche ohne Pages (für reife Teams und wenig Lärm).
4) Regeln für Gerechtigkeit und Nachhaltigkeit
Übernachtungs-/Wochenendkontingente: maximal N Nächte und M Wochenendschichten pro Person pro Zeitraum.
Paging-Balance: Wenn der Ingenieur> Zielschwelle pro Periode hat - Umverteilung/Remediation.
Singles-Verbot: Nachtfenster nur P1 + P2.
Fenster der Nichtverfügbarkeit: im Voraus geplant (Urlaub/Krankheit/Training), Zeitplan wird automatisch neu berechnet.
Shadow-Perioden: Jeder neue On-Call geht ≥ 2 Schichten im Schatten.
5) Terminplanung und Veröffentlichung
Planungshorizont: 6-8 Wochen, Revision - alle 2 Wochen.
Allgemeiner Rotationskalender (öffentlich nur lesen), in jedem Slot - P1/P2/IC/Shadow, Kontakte.
Ersetzungen (Swap) werden mit einem Ticket/Antrag formalisiert und durch einen Bridge-Bot bestätigt.
Veröffentlichung: für T-14 Tage Minimum, Änderungen - mit Benachrichtigung des Teams.
6) Übertragungsverfahren (handover)
Schichtkarte (Pflichtfelder): aktive Incidents (ID/SEV/Owner), nächster Schritt/ETA, Fensterrisiken (Releases/Migrationen/Quoten), SLO-Status, eingeschlossene Degradationsflags, Status-Page/Comms.
Checkliste „Ich gebe“: Die Karte wurde aktualisiert, alle mündlichen Kenntnisse → Tickets, Update-Timer werden angezeigt, P2-Kontakt wurde bestätigt.
Checkliste „Ich akzeptiere“: Ich las die Karte, überprüfte die Dashboards in 2-4 Stunden, übernahm den Besitz der Vorfälle, machte eine Echobotschaft an den Kanal.
7) Ermüdungsmanagement (fatigue)
Paging-Limits/Stunde und/oder Schicht, Auto-Eskalation auf P2 bei Überschreitung.
Quiet Hours für P2/P3 Signale (nur Page-kritische sind betroffen).
Post-Incident-Rest: obligatorische Auszeit nach harten Nächten (SEV-1 +).
Wöchentliche Alert Review → Lärmreduzierung, Regeländerung.
Lastüberwachung: Pages/Person Zeitplan und Team Stimmung (NPS Schichten).
8) Sicherheit und Compliance
JIT/JEA-Zugänge: On-Call-Rechte werden nur für das Schichtfenster vergeben.
Audit-Trail: Wer war im Dienst, wer hat akzeptiert, welche Aktionen wurden durchgeführt; unveränderliche Lagerung.
Bereitschaftsdienst mit empfindlichen Operationen (PII/Zahlungen): getrennte Klasse von Schichten und Toleranzen; Verbot von persönlichen Geräten, SSO + mTLS.
Die Kontaktpunkte zu Legal/PR/Privacy sind in der Schichtkarte vermerkt.
9) Automatisierung
Kalender ↔ Pager ↔ ChatOps: Der Bot veröffentlicht „who on-call“, ermöglicht „/swap “, erstellt eine Handover-Karte aus Quellen (Dashboards, Tickets, Releases).
Bereitschaftsprüfung zu Schichtbeginn: Pager-Sound, VPN/SSO, Zugriffe, Kommunikation.
Dokumentvorlagen: SOP/Runbook für Routinen und Incidents; Auto-Links in Alerts.
Integration mit Releases: Release-Annotationen → temporäre Unterdrückung von Nicht-Schlüssel-Alerts für die ersten 30 Minuten.
10) Qualitätsmetriken für Rotationen
MTTA/MTTR um die Schicht (± 30 Minuten von der Schaltung).
Handover Defect Rate - Anteil der Vorfälle mit Kontextverlust pro Schicht.
Warnungen pro Rufstunde (Median/95. Perzentil),% actionable.
Laden pro Person - Page/Person/Woche; Varianz zwischen den Teilnehmern.
Missed/Late Updates - Verspätungen durch Comms SLA.
Tauschrate und Ursachen (Müdigkeit/Urlaub/Konflikte).
NPS-Schichten (laut Kurzumfrage) und Trend.
11) Zeitplanvorlagen
A. 24/7, 8 Stunden (3 Brigaden)
Brigade A: 08: 00-16: 00
Brigade B: 16: 00-00: 00
Brigade C: 00: 00-08: 00
Each team: P1 + P2, IC on a separate schedule (day slot)
Rotation: A→B→C every week; weekend moves in a circle
B. Follow-the-sun (3 Regionen)
EU: 07:00–15:00 AMER: 15:00–23:00 APAC: 23:00–07:00 (UTC)
Each region: P1 local, P2 neighboring
IC: coincides with active region; transfer 15 minutes before shift
B. Woche-an/Woche-aus (geräuscharm)
Week 1: Team X (P1/P2) Week 2: Team Y
Daily IC common to both
Limit: no more than 2 consecutive weeks for one person
12) Checklisten
Vor der Veröffentlichung des Diagramms
- 24/7 Abdeckung ohne „Löcher“, P1 + P2 in jedem Steckplatz.
- Sind die Urlaube/Ausbildungen/Beschränkungen der Fassbarkeit Berücksichtigt.
- Die Bilanz der Nächte/Wochenenden ist fair.
- IC und Schatten zugewiesen.
- Auto-Synchronisation mit Pager/Kalender aktiviert.
Die Umstellung hat begonnen
- P1/P2/IC haben die Anwesenheit bestätigt (Bot/Chat).
- Zugriffe, Kommunikation, Dashboards überprüft.
- Handover-Karte akzeptiert, Echobotschaft gesendet.
Schicht abgeschlossen
- Handover-Karte aktualisiert und geschlossen.
- Die Vorfälle werden mit dem nächsten Schritt/ETA übertragen.
- Kurze AAR durchgeführt, Verbesserungen aufgezeichnet (wenn es Ausfälle gab).
13) Anti-Muster
Einsamer P1 in der Nacht ohne Backup.
Veröffentlichen Sie einen Zeitplan für die kommende Woche ohne Horizont und Ersatz.
Releases zum Zeitpunkt des Wechsels ohne IC und Gates.
„Mündliche“ Sendungen ohne Karte und Tickets.
Null Entschädigung/Auszeit nach harten Nächten.
Kein Swap-Audit und keine Substitutionsgründe.
Rotation ohne Training: Neuer On-Call sofort „in die Schlacht“.
14) Umsetzungsfahrplan (4-6 Wochen)
1. Ned. 1: Bestandsaufnahme der Abdeckung, Modellauswahl (24/7 oder Follow-the-Sun), Rollenzuweisung.
2. Ned. 2: Kalender starten + Pager + Bot, Handover/SOP-Vorlagen.
3. Ned. 3: Pilot von 2-3 Wochenzyklen, Sammeln von Metriken (Warnungen/Stunde, MTTA um Schichten).
4. Ned. 4: Alert Review, Tuning von Geräuschen und Quoten, Eingabe von Shadow-Schichten.
5. Ned. 5-6: Formalisierung der Vergütung/Quiet Hours, Berichte für das Management, Swap-Automatisierung.
15) Das Ergebnis
Rotation ist ein Prozess, kein Excel: transparente Grafiken, Rollen und Handover-Karten; Automatisierung von Kalender und Pager; faire Regeln und Ermüdungsgrenzen; Qualitätsmetriken und regelmäßige Überprüfungen. Mit diesem Ansatz werden Schichten vorhersehbar, Menschen sind widerstandsfähig und Nutzer und Partner merken nicht, dass sich das Team stundenweise ändert.