Cambio di servizio e trasferimento di attività
1) Perché formalizzare il cambio di servizio
Il cambio di servizio è un momento di rischio critico: il contesto viene perso, il tempo di reazione aumenta e le azioni vengono duplicate. Il processo formalizzato riduce MTTA/MTTR, elimina le code dimenticate e fornisce la compilazione (chi e quando ha accettato la responsabilità).
2) Ruoli e modello di copertura
Primary on-call (P1) - prima risposta, triage, coordinazione prima dell'arrivo dell'IC.
Secondary on-call (P2) - Bacap, collegato in caso di sovraccarico/escalation.
Duty Manager/IC-of-the-day è il leader dell'incidente per SEC-1 +.
Follow-the-sun (multi-timzone) o Follow-the-moon (copertura notturna in altre regioni).
Finestre temporanee: evitare rilascio/lavoro rischioso © 30 minuti dal cambio.
3) Grafici di rotazione (esempi)
24/7, turni di 8 ore: mattina/giorno/notte, 3 squadre, P1 + P2.
24/7, turni di 12 ore: meno cambi, più rischio di stanchezza - servono finestre di compensazione.
5 x 8 (giorni lavorativi) + Weekend Pool: copertura primaria diurna del prodotto, weekend - piattaforma/SRE.
Hibrido: giorni in ufficio, notti/weekend - Follow-the-sun.
Regole di equità: rotazione del calendario, registrazione delle vacanze/ferie, massimo n turni notturni per il periodo.
4) Carta di cambio (Shift Handover Card)
Standard di contenuto minimo:- Quando e chi: Data/ora (UTC e locale), trasmette il →; contatti P1/P2.
- Stato dei sistemi: riepilogo SLO/SLA, alert attivi noti per il degrado.
- Incidenti aperti: ID, SEC, passo corrente, proprietario, azione/ETA successiva.
- Rischi per la finestra di cambio: operazioni di routine, rilascio, migrazioni, stati limitati (quote di provider).
- Ticket/task critici: priorità, blocker, scadenze.
- Comunicazioni incluse: post attivi sulla pagina di stato/update client.
- Percorsi di bypass noti: flag di degrado accesi, limiti temporali.
- Domenica: provider di pagamenti/KYC/CDN - loro stato e routing.
- Housekeeping: chi è on-call domani, finestre di non accessibilità della gente (manifestazioni/voli).
5) Foglio di assegno «Passo di turno» (parte di restituzione)
- Aggiorna la carta di cambio (tutti i campi) e fissa il collegamento nel canale «# oncall-handover».
- Tradotto «conoscenza orale» in ticket/note; Non c'è nessun compito nella testa.
- Tutti gli incidenti hanno SEV, il proprietario, il passo successivo, l'ora del prossimo update.
- Lo stato della pagina e gli update client corrispondono allo stato effettivo.
- Disattivato gli alert rumorosi/falsi (per procedura) o contrassegnato nella scheda.
- Controlla le quote/i limiti dei provider esterni per il cambio successivo.
- Sincronizzato con voce/videoconferenza 5-10 minuti (se SEC-1 + è attivo).
- Registrato il trasferimento (bot/ticket), indicato dal ricevitore.
6) Foglio di assegno «Accetto turno» (ricevente)
- Ho letto la scheda, ho chiarito le domande aperte.
- Ho controllato i dashboard SLO/alert nelle ultime 2-4 ore.
- Confermato il ruolo P1/P2 nel bot (assign) e il suono/canale del cercapersone.
- Ha preso possesso degli incidenti attivi e aggiornato i timer degli update.
- Ha controllato i lavori/rilasci programmati, annullato le operazioni rischiose per i primi 30 minuti.
- Ha fatto un'eco-messaggio «al canale:» Il turno ha preso, incidenti attivi:..., sl. update nel "...
7) Standard di comunicazione
Каналы: `#oncall`, `#incident-warroom-<ID>`, `#statuspage`.
Intervalli degli update: SEV-0: 15 min, SEV-1: 30 min, SEC-2 +: 60 min.
Formato update: Impatto - Diagnostica - Azioni - Prossimo update (ora).
Escalation: nessun progresso in N minuti per collegare TL/Platform/DB/Sec per matrice.
Chiarezza di proprietà: ogni azione ha un esecutore e un esecutore ETA.
8) Trasferimento di attività (non incidenti)
Criteri di trasferimento: l'attività blocca SLO/release/compilation o scade.
Aspetto: tessuto con «definition of next step» e risultato previsto, tutti gli artefatti (login/snapshot/grafica) sono allegati.
Priorità: Kanban- swimlane «On-call Handover».
Scadenze: le trasmissioni hanno un due-date; I ritardi vengono scalati dal proprietario del servizio.
9) Automazione e integrazione
Calendario rotazioni: sincronizzazione con il cercapersone; Bot pubblica «chi è di turno» all'inizio del turno.
ChatOps: '/handover start ', compilazione automatica della carta di origine (stato SLO, incidenti aperti, comunicati).
Ticketing: assegnazione automatica del proprietario per P1/P2; tag «handover».
La pagina di stato è bridge agli upday pubblici con i modelli.
Controllo: il registro di trasmissione (chi/quando ha accettato), il collegamento con la SEC e i report.
10) Gestione della stanchezza e della sostenibilità
Limiti: massimo X pagea/ora e Y di notte di fila - passare a P2/escalation.
Quiet hours per gli alert non ritrici (tickets anziché cercapersone).
After-hours compensazione e post-insidioso restest.
Allenamento e shadowing per i nuovi ingegneri on-call.
Retrospettive di turni rumorosi, sintonizzazioni di alert e playbook.
11) Metriche di qualità dei turni e delle trasmissioni
Handover Defect Rate - Percentuale di incidenti con perdita di contesto durante il cambio.
MTTA intorno al cambio: mediana/picchi a quota 30 minuti dal cambio.
Missed/late updates - update scaduti per SEC.
Alert Hygiene:% false pagelle; alert senza runbook/proprietario.
Load per maiusc: pagelle/ora, durata media attiva.
Proporzione: cambio NPS (sondaggio on-call), stanchezza nella scala.
12) Comunicazione con il gestore di incidenti e RCA
Gli incidenti attivi non si chiudono al momento del cambio; la responsabilità è chiaramente trasmessa e registrata.
In RCA è obbligatoria la sezione Impatto del cambio: se c'è stata una deriva del contesto, un update in ritardo, una ripresa delle azioni.
CAPA: miglioramento della carta, scontrini, automazione, formazione.
13) Sicurezza, compliance e privacy
PII/segreti sono vietati nel testo libero delle schede; collegamenti a storage sicuro.
I permessi on-call sono disponibili per la finestra di cambio (JIT/JEA), la rotazione delle chiavi.
Traccia di controllo: immutabile-logo che ha letto/cambiato tessera e stato-pagina.
Regolazione: i tempi delle notifiche client sono controllati nella scheda di cambio.
14) Anti-pattern
«Passerò verbalmente» senza tessera o tesserino.
Il lancio è al momento esatto del turno senza IC e bacap.
Il cercapersone di un uomo in aereo/metro senza P2.
Una carta come «lenzuolo» senza next step/ETA.
Triage su chat personali - informazioni perse, non è possibile controllare.
Non c'è traccia della trasmissione. La discussione è «chi rispondeva».
15) Modelli
Modello carta di cambio (compresso)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
Modello di messaggio eco al momento dell'accettazione
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) Incorporazione nella pratica giornaliera
Daily-Rituale di turno: 5-10 minuti di sincronizzazione vocale in caso di incidenti attivi.
Controllo settimanale delle schede: verifica selettiva completezza/rilevanza.
Game-days - Simulazione di turni con molti eventi paralleli.
Cartella doc - Modelli di tessera/assegno nel repository, invecchiato come codice.
17) Totale
I turni ben organizzati e le trasmissioni sono il lubrificante dell'intera macchina. La carta di cambio, le brevi sincronizzazioni, i fogli di assegno rigorosi, l'automazione e la cura della stabilità del team trasformano i momenti di rischio in una routine senza perdita di qualità: il contesto è mantenuto, il tempo di reazione è stabile e gli utenti non si accorgono del cambio di servizio.