업무 변경 및 업무 이전
1) 의무 이동을 공식화하는 이유
의무 변경은 위험의 중요한 순간입니다. 상황이 사라지고 반응 시간이 증가하며 동작이 복제됩니다. 공식화 된 프로세스는 MTTA/MTTR을 줄이고 "잊혀진 꼬리" 를 제거하며 준수를 보장합니다 (책임 및시기를 수락 한 사람).
2) 역할 및 적용 범위 모델
기본 통화 중 (P1) -IC가 도착하기 전에 첫 번째 응답, 심사, 조정.
2 차 통화 중 (P2) -백업, 과부하/에스컬레이션 중에 연결됩니다.
듀티 매니저/IC-of-day는 SEV-1 + 의 사건 리더입니다.
Follow-the-sun (다중 시간 영역) 또는 Follow-the-moon (다른 지역의 야간 적용 범위).
시간 창: 교대 후 해제/위험한 작업을 피하십시오.
3) 회전 일정 (예)
24/7, 8 시간 교대: 아침/낮/밤, 3 여단, P1 + P2.
24/7, 12 시간 교대: 스위치 수, 피로 위험 증가 - "보상 창" 이 필요합니다.
5 × 8 (근무일) + 주말 수영장: 제품 팀별 주간 기본 범위, 주말-플랫폼/SRE.
하이브리드: 평일 "근무 시간", 밤/주말-Follow-the-sun.
공정성 규칙: 달력 교체, 휴일/휴가 회계, 기간 당 최대 N 야간 교대.
4) 교대 핸드 오버 카드
최소 콘텐츠 표준:- 언제 및 누가: '날짜/시간 (UTC 및 로컬)', 전송 → 수락; P1/P2 연락처.
- 시스템 상태: SLO/SLA 요약, 활성 경고, 알려진 열화.
- 공개 사건: ID, SEV, 현재 단계, 소유자 인 다음 조치/ETA.
- 교대 창의 위험: 계획된 작업, 릴리스, 마이그레이션, 제한 상태 (공급자 할당량).
- 중요한 티켓/작업: 우선 순위, 차단제, 마감일.
- 외부 통신: 상태 페이지/클라이언트 업데이트의 활성 게시물.
- 알려진 해결 방법: 분해 기능 플래그, 시간 제한이 포함되었습니다.
- Domenica: 결제 제공 업체/KYC/CDN- 상태 및 라우팅.
- 하우스 키핑: 내일 전화를받는 사람들은 창문을 사용할 수 없습니다 (랠리/비행).
5) "핸드 오버 시프트" 체크리스트 (발행 당사자)
- 교대 카드 (모든 필드) 를 업데이트하고 '# oncall-handover' 채널에서 링크를 수정했습니다.
- "구두 지식" 을 티켓/메모로 번역했습니다. "헤드" 작업이 없습니다.
- 모든 사건에는 SEV, 소유자, 다음 단계, 다음 업데이트 시간이 있습니다.
- 상태 페이지 및 클라이언트 업데이트는 실제 상태에 해당합니다.
- 시끄러운/잘못된 경고 (절차에 따라) 또는 카드에 표시되지 않습니다.
- 다음 시프트 창에 대한 외부 제공 업체의 할당량/한계를 확인했습니다.
- 음성/비디오로 5-10 분 동안 동기화합니다 (SEV-1 + 가 활성화 된 경우).
- 전송 사실 (봇/티켓) 을 기록하여 수신기를 표시했습니다.
6) "교대 수락" 체크리스트 (수신 당사자)
- 카드를 읽고 공개 질문을 명확하게하십시오.
- 지난 2-4 시간 동안 SLO/경고 대시 보드를 확인했습니다.
- 봇에서 P1/P2의 역할 (할당) 및 호출기의 사운드/채널을 확인했습니다.
- 활성 사고의 소유권을 가정하고 업데이트 된 타이머를 업데이트하십시오
- 계획된 작업/릴리스를 확인하고 처음 30 분 동안 위험한 작업을 취소했습니다.
- 채널에 "에코 메시지" 를 만들었습니다. "교대, 활발한 사건:..., 단어. 업데이트... "
7) 통신 표준
"# oncall", "smass-warroom- <ID>", "# statuspage".
업데이트 간격: SEV-0: 15 분, SEV-1: 30 분, SEV-2 +: 60 분
업데이트 형식: 영향-진단-동작-다음 업데이트 (시간).
에스컬레이션: N 분 → 진행 상황이 없습니다. TL/Platform/DB/Sec를 행렬로 연결합니다.
소유권의 명확성: 모든 행동에는 연기자와 ETA가 있습니다.
8) 작업 전송 (사고가 아님)
이전 기준: 작업 블록 SLO/릴리스/규정 준수 또는 만료.
설계: "다음 단계의 정의" 와 예상 결과가있는 티켓은 모든 아티팩트 (로그/사진/그래프) 가 첨부됩니다.
우선 순위: 칸반 수영 레인 "통화 핸드 오버".
마감일: 전송 마감일이 있습니다. 서비스 소유자에게 지연이 확대됩니다.
9) 자동화 및 통합
회전 달력: 호출기와의 동기화; 봇은 교대 시작시 "근무 중인 사람" 을 출판합니다.
ChatOps: '/핸드 오버 시작 ', 소스에서 자동 카드 수집 (SLO 상태, 공개 사건, 릴리스).
발권: P1/P2에 의한 소유자의 자동 할당; "핸드 오버" 태그.
상태 페이지: 템플릿을 사용하여 공개 업데이트로 연결합니다
감사: 전송 로그 (수락 된 경우), SEV와의 통신 및 보고서.
10) 피로 관리
한계: 밤에 최대 X 페이지/시간 및 Y 연속-P2/에스컬레이션으로 이동하십시오.
중요하지 않은 경고 (페이징 대신 티켓) 에 대한 조용한 시간.
시간외 보상 및 사후 휴식.
새로운 통화 엔지니어를위한 교육 및 그림자.
시끄러운 변화의 회고전 → 경고 및 플레이 북 튜닝.
11) 교대 및 패스의 품질 지표
핸드 오버 결함 속도: 교대 중 상황 손실이있는 사고의 비율.
시프트 주변의 MTTA: 스위치에서 중간/피크 λ30 분.
누락/늦게 업데이트: 만료 된 SEV 업데이트.
경보 위생:% 거짓 페이지; 런북/소유자없이 경고.
교대 당 부하: 페이지/시간, 평균 활성 작업 기간.
만족: NPS 이동 (통화 중 설문 조사), 규모의 피로.
12) 사건 관리 및 RCA와의 커뮤니케이션
교대 시점에 활발한 사고는 종결되지 않습니다. 책임은 명시 적으로 이전되고 수정됩니다.
RCA에서는 "교대 영향" 섹션이 필요합니다. 컨텍스트 드리프트, 늦은 업데이트, 이중 동작이있었습니다.
CAPA: 카드 개선, 점검표, 자동화, 교육.
13) 보안, 규정 준수 및 기밀 유지
무료 카드 텍스트에서는 PII/비밀이 금지됩니다. 보안 리포지토리 링크
임시 액세스: 시프트 창 (JIT/JEA), 키 회전에 대한 통화 중 권한이 발행됩니다.
감사 흔적: 카드 및 상태 페이지를 읽거나 변경 한 불변의 로그.
규제: 클라이언트 알림 조건은 교대 카드에서 제어됩니다.
14) 반 패턴
카드/티켓없이 "구두로 줄 것입니다".
IC와 백업없이 교대 시점에 정확하게 릴리스하십시오.
P2없이 "비행기/지하철에서" 사람을 타십시오.
다음 단계/ETA없이 "시트" 로 카드하십시오.
개인 채팅에 대한 배정-정보가 손실되고 감사가 불가능합니다.
이전의 사실에 대한 기록은 없다 - "누가 대답" 분쟁.
15) 템플릿
시프트 카드 템플릿 (압축)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
에코 템플릿 수신
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) 매일 연습에 포함
일일 교대 의식: 활성 사고시 5-10 분 음성 동기화.
주간 카드 감사: 선택적으로 완전성/관련성을 확인하십시오.
게임 일: 많은 병렬 이벤트가있는 교대 시뮬레이션.
도크 디렉토리: 저장소에있는 카드/체크리스트 템플릿, 코드로 검토하십시오.
17) 결론
잘 구성된 교대 및 전송은 전체 작동 기계의 "윤활" 입니다. 교대 카드, 짧은 동기화, 엄격한 체크리스트, 자동화 및 팀의 안정성에 대한 우려는 품질 손실없이 위험한 순간을 일상으로 바꿉니다. 상황이 유지되고 반응 시간이 안정적이며 사용자는 의무 변경을 눈치 채지 못합니다. 전혀.