운영의 역할 및 책임
1) 역할을 공식화하는 이유
명확한 역할 할당은 MTTA/MTTR을 줄이고 회색 영역을 제거하며 릴리스 속도를 높이며 SLO/규정 준수를 재현 가능하게합니다. 역할 = 책임 + 권한 + 인터페이스 (우리가 누구에게, 누구에게, 어떤 결정이 승인되었는지).
2) 기본 RACI 모델
R (책임) -작업을 수행합니다.
A (책임) -최종 책임을지고 결정을 내립니다.
C (컨설팅) -전문가, 전후 상담.
I (정보) -SLA가 통보합니다.
3) 역할 카탈로그 (설명 및 책임)
3. 1 사건 사령관 (IC)
목적: SEV-1/0 사건에 대한 답변을 이끌어냅니다.
권한: SEV 선언, 동결 해제, 트래픽 전환, 에스컬레이션.
주요 작업: 타임 라인, 의사 결정, 초점 유지, 작업 할당, Go/No-Go.
아티팩트: 사건 카드, SLA 업데이트, 최종 AAR.
3. 2 P1/P2 통화 중 (1 차/2 차)
목표: 초기 대응 및 기술 작업.
P1: 심사, 플레이 북 실행, IC와의 커뮤니케이션.
P2: 폭풍우의 백업, 복잡한 변경, 상황 유지-하위 스트림을 취합니다.
3. 3 SRE/플랫폼 엔지니어
목적: 플랫폼 신뢰성 및 난간 (SLO, 경고, GitOps, autoscale, DR).
작업: SLI/SLO, 경보 위생, 점진적 릴리스, 코드로서의 인프라, 용량, 관찰 가능성.
사고 중: 루트 진단, 롤백/폴백, 저하 -UX 활성화.
3. 4 서비스 소유자/제품 소유자
목적: 비즈니스 의미에서 서비스 품질.
작업: SLO/우선 순위 정의, 릴리스/창 조정, Go/No-Go 참여.
Comms: Comms와 함께 언제 무엇을 말해야하는지 결정합니다.
3. 5 릴리스 관리자
목적: 안전한 변경 전달.
작업: 릴리스 오케스트레이션, 게이트 점검, 카나리아/청록색, 릴리스 주석, 사고 동결.
3. 6 CAB 의장/변경 관리자
목적: 위험 관리 변경
작업: RFC 프로세스, 계획/백 아웃, 충돌 일정, 고위험 승인.
3. 7 RCA 납/문제 관리자
목적: 사후 브리핑, CAPA.
목표: 타임 라인, 증거 인과 관계, 수정/방지 조치, D + 14/D + 30 제어.
3. 8 보안 (IR Lead, AppSec/CloudSec)
목적: 보안 및 사고 대응.
작업: 심사 보안 이벤트, 주요 회전, 격리, 법의학, 규제 알림, WORM 감사.
3. 9 데이터 옵스/분석
목적: 데이터 및 파이프 라인의 신뢰성.
목표: 신선도/품질 (DQ), 데이터 계약, 계보, 백필, SLA BI/보고서.
3. 10 FinOps
목적: 관리 가치.
작업: 할당량/제한, $/단위보고, 예산 게이트, 최적화 (로그 볼륨, 출구, 예약).
3. 11 준수/법률
목적: 규제 및 계약 준수.
작업: 알림 용어, 증거의 보존/불변성, 공개 텍스트 조정.
3. 12 개의 지원/Comms
목적: 고객/내부 이해 관계자와의 커뮤니케이션.
작업: 상태 페이지, 업데이트 모형, 메시지 빈도 및 선명도, 피드백 수집.
3. 13 공급 업체 관리자/공급자 소유자
목적: 외부 제공 업체 (PSP/KYC/CNC 등) 와의 관계.
작업: 에스컬레이션, SLA/OLA, 백업 경로, 창 조정.
4) 교대 및 에스컬레이션 역할
교대: P1/P2 + IC-of-day (P1과 결합하지 마십시오).
시간 단축: P1 → P2 (5 분 없음) → IC (10 분) → 의무 관리자 (15 분).
조용한 시간: P2/P3 신호는 깨어나지 않습니다. 보안 신호-항상.
5) 상호 작용의 인터페이스 (누구와 어떻게)
ID 릴리스 관리자: 동결/롤백 솔루션.
IC CMS Comms: 텍스트 및 빈도 업데이트.
SRE http DataOps: SLO-gardrails의 비즈니스 SLI (결제 성공, 데이터 신선도).
보안 법률: 보안 사고, 알림 기간에 대한보고.
공급 업체 소유자 IC: 공급자 상태, 전환/폴백.
6) 역할 별 KPI (벤치 마크)
IC: Time-to-Declare, Comms SLA 준수, MTTR by SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% 가 플레이 북을 따릅니다.
SRE/플랫폼: SLO 적용 범위, 경보 위생,% 자동 롤백 성공.
릴리스 관리자: 실패율 변경, 정시 창, 평균 롤백 시간.
RCA 리드: 사후 리드 타임, CAPA 완료/종료, 재개 5-10%.
보안: 평균 참여 시간, 비밀/인증 회전 시간.
DataOps: 신선도 SLO 부착, 성공률 백필.
Comms: 상태 정확성, 불만/사건.
FinOps: $/단위,% QoQ 절약, 할당량 준수.
7) 역할 카드 템플릿
7. IC 카드 1 장
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 카드
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 릴리스 관리자 카드
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) 프로세스 및 역할 참여 (요약)
A-책임, R-책임, C-컨설팅, I-정보.
9) 점검표
9. 1 할당 역할
- 각 역할에는 소유자, 대체물 및 적용 범위가 있습니다.
- 승인 (결정을 내릴 수있는 것) 이 설명됩니다.
- 바운드 플레이 북 및 링크.
- 반응/통신에 의한 게시 된 SLA.
- 각 서비스에 대해 CMDB에서 역할을 사용할 수 있습니다.
9. 2 교대 및 핸드 오버
- 교대 카드 업데이트 (활성 사고, 위험, 창).
- JIT/JEA 액세스가 확인되었습니다.
- 채널 "수락/통과 변경" 에 대한 에코 메시지.
9. 3 사후 사건
- AAR이 수행되고 RCA가 할당되었습니다.
- 소유자/마감일이있는 CAPA, D + 14/D + 30 제어.
- 업데이트 된 플레이 북/알림/정책.
10) 반 패턴
명확하지 않은 "누가 결정" → 지연 및 중복 노력.
IC와 P1-리더십 상실.
Legal/Comms와 동의하지 않는 공개 통신.
릴리스 관리자가없는 릴리스 및 게이트 → CFR 성장.
역할 예약 없음 (질병/휴가).
프로세스 대신 "영웅": 수동으로 저장하지만 난간을 수정하지는 않습니다.
역할은 CMDB/서비스 카탈로그 → 손실 에스컬레이션에 반영되지 않습니다.
11) 도구에 포함
ChatOps: ко차이가 있습니다. '/누가 전화하는지 ', '/선언 sev1', '/freete ', '/롤백', '/상태 업데이트 '.
디렉토리/CMDB: 서비스에는 소유자, 통화 중, SLO, 대시 보드, 플레이 북, 창이 있습니다.
코드로 경고: 각 페이지에는 소유자와 기본 플레이 북이 있습니다.
GitOps: IC/릴리스 솔루션은 릴리스 주석 및 티켓에 반영됩니다.
12) 역할 분포 성숙도 지표
디렉토리에서의 역할 범위: 중요한 서비스의 100% 이상.
통화 중 SLA: Ack p95 소 5 분; 제어중인 페이지 폭풍 p95.
사후 SLA: 초안 CAPA 완료 85% 이상
거버넌스 변경: RFC/CAB의 위험이 높은 변경
Comms: Adherence
13) 미니 템플릿
13. 서비스 용 RACI 1 개 (리포 파일)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 역할 프로필 (마크 다운)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) 결론
역할이 투명하고 권한을 부여하며 도구에 내장 될 때 작업이 강력합니다. 각 역할에 대한 역할 카탈로그, RACI, 명확한 인터페이스 및 메트릭은 사건, 릴리스 및 관리 프로세스로 변경됩니다. 의사 결정이 빠르게 이루어지고 위험이 제어되며 사용자는 안정적인 서비스를 볼 수 있습니다.