SOP: <빠른 행동/목표>
운영 절차의 표준화
1) 왜 필요한가
SOP는 회사의 "운영 OS" 입니다. 표준화는 혼돈과 "개별 스타일" 을 제거하고 MTTR, 경고 소음 및 사고 위험을 줄이며 온 보딩을 가속화하며 결과를 재현 가능하게합니다.
목표:- 사건과 일상에서 행동의 변동성을 줄입니다.
- 훈련을 가속화하고 핸드 오버의 질을 향상시킵니다.
- 감사, 지표, 데이터 개선 등 프로세스를 감사 할 수 있습니다.
- 규제 및 내부 요구 사항을 준수하는지 확인하십시오.
2) 표준화 원칙
1. 균일 한 형식 및 용어. 하나의 표기법, 하나의 정의 (SLO, ETA, 소유자).
2. 백과 사전이 아닌 실행 가능합니다. 검증 가능한 단계, 성공 기준 및 롤백 만 가능합니다.
3. 최소 분기. 프리 휠링 대신 솔루션을 지우십시오.
4. 검증 및 소유권. 각 SOP에는 소유자, 버전 및 개정 날짜가 있습니다.
5. 도구와의 통합. 대시 보드, 티켓, 가상 플래그, CLI 명령에 연결합니다.
6. 통화 중 가용성. 하나의 링크로 빠르게 검색하고 읽고 실행하십시오.
7. 지속적인 개선. 사후 사후 → SOP 업데이트 작업.
3) SOP 프레임 워크 (템플릿)
4) SOP classification
Incident: P1/P2 (critical), P3 (important).
Operational routines: releases, feature flags, database migrations, provider failover.
DR/BCP: disabling the region, restoring from backup, working offline.
Quality control/audit: revisions, readiness questionnaires, access.
Security/compliance: KYC/AML checks, log storage, privacy.
5) RACI: Ownership and Responsibility
Process R (performer) A (responsible) C (consultant) I (notify)
------------------------ --------------- ----------------- --------------- -------------
Create/Update SOP Domain Owner Head of Ops SRE/Compliance Teams
SLA Revision Ops Enablement Head of Ops Domain leads All
Use in an incident On-call Incident Manager Domain Owner Stakeholders
6) SOP lifecycle
1. Initiation: need from post-mortem/incident/audit.
2. Draft: by template, with specific artifacts and commands.
3. Review: Domain Owner + Head of Ops + specialized consultants.
4. Publishing: to portal/repository; annotations on dashboards.
5. Training: short training/screencast, knowledge test.
6. Application: recorded in ticket/incident.
7. Audit: by SLA revision or after a significant event.
8. Archiving: mark 'deprecated', indicate replacement.
7) Documentation as code (minimum standard)
We store SOP in Git (Markdown + YAML metadata), PR review, CI-lint.
Required fields are 'owner', 'version', 'last _ review', 'sla _ review'.
Link checker and structure validator in CI; auto-release portal after merge.
Significant changes - through changelog and notifications in the # ops channel.
8) SOP integrations
Incident Manager: Open SOP button when creating/escalating an incident.
Grafana/Observability: references from panels to relevant SOPs; release annotations.
Feature Flags/Release: canary step templates, SLO gates, rollback.
AI assistant: RAG search by SOP, TL; DR and proposals for action.
BCP/DR: DR-playbook automatically loaded by trigger.
9) SOP quality check (KPI and review)
KPI:
Coverage ≥ 90% of critical scenarios are closed by SOP.
Review SLA ≤ 180 days (share of overdue - 0).
Usage Rate ≥ 70% of overt SOP incidents.
DoD Pass Rate ≥ 90% of steps are closed with success criteria.
Broken Links = 0 (по CI).
Weekly monitoring:
Top 5 used and top 5 obsolete SOPs.
SOP communication ↔ postmortems: whether Preventive Actions have been performed.
Noisy SOPs (frequent rollback returns) are candidates for recycling.
10) Containment standards
Steps → specifics: commands/queries/parameters + expected effect in metric.
Time requirements: ETA for updates/next steps.
Escalation: clear matrix, contacts, backup channels.
Security: warnings, restrictions, PII/secrets - via vault/links.
Localization: in the on-call language (critical for distributed commands).
11) SOP examples (fragments)
SOP: Canary pause in SLO degradation
트리거: 오류 _ 예산 _ burn> 4x 10m, api _ p99> 1. 3 × 기준선 10m
단계:- 1) 릴리스 도구에서 일시 중지 카나리아
- 2) 패널 "안전 변경" 및 "API p99" 확인
- 3) 티켓 REG-
작성, 기준선/창 지정 - DoD: p99 소 1. 1 × 기준선 15m, <기준 × 1 오류. 2
- 롤백: 플래그를 완전히 비활성화하십시오
SOP: PSP Provider Feilover
트리거: 쿼터 _ 사용량> 0. 9 OR 아웃 바운드 _ 오류 _ rate> 2 × 기준선 5m
단계:- 1) PSP-Y 라우팅 사용 (설정/단추)
- 2) 예금 변환 및 p95 PSP-Y 확인
- 3) 그래프에 주석, # 사건 채널에서 업데이트
- DoD: success _ rate 5%, p95 λ300ms 10m
- 롤백: PSP-X 안정화시 트래픽의 20% 부분 반환
12) 점검표
SOP 준비 점검표:
[] 목표와 방아쇠는 명확하고 측정 가능합니다.
[] 명령/링크를위한 단계가 있습니다.
[] DoD/롤백이 공식화되었습니다.
[] 에스컬레이션 및 연락처는 관련이 있습니다.
[] 메타 데이터가 채워집니다 (소유자, 버전, 마지막 _ 검토).
[] 링크 검사기 및 CI 유효성 검사기 패스.
SOP 신청 점검표 (사고):
[] 사고 관리자/패널 링크에서 SOP가 열렸습니다.
[] 단계가 완료되고 결과가 기록됩니다.
[] DoD에 도달/도달하지 않음-확인 됨.
[] 동작/불일치가 티켓에 기록됩니다.
[] 작업으로 생성 된 SOP 업데이트/개선 사항 (필요한 경우).
13) 훈련 및 온 보딩
주요 SOP의 미니 코스 (Payments/Bets/Games/KYC).
훈련에서 SOP를 의무적으로 사용하는 그림자 의무.
주간 "SOP 클리닉": 30 분의 분석/개선.
시뮬레이션 (게임 일): DR 및 사건 SOP 개발.
14) SOP 변경 관리
PR을 통한 RFC, 태그 '마이너/메이저/브레이킹'.
필수 교육 및 발표와 함께 변경 사항 속보.
도메인 소유자 및 통화 중 자동 알림.
매주 말에 "SOP-Release Notes" 가 분리됩니다.
15) 반 패턴
"밝혀진대로" 자유 형식과 명령에 따라 다른 패턴.
소유자/개정/개정 날짜가없는 SOP.
단계별 동작 대신 "백과 사전" 텍스트.
롤백/DoD 없음-성공을 확인할 것이 없습니다.
깨진 링크, "채팅 매뉴얼" 명령, 개인 "비밀" 단계.
보이지 않는 SOP는 녹음이나 훈련없이 변경됩니다.
16) 30/60/90-구현 계획
30 일:
SOP 템플릿 및 최소 표준을 승인합니다.
저장소 'ops-sop/' (코드로 문서) 를 만들고 CI 라인터를 사용하십시오.
10-15 개의 중요한 SOP (사고/릴리스/제공자) 를 디지털화하십시오.
인시던트 관리자 및 가시성 패널을 SOP 링크에 연결하십시오.
60 일:
중요한 시나리오에서는 적용 범위가 70% 이상에 도달합니다.
매주 "SOP 클리닉" 및 통화 중 교육을 시작하십시오.
SOP 및 TL에 의한 AI 검색 (RAG) 추가; DR 카드.
검토 SLA (180 일) 를 입력하고 기한이 지난 SOP를보고하십시오.
90 일:
적용 범위는 90%, 사용률은 70% 이상입니다.
모든 SOP에 DoD/롤백이 포함되어 있으며 링크가 깨졌습니다 (0).
OKR을 명령하기 위해 바인드 SOP KPI (MTTR, 실패율 변경).
다음 분기의 개선 사항을 복고하고 기록하십시오.
17) FAQ
Q: SOP는 런북과 어떻게 다릅니 까?
A: SOP-표준화 된 절차 (규제 "방법"). 런북-특정 사례/서비스에 대한 자세한 지침. 종종 SOP는 하나 이상의 런북을 나타냅니다.
Q: SOP에는 몇 개의 세부 사항이 있어야합니까?
A: 운영자가 채팅에 "파지" 없이 작업을 수행하기에 충분합니다. 작업에 영향을 미치지 않는 것은 별도의 참조 자료에 있습니다.
Q: 관련성을 유지하는 방법?
A: SLA 개정 (약 180 일), 자동 알림, CI 라인터 및 사용/DoD 지표. 편차 사고 → SOP 업데이트 작업.