지불/베팅에 대한 SLO 번 경고
운영 로드맵
1) 왜 필요한가
운영 로드맵 (Ops Roadmap) 은 SRE/플랫폼/지원 및 도메인 팀의 서로 다른 작업을 투명한 계획으로 바꿉니다. SLO/비용/사고에 미치는 영향 및 각 분기마다 발생하는 비용 (사람, 시간, 예산). 이는 혼돈을 줄이고 기술 부채를 간소화하며 비즈니스에 가치를 제공하는 것을 가속화합니다.
목표:- 측정 가능한 결과 (SLO, MTTR, 비용/RPS, 위험) 와 관련된 이니셔티브를 결합하십시오.
- 플랫폼, 도메인 및 외부 제공 업체 간의 우선 순위에 동의하십시오.
- 예산 자원과 "우리가하지 않는 것" (명시 적 절충) 을 수정하십시오.
- 실행과 위험에 대한 단일 진실을 유지하십시오.
2) 로드맵 원칙
1. 결과 우선: 각 이니셔티브는 결과 지표 ("X 구현" 이 아니라 "MTTR 20% 감소") 와 관련이 있습니다.
2. SLO 인식: 중요한 경로의 SLO (예금/베팅/게임/CCL) 에 영향을 미치는 이니셔티브가 우선 순위가 높습니다.
3. 데이터 중심: 사고, 사후 사후, 경고, 용량/FinOps 패널을 기반으로합니다.
4. 타임 박스 및 가역성: 작은 증분, 가설 테스트, 빠른 롤백.
5. 단일 진실의 원천: 단일 인공물, 정기적 인 리뷰 및 공공 상태.
6. 숨겨진 작업 없음: 지도 밖에서-규정에 따라 "화재" 만 발생합니다.
3) 로드맵 프레임: 레벨 및 아티팩트
비전 (12-18 개월): 3-5 운영 주제 (신뢰성, 규모, 비용, 보안, 자동화).
기둥 (6-12 개월): 주제 별 이니셔티브 블록 (예: "100% 중요 경로의 SLO 적용 범위", "2 개 지역에서 활성 활동").
분기 별 계획 (Q): 지표, 소유자, 종속성, 예산을 갖춘 특정 이니셔티브.
반복 (2-3 주): 작업/서사시 및 실제 진행 상황.
ID: OPS-23
4) Prioritization: How to compare the incomparable
4. 1 RICE (Reach, Impact, Confidence, Effort)
Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.
4. 2 WSJF (Scaled)
Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).
The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.
5) Relationship with OKR, SLO and incidents
Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.
6) Resource and budget planning
FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.
7) Managing dependencies and risks
Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.
8) Quarterly cycle (rhythms)
Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.
9) Roadmap view formats
Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.
Example of a quarterly slice (summary):
Initiative Outcome Metrics Term Owner Risk
-------------------- ----------------------- -------------------- ----- ------------- -------
Active-Active Games RTO≤5 min Availability 99. 95% Q1–Q2 platform-sre High
SLO-burn на Payments − 30% of late incidents Pre-Incident↑, MTTR↓ Q1 observability Average
Kafka Lag Guardrails − 50% of lag storms Lag p95↓, DLQ↑ Q1 streaming Average
FinOps Right-sizing −15% cost/RPS Cost/RPS↓ Q2 finops Low
10) Roadmap Success Metrics (KPIs)
Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.
11) Roadmap launch checklist
[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.
12) Anti-patterns
List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.
13) Templates (fragments)
Initiative Template (YAML):
yaml id: OPS-42 제목: "릴리스 카나리아를위한 가드 레일"
테마: "신뢰성"
분기: "2025-Q1"
소유자: "플랫폼 릴리스"
이해 관계자: ["결제", "베팅", "게임"]
결과: "릴리스 후 회귀 감소 40%"
메트릭:- PHP 3 = 3.0.6, PHP 4)
- 이름: post _ district _ regression _ rate 대상: "-40% QoQ"
- slo _ impect: ["api _ p99 <= 300ms @ 99. 9, "" 가용성> = 99. 95%"]
- 도달 범위: 5000000 # 트랜잭션/QoQ 영향: 3. 0 신뢰: 0. 7 노력: 6 종속성: ["관찰 가능성 기준", "기능 플래그 코어"]
- 이름: "거짓 문"
- 완화: "기준/튜닝, 트래픽의 10% 에 대한 파일럿"
- -이름: 디자인 eta: "2025-01-20"
- -이름: 파일럿 -10%
- 에타: "2025-02-10"
- -이름: 롤아웃 -100%
- 에타: "2025-03-05"
Quarterly report template (Markdown):
Q1 Ops 로드맵-보고서
결과: SLO 적용 범위 92% (+ 7 pp), MTTR-18%, 비용/RPS-9%
완료: 8/10 이니셔티브 (80%)
변속기: OPS-31 → Q2 (PSP-X 종속성)
사건: P1 = 2 (-1 QoQ), 주요 이유: 제공자 타임 아웃에 대한 배상
후속 조치: 튜닝 차단기, 예비 할당량 PSP-Y
14) 프로세스와의 통합
사건 관리: 각 사후 → 로드맵의 이니셔티브/개선 티켓.
변경/릴리스: 주요 이니셔티브에는 플래그/카나리아 만 제공됩니다.
용량/FinOps: 한 달에 한 번 헤드 룸 및 비용 동기화.
안전/준수: 요구 사항 및 감사에 대한 분기 별 제어 포인트.
15) 30/60/90 (빠른 시작)
30 일: 사건/미터법을 수집하고 주제를 구성하고 YAML 형식으로 10-15 이니셔티브를 설명하고 RICE/WSJF를 선택하고 Q 계획을 수정하십시오.
60 일: 결과/도메인/예산 패널을 시작하고 첫 번째 중반 검토를 수행하고 데이터 우선 순위를 조정하십시오.
90 일: Q 결과 요약, 업데이트 원칙 및 스케일을 요약하고 연간 기둥을 다시 표시하십시오.
16) 커뮤니케이션 및 투명성
이해 관계자에 대한 월간 검토: 30 분, 결과 및 위험에 중점을 둡니다.
비동기 업데이트: 전후 메트릭이있는 짧은 항목.
단일 로드맵 채널: 상태, 변경, 우선 순위 결정.
레드 카드 규칙: 모든 팀은 데이터 (SLO/사고/비용) 를 첨부하여 우선 순위 검토를 시작할 수 있습니다.
17) FAQ
Q: 모든 것이 "화재 중" 이고 로드맵에 시간이 없다면 어떨까요?
A: 15-20% 의 "화재 버퍼" 와 사고의 주요 원인을 다루는 3 가지 이니셔티브의 최소 Q 계획을 포함하십시오. 새로운 "핫" 작업은 우선 순위를 재 조립하는 것입니다.
Q: "보이지 않는" 이니셔티브 (관찰 성, 자동 게이트) 의 가치를 입증하는 방법?
A: 카운트 변경 실패율, MTTR, 사전 사건 탐지 속도, 풀백 및 "나이트 페이지. "역학 전후 표시.
Q: 기술 부채를 처리하는 방법?
A: 부채는 또한 "클래스 N 사건의 -X%", "-Y% 비용/RPS", "+ Z pp. SLO 적용 범위" 의 결과로 이니셔티브입니다. 측정 가능한 결과가 없으면 부채가 계획에 포함되지 않습니다.