SLO-burn ალერტები Payments/Bets
ოპერაციული საგზაო რუკა
1) რატომ არის ეს აუცილებელი?
Ops Roadmap (Ops Roadmap) SRE/პლატფორმის/მხარდაჭერის და დომენის გუნდების მიმოფანტულ დავალებებს გამჭვირვალე გეგმად აქცევს: რა გავლენას ახდენს SLO/ღირებულება/ინციდენტები თითოეულ კვარტალში და რა ფასად (ხალხი, დრო, ბიუჯეტი). ეს ამცირებს ქაოსს, ამარტივებს ტექნიკურ დავალიანებას და აჩქარებს ბიზნესის ღირებულების მიწოდებას.
მიზნები:- გაზომილი შედეგების გარშემო ინიციატივების შერწყმა (SLO, MTTR, Cost/RPS, Risk).
- შეთანხმდნენ პრიორიტეტებს პლატფორმას, დომენებსა და გარე პროვაიდერებს შორის.
- დაასაბუთეთ რესურსები და დააფიქსირეთ „რას არ ვაკეთებთ“ (აშკარა ვაჭრობა-ოფი).
- შეინარჩუნეთ ერთი სიმართლე შესრულებისა და რისკების შესახებ.
2) საგზაო რუქის პრინციპები
1. Outcome-first: თითოეული ინიციატივა უკავშირდება შედეგის მეტრს (არა „შემოღება X“, არამედ „შეამციროს MTTR 20%“).
2. SLO-aware: ინიციატივები, რომლებიც გავლენას ახდენენ კრიტიკულ გზებზე SLO- ზე (ანაბარი/განაკვეთი/თამაშები/KUS) პრიორიტეტულია.
3. Data driven: ჩვენ ვეყრდნობით ინციდენტებს, პოსტმორტემებს, ალერტებს, Capacity/FinOps პანელებს.
4. Time-boxed & reversible: მცირე ნიშნები, ჰიპოთეზის შემოწმება, სწრაფი დაბრუნება.
5. Truth Single წყარო: ერთი არტეფაქტი, რეგულარული შურისძიება და საზოგადოებრივი სტატუსები.
6. No hidden სამუშაო: ბარათის გარეთ - მხოლოდ „ხანძარი“ რეგლამენტის შესაბამისად.
3) Roadmap ჩარჩო: დონე და ნივთები
ხედვა (12-18 თვე): 3-5 ოპერაციული თემა (Reliability, Scale, Cost, Security, Automation).
სვეტები (6-12 თვე): ინიციატივების ბლოკები თემებზე (მაგალითად, „SLO საფარი კრიტიკული ბილიკების 100%“, „აქტიური აქტივობა 2 რეგიონში“).
კვარტალური გეგმა (Q): კონკრეტული ინიციატივები მეტრიკებით, მფლობელებით, დამოკიდებულებით, ბიუჯეტით.
გამეორება (2-3 კვირა): დავალებები/ეპიკა და ფაქტობრივი პროგრესი.
ID: OPS-23
4) Prioritization: How to compare the incomparable
4. 1 RICE (Reach, Impact, Confidence, Effort)
Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.
4. 2 WSJF (Scaled)
Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).
The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.
5) Relationship with OKR, SLO and incidents
Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.
6) Resource and budget planning
FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.
7) Managing dependencies and risks
Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.
8) Quarterly cycle (rhythms)
Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.
9) Roadmap view formats
Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.
Example of a quarterly slice (summary):
Initiative Outcome Metrics Term Owner Risk
-------------------- ----------------------- -------------------- ----- ------------- -------
Active-Active Games RTO≤5 min Availability 99. 95% Q1–Q2 platform-sre High
SLO-burn на Payments − 30% of late incidents Pre-Incident↑, MTTR↓ Q1 observability Average
Kafka Lag Guardrails − 50% of lag storms Lag p95↓, DLQ↑ Q1 streaming Average
FinOps Right-sizing −15% cost/RPS Cost/RPS↓ Q2 finops Low
10) Roadmap Success Metrics (KPIs)
Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.
11) Roadmap launch checklist
[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.
12) Anti-patterns
List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.
13) Templates (fragments)
Initiative Template (YAML):
yaml id: OPS-42 title: „Guardrails გამოშვების კანარისთვის“
theme: "Reliability"
quarter: "2025-Q1"
owner: "platform-release"
stakeholders: ["payments", "bets", "games"]
გარეთ: „რეგრესიების შემცირება გამოშვების შემდეგ 40% -ით“
metrics:- name: change_failure_rate target: "<= 12%"
- name: post_deploy_regression_rate target: "-40% QoQ"
- slo_impact: ["api_p99 <= 300ms@99. 9", "availability >= 99. 95%"]
- reach: 5000,000 # გარიგება/კვტ impact: 3. 0 confidence: 0. 7 effort: 6 dependencies: ["observability-baseline", "feature-flags-core"]
- name: „კარიბჭეების ყალბი მოქმედება“
- mitigation: „baseline/tuning, მფრინავი ტრაფიკის 10%“
- name: design eta: "2025-01-20"
- name: pilot-10%
- eta: "2025-02-10"
- name: rollout-100%
- eta: "2025-03-05"
Quarterly report template (Markdown):
Q1 Ops Roadmap - ანგარიში
შედეგი: SLO Coverage 92% (+ 7 გვ), MTTR − 18%, Cost/RPS − 9%
დასრულებულია: 8/10 ინიციატივა (80%)
ძვრები: OPS-31-Q2 (დამოკიდებულია PSP-X პროვაიდერზე)
ინციდენტები: P1 = 2 (− 1 კვ/კვ), ძირითადი მიზეზები: პროვაიდერის ტაიმაუტებზე რეაგირება
Follow-ups: tuning tuning, სარეზერვო კვოტები PSP-Y
14) პროცესებთან ინტეგრაცია
ინციდენტის მენეჯმენტი: თითოეული პოსტმორტემი არის Roadmap- ის ინიციატივის/გაუმჯობესების თიკეტი.
ცვლილებები/გამოშვებები: დიდი ინიციატივები მიმდინარეობს მხოლოდ დროშებით/კანარებით.
Capacity/FinOps: თვეში ერთხელ სინქრონიზაცია headroom და cost ტენდენციებში.
უსაფრთხოება/შესაბამისობა: კვარტალური საკონტროლო პუნქტები მოთხოვნებისა და აუდიტის შესაბამისად.
15) 30/60/90 (სწრაფი დასაწყისი)
30 დღე: შეაგროვეთ ინციდენტი/მეტრიული ბაზა, ჩამოაყალიბეთ თემები, აღწერეთ 10-15 ინიციატივა YAML ფორმატით, შეარჩიეთ RICE/WSJF, დააფიქსირეთ Q გეგმა.
60 დღე: Outcome/Domain/Budget პანელების გაშვება, პირველი საგარეო კვარტალური მიმოხილვის ჩატარება, მონაცემების მიხედვით პრიორიტეტების კორექტირება.
90 დღე: შეაჯამეთ Q შედეგები, განაახლეთ პრინციპები და მასშტაბები, აღადგინეთ წლიური სვეტები.
16) კომუნიკაციები და გამჭვირვალობა
ყოველთვიური მიმოხილვა სტეიკჰოლდერებისთვის: 30 წუთი, ყურადღება გამახვილებულია შედეგებზე და რისკებზე.
ასინქრონული აპდეიტები: მოკლე ჩანაწერები მეტრიკებით „წინ/მის შემდეგ“.
ერთი Roadmap არხი: სტატუსები, ცვლილებები, პრიორიტეტები.
„წითელი ბარათის“ წესი: ნებისმიერ გუნდს შეუძლია დაიწყოს პრიორიტეტის გადახედვა მონაცემების დამატებით (SLO/ინციდენტი/ღირებულება).
17) FAQ
Q: რა უნდა გავაკეთოთ, თუ ყველაფერი „იწვის“ და Roadmap- ის დრო არ არის?
A: ჩართეთ ხანძარი-ბუფერი 15-20% და მინიმალური Q- გეგმა 3 ინიციატივიდან, რომელიც ფარავს ინციდენტების ძირითადი მიზეზებს. ნებისმიერი ახალი „ცხელი“ სამუშაო მხოლოდ პრიორიტეტების გადაკეთების გზით ხდება.
Q: როგორ დავამტკიცოთ „უხილავი“ ინიციატივების ღირებულება (დაკვირვება, ავტო კარიბჭე)?
A: ჩათვალეთ Change Failure Rate, MTTR, Pre-Incident Detect Rate, გამოტოვება და „ღამის პეიზაჟები“. აჩვენეთ დინამიკა/შემდეგ.
Q: როგორ მოვიქცეთ ტექნიკური დავალიანებით?
A: დავალიანება ასევე არის ინიციატივა გარეთ: "- N კლასის ინციდენტების X%", "- Y% cost/RPS", "+ Z გვ. SLO Coverage». გაზომილი შედეგის გარეშე, დავალიანება არ შედის გეგმაში.