Operatsiyalar va Boshqaruv → Smenalar o’rtasida kontekst uzatish
Smenalar orasida kontekst uzatish
1) Nima uchun bu zarur?
Smena keladi - tizim allaqachon «yugurmoqda». Hendover sifati MTTR, alertlar shovqini va relizlarning barqarorligiga bevosita taʼsir qiladi. Yaxshi hendover - bu tezkor yo’nalish, aniq xatarlar va tushunarli keyingi qadamlar.
Maqsadlar:- Hodisalar, relizlar va provayderlar boʻyicha kontekst yoʻqotilishini istisno qilish.
- Yangi smenaning «kirish vaqtini» soatgacha emas, daqiqalargacha kamaytirish.
- Tanqidiy yo’llarning SLOlarini barqarorlashtirish (depozit, stavka, o’yinni boshlash, chiqish).
- Kommunikatsiyalarni oldindan aytib bo’ladigan va tekshiriladigan qilish.
2) Yaxshi hendover tamoyillari
1. Standartlashtirilgan shakl (bitta shablon, bitta terminologiya).
2. Yagona artefaktlar (bir xil dashbordlarga/tiketlarga/runbook’i havolalari).
3. Taymbox (qisqa «brifing» + «longrid» yozma shaklda).
4. Actionable: oxirida - «kim/nima/qachon» vazifalarining aniq roʻyxati.
5. SLO yo’naltirilganlik: «voqealar log» emas, balki SLO/xatolar bo’yicha maqom.
6. Izlanuvchanlik: har qanday fakt artefakt bilan tasdiqlanadi.
3) Rollar va javobgarlik
Lead smenasi: hendover paketini tayyorlaydi, brifing o’tkazadi.
Lead smenasi (qabul qiluvchi): savollar/xavflarni qayd etadi, qabul qilinganligini tasdiqlaydi.
Hodisa menejeri: hodisaning taymline/kanalini yangilaydi, SLA yangilanishlarini kuzatadi.
Domen egalari (Payments/Bets/Games/KYC): oʻz seksiyalari boʻyicha «maqom va xavf» beradi.
SRE/Observability: artefaktlarni qo’llab-quvvatlaydi (dashbordlar, relizlarning izohlari, alertlar).
4) Tayming va kanallar
Smenaga T-30 daqiqa: ketayotgan smena holatini muzlatadi, shablonni yangilaydi.
T-10 min: ovozli/video kanalda tezkor brifing (maksimal 15-20 daqiqa).
T + 0: hendover paketini «#ops -handover» umumiy kanalida e’lon qilish.
T + 15 min: qabul qiluvchi smena qabul qilinganligini tasdiqlaydi va ochiq savollarga aniqlik kiritadi.
Eskalatsiyalar: barcha «qizil» punktlar darhol tegishli buyruq kanaliga o’tkaziladi.
5) Hendover paketining tuzilishi (shablon)
Handoff - <date, time, TZ>
Shift: <outgoing> → <receiving>
Overall SLO status (last 4h):
- API p95/p99: <values/trends>
- Error rate: <values/trends>
- Queue lag/DB connections/Cache: <brief>
Critical incidents:
- <INC-123>: status, impact, next update ETA, links (ticket, channel, postmortem draft)
Providers (PSP/KYC/studios):
- PSP-X: quotas/errors/fake <links>
- KYC-A: Webhook delays <links>
Releases/Features:
- In progress: <service>, stage (canary X%), gate/metrics, risk
- Scheduled: windows/locks/dependencies
Risks and observations:
- <briefly, with links and graphs>
Action items (before <time>):
- [Owner] <task>, readiness criterion
Useful links:
- Dashboard Overview, dependency map, escalation matrix, runbook 'and
On-call contacts:
- Domains/Names/Channels
6) Hendover mini-SOP
1. Ketayotgan smena relizlar va dashbordlarning izohlarini yangilaydi (SLO, provayderlar, navbatlar).
2. So’nggi 4 soat ichida «qizil» alertlarni tekshiradi, maqomi/sababini qayd etadi.
3. «Xavf-xatarlar va kuzatishlar» bo’limini yangilaydi (tendensiyalar/shubhalar, faktlar emas).
4. Muddatlar va egalari bilan Action itemsni toʻldiradi.
5. Brifing o’tkazadi: 10-15 daqiqa, qat’iy shablon bo’yicha.
6. Qabul qiluvchi smena savollar beradi; agar kerak bo’lsa - egalari uchun zudlik bilan eskalatsiya.
7. Qabul qilinganligini tasdiqlash: «qabul qilindi, savollar/yo’q», birinchi qadamlar ro’yxati.
7) Hendover sifati metrikasi (KPI)
Handoff Quality Score (HQS) - chek-varaq bo’yicha paket (0-100) skoringi.
Handoff Time - brifing davomiyligi (maqsadli koridor 10-20 daqiqa).
Acknowledgement SLA - qabul qilinganligini tasdiqlash ≤ 15 daqiqa.
Missing Context Rate - smenadan keyin «kontekst yo’qolishi» bilan bog’liq hodisalar ulushi.
Post-Handoff Incident Spike - dastlabki 60 daqiqada alert/hodisalarning ko’payishi.
Action Items SLA - smenadan keyingi muddatda yopilgan vazifalar ulushi.
8) Paket sifatining chek-varaqasi (HQS bahosi)
- SLO/asosiy metriklar 4 soat ichida trendlar bilan to’ldirilgan.
- Barcha «qizil» alertlar sabablar/havolalar bilan sanab o’tilgan.
- Hodisalar: raqam, maqom, ta’sir, keyingi yangilanish (vaqt).
- Provayderlar: kvotalar/xatolar/faylover, so’nggi o’zgarishlar.
- Relizlar/fichlar: bosqich, xavf-xatarlar, geytlar/kanareyka.
- Action items: egasi, muddati, tayyorlik mezoni.
- Havolalar: dashbordlar, kanallar, runbook’i, eskalatsiya matritsasi.
- On-call kontaktlari va zaxira aloqa kanallari.
9) «hendover uchun» dashbordlar (minimal)
Operations Overview: p95/p99, error rate, capacity headroom, queue lag.
Incidents Board: ochiq hodisalar, yangilanishlar ETA, ta’sir.
Release & Feature: kanareykalar, «oldin/keyin» taqqoslash, avtogeytlar.
Providers Panel: kvotalar, taymautlar, cost/1k calls, almashtirishlar.
Dependency Map: muammoli qovurgʻalar (latency/errors/retries).
10) Hendoverlar sifati uchun alertlar (g’oyalar)
ALERT HandoffNotPublished
IF handoff_published == 0 AND within(10m, shift_change) == true
LABELS {severity="warning", team="ops"}
ALERT HandoffAckSLA
IF handoff_ack_minutes > 15
LABELS {severity="warning", team="ops"}
ALERT MissingActionOwners
IF count_over_time(handoff_action_items{owner=""}[1h]) > 0
LABELS {severity="warning", team="ops"}
ALERT PostHandoffIncidentSpike
IF incidents_rate_60m_after_shift > baseline_14d 1. 5
LABELS {severity="info", team="ops"}
11) Kommunikatsiyalar va yangiliklar formati
Qisqa yangilanish namunasi (umumiy kanalga):
[HH: MM] Handoff published. SLO OK/Degraded. Incidents: INC-123 (ETA 18:30), releases: bets-api canary 10%. Risks: PSP-X 85% quota. Action items: @ squad-payments until 7pm to check out the feilover.
Qoidalar:
- Tanqidiy nuqtalar uchun shaxsiy chatlarsiz - faqat umumiy kanallar.
- Har qanday «qizil» zona - egalari bilan zudlik bilan bog’liq.
- Barcha qarorlar/murosalar - yozma shaklda, ma’lumotlarga havola qilingan holda.
12) Domenlarning xususiyatlari (iGaming)
Payments: ustuvorlik: depozitning konvertatsiyasi va avtorizatsiya vaqti, PSP feylover yo’nalishlari, provayderlar bo’yicha limitlar.
Bets: koeffitsiyentlar/kesh yangilanishi, striming/navbat yuklanishi, hisob-kitoblarning kechikishi.
Games/Live: keng ko’lamli tadbirlar (jekpotlar/oqimlar), vebsoketlar limitlari, UI degradatsiyalari.
KYC/AML: tekshirish navbati, SLA provayderlari, cho’qqilarga sezgirlik.
13) Anti-patternlar
Hendoverning erkin «erkin shakli» (har kim xohlaganicha yozadi).
Qabul qilinganligini tasdiqlash uchun hech qanday muddat yoʻq.
Paket Action items va egalarisiz.
Hendover SLO/xavf o’rniga «o’qish» ga aylanadi.
Shaxsiy chatlarda maxfiy qarorlar - yo’lning yo’qligi.
Namunada artefaktlarga havolalar yoʻq - tekshirish uchun hech narsa yoʻq.
14) Integratsiya va artefaktlar
Grafiklardagi relizlarning izohlari, xendoverga avto-jo’natmalar.
Link unfurling: dashbord/tiketlarga bogʻlamalarni qoʻyish.
Runbook bogʻlamalari: har bir «qizil» zona aniq bir runbook’ga toʻgʻridan-toʻgʻri bogʻlangan.
Eskalatsiyalar matritsasi: shablonda - yagona dolzarb hujjat.
15) Saqlash siyosati va audit
Hendoverlar - markazlashtirilgan holda saqlanadi (geos, sana/vaqt, mualliflar).
HQS haftalik auditi va «yomon» hendoverlarni tanlab tahlil qilish.
Shablonni taftish qilish - har chorakda yoki postmortemlar yakunlari bo’yicha.
16) Tez boshlash (30 kun)
1-hafta: shablon, rollar va taymingni tasdiqlash; uchuvchini bitta liniyada ishga tushirish (masalan, Payments).
2 hafta: «hendover uchun» dashbordlarni, HandoffNotPublished/AckSLA alertlarini kiritish.
3 hafta: HQS-skorard va 10% hendoverlar auditini joriy etish.
4-hafta: Bets/Games/KYC da kengaytirish, retrospektivani o’tkazish, SOPni yangilash.
17) Paket uchun «tavakkalchilik kartochkalari» misoli
Risk: PSP-X hits 90% quota in prime time
Impact: rise in deposit refusals, SLO payments at risk
Signals: outbound_error_rate, quota_usage_ratio
Mitigation: raise PSP-Y up to 20% of traffic in advance, enable token cache
Owner/ETA: integrations@oncall / до 18:00
18) FAQ
Q: Agar brifing kechiktirilsa nima qilish kerak?
A: Qat’iy taymbox va «brifingdan keyin tredga» qoidasi. Paketda asinxron tanishish uchun hamma narsa bo’lishi kerak.
Q: «Haqiqatning turli versiyalari» bilan qanday kurashish mumkin?
A: Artefaktlarni birxillashtirish: yagona dashbordlar, relizlarning izohlari, SLA uchun SSOT; Faqat ularga bogʻlash.
Q: Brifingni yozish kerakmi?
A: Ha, munozarali holatlar va o’qitish uchun. Lekin yozuv standartlashtirilgan yozuv paketini almashtirmaydi.