Операциялар жана башкаруу → Сменалардын ортосундагы контекстти берүү
Сменалардын ортосундагы контекст
1) Эмне үчүн керек
Өзгөртүү келет - система азыртадан эле "чуркап". Hendover сапаты түздөн-түз MTTR, алерт ызы-чуу жана релиздердин туруктуулугуна таасир этет. Жакшы хендовер - бул тез ориентир, так тобокелдиктер жана түшүнүктүү кийинки кадамдар.
Максаттары:- Инциденттер, релиздер жана провайдерлер боюнча контексттин жоголушун жокко чыгаруу.
- Жаңы сменанын "кирүү убактысын" саатка эмес, мүнөткө чейин кыскартыңыз.
- SLO критикалык жолдорун турукташтыруу (депозит, коюм, оюнду баштоо, чыгаруу).
- Коммуникацияларды алдын ала айтууга жана текшерүүгө болот.
2) Жакшы хендовер принциптери
1. Стандартташтырылган түрү (бир шаблон, бир терминология).
2. Бирдиктүү артефакттар (ошол эле дашбордддорго/билеттерге/runbook 'и шилтемелер).
3. Таймбокс (кыска "брифинг" + "лонгрид" жазуу түрүндө).
4. Actionable: аягында - милдеттердин так тизмеси "ким/эмне/качан".
5. SLO багыты: SLO/каталар боюнча статусу, "окуялар журналы" эмес.
6. Трассалануучулук: ар кандай факт артефакт менен тастыкталат.
3) Ролдору жана жоопкерчилиги
Lead нөөмөт (кетип): hendover топтомун даярдап, брифинг өткөрөт.
Lead өзгөрүүлөр (кабыл алуучу): суроолорду/тобокелдиктерди белгилейт, кабыл алууну тастыктайт.
Инцидент менеджери: Инциденттин таймлайн/каналын жаңыртып, SLA жаңылоолорун көзөмөлдөйт.
Домендердин ээлери (Payments/Bets/Games/KYC): өз бөлүмдөрүнө "статус жана тобокелдик" беришет.
SRE/Observability: артефакттарды (дашборддор, релиздердин аннотациялары, алерталар) колдойт.
4) Таймин жана каналдар
Сменага T-30 мүнөт: өткөн смена абалды тоңдурат, шаблонду жаңылайт.
T-10 мин: тез брифинг (15-20 мүнөт максималдуу) үн/Video каналында.
T + 0: "#ops -handover" жалпы каналында хендовер пакетин жарыялоо.
T + 15 мин: кабыл алуучу нөөмөт кабыл алууну тастыктайт жана ачык суроолорду тактайт.
Эскалация: бардык "кызыл" пункттар дароо тиешелүү команданын каналына.
5) Hendover пакетинин түзүмү (шаблон)
Handoff - <date, time, TZ>
Shift: <outgoing> → <receiving>
Overall SLO status (last 4h):
- API p95/p99: <values/trends>
- Error rate: <values/trends>
- Queue lag/DB connections/Cache: <brief>
Critical incidents:
- <INC-123>: status, impact, next update ETA, links (ticket, channel, postmortem draft)
Providers (PSP/KYC/studios):
- PSP-X: quotas/errors/fake <links>
- KYC-A: Webhook delays <links>
Releases/Features:
- In progress: <service>, stage (canary X%), gate/metrics, risk
- Scheduled: windows/locks/dependencies
Risks and observations:
- <briefly, with links and graphs>
Action items (before <time>):
- [Owner] <task>, readiness criterion
Useful links:
- Dashboard Overview, dependency map, escalation matrix, runbook 'and
On-call contacts:
- Domains/Names/Channels
6) Mini SOP Hendover
1. Өтүп жаткан смена релиздердин жана дашборддордун аннотацияларын жаңылайт (SLO, провайдерлер, кезектер).
2. Акыркы 4 саатта "кызыл" алерталарды текшерет, статусун/себебин белгилейт.
3. "Тобокелдиктер жана байкоолор" бөлүмүн жаңылайт (тенденциялар/шектенүүлөр, фактылар эмес).
4. мөөнөтү жана ээлери менен Action items толтурат.
5. Брифинг өткөрөт: 10-15 мүнөт, катуу шаблон боюнча.
6. Кабыл алуучу смена суроолорду берет; керек болсо - ээлерине токтоосуз эскалация.
7. Кабыл алуу ырастоо: "кабыл алынды, суроолор/жок", биринчи кадамдардын тизмеси.
7) Hendover сапаты (KPI)
Handoff Quality Score (HQS) - чек тизмеси боюнча топтомун (0-100).
Handoff Time - брифингдин узактыгы (максаттуу коридор 10-20 мин).
Acknowledgement SLA - кабыл алуу ырастоо ≤ 15 мүнөт.
Missing Context Rate - сменадан кийин "контекст жоготуу" менен окуялар үлүшү.
Post-Handoff Incident Spike - алгачкы 60 мүнөттө Алерт/окуялардын өсүшү.
Action Items SLA - сменадан кийин өз убагында жабылган милдеттердин үлүшү.
8) Текшерүү сапаты пакети (HQS баа)
- тенденциялар менен 4 сааттын ичинде SLO/негизги метриктер толтурулган.
- Бардык "кызыл" алерталар себептер/шилтемелер менен тизмеленген.
- Окуялар: саны, абалы, таасири, кийинки жаңылоо (убакыт).
- Провайдерлер: квота/ката/failover, акыркы өзгөртүүлөр.
- Релиздер/Fich: этап, тобокелдик, гейт/канарейка.
- Action items: ээси, мөөнөтү, даяр критерийи.
- Шилтемелер: dashboard, каналдар, runbook 'i, эскалация матрица.
- On-call байланыштар жана резервдик байланыш каналдары.
9) Дашборддор "хендовер үчүн" (минимум)
Operations Overview: p95/p99, error rate, capacity headroom, queue lag.
Incidents Board: ачык окуялар, ETA тактоо, таасир.
Release & Feature: канарейка, салыштыруу "чейин/кийин", автогейт.
Providers Panel: квоталар, таймауттар, cost/1k чалуулар, которуулар.
Dependency Map: көйгөйлүү кабыргалар (latency/errors/retries).
10) Хендоверлердин сапатына алерттар (идеялар)
ALERT HandoffNotPublished
IF handoff_published == 0 AND within(10m, shift_change) == true
LABELS {severity="warning", team="ops"}
ALERT HandoffAckSLA
IF handoff_ack_minutes > 15
LABELS {severity="warning", team="ops"}
ALERT MissingActionOwners
IF count_over_time(handoff_action_items{owner=""}[1h]) > 0
LABELS {severity="warning", team="ops"}
ALERT PostHandoffIncidentSpike
IF incidents_rate_60m_after_shift > baseline_14d 1. 5
LABELS {severity="info", team="ops"}
11) Байланыш жана жаңыртуу форматы
Кыска жаңылыктын үлгүсү (жалпы каналга):
[HH: MM] Handoff published. SLO OK/Degraded. Incidents: INC-123 (ETA 18:30), releases: bets-api canary 10%. Risks: PSP-X 85% quota. Action items: @ squad-payments until 7pm to check out the feilover.
Эрежелер:
- Критикалык пункттар үчүн жеке чаттарсыз - жалпы каналдар гана.
- Ар кандай "кызыл" зонасы - ээлери менен дароо трек.
- Бардык чечимдер/компромисстер - жазуу жүзүндө, маалыматтарга шилтеме берүү менен.
12) домен өзгөчөлүктөрү (iGaming)
Payments: артыкчылык: депозиттик которуу жана авторизациялоо убактысы, PSP Failover каттамдары, провайдерлер боюнча лимиттер.
Bets: тактоо коэффициенттери/кэш, агым/кезек жүктөө, кечигүү эсептөөлөр.
Games/Live: жайылтылуучу иш-чаралар (джекпот/стримдер), вебсокеттердин чектөөлөрү, UI деградациясы.
KYC/AML: текшерүү кезеги, SLA жөнөтүүчүлөр, жогорку сезгичтиги.
13) Анти-үлгүлөрү
Хендовердин эркин "эркин формасы" (ар ким каалагандай жазат).
Кабыл алууну ырастоо үчүн эч кандай мөөнөт жок.
пакети жок Action items жана ээлери.
Хендовер SLO/тобокелдиктердин ордуна "логдорду окууга" айланат.
Купуя чаттарда жашыруун чечимдер - трассанын жоктугу.
Шаблондо артефакттарга шилтемелер жок - текшере турган эч нерсе жок.
14) Интеграция жана экспонаттар
Графиктеги релиздердин аннотациялары, хендоверге авто шилтемелер.
Link unfurling: негизги метр алдын ала менен дашбордддорго/билеттерге шилтемелерди киргизүү.
Runbook байламталары: ар бир "кызыл" аймак белгилүү бир runbook түздөн-түз шилтеме менен.
Эскалация матрицасы: шаблондо - бирдиктүү актуалдуу документ.
15) Сактоо саясаты жана аудит
Хендоверлер - борборлоштурулган түрдө сакталат (геос, датасы/убактысы, авторлору).
HQS жумалык аудит жана "жаман" hendovers тандап талдоо.
Шаблон ревизиясы - чейрек сайын же постмортемдердин жыйынтыгы боюнча.
16) Тез баштоо (30 күн)
Апта 1: үлгү, ролдору жана убакыт бекитүү; бир сапта учкучту баштоо (мисалы, Payments).
Апта 2: "HandoffNotPublished/AckSLA" үчүн dashboard кирет.
Жума 3: HQS-скорард жана аудит киргизүү 10% hendovers.
Апта 4: Bets/Games/KYC кеңейтүү, retrospective өткөрүү, SOP жаңыртуу.
17) Пакет үчүн "тобокелдик картасынын" мисалы
Risk: PSP-X hits 90% quota in prime time
Impact: rise in deposit refusals, SLO payments at risk
Signals: outbound_error_rate, quota_usage_ratio
Mitigation: raise PSP-Y up to 20% of traffic in advance, enable token cache
Owner/ETA: integrations@oncall / до 18:00
18) FAQ
Q: брифинг создуктурулган болсо, эмне кылуу керек?
A: Катуу таймбокс жана эреже "брифинг кийин Trade". Пакетте асинхрондук таанышуу үчүн бардыгы болушу керек.
Q: "Чындыктын ар кандай версиялары" менен кантип күрөшүү керек?
A: Артефакттарды бириктирүү: бирдиктүү дашборддор, релиздердин аннотациялары, SLA үчүн SSOT; аларга гана кайрылышат.
Q: Мен брифинг жазуу керекпи?
A: Ооба, талаштуу учурларда жана окутуу үчүн. Бирок жазуу стандартташтырылган жазуу пакетин алмаштыра албайт.