Кезекшілікті ауыстыру және міндеттерді тапсыру
1) Кезекшілікті ауыстыруды ресімдеудің қажеті
Кезекшілікті ауыстыру - қауіпті сәт: контекст жоғалады, реакция уақыты артады, әрекеттер қайталанады. Формализацияланған процесс MTTA/MTTR төмендетеді, «ұмыт қалған қалдықтарды» болдырмайды және комплаенсті қамтамасыз етеді (жауапкершілікті кім және қашан қабылдады).
2) Жамылғы рөлдері мен моделі
Primary on-call (P1) - бірінші жауап, триаж, IC келгенге дейін үйлестіру.
Secondary on-call (P2) - бэкап, жүктеме/эскалация кезінде қосылады.
Duty Manager/IC-of-the-day - SEV-1 + үшін оқыс оқиғаның көшбасшысы.
Follow-the-sun (мульти-таймзон) немесе Follow-the-moon (басқа өңірлерде түнгі жабын).
Уақытша терезелер: релиздерді/қауіпті жұмыстарды ауысымнан 30 минутқа ± болдырмау.
3) Ротация кестелері (мысалдар)
24/7, 8-сағаттық ауысымдар: таңертең/күндіз/түнде, 3 бригада, P1 + P2.
24/7, 12 сағаттық ауысымдар: ауыстырып қосу аз, шаршау қаупі жоғары - «өтемдік терезелер» қажет.
5 × 8 (жұмыс күндері) + Weekend Pool: күндізгі бастапқы өнім командасы, демалыс - платформа/SRE.
Гибрид: жұмыс күндері «кеңсе уақытында», түнде/демалыс күндері - Follow-the-sun.
Әдiлеттiлiк ережесi: күнтiзбе бойынша ротация, мерекелердi/демалыстарды есепке алу, кезең iшiндегi түнгi ауысымдардың N ең көбi.
4) Ауысым карточкасы (Shift Handover Card)
Ең аз мазмұн стандарты:- Қашан және кім: 'Күні/уақыты (UTC және жергілікті)', береді → қабылдайды; контактілер P1/P2.
- Жүйелердің мәртебесі: SLO/SLA мәліметі, белсенді алерталар, белгілі тозулар.
- Ашық оқыс оқиғалар: ID, SEV, ағымдағы қадам, кім иеленеді, келесі әрекет/ETA.
- Ауысым терезесіндегі тәуекелдер: жоспарлы жұмыстар, релиздер, көші-қон, лимиттік жай-күй (провайдерлер квотасы).
- Сындарлы тикеттер/міндеттер: басымдық, блокерлер, соңғы мерзімдер.
- Сырттан қатынас: статус-парақтағы белсенді посттар/клиенттік жаңартулар.
- Белгілі айналма жолдар: қосылған тозу фич-жалаулары, уақытша лимиттер.
- Домен: төлем провайдерлері/KYC/CDN - олардың мәртебесі мен бағыты.
- Housekeeping: кім on-call ертең, адамдар қол жетімсіз терезелер (митингтер/ұшулар).
5) «Ауысымды беремін» чек-парағы (беруші тарап)
- Ауысым карточкасын (барлық өрістер) жаңартып, '#oncall -handover' арнасындағы сілтемені бекітті.
- «Ауызша білімді» тикеттерге/жазбаларға аударды; «басында» деген тапсырма жоқ.
- Барлық тосын оқиғалар бар: SEV, иесі, келесі қадам, келесі жаңартылған уақыт.
- Мәртебе-бет және клиенттік жаңартулар нақты жағдайға сәйкес келеді.
- Шулы/жалған тәуекелдерді өшірді (рәсім бойынша) немесе карточкада белгіледі.
- Келесі ауысымның терезесіне сыртқы провайдерлердің квоталарын/лимиттерін тексердім.
- 5-10 минут дауыспен/бейне байланыспен үндестірілді (егер SEV-1 + белсенді болса).
- Беру фактісін тіркеді (бот/тикет), қабылдаушыны көрсетті.
6) «Ауысымды қабылдаймын» чек-парағы (қабылдаушы тарап)
- Карточканы оқыдым, ашық сұрақтарды нақтыладым.
- Соңғы 2-4 сағатта SLO/алерта дашбордтарын тексердім.
- Боттағы P1/P2 рөлін және пейджер дыбысын/арналарын растады.
- Белсенді инциденттерге иелік етуді қабылдады және жаңартулардың таймерін жаңартты.
- Жоспарлы жұмыстарды/релиздерді салыстырды, алғашқы 30 минутқа қауіпті операцияларды алып тастады.
- Арнаға "эхо-хабар" жасады: "Ауысымды қабылдадым, белсенді оқиғалар:..., сл. апдейт "....
7) Коммуникация стандарттары
Каналы: `#oncall`, `#incident-warroom-<ID>`, `#statuspage`.
Апдейт аралықтары: SEV-0: 15 мин, SEV-1: 30 мин, SEV-2 +: 60 мин.
Апдейт пішімі: Импакт - Диагностика - Әрекеттер - Келесі апдейт (уақыт).
Эскалация: N минут ішінде прогресс жоқ → матрица бойынша TL/Platform/DB/Sec қосыңыз.
Иеленудің айқындығы: әрбір іс-қимылдың орындаушысы және ETA болады.
8) Тапсырмаларды беру (инциденттік емес)
Беру критерийлері: тапсырма SLO/релиз/комплаенс блоктайды немесе мерзімі аяқталады.
Ресiмдеу: «definition of next step» және күтiлетiн нәтижесi бар билет, барлық артефактiлер (логтар/суреттер/графиктер) қоса берiлген.
Басымдылығы: Kanban- swimlane «On-call Handover».
Мерзімі: берілістерде due-date бар; кешіктірулер сервис иесіне өршітіледі.
9) Автоматтандыру және ықпалдастыру
Ротация күнтізбесі: пейджермен үндестіру; бот ауысымның басында «кім кезекші» деп жариялайды.
ChatOps: '/handover start ', көздерден карточкаларды автоматты түрде жинау (SLO мәртебелері, ашық оқиғалар, релиздер).
Тикетинг: P1/P2 бойынша иесінің автоматты түрде тағайындалуы; «handover» тегтері.
Мәртебе-бет: үлгілері бар жария жаңартуларға арналған бридж.
Аудит: беру журналы (кім/қашан қабылдады), SEV және есептермен байланыс.
10) Шаршауды және тұрақтылықты басқару (Fatigue Management)
Лимиттер: максималды X пейджер/сағат және Y қатарынан түнде - Р2-ге көшу/эскалация.
Критикалық емес альянстарға арналған Quiet hours (пейджинг орнына тикеттер).
After-hours өтемақы және post-incident rest.
Жаңа on-call инженерлер үшін жаттығулар мен shadowing.
Шулы ауысымдардың ретроспективалары → алерттер мен плейбуктердің тюнингі.
11) Ауысым және беріліс сапасының метрикасы
Handover Defect Rate: ауысу кезінде контекст жоғалту оқиғаларының үлесі.
Ауысым айналасындағы MTTA: ауыстырып қосудан 30 минут ± медиана/шыңдар.
Missed/late updates: SEV бойынша мерзімі өткен апдейттер.
Alert Hygiene:% жалған пейджер; runbook/иесі жоқ алерталар.
Load per shift: пейджи/сағат, белсенді жұмыстың орташа ұзақтығы.
Satisfaction: NPS ауысым (on-call сауалнама), шәкіл бойынша шаршау.
12) Инцидент-менеджментпен және RCA-мен байланыс
Белсенді инциденттер ауысым кезінде жабылмайды; жауапкершілік анық беріледі және тіркеледі.
RCA-да «Ауысымның әсері» бөлімі міндетті: контекст дрейфі, апдейттің кешігуі, әрекеттер дублі.
CAPA: карточкаларды, чек-парақтарды, автоматтандыруды, оқытуды жақсарту.
13) Қауіпсіздік, комплаенс және құпиялылық
PII/құпиялар карточкалардың еркін мәтінінде тыйым салынған; қауіпсіз сақтау орындарына сілтемелер.
Уақытша қолжетімділік: on-call-құқықтар ауысым терезесіне (JIT/JEA), кілттерді ротациялауға беріледі.
Аудит-ізі: immutable-лог кім оқыды/өзгертті карточка және статус-бет.
Реттеуші: клиенттік хабарламалардың мерзімі ауысым карточкасында бақыланады.
14) Қарсы үлгілер
Карточкасыз/тикетсіз «Ауызша беремін».
IC және бэкапсыз дәл ауысым сәтінде шығару.
Адамда P2 жоқ «ұшақта/метрода» пейджер.
Карточка next step/ETA-сыз «ақ жайма» сияқты.
Жеке чаттарда триаж - ақпарат жоғалады, аудит мүмкін емес.
Беру фактісі тіркелмеген - «кім жауап берді» даулары.
15) Үлгілер
Ауысым карточкасының үлгісі (қысылған)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
Қабылдау кезіндегі электрондық пошта үлгісі
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) Күнделікті практикаға кіріктіру
Ауысымның дейли-ритуалы: белсенді оқыс оқиғалар кезінде 5-10 минут дауыспен үндестіру.
Карточкалардың апта сайынғы аудиті: толықтығын/өзектілігін іріктеп тексереміз.
Game-days: көптеген параллель оқиғалармен ауысымдарды симуляциялау.
Док-каталог: репозиторийдегі карточкалардың/чек-парақтардың үлгілері, код ретінде ревю.
17) Жиынтық
Жақсы ұйымдастырылған ауысымдар мен берілістер - бұл бүкіл операциялық машинаны «майлау». Ауысым карточкасы, қысқа синхрондау, қатаң чек-парақтар, автоматтандыру және команданың тұрақтылығына қамқорлық жасау қатерлі сәттерді сапаны жоғалтпай-ақ ретке келтіреді: мәтін мәнмәтіні сақталады, реакция уақыты тұрақты, ал пайдаланушылар кезекшілердің ауысуын мүлдем байқамайды.