Нөөмөттөрдү алмаштыруу жана тапшырмаларды өткөрүп берүү
1) Эмне үчүн нөөмөттөрдү алмаштырууну формалдаштыруу
Нөөмөттөрдү алмаштыруу - тобокелдик учуру: контекст жоголот, реакция убактысы өсөт, аракеттер кайталанат. Формалдаштырылган процесс MTTA/MTTR азайтат, "унутулган куйруктарды" жок кылат жана комплаенс (ким жана качан жоопкерчиликти алды) камсыз кылат.
2) Ролдору жана каптоо модели
Primary on-call (P1) - биринчи жооп, триаж, IC келгенге чейин координациялоо.
Secondary on-call (P2) - бэкап, ашыкча жүктөө/эскалация учурунда кошулат.
Duty Manager/IC-of-the-day - SEV-1 + үчүн окуянын лидери.
Follow-the-sun (көп таймзон) же Follow-the-moon (башка аймактарда түнкү жабуу).
Убактылуу терезелер: Releases/тобокелдик иштерден качуу ± сменадан 30 мин.
3) Айлануу графиктери (мисалдар)
24/7, 8-сааттык сменалар: эртең менен/күнү/түнү, 3 бригадалар, P1 + P2.
24/7, 12-сааттык сменалар: аз которуулар, чарчоо коркунучу жогору - "компенсациялык терезелер" керек.
5 × 8 (иш күндөрү) + Weekend Pool: күндүзгү баштапкы камтуу продукт командасы, дем алыш күндөрү - платформа/SRE.
Гибрид: иш күндөрү "кеңсе убагында", түнкүсүн/дем алыш күндөрү - Follow-the-sun.
Калыстык эрежелери: календар боюнча ротация, майрамдарды/эс алууларды эсепке алуу, мезгил ичинде түнкү сменалардын максималдуу N.
4) Смена картасы (Shift Handover Card)
Мазмундун минималдуу стандарты:- Качан жана ким: 'Датасы/убактысы (UTC жана жергиликтүү)', өткөрүп берет →; байланыштар P1/P2.
- Системалардын статусу: SLO/SLA кыскача, активдүү алерталар, белгилүү деградациялар.
- Ачык окуялар: ID, SEV, учурдагы кадам, ким ээси, кийинки иш-аракет/ETA.
- Өзгөрүү терезесине тобокелдиктер: пландуу иштер, релиздер, миграциялар, лимиттик шарттар (провайдерлердин квоталары).
- Критикалык билеттер/тапшырмалар: артыкчылык, блокаторлор, мөөнөтү.
- Байланыш сырттан: статус-бетиндеги активдүү билдирүүлөр/кардар жаңылыктары.
- Белгилүү айланып өтүүчү жолдор: деградациянын фич-желектери, убактылуу лимиттер киргизилген.
- Домен: төлөм провайдерлери/KYC/CDN - алардын статусу жана багыты.
- Housekeeping: Ким эртеңки күнү чалуу, адамдардын жеткиликсиз терезелер (митингдер/учуулар).
5) "Сменаны өткөрүп берем" чек-баракчасы (берген тарап)
- нөөмөт картасын (бардык талаалар) жаңыртып, '#oncall -handover' каналына шилтемени бекитти.
- "Оозеки билимди" билеттерге/жазууларга которгон; эч кандай милдеттер жок.
- Бардык окуялар бар: SEV, ээси, кийинки кадам, кийинки күн.
- Статус-бет жана кардарлардын жаңылыктары иш жүзүндөгү абалга туура келет.
- Ызы-чуу/жалган тобокелдиктерди өчүрүп (жол-жобосу боюнча) же картада белгиленген.
- Кийинки сменанын терезесине тышкы провайдерлердин квоталарын/лимиттерин текшерди.
- 5-10 мүнөт үн/Video байланыш менен синхрондоштурулган (SEV-1 + активдүү болсо).
- Которуу фактысын каттады (бот/билет), кабыл алуучуну көрсөттү.
6) "Сменаны кабыл алам" чек-баракчасы (кабыл алуучу тарап)
- Картаны окуп, ачык суроолорду тактады.
- Акыркы 2-4 саатта SLO/алерта дашбордддорун текшерди.
- Ал ботто P1/P2 ролун тастыктады (assign) жана үн/пейджер каналдар.
- Активдүү окуяларга ээлик кылууну кабыл алды жана жаңылоо таймерлерин жаңыртты.
- Пландуу иштерди/релиздерди салыштырып, алгачкы 30 мүнөттө кооптуу операцияларды жокко чыгарды.
- Каналга "жаңырык билдирүү" жасады: "Өзгөрүүнү кабыл алдым, активдүү окуялар:..., сл. жаңыртуу "....
7) Байланыш стандарттары
Каналы: `#oncall`, `#incident-warroom-<ID>`, `#statuspage`.
Жаңылоо интервалдары: SEV-0: 15 мин, SEV-1: 30 мин, SEV-2 +: 60 мин.
Апдейт форматы: Импакт - Диагностика - Иш-аракеттер - Кийинки апдейт (убакыт).
Эскалация: N мүнөттө эч кандай жылыш жок → матрица боюнча TL/Platform/DB/Sec туташтыруу.
Так ээлик: ар бир иш-аракет аткаруучу жана ETA бар.
8) Тапшырмаларды өткөрүп берүү (инцидент эмес)
Берүү критерийлери: тапшырма SLO/релиз/комплаенс бөгөт же мөөнөтү аяктайт.
Жасалгалоо: "кийинки кадам" жана күтүлгөн натыйжасы менен билет, бардык экспонаттар (логи/сүрөттөр/графиктер) тиркелет.
Артыкчылыктуу: Kanban- swimlane "On-call Handover".
Мөөнөтү: берүү due-date бар; тейлөө ээсине эскалацияланат.
9) Автоматташтыруу жана интеграция
Айлануу календары: пейджер менен синхрондоштуруу; бот "ким нөөмөтчү" деп жарыялайт.
ChatOps: '/handover start ', булактардан карталарды чогултуу (SLO статустары, ачык окуялар, релиздер).
Тикетинг: P1/P2 ээсинин автоматтык максаты; теги "handover".
Status-Page: шаблондор менен коомдук апдейт үчүн Bridge.
Аудит: өткөрүп берүү журналы (ким/качан кабыл алды), SEV жана отчеттор менен байланыш.
10) Чарчоо башкаруу жана туруктуулук (Fatigue башкаруу)
Лимиттер: максимум X пейджер/саат жана Y катары менен түн - P2 өтүү/эскалация.
Quiet hours үчүн критикалык эмес alerts (ордуна пейджинг билеттер).
After-hours компенсация жана post-incident rest.
Жаңы on-call инженерлер үчүн окутуу жана shadowing.
Retrospectives ызы-өзгөрүүлөр → тюнинг alerts жана playbook.
11) Сапаттуу өзгөрүүлөр жана берүү өлчөө
Handover Defect Rate: өзгөртүү контекстин жоготуу менен окуялар үлүшү.
MTTA айланасында өзгөртүү: Median/чокулары ± 30 мүнөт өзгөртүлгөн.
Missed/late updates: SEV боюнча мөөнөтү өтүп кеткен жаңылануулар.
Alert Hygiene:% жалган пейджер; runbook/ээси жок alerty.
Жүктөө per shift: пейджи/саат, активдүү иш орточо узактыгы.
Satisfaction: NPS нөөмөт (on-call сурамжылоо), чарчоо шкала.
12) Инцидент-менеджмент жана RCA менен байланыш
Активдүү инциденттер сменада жабылбайт; жоопкерчилик ачык берилет жана бекитилет.
RCAда "Өзгөрүүнүн таасири" бөлүмү талап кылынат: контексттин сүрүлүшү, жаңылыктын кечигиши, дубль аракеттери.
CAPA: карталарды жакшыртуу, текшерүү, автоматташтыруу, окутуу.
13) Коопсуздук, комплаенс жана купуялуулук
PII/сырлар карталардын эркин текстинде тыюу салынат; коопсуз сактоо шилтемелер.
Убактылуу жеткиликтүүлүктөр: On-call укугу өзгөртүү терезесине (JIT/JEA), ачкычтарды айлантууга берилет.
Аудит-из: immutable-журнал ким окуган/картаны жана статус-бетти өзгөрткөн.
Жөнгө салуучу: кардарлардын билдирмелеринин мөөнөттөрү сменалык карточкада көзөмөлдөнөт.
14) Анти-үлгүлөрү
"Оозеки берем" картасыз/билеттерсиз.
IC жана backup жок өзгөртүү учурунда так бошотуу.
P2 жок адамдын "учак/метро" пейджер.
кийинки кадам/ETA жок "шейшеп" сыяктуу карта.
Жеке чаттарда триаж - маалымат жоголот, аудит мүмкүн эмес.
Которуу фактысы жок - талаш-тартыштар "ким жооп берди".
15) Үлгүлөр
Смена картасынын үлгүсү (кысылган)
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
Кабыл алууда электрондук почта үлгүсү
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) күнүмдүк практикага киргизүү
Дейли-ритуал өзгөртүү: 5-10 мүнөт активдүү окуяларда үн синхрондоштуруу.
Карточкалардын жумалык аудити: толук/актуалдуулугун тандап текшеребиз.
Оюн-күндөр: көптөгөн параллелдүү окуялар менен сменаларды симуляциялоо.
Док-каталог: репозиторийдеги карточкалардын/чек-барактардын шаблондору, код катары ревю.
17) Жыйынтык
Жакшы уюштурулган өзгөрүүлөр жана өткөрүп берүү - бул бүт иштетүү машина "майлоо" болуп саналат. Нөөмөт картасы, кыска синхрондоштуруу, катуу чек баракчалары, автоматташтыруу жана команданын туруктуулугуна кам көрүү кооптуу учурларды сапатын жоготпостон тартипке айландырат: контекст сакталат, реакция убактысы туруктуу, ал эми колдонуучулар нөөмөттөгү өзгөрүүлөрдү такыр байкабайт.