Операциялардағы рөлі мен міндеттері
1) Не үшін рөлдерді ресімдеу
Рөлдерді нақты бөлу MTTA/MTTR төмендетеді, «сұр аймақтарды» жояды, релиздерді жылдамдатады және SLO/комплаенс сәйкестігін қайталанатын етеді. Рөлдер = жауапкершілік + өкілеттіктер + интерфейстер (кімге жазамыз, кімге эскалация жасаймыз, қандай шешімдерге өкілеттік берілген).
2) Базалық RACI-моделі
R (Responsible) - жұмысты орындайды.
A (Accountable) - қорытынды жауаптылықта болады және шешім қабылдайды.
C (Consulted) - сарапшы, дейін/уақытында кеңес береді.
I (Informed) - SLA бойынша хабарланады.
3) Рөлдер каталогы (сипаттамалары мен міндеттері)
3. 1 Incident Commander (IC)
Мақсаты: SEV-1/0 оқыс оқиғасына жауапты басқарады.
Өкілеттіктер: SEV жариялау, релиздерді қатыру, трафикті ауыстыру, эскалациялау.
Негізгі міндеттер: таймлайн, шешім қабылдау, фокусты ұстап тұру, міндеттерді бөлу, Go/No-Go.
Артефактілер: инцидент карточкасы, SLA бойынша апдейттер, қорытынды AAR.
3. 2 P1/P2 On-Call (Primary/Secondary)
Мақсаты: алғашқы жауап қайтару және техникалық әрекеттер.
P1: триаж, плейбуктерді іске қосу, IC байланысы.
P2: бэкап, күрделі өзгерістер, контекст ұстау, дауыл кезінде - сабпотоктар берет.
3. 3 SRE / Platform Engineer
Мақсаты: платформа мен сүйеніштің сенімділігі (SLO, алерта, GitOps, автоскейл, DR).
Міндеттері: SLI/SLO, алерт-гигиена, прогрессивті релиздер, код ретінде инфрақұрылым, capacity, observability.
Оқиға кезінде: түбірді диагностикалау, кері шегіну/фолбэктер, degrade-UX қосу.
3. 4 Service Owner / Product Owner
Мақсаты: бизнес-мағынадағы сервис сапасы.
Міндеттер: SLO/басымдықтарды анықтау, релиздерді/терезелерді келісу, Go/No-Go қатысу.
Коммс: Comms-пен бірге клиенттерге қашан және не айтуға болады.
3. 5 Release Manager
Мақсаты: өзгерістерді қауіпсіз жеткізу.
Міндеттері: релиздерді оркестрлеу, гейт чекапы, канарейка/blue-green, релиздерді аннотациялау, оқиғалар кезінде freeze.
3. 6 CAB Chair / Change Manager
Мақсаты: өзгерістер тәуекелін басқару.
Міндеттер: RFC процесі, жоспар/backout, қайшылықтар күнтізбесі, high-risk мақұлдау.
3. 7 RCA Lead / Problem Manager
Мақсаты: инциденттен кейінгі талдау, CAPA.
Міндеттері: таймлайн, дәлелдеу себептері, әрекеттерді түзету/болдырмау, бақылау D + 14/D + 30.
3. 8 Security (IR Lead, AppSec/CloudSec)
Мақсаты: қауіпсіздік және қауіпсіздік инциденттеріне ден қою.
Міндеттер: triage security-оқиғалар, кілттерді ротациялау, оқшаулау, форензия, реттеуші хабарламалар, WORM-аудит.
3. 9 DataOps / Analytics
Мақсаты: деректер мен пайплайндардың сенімділігі.
Міндеттері: жаңалық/сапа (DQ), деректер келісімшарттары, lineage, бэкфилл, SLA BI/есептер.
3. 10 FinOps
Мақсаты: басқарылатын құн.
Міндеттер: квоталар/лимиттер, $/бірлік есептері, бюджеттік гейттер, оңтайландыру (лог-көлемдер, egress, резервтеу).
3. 11 Compliance / Legal
Мақсаты: реттеуіштер мен келісімшарттарға сәйкестігі.
Міндеттер: хабарлау, ретенция мерзімдері/evidence өзгермейтіндігі, жария мәтіндерді келісу.
3. 12 Support / Comms
Мақсаты: клиенттермен/ішкі стейкхолдерлермен қарым-қатынас.
Міндеттер: статус-бет, апдейт макеттері, хабарламалардың жиілігі мен анықтығы, кері байланысты жинау.
3. 13 Vendor Manager / Provider Owner
Мақсаты: сыртқы провайдерлермен қарым-қатынас (PSP/KYC/CDN және т.б.).
Міндеттер: эскалация, SLA/OLA, резервтік бағыттар, терезелерді үйлестіру.
4) Ауысымдағы және эскалациядағы рөлдері
Ауысым: P1/P2 + IC-of-the-day (P1-мен біріктірілмесін).
Уақыт бойынша эскалация: P1 → P2 (ack жоқ 5 мин) → IC (10 мин) → Duty Manager (15 мин).
Quiet Hours: P2/P3-сигналдар оятпайды; security сигналдары - әрқашан.
5) Өзара іс-қимыл интерфейстері (кіммен және қалай)
IC Release Manager: freeze/rollback шешімдері.
IC Comms: жаңартулар мен жиілік мәтіндері.
SRE, DataOps: SLO-гардрейлдерде бизнес-SLI (төлемдердің табысы, деректердің жаңаруы).
Security Legal: security-инциденттер туралы хабарлар, хабарландыру мерзімдері.
Vendor Owner IC: провайдер мәртебесі, switchover/фолбэк.
6) Рөлдер бойынша KPI (бағдарлар)
IC: Time-to-Declare, SEV-1/0 бойынша Comms SLA, MTTR сақталуы.
P1/P2: MTTA, Time-to-First-Action, плейбуктерді орындау%.
SRE/Platform: SLO coverage, Alert Hygiene,% авто-кері қайту сәтті.
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
DataOps: Freshness SLO Adherence, Success Rate бэкфилл.
Comms: Status Accuracy, Complaint Rate/оқиға.
FinOps: $/бірлік,% QoQ үнемдеу, квоталарды сақтау.
7) Рөлдер карточкаларының үлгілері
7. 1 IC карточкасы
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 карточкасы
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Release Manager карточкасы
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Процестер және рөлдердің қатысуы (жиынтық)
A — Accountable, R — Responsible, C — Consulted, I — Informed.
9) Чек парақтары
9. 1 Рөлдерді тағайындау
- Әрбір рөлдің иесі, орынбасары және жабу аймағы бар.
- Өкілеттіктер сипатталған (қандай шешім қабылдай алады).
- Ойнатқыштар мен байланыс арналары байланыстырылған.
- Реакция/коммс бойынша SLA жарияланды.
- Рөлге каталогта (CMDB) әрбір сервисте қол жетімді.
9. 2 Ауысым және handover
- Ауысым карточкасы жаңартылды (белсенді инциденттер, тәуекелдер, терезелер).
- JIT/JEA рұқсаттары тексерілді.
- «Ауысым қабылданды/тапсырылды».
9. 3 Оқыс оқиғадан кейінгі
- AAR жүргізілді, RCA тағайындалды.
- CAPA иелері/мерзімі, D + 14/D + 30 бақылау.
- Жаңартылған playbook/алерта/саясат.
10) Қарсы үлгілер
«Кім шешеді» деген түсініксіз → кідірістер мен екі күш.
IC P1-мен біріктірілген - басшылықты жоғалту.
Legal/Comms келісімінсіз жария коммс.
Release Manager және гейтсіз босату → CFR өсуі.
Рөлдерді резервте қалдырудың болмауы (ауру/демалыс).
«Ерліктің» орнына: қолмен құтқарамыз, бірақ сүйенішті бекітпейміз.
Рөлдер CMDB/сервис каталогында көрсетілмеген → жоғалған эскалациялар.
11) Аспаптарға салу
ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Каталог/CMDB: сервисте - иесі, on-call, SLO, дашбордтар, плейбуктер, терезелер.
Alert-as-Code: Әрбір Page-де әдепкі owner және playbook бар.
GitOps: IC/Release шешімдері релиздердің аннотацияларында және тикеттерде көрсетіледі.
12) Рөлдерді бөлудің жетілу өлшемдері
Каталогтардағы рөлдердің Coverage: сындарлы сервистердің 100% ≥.
On-call SLA: Ack p95 ≤ 5 мин; Page Storm p95 бақылауда.
Postmortem SLA: жоба ≤ 72 сағ; CAPA completion ≥ 85%.
Change governance: RFC/CAB өзгерістерінің жоғары тәуекелі% ≥ 95%.
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.
13) Шағын үлгілер
13. 1 Сервис үшін RACI (реподағы файл)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Рөлдің профилі (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Қорытынды
Рөлдер мөлдір болғанда, өкілеттіктермен қамтамасыз етілгенде және құралдарға кіріктірілгенде операциялар тұрақты болады. Рөлдер каталогы, RACI, нақты интерфейстер мен өлшемдер әр рөл бойынша инциденттерді, релиздер мен өзгерістерді басқарылатын процестерге айналдырады: шешімдер тез қабылданады, тәуекелдер бақыланады, ал пайдаланушылар тұрақты сервисті көреді.