Операторлорду окутуу жана окутуу
1) Окутуу программасынын максаттары
MTTA/MTTR кыскартуу жана биринчи жолу туура иш-аракеттердин ыктымалдыгын жогорулатуу.
Реакцияны стандартташтыруу: плейбуктар, эскалация матрицасы, коммс шаблондору.
Команданын туруктуулугун сактоо: жүктү бөлүштүрүү, ишеним, коопсуздук маданияты.
Билимдерди ойнотулат: Docs/GitOps, LMS, үзгүлтүксүз ревю.
2) Компетенттүүлүк профилдери (Skill Matrix)
3) Окуу модулдары (программанын өзөгү)
1. SLO & Инциденттердин көрсөткүчтөрү: SLI/SLO, бурн-рат, MTTD/MTTA/MTTM/MTTR.
2. Эскалация матрицасы: SEV критерийлери, тайминг, ролдор (P1/P2/IC/Comms).
3. Playbook жана runbook 'i: түзүлүшү, жыгач чечимдер, backout/fallback.
4. Байкоо: логи/метрика/соода, релиз-аннотациялар менен байланыш.
5. Change/Release: Канарейка/көк-жашыл, auto-roll, тейлөө терезеси.
6. Коопсуздук базасы: JIT/JEA кирүү, сырлар, коопсуздук окуялар.
7. DataOps-базасы: маалыматтардын сергектиги/сапаты, backfills, келишимдер.
8. Байланыш: биринчи күнү, cadence, тон жана ачык-айкындуулук.
Ар бир модулу: 60-90 мин теория + 30-45 мин практика (лабораториялык/симуляция).
4) окутуу форматтары
Tabletop (стол сценарийлери): таймлайн боюнча ишти талдоо; ролдор чатта/залда үн менен ойнолот.
Game Day (практикалык көнүгүү): Stage/" прод-лайт" көзөмөлгө жүктөмү менен.
Chaos-Injection: SLO Gardrails менен чекиттик мүчүлүштүктөр (тармак ката/көз карандылык).
Runbook-drills: чек барактар боюнча "сокур" (артка, жөнөтүүчү которуу, күбөлүк айлануу).
On-call Shadow: насаатчынын көзөмөлүндө "көмүскөдө" 2-4 смена.
Hotwash/AAR: машыгуудан кийин дароо - талдоо, жакшыртууларды бекитүү.
5) Календарь жана ритм
Жума сайын: 1 кыска tabletop (30-45 мин) бир ролу/кызматы.
Ай сайын: 1 оюн күнү (2-3 саат) артыкчылыктуу Tier-0/1 жагдайлар боюнча.
чейрек: DR-машыгуу (failover/failback) + коопсуздук-окуя.
негизги өзгөрүүлөрдөн кийин: жаңы playbook/жараяны боюнча максаттуу drills.
6) Onbording оператор (4-6 жума)
1. Нед. 1: базалык модулдар (SLO, Matrix, Playbook), жетүү read-only, "тур" dashboard.
2. Нед. 2: лабораториялык: Логи/Tracks, кум кутучада playbook ишке киргизүү, COMS үлгүлөрү.
3. Нед. 3: shadow-өзгөртүү (2-3 Slots), P1 сыяктуу мини-планшет.
4. Нед. 4: mini game day: релизди кайтаруу, провайдерди которуу; ички тастыктоо P1-L1.
5. Нед. 5-6: P2/IC чейин узартуу (трек боюнча), ай сайын оюн күнү катышуу.
7) Тастыктоо жана ролдорду кабыл алуу
Теория: сыноо (LMS) модулдары боюнча, босого 80% +.
Практика: көндүмдөрдүн чек тизмеси (төмөндө караңыз) + 2 tabletop жана 1 оюн күнүнө катышуу.
Shadow → Solo: 2-4 байкалган нөөмөт → супервизия астында 1 нөөмөт → өз алдынча кабыл алуу.
Жарактуу мөөнөтү: 12 ай; плейбуктар/саясаттар өзгөргөндө кайра аттестациялоо.
8) Метрика натыйжалуулугун окутуу
Time-to-First-Action (машыгууда/согушта): Медиана/п95.
Плейбук бутагынын тууралыгы:% "илмектерсиз" кейстер.
Машыгууларда Comms SLA Adherence: өз убагында жаңылануулардын үлүшү.
Жергиликтүү MTTA/MTTR окшоштуктар vs. күжүрмөн аткаруу.
Coverage:% on-call, чейрек ичинде окутуу (максаты ≥ 90%).
Defect Rate Playbook: табылган/машыгуулардан кийин оңдолгон (CAPA).
Пульс сурамжылоо (NPS өзгөрүүлөр): ишеним/жүктөө, QoQ тренди.
9) Үлгүлөр жана чек барактар
9. 1 Чек тизмеси tabletop (жетектөөчү)
- Максат/SEV/Ролдук макети жарыяланды.
- Time Line: T0, Detected, Ack, Declare, Mitigate, Recover.
- Playbook негизги кесилиштер өттү.
- Coms шаблон толтурулган (биринчи күн жана cadence).
- Жыйынтык: 3-5 жакшыртуу (playbook/alerty/dashbord).
9. 2 Чек тизмеси game day
- Стенд/" прод-light", тесттик маалыматтар, артка жана gardrays даяр.
- Сценарийлер: кеминде 2 (мисалы, провайдер жана БД).
- SLO мониторинг жана релиз аннотациялар активдүү.
- evidence дептер: графика, Логи, кадам убактысы.
- AAR аяктагандан кийин 30 мүнөт; CAPA түзүлгөн.
9. 3 P1 көндүмдөр картасы (фрагмент)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 Машыгуу картасы (шаблон)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. 5 Мини-биринчи күн (окутуу)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) Инструменттер жана автоматташтыруу
LMS/Docs-as-Code: курстар, тесттер, playbook чыгаруу жана SOP.
Алерт симулятору: burn-rate, quorum, бороон (Page Storm drills үчүн) ойнотулат.
Коммс-бот: жаңыртуу шаблондору, таймерлер, cadence control.
Көз карандылык эмуляторлору: PSP/KYC/CDN үчүн провайдердик сценарийлер.
Auto-Extract evidence: сүрөттөр шилтемелер, релиз-аннотациялар, Логи.
11) процесстер менен байланыш
Машыгуунун натыйжалары → Alert Review, Postmortem Review, Change Advisory.
Плейбуктарды/алерттерди жаңыртуу - PR аркылуу, милдеттүү түрдө "dry-run" тренинги менен.
Ири тейлөө терезелери/релиздер алдында машыгуу - милдеттүү.
12) Анти-үлгүлөрү
Машыгуу "үчүн" эч кандай өлчөнүүчү максаттар жана evidence.
Өтө сейрек кездешүүчү машыгуулар → көндүмдөр начарлайт.
Практика жана shadow-smen жок теория гана.
Гардрейл жок машыгуу → стенд же прод.
Жок CAPA → ошол эле каталар кайталанат.
Coms окутуу жоктугу - жакшы фикстер, бирок жаман билдирүүлөр.
13) Жол картасы киргизүү (4-8 жума)
1. Нед. 1: Skill Matrix бекитүү, модулдар программасы, тастыктоо критерийлери.
2. Нед. 2: LMS баштоо, 10 негизги playbook жана 2 tabletop скрипт даярдоо.
3. Нед. 3: баштоо shadow-нөөмөт, Tier-0 боюнча 1 оюн күнү өткөрөт.
4. Нед. 4: жумалык tabletop-ритмди, коммс-ботту, алерт симуляторун киргизүү.
5. Нед. 5-6: DataOps/Security кеңейтүү, chaos инъекцияларды кошуу.
6. Нед. 7-8: бардык on-call P1-L1 тастыктоо, чейректик DR-күнү өткөрөт.
14) Жыйынтык
Машыгуу жана машыгуу - бул туруктуу цикл: теория → практика → көмүскөдө өзгөртүү → согуштук машыгуу → AAR → CAPA → playbook жаңыртуу. Бул ритмде команда плейбуктар боюнча ишенимдүү иш-аракет кылат, эскалация матрицасын жана SLOну сактайт, MTTA/MTTRди төмөндөтөт жана байланыштын сапатын кармап турат - ал эми бизнес болжолдонгон жана жетилген операциялык функцияны алат.