Ուսուցում և ուսուցում օպերատորների համար
1) Ուսուցման ծրագրի նպատակները
Կրճատել MTTA/MTTR-ը և բարձրացնել ճիշտ գործողությունների հավանականությունը առաջին անգամ։
Ստանդարտացնել արձագանքը 'պլեյբուսներ, էսկալացիայի մատրիցա, կոմունայի ձևանմուշներ։
Պահպանել թիմի կայունությունը 'բեռի բաշխումը, վստահությունը, անվտանգության մշակույթը։
Գիտելիքները վերարտադրելի դարձնելը 'Docs/GitOps, LTS, Revew.
2) Իրավասությունների պրոֆիլները (Skill Matrix)
3) Ուսուցման մոդուլները (ծրագրի միջուկը)
1. SLO & Metriki 2019: SLI/SLO, burn-rate, MTTD/MTTA/MTM/MTTR։
2. Էսկալացիայի մատրիցը 'SEV չափանիշներ, թայմինգ, դերեր (P1/P2/IC/Comics)։
3. Պլեյբուկները և runbook "և 'կառուցվածքը, որոշումների ծառը, backout/fallback-ը։
4. Դիտարկումը 'logs/metrics/treiss, փոխկապակցումը ռելիզային սենսացիաների հետ։
5. Change/Rele.ru: Canareka/blue-green, Auto-rapat, ծառայության պատուհան։
6. Նախկին բազիսը 'JIT/JMS-հասանելի, գաղտնիքները, անվտանգության դեպքերը։
7. Intel Ops-բազիս 'թարմ/տվյալների որակը, բեքֆիլները, պայմանագրերը։
8. Հաղորդակցություն 'առաջին ապդեյտները, cadence, տոնայնությունը և թափանցիկությունը։
Յուրաքանչյուր մոդուլ '60-90 րոպե տեսությունը + 30-45 րոպե պրակտիկա (լաբորատորիա/սիմուլյացիա)։
4) Մոսկովյան դասընթացը
Tabletop (սեղանի սցենարներ) 'թայմլեյնի վերլուծություն։ դերերը խաղում են ձայնով/սենյակում։
Game Day (գործնական աշխատանք)' սթեյջի/» prod Lit» վերահսկվող բեռով։
Chaos-միգրացիաներ 'կետային ձախողումներ (ցանցի/կախվածության սխալներ) SLO-ի զգեստների հետ։
Runbook-medills: «փխրուն» չեկի տերևների վրա (հակառակը, պրովայդերի անցումը, լուծարումը)։
On-call Shadow: 2-4 փոփոխություն «ստվերում» ուսուցչի հսկողության տակ։
Hotwash/AAR 'ուսուցումից անմիջապես հետո' վերլուծություն, բարելավումների ամրագրում։
5) Օրացույցը և ռիթմը
Շաբաթը 1 կարճ tabletop (30-45 րոպե) մեկ դերի/ծառայության վրա։
Ամեն ամիս 1 game day (2-3 ժամ) գերակա Tier-0/1 սցենարներով։
Եժեքվարտալ 'DR ուսուցում (failover/failback) + նախկին պատահականություն։
Մեծ փոփոխություններից հետո 'wwww.ills նոր պլեյբուքի/գործընթացի վրա։
6) Օպերատորի Onbording (4-6 շաբաթ)
1. Մոսկվան։ 1: հիմնական մոդուլները (SLO, մատրիցա, պլեյբուսներ), հասանելի read-only, «շրջագայություն» dashbords։
2. Մոսկվան։ 2: լաբորատորիաներ 'լոգներ/թրեյսներ, ավազի վրա պլեյբուսներ արձակելը, կոմունայի ձևանմուշները։
3. Մոսկվան։ 3: shadow փոփոխություն (2-3 արցունքներ), մինի-tabletop որպես P1։
4. Մոսկվան։ 4: mini game day: Rottta, պրովայդերի անցում; ներքին հավաստագրում P1-L1։
5. Մոսկվան։ 5-6: ընդլայնումը մինչև P2/IC (ուղու վրա), մասնակցություն ամսական game day-ին։
7) Սերտիֆիկացում և կապվածություն դերերի նկատմամբ
Տեսությունը 'թեստը (LTS) մոդուլներով, 80% + շեմը։
Պրակտիկա 'հմտությունների ստուգում (տե՛ ս ներքևում) + մասնակցություն 2 tabletop և 1 game day։
Shadow no Solo: 2-4 դիտարկված հերթափոխը թիվ 1 հերթափոխը գերծանրքաշային ծառայության տակ անկախ է։
Գործողության ժամանակահատվածը 12 ամիս է։ գերտաքացում պլեյբուսների փոփոխության ժամանակ/քաղաքական գործիչ։
8) Ուսուցման արդյունավետության մետրիկները
Time-to-First-Action (վարժություններում/մարտում) 'մեդիա/p95։
Պլեյբուկի ճյուղի ճիշտությունը 'դեպքերի% -ը առանց «փետուրների»։
Comics SLA Adherence-ը ուսուցումներում 'ժամանակին ապդեյտների մասը։
Տեղական MTTA/MTTR սիմուլյացիաներում vs. ռազմական ցուցանիշները։
Coverage: % on-call, ով անցավ եռամսյակի դասընթացները (նպատակը 3690 տոկոսն է)։
Express Rate Pleybuks: Հայտնաբերվել/շտկվել է ուսուցումներից հետո (CAPA)։
Puls-հարցումը (NPS smen) 'վստահություն/2019, QoQ տենդենցը։
9) Ձևանմուշները և չեկի թերթերը
9. 1 Chek-թերթ tabletop (հաղորդավար)
- Նպատակը/SEV/roled դասավորությունը հայտարարված է։
- Թայմլին: T0, Detected, Ack, Declare, Mitigate, Recover։
- Հիմնական սալիկները պլեյբուկից անցան։
- Կոմսը լցված է (առաջին apdeit և cadence)։
- Արդյունքներ ՝ 3-5 բարելավում (պլեյբուկ/ալտերտա/դաշբորդ)։
9. 2 Chek School game day
- Stend/» prod-lit», թեստային տվյալներ, արձագանքներ և զգեստապահարաններ պատրաստ են։
- Սցենարներ ՝ առնվազն 2 (օրինակ, պրովայդեր և BD)։
- SLO-2019 և ռելիզային սենսացիաները ակտիվ են։
- Blocknot evidence: Գրաֆիկա, լոգներ, քայլերի ժամանակ։
- AAR ավարտելուց 30 րոպե անց; CAPA-ն տեղադրված է։
9. 3 P1 հմտությունների քարտեզը (հատված)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 Ուսուցման քարտ (ձևանմուշներ)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. Հինգ մինի-ձևանմուշ առաջին ապդեյթի (ուսուցման)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) Գործիքներ և ավտոմատիզացիա
LTS/Docs-as-Code: Դասընթացներ, թեստեր, պլեյբուսների տարբերակումը և SOP-ը։
Ալտերի սիմուլյատոր 'վերարտադրում է burn-rate, kvorum, փոթորիկ (Page Storm-ի համար)։
Coms-bot: apdeits, timer, cadence։
Կախվածության էմուլյատորներ ՝ PMS/KYC/CDN պրովայդերական տարածքների համար։
Avto-evidence: հղում գրաֆիկայի, ռելիզի, լոգայի վրա։
11) Կապ գործընթացների հետ
Ուսուցումների արդյունքները մեջբերում են Alex Review, Postmortem Review, Change Advisory։
Պլեյբուսների/ալերտների նորարարությունները 'PR-ի միջոցով, ռուսական «www.y-run» դասընթացով։
Ծառայության/առյուծների մեծ պատուհանների նախօրեին ուսուցումները պարտադիր են։
12) Anti-patterna
«Վագոնի համար» դասընթացները առանց չափելի նպատակների և էվիդենցիայի։
Չափազանց հազվագյուտ ուսմունքներ կան, որ հմտությունները սահմանափակում են։
Միայն տեսությունը առանց պրակտիկայի և shadow-men։
Առանց զգեստապահարանների ուսուցումները վտանգի են ենթարկում պատը կամ անցքը։
Ոչ CAPA-ն, նույն սխալները կրկնվում են։
Համայնքի ուսուցման բացակայությունը լավ ֆիքսներ են, բայց վատ հաղորդագրությունները։
13) Ճանապարհի քարտեզը (4-8 շաբաթ)
1. Մոսկվան։ 1: ամրագրել Skill Matics-ը, մոդուլների ծրագիրը, հավաստագրման չափանիշները։
2. Մոսկվան։ 2: փորձարկել LTS, պատրաստել 10 հիմնական պլեյբուսներ և երկու tabletop սցենարներ։
3. Մոսկվան։ 3: մեկնարկը shadow-men, անցկացնել 1 game day Tier-0-ում։
4. Մոսկվան։ 4 'շաբաթական tabletop-ռիթմ, կոմունա-բոտ, ալտերի սիմուլյատոր։
5. Մոսկվան։ 5-6 'ընդլայնել SysteOps/Live-ում, ավելացնել chaos-միգրացիաները։
6. Մոսկվան։ 7-8 'հավաստագրել P1-L1 բոլոր on-call-ը, անցկացնել քառորդ DR-օրը։
14) Արդյունքը
Դասընթացներն ու ուսուցումները անընդհատ ցիկլ են. Ստվերում փոփոխվող պրակտիկայի տեսությունը, ինչպես նաև մարտական ուսմունքների ստվերում փոփոխություններ կատարելը, ինչպես նաև պլեյբուսները թարմացնելը։ Այս ռիթմով թիմը վստահորեն գործում է պլեյբուսների վրա, հետևում է էսկալացիայի մատրիցին և SLO-ին, նվազեցնում է MTTA/MTTR-ը և պահպանում հաղորդակցությունների որակը, իսկ բիզնեսը ստանում է կանխատեսելի և հասուն վիրահատական գործառույթ։