Operatorların təlimi və təlimi
1) Təlim proqramının məqsədləri
MTTA/MTTR azaldın və ilk dəfə düzgün hərəkət ehtimalını artırın.
Reaksiyanı standartlaşdırın: playbook, eskalasiya matrisi, komms şablonları.
Komandanın sabitliyini saxlayın: yük paylanması, inam, təhlükəsizlik mədəniyyəti.
Bilikləri təkrar etmək: Docs/GitOps, LMS, müntəzəm review.
2) Kompetensiya profilləri (Skill Matrix)
3) Tədris modulları (proqramın nüvəsi)
1. SLO & Hadisə metrikası: SLI/SLO, burn-rate, MTTD/MTTA/MTTM/MTTR.
2. Eskalasiya matrisi: SEV meyarları, tayminq, rollar (P1/P2/IC/Comms).
3. Playbook və runbook 'i: struktur, ağac həllər, backout/fallback.
4. Müşahidə: logi/metrika/treys, release-annotasiyalar ilə korrelyasiya.
5. Change/Release: kanarya/mavi-yaşıl, otomatik geri dönüş, xidmət pəncərəsi.
6. Təhlükəsizlik bazası: JIT/JEA girişləri, sirləri, təhlükəsizlik hadisələri.
7. DataOps bazası: məlumatların təravəti/keyfiyyəti, backfills, müqavilələr.
8. Rabitə: ilk yenilənmə, cadence, tonallıq və şəffaflıq.
Hər modul: 60-90 min nəzəriyyə + 30-45 min təcrübə (laboratoriya/simulyasiya).
4) Təlim formatları
Tabletop (stolüstü ssenarilər): vaxtında case təhlili; rollar chat/salonda səslə oynanılır.
Game Day (praktik məşq): steyj/nəzarət yükü ilə» prod-light».
Chaos-injection: SLO gardraylları ilə nöqtəli nasazlıqlar (şəbəkə/asılılıq səhvləri).
Runbook-drills: yoxlama vərəqləri ilə «kor-koranə» (geri, provayder keçid, sertifikat rotasiyası).
On-call Shadow: mentorun nəzarəti altında «kölgədə» 2-4 növbə.
Hotwash/AAR: təlimdən dərhal sonra - təhlil, təkmilləşdirmələrin fiksasiyası.
5) Təqvim və ritm
Həftəlik: 1 qısa tabletop (30-45 dəq) bir rol/xidmət.
Aylıq: prioritet Tier-0/1 ssenarilər üzrə 1 game day (2-3 saat).
Rüblük: DR-təlim (failover/failback) + təhlükəsizlik hadisəsi.
Böyük dəyişikliklərdən sonra: yeni playbook/prosesdə hədəf drills.
6) Operator bağlamaq (4-6 həftə)
1. Ned. 1: baza modulları (SLO, matris, playbook), read-only giriş, dashboard «tur».
2. Ned. 2: laboratoriyalar: log/treys, qum qutusunda playbook, coms şablonları.
3. Ned. 3: shadow-variant (2-3 slot), P1 kimi mini tabletop.
4. Ned. 4: mini game day: release, provayder keçid; daxili sertifikatlaşdırma P1-L1.
5. Ned. 5-6: P2/IC genişləndirilməsi (track), aylıq game day iştirak.
7) Sertifikatlaşdırma və rollara qəbul
Nəzəriyyə: Modullara görə test (LMS), 80% + həddi.
Təcrübə: bacarıqların yoxlama siyahısı (aşağıya bax) + 2 tabletop və 1 game gün iştirak.
Shadow → Solo: 2-4 müşahidə növbələri → superviziya altında 1 növbə → müstəqil qəbul.
Etibarlılıq müddəti: 12 ay; playbook/siyasət dəyişiklikləri zamanı yenidən sertifikatlaşdırma.
8) Təlim səmərəliliyinin metrikası
Time-to-First-Action (təlimlərdə/döyüşlərdə): mediana/p95.
Playbook filialının düzgünlüyü: «loop» olmadan% cases.
Təlimlərdə Comms SLA Adherence: vaxtında yeniləmələrin payı.
Simulyasiyalarda yerli MTTA/MTTR və s. döyüş göstəriciləri.
Coverage:% on-call rüb ərzində təlim keçmiş (hədəf ≥ 90%).
Defect Rate playbook: tapıldı/təlimlərdən sonra düzəldildi (CAPA).
Nəbz sorğusu (NPS növbələri): inam/yük, QoQ trendi.
9) Şablonlar və çek vərəqləri
9. 1 Tabletop yoxlama siyahısı (aparıcı)
- Məqsəd/SEV/rol düzülüşü açıqlandı.
- Time Line: T0, Detected, Ack, Declare, Mitigate, Recover.
- Playbook açar çatal keçdi.
- Comms şablon doldurulur (ilk yeniləmə və cadence).
- Nəticə: 3-5 təkmilləşdirmə (playbook/alert/dashboard).
9. 2 Yoxlama siyahısı game day
- Stand/» prod-light», test məlumatları, geri dönüş və gardrails hazırdır.
- Ssenarilər: minimum 2 (məsələn, provayder və DB).
- SLO-monitorinq və buraxılış izahları aktivdir.
- Evidence Notebook: qrafiklər, qeydlər, addım vaxtı.
- 30 dəqiqə sonra AAR; CAPA açılmışdır.
9. 3 P1 bacarıq xəritəsi (fraqment)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 Təlim kartı (şablon)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. 5 Mini birinci yeniləmə şablonu (məşq)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) Alətlər və avtomatlaşdırma
LMS/Docs-as-Code: kurslar, testlər, playbook versiyaları və SOP.
Alert simulyatoru: burn-rate, kvorum, fırtına (Page Storm drills üçün).
Comms-bot: yeniləmə şablonları, zamanlayıcılar, cadence nəzarəti.
Asılılıq emulyatorları: PSP/KYC/CDN provayder ssenariləri üçün.
Avto-ekstrakt evidence: qrafik linklər, release-annotasiyalar, log.
11) Proseslərlə əlaqə
Təlimlərin nəticələri → Alert Review, Postmortem Review, Change Advisory.
Playbook/alert yeniləmələri - PR vasitəsilə, məcburi «dry-run» təlimi ilə.
Böyük xidmət pəncərələri/buraxılışlar ərəfəsində təlimlər məcburidir.
12) Anti-nümunələr
Ölçülə bilən məqsədlər və evidence olmadan «qeyd üçün» təlim.
Çox nadir təlimlər → bacarıqlar pozulur.
Yalnız təcrübə və shadow-smena olmadan nəzəriyyə.
Gardraylsız təlimlər → stand və ya məhsulu sındırmaq riski.
CAPA → eyni səhvlər təkrarlanır.
Coms təlim olmaması yaxşı fikslər, lakin pis mesajlardır.
13) Yol xəritəsi (4-8 həftə)
1. Ned. 1: Skill Matrix, modul proqramı, sertifikatlaşdırma meyarları.
2. Ned. 2: LMS başlamaq, 10 əsas playbook və 2 tabletop ssenariləri hazırlamaq.
3. Ned. 3: shadow-smen start, Tier-0 1 game gün keçirmək.
4. Ned. 4: həftəlik tabletop ritmi, coms-bot, alert simulyatoru daxil edin.
5. Ned. 5-6: DataOps/Security genişləndirin, chaos inyeksiya əlavə edin.
6. Ned. 7-8: bütün on-call P1-L1 sertifikatlaşdırmaq, rüblük DR günü keçirmək.
14) Yekun
Təlim və təlim daimi dövrdür: nəzəriyyə → təcrübə → kölgədə dəyişiklik → döyüş təlimləri → AAR → CAPA → playbook yeniləmələri. Bu ritmlə komanda oyunçular üzərində inamla hərəkət edir, eskalasiya matrisini və SLO-nu izləyir, MTTA/MTTR-ni aşağı salır və kommunikasiyaların keyfiyyətini saxlayır - biznes isə proqnozlaşdırıla bilən və yetkin əməliyyat funksiyasını alır.