Operatör eğitimi ve eğitimi
1) Eğitim programının amaçları
MTTA/MTTR'yi azaltın ve ilk seferde doğru eylemlerin olasılığını artırın.
Tepkileri standartlaştırın: oyun kitapları, eskalasyon matrisi, iletişim şablonları.
Takım direncini koruyun: yük paylaşımı, güven, güvenlik kültürü.
Bilgiyi yeniden üretilebilir hale getirin: Dokümanlar/GitOps, LMS, düzenli incelemeler.
2) Beceri matrisi
3) Eğitim modülleri (program çekirdeği)
1. SLO ve Olay Metrikleri: SLI/SLO, burn-rate, MTTD/MTTA/MTTM/MTTR.
2. Eskalasyon matrisi: SEV kriterleri, zamanlama, roller (P1/P2/IC/Comms).
3. Playbooks ve runbook've: yapı, karar ağacı, backout/fallback.
4. Gözlemlenebilirlik: günlükler/metrikler/izler, sürüm ek açıklamaları ile korelasyon.
5. Değişim/Bırakma: kanarya/mavi-yeşil, otomatik geri alma, bakım penceresi.
6. Güvenlik temeli: JIT/JEA erişimleri, sırlar, güvenlik olayları.
7. DataOps-basis: verilerin tazeliği/kalitesi, arka dolgular, sözleşmeler.
8. İletişim: ilk güncellemeler, kadans, tonalite ve şeffaflık.
Her modül: 60-90 dk teori + 30-45 dk uygulama (laboratuvar/simülasyon).
4) Egzersiz formatları
Masa üstü (masaüstü komut dosyaları): vakayı zaman çizelgesine göre ayrıştırma; Roller sohbet/salonda sesle oynanır.
Oyun Günü (pratik uygulama): sahnede/kontrollü yük ile" prod-light".
Kaos enjeksiyonları: nokta hataları (ağ/bağımlılık hataları) SLO gardrails ile.
Runbook-matkaplar: Kontrol listelerinde "körü körüne" (geri alma, anahtarlama sağlayıcısı, sertifika rotasyonu).
On-call Shadow: Bir akıl hocasının gözetiminde "gölgelerde" 2-4 vardiya.
Hotwash/AAR: Egzersizden hemen sonra - analiz, iyileştirmelerin kaydedilmesi.
5) Takvim ve ritim
Haftalık: Rol/hizmet başına 1 kısa masa üstü (30-45 dakika).
Aylık: Öncelikli Tier-0/1 senaryoları için 1 oyun günü (2-3 saat).
Üç ayda bir: DR alıştırması (yük devretme/yük devretme) + güvenlik olayı.
Büyük değişikliklerden sonra: yeni playbook/süreç ile hedef matkaplar.
6) Operatör onboarding (4-6 hafta)
1. Ned. 1: temel modüller (SLO, matris, oyun kitapları), salt okunur erişimler, gösterge tablosu turu.
2. Ned. 2: laboratuvarlar: günlükleri/yollar, bir sandbox üzerinde playbook çalışan, şablonlar iletişim.
3. Ned. 3: gölge kaymaları (2-3 yuva), P1 olarak mini masa üstü.
4. Ned. 4: mini oyun günü: sürüm geri alma, sağlayıcı değiştirme; İç P1-L1 sertifikasyonu.
5. Ned. 5-6: P2/IC'e genişleme (parça ile), aylık oyun gününe katılım.
7) Sertifikasyon ve rollere kabul
Teori: Modül tarafından test (LMS), eşik %80 +.
Uygulama: Beceri kontrol listesi (aşağıya bakınız) + 2 masa üstü ve 1 oyun gününe katılım.
Shadow - Solo: 2-4 gözlemlenen vardiya - gözetim altında 1 vardiya - bağımsız kabul.
Geçerlilik: 12 ay; Oyun kitabı/politika değişiklikleri için yeniden sertifikalandırma.
8) Eğitim performansı metrikleri
İlk Harekete Geçme Süresi (tatbikat/savaşta): Medyan/p95.
Playbook şube doğruluğu: "Döngü" olmayan vakaların %'si.
Comms SLA Egzersizlerde bağlılık: zamanında güncellemelerin paylaşımı.
Savaş performans simülasyonlarına karşı yerel MTTA/MTTR.
Kapsam: Çeyrekte tamamlanan % çağrı üzerine eğitim (hedef ≥ %90).
Oyun kitaplarının kusur oranı: Egzersizlerden sonra bulunan/sabitlenen (CAPA).
Darbe anketi (NPS vardiyaları): güven/yük, QoQ eğilimi.
9) Şablonlar ve kontrol listeleri
9. 1 masa üstü kontrol listesi (kurşun)
- Hedef/SEV/Rol Düzeni ilan edildi.
- Zaman Çizelgesi: T0, Algılandı, Ack, Bildir, Hafiflet, Kurtar.
- Oyun kitabındaki anahtar çatalları geçti.
- Ticari şablon dolu (ilk güncelleme ve kadans).
- Sonuç: 3-5 iyileştirme (oyun kitabı/uyarılar/gösterge panoları).
9. 2 Kontrol listesi oyun günü
- Stand/" prod-light", test verileri, geri alma ve gardrails hazır.
- Senaryolar: minimum 2 (örn. Sağlayıcı ve veritabanı).
- SLO izleme ve yayın ek açıklamaları etkindir.
- Not defteri kanıtı: grafikler, günlükler, adım zamanı.
- Tamamlandıktan 30 dakika sonra AAR; CAPA'lar kuruldu.
9. 3 Beceri Haritası P1 (snippet)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 Matkap kartı (şablon)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. 5 İlk güncellemenin mini şablonu (eğitim)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) Araçlar ve otomasyon
LMS/Docs-as-Code: kurslar, testler, oyun kitabı sürümleri ve SOP'lar.
Alert Simulator: burn-rate, quorum, storms (Page Storm tatbikatları için) oynar.
İletişim botu: güncelleme şablonları, zamanlayıcılar, kadans kontrolü.
Bağımlılık emülatörleri: Sağlayıcı senaryoları için PSP/KYC/CDN.
Otomatik ayıklama kanıtı: grafiklere bağlantılar, açıklama ek açıklamaları, günlükler.
11) Süreç iletişimi
Egzersiz sonuçları - Uyarı İncelemesi, Ölüm Sonrası İnceleme, Değişim Danışmanlığı.
Playbook/uyarı güncellemeleri - zorunlu "dry-run" eğitimi ile PR aracılığıyla.
Büyük servis/serbest bırakma pencerelerinin arifesinde egzersizler gereklidir.
12) Anti-desenler
Ölçülebilir hedefler ve kanıtlar olmadan "gösteri için" eğitim.
Çok nadir öğretiler - beceriler azalır.
Pratik ve gölge kayması olmayan tek teori.
Gardrails olmadan egzersizler - bir stand veya prod kırma riski.
CAPA yoktur, aynı hatalar tekrarlanır.
İletişim eğitimi eksikliği - iyi düzeltmeler, ancak kötü mesajlar.
13) Uygulama Yol Haritası (4-8 hafta)
1. Ned. 1: düzeltme Beceri Matrisi, modül programı, sertifika kriterleri.
2. Ned. 2: LMS çalıştırın, 10 anahtar oyun kitabı ve 2 masa üstü komut dosyası hazırlayın.
3. Ned. 3: Gölge vardiyalarına başlayın, Tier-0 1 oyun günü geçirin.
4. Ned. 4: haftalık bir masa üstü ritmi, bir iletişim botu, bir uyarı simülatörü tanıtın.
5. Ned. 5-6: DataOps/Security'ye genişletin, kaos enjeksiyonları ekleyin.
6. Ned. 7-8: Tüm çağrıları P1-L1 onaylayın, üç ayda bir DR günü geçirin.
14) Alt satır
Eğitim ve öğretim sabit bir döngüdür: Teori - uygulama - gölgelerde değişen - savaş egzersizleri - AAR - CAPA - oyun kitaplarını güncellemek. Bu ritimle ekip, oyun kitapları üzerinde güvenle hareket eder, eskalasyon matrisine ve SLO'ya uyar, MTTA/MTTR'yi azaltır ve iletişim kalitesini korur - ve iş öngörülebilir ve olgun bir operasyonel işlev alır.