Əməliyyatlar və İdarəetmə → Əməliyyatların keyfiyyətinə nəzarət
Əməliyyatların keyfiyyətinə nəzarət
1) Niyə lazımdır
Əməliyyatların keyfiyyəti gəlirin, SLA-nın və istifadəçilərin etimadının asılı olduğu hərəkətlərin proqnozlaşdırılması və təkrarlanmasıdır. Güclü keyfiyyətə nəzarət sistemi dəyişkənliyi azaldır, növbələr arasındakı hendoverləri sürətləndirir, buraxılışlarda səhvlərin sayını azaldır və hadisələrə reaksiya sürətini artırır.
Məqsədlər:- Prosesləri ölçülə bilən və idarə edilə bilən etmək.
- Performansın dəyişkənliyini azaltın (sabitlik).
- Tullantıları azaltın (gözləmə, dəyişdirmə, «əl dayaqları»).
- Gündəlik işdə davamlı təkmilləşdirməni (Kaizen) inteqrasiya edin.
2) Keyfiyyət modeli: QA vs QC
QA (Quality Assurance) - «daxili» keyfiyyət: standartlar, SOP, təlimlər, geytlər, prosesdən əvvəl və zamanı avtomatlaşdırılmış yoxlamalar.
QC (Quality Control) - nəticənin yoxlanılması/seçilməsi/yerinə yetirildikdən sonra audit (revyu biletləri, qeydlərin yoxlanılması, SPC kartlarının yoxlanılması).
Prinsip: maksimum keyfiyyət - dizayn və icra mərhələsində (QA), QC təkmilləşdirmələr üçün «sığorta» və məlumat mənbəyi olaraq qalır.
3) Sistemin əsas elementləri
1. Standartlar və SOP: addım-addım təlimatlar, rol modeli, çek vərəqləri.
2. Proses xəritəsi: giriş/çıxış, sahibləri, SLO prosesi, artefaktlar.
3. Keyfiyyət geytləri: addımlara icazə (pre-checks), risk üçün «stop-kran».
4. SPC (prosesin statistik nəzarəti): nəzarət kartları, tetikləyicilər.
5. Auditlər və nümunələr: standartlara uyğunluğun müntəzəm yoxlanılması.
6. Geribildirim və RCA: postmortemlər, 5 Why/« balıq sümüyü ».
7. Təlim və Sertifikatlaşdırma: Bacarıq matrisi, Gölge növbələri.
8. Avtomatlaşdırma: avtomatik yoxlamalar, botlar, siyasətlər, inteqrasiya testləri.
4) Keyfiyyətə nəzarət prosesləri (nümunələr)
Növbə qaydaları (monitorinq, açar rotasiyası, arxa planlar, növbətçi yoxlamalar).
Hendoverlər və eskalasiyalar (eskalasiya matrisi, rabitə kanalları, tayminqlər).
Hadisə-menecment (deteksiya → kommunikasiya → bərpa).
Releases/featuring/transferi trafik.
Provayderlərlə əməliyyatlar (PSP/KYC), reconciliations, hesabatlar.
Məzmun/limitlərin idarə edilməsi, cekpotlar/bonuslar.
Məlumatlarla iş (ETL, arxivləşdirmə, məxfilik).
5) SLO prosesi və KPI keyfiyyəti
Prosesin SLO-nu (tamamlanma vaxtı, qüsurların səviyyəsi, yoxlama siyahısına uyğunluq) təyin edirik və KPI-ni ölçürük:- FPY (First Pass Yield): dəyişdirilmədən keçən proseslərin payı.
- RFT (Doğru Birinci Vaxt): Səhvsiz/geri qaytarılmadan tapşırıqların payı.
- DPMO: bir milyon fürsət üçün qüsurlar (kütləvi əməliyyatlar üçün).
- SLO prosesi: p95/p99 müddəti,% uğurlu tamamlanması.
- Compliance Rate: məcburi SOP/çek siyahısına riayət etmək.
- Change Failure Rate: Geri çəkilmə/insidentlərlə relizlərin payı.
- MTTD/MTTR prosesi: uğursuzluqların aşkarlanması/bərpası.
- Handoff Quality Score: Hendover keyfiyyəti (dolğunluq, vaxtında).
6) Standartlar və yoxlama vərəqləri (QA)
Çek vərəqi şablonu (nümunə):- Əsas daşbordların sağlamlığının yoxlanılması (API p99, lag, DB connections).
- Provayderlərin statusları (PSP/KYC/studiyalar), kvotalar və limitlər.
- Hadisə növbələri və örtülməmiş postmortemlər.
- Növbə intervalı üçün buraxılışlar/ficheflaglar planı.
- Ehtiyat rabitə kanalları və eskalasiyanın mövcudluğu.
- Backup/açarları/sirləri - cədvələ görə nəzarət.
- Əvvəlki növbədən Hendover (artefaktlar, risklər, müşahidələr).
- Bütün testlər/linterlər/təhlükəsizlik yaşıl.
- Xarici alətlərlə CDC/müqavilələr.
- Geri çəkilmə və fitness planı; Kanarya hazırdır.
- Cari runbook, xidmət təsdiq, pəncərələr provayder nəzərə alınır.
- Dashboard buraxılış şərhləri daxildir.
7) SPC və nəzarət kartları
Sabit iş axını üçün nəzarət kartlarından (X-bar/R, p-chart) istifadə edirik:- Monitorinq: əməliyyatların müddəti, qüsurların% -i, alertlərə reaksiya vaxtı, hendover vaxtı.
- Qaydalar: 1 nöqtə xaricində, 7 ardıcıl nöqtə böyümə/düşmə, 8 nöqtə orta tərəfdə - proses dəyişikliyi siqnalı.
- Fəaliyyət: SPC → qısa RCA siqnalları və düzəliş tədbirləri (SOP korreksiyası, təlim, avtomatlaşdırma) ilə.
8) Nümunə və auditlər (QC)
Seçim planı: kritik proseslər - gündəlik nöqtə yoxlamaları; orta - həftəlik; aşağı - triggerlər üzrə.
Audit meyarları: yoxlama vərəqlərinin tamlığı, icra dəqiqliyi, kommunikasiyaların düzgünlüyü, SLO-ya riayət edilməsi, təhlükəsizliyə uyğunluq.
Skoring audit: 0-100 kritik tərəzi ilə; nəticələr - ümumi keyfiyyət dashboard.
9) Hendover və növbə keyfiyyəti
Handoff paketi: qısa status, risklər, «müşahidə olunan tendensiyalar», yarımçıq hərəkətlər, interval üçün SLO.
Rabitə: vahid yeniləmə formatı (şablon), hadisə kanalında cavab SLA, qərar qəbul etmək üçün vaxt qutuları.
Gölge növbələri: yeni operatorlar «kölgədə» növbətçilik edir, sonra sertifikat yoxlama siyahısında müstəqil növbələrə keçir.
10) Hadisə-menecment keyfiyyəti
Definition of Done: Hadisə yalnız SLO bərpa edildikdən, biznes/sapport üçün yeniləmə dərc edildikdən və düzəliş tapşırıqları yaradıldıqdan sonra bağlanır.
Postmortem ittihamsız: faktlar, xronologiya, «növbəti dəfə nə fərqli olacaq».
Action Items SLA: son tarixlər və sahibləri; statusun həftəlik yoxlanılması.
Metriklər: reqressiyasız hadisələrin% -i, ilk yenilənməyə qədər orta vaxt, tam vaxt müddəti.
11) Keyfiyyətə nəzarət avtomatlaşdırılması
Avto-yoxlayıcılar: botlar çek vərəqlərinin doldurulmasını, buraxılış şərhlərinin mövcudluğunu, Alertmanager marşrutlarının düzgünlüyünü yoxlayır.
Siyasətlər/qaydalar: CI/CD-də məcburi geytalar, konfiqurasiya validasiyası (JSON/YAML), gizli skanerlər.
Proses-mədən: dar yerlərin və «istinad» marşrutundan kənarlaşmaların axtarışı üçün jurnalların təhlili.
Avtomatik xatırlatmalar: vaxtı keçmiş postmortemlər, açılmamış action items, buraxılmış SOP nöqtələri.
12) Metriklər və daşbordlar (minimal dəsti)
Operations Quality Overview: FPY, RFT, DPMO, SLO prosesi, Change Failure Rate, açıq action items.
Shifts Board: check-lövhələrin yerinə yetirilməsi, Handoff Quality Score, risk reaksiya vaxtı, monitorinq əhatə edir.
Incidents Quality: MTTD/MTTR, ilk müştəri yeniləmə, RCA tam, reqressiya.
Release Quality: deqradasiya ilə kanaryaların faizi, geri çəkilmələr, steykholder yeniləmələrinin orta müddəti.
Compliance & Security: məcburi prosedurların yerinə yetirilməsi (arxa planlar, açarların rotasiyası, girişlər), pozuntular və aradan qaldırma müddətləri.
13) Keyfiyyət Alertləri (fikirlər)
ALERT ShiftChecklistMissed
IF operations_shift_checklist_completed == 0 FOR 15m
LABELS {severity="warning", team="ops"}
ALERT HandoffQualityLow
IF handoff_quality_score < 80 FOR 1h
LABELS {severity="warning", team="ops"}
ALERT IncidentUpdatesSLA
IF incident_first_update_minutes > 10
LABELS {severity="critical", team="incident"}
ALERT ChangeFailureRateSpike
IF rate(release_rollbacks_total[7d]) > 1. 5 baseline_28d
LABELS {severity="warning", team="platform"}
14) Təkmilləşdirmə proseduru (PDCA loop)
1. Plan: ölçülər/hədəfləri seçin, SPC/audit məlumatlarına görə dar yerləri müəyyənləşdirin.
2. Do: Pilot dəyişikliklər (SOP, təlim, avtomatlaşdırma) məhdud sahədə.
3. Check: əvvəl/sonra metrik (FPY/RFT/SLO/hadisələr) müqayisə.
4. Act: uğurlu miqyaslı, uğursuz geri; standartları yeniləmək.
15) Rollar və məsuliyyət
Proses sahibi: SLO, standartlar, daşbordlar, təkmilləşdirmələr.
Operatorlar: icra, çek vərəqləri, insident-kommunikasiyalar.
SRE/Platform: avtomatlaşdırma, monitorinq, Alertmanager marşrutları.
QA əməliyyatları: auditlər, nümunələr, nəzarət kartları, təlim.
Keyfiyyət meneceri: PDCA koordinasiyası, təkmilləşdirmələrin prioritetləşdirilməsi.
16) Anti-nümunələr
«Sonra yoxlayacağıq» - QA olmaması, yalnız QC post-faktumuna əsaslanır.
Çek vərəqləri (qaçışların nəticəsi olmadan).
Vahid hendover standartı yoxdur → kontekst itkisi və səhvlərin təkrarlanması.
Məqsədsiz ölçün → hərəkətsiz metrika.
action items və vaxt olmadan postmortems → daimi reqressiya.
Avtomatlaşdırıla bilən manual yoxlamalar.
17) Giriş çek siyahısı
- Proses xəritəsi, sahibləri, giriş/çıxış, SLO.
- SOP və çek siyahıları (növbələr, buraxılışlar, hadisələr, provayderlər).
- CI/CD və əməliyyat alətlərində keyfiyyət geytləri.
- Dashboard və SPC nəzarət kartları.
- Seçim planı və müntəzəm auditlər.
- Hendover şablon və Shadow-smen təlim.
- Postmortem qaydaları və tracking action items.
- Yoxlamalar və xatırlatmaların avtomatlaşdırılması.
- Rüblük Təkmilləşdirmə Məqsədləri (FPY/RFT/SLO/MTTR).
18) Şablonlar (fraqmentlər)
Hendover şablonu (xülasə):
Handoff: <date/time>
SLO summary: <p95 API, errors, incidents>
Releases/features: <what's at work, risks, windows>
Providers: <statuses, quotas, restrictions>
Risks/observations: <trends, potential bottlenecks>
Action items before <time>: <list, owners>
Contacts: <on-call, escalations>
Postmortem şablonu:
Impact: <who was affected, metrics>
Timeline: <UTC + timezone, key events>
Root cause: <5 Why / fishbone>
Corrective actions: <what we change now>
Preventive actions: <what we will change in the process/tools>
Owners & Due dates: <who and when>
Signals to watch: <metrics and alerts>
19) Sürətli başlanğıc (30 gün)
Həftə 1: 3-5 kritik prosesləri, SLO, sahiblərini təsvir edin; Əsas növbə/buraxılış yoxlama siyahılarını işə salmaq.
Həftə 2: keyfiyyət dashboard və 3 alert daxil (ShiftChecklist, Handoff, IncidentSLA).
Həftə 3: 1-2 metr üçün nümunə/audit və SPC başlamaq.
Həftə 4: Metodika üzrə 2 postmortem keçirin və rüblük PDCA planını təsdiq edin.
20) FAQ
Q: Effektini necə tez görmək olar?
A: Hendovers və IncidentSLA ilə başlayın: bu, MTTR-in ani azalmasına və proqnozlaşdırılabilirliyin artırılmasına imkan verir.
Q: Artıq risklər varsa, SPC lazımdır?
A: Bəli. Alertlər «yanğınlar», SPC - yanğından əvvəl prosesin yerdəyişməsi.
Q: ilk növbədə avtomatlaşdırmaq nədir?
A: Reliz geytləri, növbə yoxlama vərəqləri, reliz izahatları və action items ilə xatırlatmalar.