Hadisələrin artması
1) Məqsəd və prinsiplər
Hadisələrin artması istifadəçilərə və biznes metrikasına təsirləri minimuma endirmək üçün düzgün rolları və resursları tez bir zamanda cəlb etmək üçün idarə olunan bir prosesdir.
Əsas prinsiplər:- Sürət ideallıqdan daha vacibdir. Hadisəni gec elan etməkdən daha tez elan etmək və söndürmək daha yaxşıdır.
- Vahid komandanlıq. Həll üçün bir cavabdeh - Incident Commander (IC).
- Şəffaflıq. Daxili və xarici steykholderlər üçün aydın statuslar və kommunikasiya kanalları.
- Sənədləşmə. Bütün addımlar, həllər və zamanlamalar audit və təkmilləşdirmələr üçün qeyd olunur.
2) Ciddilik dərəcəsi (SEV/P səviyyələri)
Nümunə şkalası (domen/yurisdiksiyaya uyğunlaşın):- SEV-0/P0 (kritik) - əsas funksiyanın tam əlçatmazlığı (giriş/ödəniş), məlumat sızması, hüquqi risk. Bütün on-call nüvəsinin dərhal peyck, sərbəst buraxılışlar.
- SEV-1/P1 (yüksək) - p95/p99 deqradasiyası, əsas prosesdə artan səhv/nasazlıq nisbəti, regionun/provayderin əlçatmazlığı.
- SEV-2/P2 (orta) - məhdud kohorta (region, provayder) üçün qismən deqradasiya, yan yol var.
- SEV-3/P3 (aşağı) - istifadəçi üçün kritik deyil, lakin diqqət tələb edir (ETL fon gecikməsi, vaxtı keçmiş hesabat).
- Məhvetmə radiusu (neçə istifadəçi/dövriyyə) × müddət × həssaslıq (tənzimləyici/PR) → SEV səviyyəsi.
3) KPI prosesi
MTTD (kəşf vaxtı) - hadisənin başlanğıcından birinci siqnala qədər.
MTTA (qəbul vaxtı) - siqnaldan IC təsdiqinə qədər.
MTTR (bərpa vaxtı) - SLO/funksiyanın bərpasına qədər.
Escalation Latency - təsdiq istədiyiniz rol/komanda qoşulmaq üçün.
Reopen Rate - «həll edildikdən» sonra yenidən kəşf edilən hadisələrin payı.
Comm SLA - xarici/daxili yeniləmələrin intervallarına riayət etmək.
4) Rollar və məsuliyyət (RACI)
Incident Commander (IC): həll sahibi səviyyəsi, planı, freeze, eskalasiya, deeskalasiya təyin edir. Fiks yazmır.
Tech Lead (TL): texniki diaqnostika, hipotezlər, mühəndislərin koordinasiyası.
Comms Lead (CL): status səhifələri, müştəri və daxili ünsiyyət, Legal/PR ilə razılaşma.
Scribe: faktların dəqiq fiksasiyası, zaman kəsimi, qəbul edilmiş qərarlar.
Liaisons (əlaqəli): xarici provayderlərin/komandaların nümayəndələri (ödənişlər, KYC, hosting).
On-call mühəndisləri: planın icrası, playbook/rampaların işə salınması.
Hər rol üçün növbə qrafikləri və arxa planları təyin edin.
5) Kanallar və artefaktlar
War-room kanalı (ChatOps): avto-annotasiya şablonu (versiyalar, bayraqlar, kanaryalar) ilə vahid koordinasiya nöqtəsi (Slack/Teams).
SEV-1 + üçün video körpü.
Hadisə sorğusu (one-pager): ID, SEV, IC, iştirakçılar, fərziyyə/diaqnoz, addımlar, ETA, status, impact, qrafiklərə istinadlar.
Status-səhifə: ictimai/daxili; müntəzəm yeniləmələrin cədvəli (məsələn, SEV-1 + üçün hər 15-30 dəqiqədən bir).
6) Vaxt qutuları və standart intervallar
T0 (min. 0-5): IC təyin, SEV təyin, freeze relizlər (lazım gələrsə), war-room açıqdır.
T + 15 dəq: ilk ictimai/daxili mesaj (təsir, workaround, növbəti yeniləmə pəncərəsi).
T + 30/60 dəq: Sabit dinamika olmadıqda növbəti səviyyənin (platforma/DB/təhlükəsizlik/provayderlər) eskalasiyası.
Müntəzəm yeniləmələr: SEV-0: hər 15 dəqiqədə; SEV-1: hər 30 dəqiqədə; SEV-2 +: hər saat.
7) Avto eskalasiya qaydaları (işləmə siyasəti)
Kod kimi yazılır və monitorinqə/alertinqə qoşulur:- Burn-rate büdcə səhvləri qısa və uzun pəncərələrdə eşik yuxarıda.
- Xarici nümunələr kvorumu: 2 regionun ≥ HTTP/TLS/DNS deqradasiyasını qeyd edir.
- Biznes SLI (ödənişlərin/qeydiyyatların uğuru) SLO-dan aşağı düşür.
- Təhlükəsizlik işarələri: sızma/kompromasiya şübhəsi.
- Provayder siqnalı: «major outage» status vebhuk.
8) Aşkar etmədən həllinə qədər proses
1. Hadisə bəyannaməsi (IC): SEV, əhatə, freeze, playbukların işə salınması.
2. Diaqnostika (TL): hipotezlər, radius izolyasiyası (region, provayder, ficha), yoxlamalar (DNS/TLS/CDN/BD/caches/shine).
3. Mitiqasiya hərəkətləri (sürətli qələbələr): geri çəkilmə/kanareyka ↓, Ficha-flag deqradasiya, provayder failover, rate-limit, cash-overley.
4. Kommunikasiya (CL): status-səhifə, müştərilər/tərəfdaşlar, Legal/PR, cədvəl yeniləmələri.
5. Bərpa təsdiqi: xarici sintetika + real metriklər (SLI), freeze aradan qaldırılması.
6. Deeskalasiya: SEV azalması, müşahidə N dəqiqə/saat keçid.
7. Bağlanma və RCA: post-mortem hazırlanması, action items, sahibləri və vaxt.
9) Xarici provayderlərlə iş
Bir neçə bölgədən provayderlərə öz nümunələri + sorğular/səhvlər üçün güzgü log nümunələri.
Eskalasiya sazişləri (əlaqə, cavab SLA, prioritet, status vebhukları).
Avtomatik failover/SLO provayder vasitəsilə trafikin yenidən paylanması.
Sübut bazası: time line, sample sorğular/cavablar, gizli/səhv qrafikləri, provayderin ID bileti.
10) Tənzimləyici, təhlükəsizlik və PR
Security/P0: izolyasiya, artefaktların toplanması, açıqlanmanın minimuma endirilməsi, məcburi bildirişlər (daxili/xarici/tənzimləyici).
Legal: xarici yeniləmələrin ifadələrinin əlaqələndirilməsi, müqaviləli SLA/cərimələrin uçotu.
PR/Müştəri xidməti: hazır cavab şablonları, Q&A, kompensasiya/kreditlər (tətbiq olunarsa).
11) Mesaj şablonları
Birincil (T + 15):- "Biz [funksiya/region] təsir edən SEV-1 hadisəsini araşdırırıq. Simptomlar: [qısa]. Biz bypass aktiv [təsvir]. Növbəti yeniləmə [vaxt]"
- "Diaqnostika: [fərziyyə/təsdiq]. Fəaliyyət: [provayder keçid/release geri/deqradasiya daxil]. İmpakt [faiz/kohortaya] endirilir. Növbəti yeniləmə [vaxt]"
- "Hadisə həll SEV-1. Səbəb: [kök]. Bərpa vaxtı: [MTTR]. Aşağıdakı addımlar: [fix/yoxlama/müşahidə N saat]. Post-mortem - [nə vaxt/harada]"
12) Playbook (nümunəvi)
Ödənişlərin uğurunun azalması: A provayderinin payını azaltmaq, X% -i B-yə köçürmək; «degrade-payments-UX» daxil edin; limitlərdə retraları daxil etmək; fin komandasını xəbərdar edin.
p99 API artımı: yeni versiyanın kanaryasını azaltın; ağır cizgiləri söndürmək; Cash-TTL artırmaq; DB indeksləri/konnektləri yoxlayın.
DNS/TLS/CDN problemi: sertifikatları/zəncirini yoxlayın; qeyd yeniləmək; ehtiyat CDN keçid; cache yenidən seçin.
Security-şübhə: düyün izolyasiyası, əsas rotasiya, mTLS qələmlərinin daxil edilməsi, artefaktların toplanması, Legal bildiriş.
13) Deeskalasiya və meyarlar «həll»
Hadisə aşağıdakılar aşağıdakılar səviyyəsinə keçir:- SLI/SLO yaşıl zonada sabit ≥ N intervalları;
- mitiqasiya hərəkətləri və müşahidə - reqressiya olmadan;
- security sinfi üçün - vektorların bağlılığı təsdiqləndi, açarlar/sirlər fırlandı.
Bağlanış - yalnız vaxt xəttini, action items sahiblərini və şərtləri təyin etdikdən sonra.
14) Post-mortem (tütünsüz)
Quruluş:1. Faktlar (istifadəçilər/metriklər tərəfindən görülən vaxt).
2. Kök səbəbi (texniki/proses).
3. Eskalasiyada nə işlədi/işləmədi.
4. Profilaktik tədbirlər (testlər, risklər, limitlər, memarlıq).
5. Müddəti və sahibləri ilə fəaliyyət planı.
6. Error budget ilə əlaqə və SLO/proseslərin yenidən baxılması.
15) Yetkinlik prosesinin metrikası
İstifadəçilərin şikayətlərinə qədər elan edilmiş insidentlərin payı.
SEV səviyyələrinə görə MTTA; lazımi rolu bağlamaq üçün vaxt.
Yeniləmə intervallarına riayət (Comm SLA).
Əllə «yaradıcılıq» olmadan playbuklarla həll olunan hadisələrin faizi.
Post-mortemlərdən action items-in vaxtında həyata keçirilməsi.
16) Anti-nümunələr
«Kimsə bir şey edin» - heç bir IC/rol.
War-room çoxsəsli - hərəkət əvəzinə versiyalar haqqında mübahisə.
Gec bəyannamə → insanları toplamaq üçün vaxt itkisi.
Heç bir freeze və reliz şərhləri yoxdur - paralel dəyişikliklər səbəbini gizlədir.
Xarici ünsiyyətin olmaması - şikayətlərin/PR riskinin artması.
Post-mortem və hərəkətlər olmadan bağlanması - eyni səhvləri təkrarlayın.
17) IC çek siyahısı (cib kartı)
- SEV təyin və war-room açmaq.
- TL təyin, CL, Scribe, on-call mövcud yoxlamaq.
- Release-freeze aktiv (SEV-1 + ilə).
- Həqiqət mənbələrini təsdiqlə: SLI dashboard, sintetik, log, Trace.
- Sürətli mitiging hərəkətləri qəbul edin (geri/bayraqlar/failover).
- Müntəzəm yeniləmələri cədvələ uyğun olaraq təmin edin.
- Criteria for Resolve qeyd və bərpa sonra müşahidə.
- Post-mortem başlatmaq və action items sahiblərini təyin.
18) Gündəlik əməliyyatlara daxil olmaq
Təlim (game-days): əsas ssenarilərə görə simulyasiyalar.
Playbook kataloqu: version, test, parametrləri ilə.
Alətlər: ChatOps-komandaları «/declare », «/page», «/status », «/rollback».
İnteqrasiyalar: tiketinq, status-səhifə, post-mortemlər, CMDB/xidmət-kataloq.
SLO/Error Budget ilə razılaşma: avto eskalasiya tetikləyiciləri və freeze qaydaları.
19) Yekun
Eskalasiya yalnız növbətçiyə zəng etmək deyil, əməliyyat intizamıdır. Aydın SEV səviyyələri, təyin edilmiş IC, hazır playbook, yeniləmə vaxt qutuları və SLO metrləri və budget siyasətləri ilə inteqrasiya, xaotik yanğını proqnozlaşdırıla bilən nəticəyə - xidmətin sürətli bərpasına, minimal PR/tənzimləmə riskinə və hər hadisədən sonra sistem təkmilləşdirmələrinə çevirir.