SRE mədəniyyət və mühəndislik prinsipləri
1) SRE mədəniyyəti nədir
SRE mədəniyyəti etibarlılığı idarə edən dəyərlər və təcrübələr toplusudur: SLO məqsədləri → səhv-büdcə → şüurlu dəyişiklik riskləri → sürətli sabitləşmə → hadisə təlimi.
Əsas paradiqma: sürət ≠ etibarlılığın düşməni. Risklər ölçüldükdə və avtomatlaşdırıldıqda buraxılış sürəti mümkündür.
- User-centric: Etibarlılığı istifadəçinin gördüyü kimi təyin edirik (SLI/SLO).
- Automation-first: hər hansı bir təkrarlanan hərəkət → script/siyasət/nəzarətçi.
- Blamelessness: səhvlər sistemdir, insanları deyil, səbəbləri araşdırırıq.
- Data-driven: metrik və büdcə səhvlərinə əsaslanan həllər.
- Simplicity: sadə, yoxlanıla bilən mexanizmlər> «sehrli» həllər.
2) SRE əsas mühəndislik prinsipləri
1. SLO/SLI və büdcə səhvləri prioritetlərin və alertinqin əsasını təşkil edir.
2. Hadisə → sabitləşmə → RCA - əvvəlcə simptomlar, sonra səbəblər.
3. Əl əməyinin azaldılması (toil) SRE vaxtının 50% -ni ≤ məqsədidir.
4. Prod-hazırlıq - «production readiness» xarici trafikdən əvvəl məcburidir.
5. Sadəlik və izolyasiya - daha az əlaqə, daha çox blast radius məhdudiyyətləri.
6. Default müşahidə - metrika/log/trek, SLO-widget 'lar, sintetika.
7. Dəyişikliklər idarə olunur - progressive delivery, kanarya hesablamalar, auto-rollback.
8. Security by design - sirləri, giriş, audit, minimal imtiyazlar.
9. Təlim dövrləri - drill, xaos oyunları, postmortemlər, retrospektivlər.
10. FinOps-şüur - «doqquzların qiyməti», cost-to-serve, effektiv SLO.
3) Rituallar və proseslər
3. 1 Production Readiness Review (PRR)
Trafikə qoşulmadan əvvəl xidmət aşağıdakılara malik olmalıdır:- SLI/SLO, dashboard və alert (fast/slow burn).
- Health-endpoints '/healthz ', '/readyz', '/startupz '.
- Runbook/playbook hadisələr, owner/on-call, escalation chain.
- Backups/DR planı, resurs limitləri, büdcə hesablamaları.
- Uğursuzluq testləri (Fich bayraqları, rollback ssenariləri).
3. 2 Həftəlik SLO brifinqi
Servislər üzrə error-budget statusu.
Bir həftə ərzində hadisələr, CAPA-tərəqqi.
Buraxılış riski: burada deploya icazə verilir/məhdudlaşdırılır (büdcə üzrə).
3. 3 Ittihamsız postmortem
Faktlar və vaxt, istifadəçi təsiri, nə kömək etdi/mane oldu.
Sistemli səbəblər (proseslər/alətlər), «günahkar» deyil.
Sahibləri və şərtləri ilə xüsusi CAPA, şirkət daxilində ictimaiyyət.
3. 4 Oyunlar xaos və drill
Planlı nasazlıq inyeksiyaları (şəbəkə, DB, cache, nodes) + hədəf SLO.
«Game day»: stabilizasiya vaxtı, MTTR ölçülməsi, playbook düzəlişləri.
4) Alerting və səs-küy
Prinsiplər:- Alert only on symptoms: SLO və ya istifadəçi yolu pozulur.
- Multi-window, multi-burn: sürətli və yavaş kanallar.
- Quorum/anti-flapping: 'for' gecikmələri, maintenance zamanı sıxışdırma.
- «CPU> 80%» - belə siqnallar dashboard, peycer deyil.
- actionable payı ≥ 80%.
- Median time-to-ack ≤ 5 dəqiqə (P1).
- «Pager fatigue» azaldılması: bir mühəndis üçün həftədə 1 gecə peyc ≤.
5) Dəyişikliyin idarə edilməsi
Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO siqnalları ilə avtomatik rollback (səhvlər/gecikmə).
Qlobal geri dönüş əvəzinə feature-flags və kill-switch.
Change policy by risk: fast lane для low-risk; CAB - yalnız yüksək risk.
yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }
6) toil azaldılması (rutin əl əməyi)
toil mənbələrinə misal: əl deploları, yenidən başlamalar, giriş biletləri, növbələrin təmizlənməsi.
Yanaşma:- Təkrarlanan tapşırıqların inventarlaşdırılması → avtomatlaşdırma/özünü xidmət.
- KPI: toil üçün% vaxt, «avtomatlaşdırılmış addımlar/hadisə», «self-service qədər dəqiqə».
- Platforma xidmətlərinin kataloqu (namespaces, DD, növbələr, daşbordlar, alertlər).
7) Müşahidə və SLO-birinci dizayn
Golden Signals (latency, traffic, errors, saturation).
Hər komandada SLO kartları: hədəf, pəncərə, büdcə, burn-alertlər.
Drilldown: metrikdən log/track; 'trace _ id' default log.
Sintetik: blackbox + headless script (login/deposit/checkout).
8) Güc idarəetmə və sabitlik
Capacity planning: hədəf RPS/rəqabət, AZ/region ehtiyatı.
Bulkhead/shedding: hovuz izolyasiyası, əvvəlcə ikinci dərəcəli funksiyaların uğursuzluğu.
Backpressure və növbələr: lag-control, DLQ, adaptiv rəqabət.
Failover və DR: RPO/RTO, müntəzəm DR drill.
9) Etibarlılığın bir hissəsi kimi təhlükəsizlik
Secrets: Secret Manager, JIT Access, audit.
WAF/DDoS-guard perimetrdə, müştəri/tenant limitləri.
Hadisələrdə PII-minimallaşdırma, DSAR/Legal Hold.
Supply chain security: artefaktların imzası, əsas şəkillər siyasəti.
10) On-cola sağlamlığı
«Tək» olmadan rotasiya, aydın istirahət pəncərələri.
«Gecə oyanmaq» həddi - yalnız SLO ilə P1/P2.
Psixogigiena: yuxu çatışmazlığı əməliyyat riski kimi qeyd olunur.
Metriklər: peyci/həftə, gecə peyci/mühəndis, bərpa vaxtı.
11) Yetkinlik metrikası SRE
SLO coverage: SLO/alert ilə kritik yolların payı ≥ 90%.
Error-budget governance: freeze qaydaları var və tətbiq olunur.
Toil: ≤ 30-40% vaxt, azalma tendensiyası.
MTTD/MTTR: medianlar rüblük dinamikada.
Auto-mitigation rate:% avtomatik hərəkət hadisələri.
PRR pass-rate: promosyon hazırlığı keçmiş buraxılışların payı.
Postmortem SLA: SEV-1 - postmortem ≤ 48 saat.
12) Sənədləşmə və biliklər
Minimum dəsti:- Runbooks/playbook (top ssenariləri: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
- SLO kartları və daşbordları.
- PRR çek vərəqləri və buraxılış şablonları.
- Platforma və OLAs/SLAs xidmətlərinin kataloqu.
- Tədris materialları: SRE 101, Chaos 101, On-call 101.
13) Anti-nümunələr
Hero-culture: sistem fiksləri əvəzinə «xilasedicilər».
Səs-küylü alertinq: CPU/CD-lər, yüzlərlə lazımsız siqnallar.
«DevOps bir insandır»: bulanıq məsuliyyət, sahibləri yoxdur.
SLO olmaması: «hər şeyi yaşıl saxlayın» → xaos prioritet.
Gecikmiş postmortemlər və «cadugər ovu».
Kanaryalar olmadan qlobal geri dönüşlər.
Konfiqada/repoda sirlər; heç bir hərəkət audit.
actionable siqnalları olmadan «gözəl qrafik» kimi observability.
14) Artefakt şablonları
14. 1 SRE Xartiyası (fraqment)
yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]
14. 2 Mini PRR çek siyahısı
- SLI/SLO və burn-alert xüsusi
- Sağlamlıq-end nöqtələri və sintetika
- Runbook/playbook + sahibi/on-call
- Rollback/Ficha bayraqları/Kanarya
- Dashboard latency/errors/traffic/saturation
- Təhlükəsizlik limitləri/kvotaları/guardrails
- DR planı və backaps test
15) Mərhələlər üzrə tətbiq (4 sprint)
Sprint 1 - Təməl
Kritik xüsusi yolları və SLI müəyyən edin.
SLO formalaşdırın və burn-alert çalıştırın.
PRR və minimum playbook daxil edin.
Sprint 2 - Dəyişikliklərin idarə edilməsi
SLO-da auto-rollback.
Self-service əməliyyatları, xidmətlər kataloqu.
toil inventar və avtomatlaşdırma planı.
Sprint 3 - Təlim dövrləri
Postmortem ritualı, xaos oyunlarının təqvimi.
Dashbord SLO + insidentlər, hesabat error-budget.
Sprint 4 - Optimallaşdırma və miqyas
SLO portfeli, FinOps «cost per 9».
DR intizamının tətbiqi, təhlükəsizlik auditi.
KPI on-cola, tükənmənin qarşısının alınması.
16) Mini-FAQ
SRE = «hər şeyi düzəltmək»?
Yox. SRE etibarlılıq sistemini idarə edir: SLO, alertinq, proseslər, avtomatlaşdırma və təlim.
Biznesinizi etibarlılığa sərmayə qoymağa necə inandırmaq olar?
ROI göstərin: MTTR azaldılması, dönüşüm artımı, daha az SLA kreditləri, aşağı cost-to-serve, sabit buraxılışlar.
Ayrı-ayrı SRE komandalarına ehtiyacınız varmı?
Hibrid model: kritik məhsullarda platformada strateji SRE + embedded-SRE.
Yekun
SRE mədəniyyəti vəzifə deyil, risklə işləmək üçün bir yoldur: SLO → səhv büdcəsi → idarəolunan dəyişikliklər → avtomatlaşdırma → təlim. Prinsipləri düzəldin, ritualları (PRR, postmortemlər, xaos oyunları) qurun, toil çəkin, «default» müşahidə qurun və on-call-a diqqət yetirin. Beləliklə, davamlı inkişaf sürəti, proqnozlaşdırıla bilən buraxılışlar və etibarlı, qənaətli platforma əldə edəcəksiniz.