SRE mədəniyyət və mühəndislik prinsipləri

1) SRE mədəniyyəti nədir

SRE mədəniyyəti etibarlılığı idarə edən dəyərlər və təcrübələr toplusudur: SLO məqsədləri → səhv-büdcə → şüurlu dəyişiklik riskləri → sürətli sabitləşmə → hadisə təlimi.
Əsas paradiqma: sürət ≠ etibarlılığın düşməni. Risklər ölçüldükdə və avtomatlaşdırıldıqda buraxılış sürəti mümkündür.

Əsas dəyərlər:

User-centric: Etibarlılığı istifadəçinin gördüyü kimi təyin edirik (SLI/SLO).
Automation-first: hər hansı bir təkrarlanan hərəkət → script/siyasət/nəzarətçi.
Blamelessness: səhvlər sistemdir, insanları deyil, səbəbləri araşdırırıq.
Data-driven: metrik və büdcə səhvlərinə əsaslanan həllər.
Simplicity: sadə, yoxlanıla bilən mexanizmlər> «sehrli» həllər.

2) SRE əsas mühəndislik prinsipləri

1. SLO/SLI və büdcə səhvləri prioritetlərin və alertinqin əsasını təşkil edir.
2. Hadisə → sabitləşmə → RCA - əvvəlcə simptomlar, sonra səbəblər.
3. Əl əməyinin azaldılması (toil) SRE vaxtının 50% -ni ≤ məqsədidir.
4. Prod-hazırlıq - «production readiness» xarici trafikdən əvvəl məcburidir.
5. Sadəlik və izolyasiya - daha az əlaqə, daha çox blast radius məhdudiyyətləri.
6. Default müşahidə - metrika/log/trek, SLO-widget 'lar, sintetika.
7. Dəyişikliklər idarə olunur - progressive delivery, kanarya hesablamalar, auto-rollback.
8. Security by design - sirləri, giriş, audit, minimal imtiyazlar.
9. Təlim dövrləri - drill, xaos oyunları, postmortemlər, retrospektivlər.
10. FinOps-şüur - «doqquzların qiyməti», cost-to-serve, effektiv SLO.

3) Rituallar və proseslər

3. 1 Production Readiness Review (PRR)

Trafikə qoşulmadan əvvəl xidmət aşağıdakılara malik olmalıdır:

SLI/SLO, dashboard və alert (fast/slow burn).
Health-endpoints '/healthz ', '/readyz', '/startupz '.
Runbook/playbook hadisələr, owner/on-call, escalation chain.
Backups/DR planı, resurs limitləri, büdcə hesablamaları.
Uğursuzluq testləri (Fich bayraqları, rollback ssenariləri).

3. 2 Həftəlik SLO brifinqi

Servislər üzrə error-budget statusu.
Bir həftə ərzində hadisələr, CAPA-tərəqqi.
Buraxılış riski: burada deploya icazə verilir/məhdudlaşdırılır (büdcə üzrə).

3. 3 Ittihamsız postmortem

Faktlar və vaxt, istifadəçi təsiri, nə kömək etdi/mane oldu.
Sistemli səbəblər (proseslər/alətlər), «günahkar» deyil.
Sahibləri və şərtləri ilə xüsusi CAPA, şirkət daxilində ictimaiyyət.

3. 4 Oyunlar xaos və drill

Planlı nasazlıq inyeksiyaları (şəbəkə, DB, cache, nodes) + hədəf SLO.
«Game day»: stabilizasiya vaxtı, MTTR ölçülməsi, playbook düzəlişləri.

4) Alerting və səs-küy

Prinsiplər:

Alert only on symptoms: SLO və ya istifadəçi yolu pozulur.
Multi-window, multi-burn: sürətli və yavaş kanallar.
Quorum/anti-flapping: 'for' gecikmələri, maintenance zamanı sıxışdırma.
«CPU> 80%» - belə siqnallar dashboard, peycer deyil.

KPI keyfiyyətli alertlər:

actionable payı ≥ 80%.
Median time-to-ack ≤ 5 dəqiqə (P1).
«Pager fatigue» azaldılması: bir mühəndis üçün həftədə 1 gecə peyc ≤.

5) Dəyişikliyin idarə edilməsi

Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO siqnalları ilə avtomatik rollback (səhvlər/gecikmə).
Qlobal geri dönüş əvəzinə feature-flags və kill-switch.
Change policy by risk: fast lane для low-risk; CAB - yalnız yüksək risk.

Kanarya addım şablonu (ideoloji):

yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6) toil azaldılması (rutin əl əməyi)

toil mənbələrinə misal: əl deploları, yenidən başlamalar, giriş biletləri, növbələrin təmizlənməsi.

Yanaşma:

Təkrarlanan tapşırıqların inventarlaşdırılması → avtomatlaşdırma/özünü xidmət.
KPI: toil üçün% vaxt, «avtomatlaşdırılmış addımlar/hadisə», «self-service qədər dəqiqə».
Platforma xidmətlərinin kataloqu (namespaces, DD, növbələr, daşbordlar, alertlər).

7) Müşahidə və SLO-birinci dizayn

Golden Signals (latency, traffic, errors, saturation).
Hər komandada SLO kartları: hədəf, pəncərə, büdcə, burn-alertlər.
Drilldown: metrikdən log/track; 'trace _ id' default log.
Sintetik: blackbox + headless script (login/deposit/checkout).

8) Güc idarəetmə və sabitlik

Capacity planning: hədəf RPS/rəqabət, AZ/region ehtiyatı.
Bulkhead/shedding: hovuz izolyasiyası, əvvəlcə ikinci dərəcəli funksiyaların uğursuzluğu.
Backpressure və növbələr: lag-control, DLQ, adaptiv rəqabət.
Failover və DR: RPO/RTO, müntəzəm DR drill.

9) Etibarlılığın bir hissəsi kimi təhlükəsizlik

Secrets: Secret Manager, JIT Access, audit.
WAF/DDoS-guard perimetrdə, müştəri/tenant limitləri.
Hadisələrdə PII-minimallaşdırma, DSAR/Legal Hold.
Supply chain security: artefaktların imzası, əsas şəkillər siyasəti.

10) On-cola sağlamlığı

«Tək» olmadan rotasiya, aydın istirahət pəncərələri.
«Gecə oyanmaq» həddi - yalnız SLO ilə P1/P2.
Psixogigiena: yuxu çatışmazlığı əməliyyat riski kimi qeyd olunur.
Metriklər: peyci/həftə, gecə peyci/mühəndis, bərpa vaxtı.

11) Yetkinlik metrikası SRE

SLO coverage: SLO/alert ilə kritik yolların payı ≥ 90%.
Error-budget governance: freeze qaydaları var və tətbiq olunur.
Toil: ≤ 30-40% vaxt, azalma tendensiyası.
MTTD/MTTR: medianlar rüblük dinamikada.
Auto-mitigation rate:% avtomatik hərəkət hadisələri.
PRR pass-rate: promosyon hazırlığı keçmiş buraxılışların payı.
Postmortem SLA: SEV-1 - postmortem ≤ 48 saat.

12) Sənədləşmə və biliklər

Minimum dəsti:

Runbooks/playbook (top ssenariləri: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
SLO kartları və daşbordları.
PRR çek vərəqləri və buraxılış şablonları.
Platforma və OLAs/SLAs xidmətlərinin kataloqu.
Tədris materialları: SRE 101, Chaos 101, On-call 101.

13) Anti-nümunələr

Hero-culture: sistem fiksləri əvəzinə «xilasedicilər».
Səs-küylü alertinq: CPU/CD-lər, yüzlərlə lazımsız siqnallar.
«DevOps bir insandır»: bulanıq məsuliyyət, sahibləri yoxdur.
SLO olmaması: «hər şeyi yaşıl saxlayın» → xaos prioritet.
Gecikmiş postmortemlər və «cadugər ovu».
Kanaryalar olmadan qlobal geri dönüşlər.
Konfiqada/repoda sirlər; heç bir hərəkət audit.
actionable siqnalları olmadan «gözəl qrafik» kimi observability.

14) Artefakt şablonları

14. 1 SRE Xartiyası (fraqment)

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14. 2 Mini PRR çek siyahısı

SLI/SLO və burn-alert xüsusi
Sağlamlıq-end nöqtələri və sintetika
Runbook/playbook + sahibi/on-call
Rollback/Ficha bayraqları/Kanarya
Dashboard latency/errors/traffic/saturation
Təhlükəsizlik limitləri/kvotaları/guardrails
DR planı və backaps test

15) Mərhələlər üzrə tətbiq (4 sprint)

Sprint 1 - Təməl

Kritik xüsusi yolları və SLI müəyyən edin.
SLO formalaşdırın və burn-alert çalıştırın.
PRR və minimum playbook daxil edin.

Sprint 2 - Dəyişikliklərin idarə edilməsi

SLO-da auto-rollback.
Self-service əməliyyatları, xidmətlər kataloqu.
toil inventar və avtomatlaşdırma planı.

Sprint 3 - Təlim dövrləri

Postmortem ritualı, xaos oyunlarının təqvimi.
Dashbord SLO + insidentlər, hesabat error-budget.

Sprint 4 - Optimallaşdırma və miqyas

SLO portfeli, FinOps «cost per 9».
DR intizamının tətbiqi, təhlükəsizlik auditi.
KPI on-cola, tükənmənin qarşısının alınması.

16) Mini-FAQ

SRE = «hər şeyi düzəltmək»?
Yox. SRE etibarlılıq sistemini idarə edir: SLO, alertinq, proseslər, avtomatlaşdırma və təlim.

Biznesinizi etibarlılığa sərmayə qoymağa necə inandırmaq olar?
ROI göstərin: MTTR azaldılması, dönüşüm artımı, daha az SLA kreditləri, aşağı cost-to-serve, sabit buraxılışlar.

Ayrı-ayrı SRE komandalarına ehtiyacınız varmı?
Hibrid model: kritik məhsullarda platformada strateji SRE + embedded-SRE.

Yekun

SRE mədəniyyəti vəzifə deyil, risklə işləmək üçün bir yoldur: SLO → səhv büdcəsi → idarəolunan dəyişikliklər → avtomatlaşdırma → təlim. Prinsipləri düzəldin, ritualları (PRR, postmortemlər, xaos oyunları) qurun, toil çəkin, «default» müşahidə qurun və on-call-a diqqət yetirin. Beləliklə, davamlı inkişaf sürəti, proqnozlaşdırıla bilən buraxılışlar və etibarlı, qənaətli platforma əldə edəcəksiniz.

SRE mədəniyyət və mühəndislik prinsipləri

Sprint 2 - Dəyişikliklərin idarə edilməsi

Sprint 3 - Təlim dövrləri

Sprint 4 - Optimallaşdırma və miqyas

Yekun

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq