Etibarlılıq mühəndisliyi
1) SRE nədir və niyə lazımdır
Etibarlılıq mühəndisliyi (Site Reliability Engineering, SRE) - etibarlılığı ölçülə bilən məhsul atributuna çevirən inkişaf və istismar qovşağında intizam. SRE istifadəçi təcrübəsinin metriklərini (SLI), keyfiyyət məqsədlərini (SLO), səhv büdcələrini, avtomatlaşdırmanı və idarəolunan dəyişiklikləri sabitliyi itirmədən daha sürətli bir şəkildə təmin etmək üçün birləşdirir.
Əsas məqsədlər: proqnozlaşdırıla bilən UX, sürətli buraxılışlar, minimum fasilələr və nəzarət olunan sahiblik dəyəri.
2) SRE prinsipləri
Fich kimi etibarlılıq. SLO və biznes məqsədləri ilə müəyyən edilmiş həddə qədər prioritet.
Səhv büdcəsi dəyişmə sürətini idarə edir. Büdcə yandırılırsa, sabitliyə diqqət yetirin.
Avtomatlaşdırma> əl əməliyyatları. Hər hansı bir təkrar tapşırıq skript/operator/payplayndır.
Ölçülmə qabiliyyəti. Yalnız ölçülən (SLI/SLO) təkmilləşdirilə bilər.
Just Culture. Post-mortemlər ittihamsız, sistemli səbəblərə diqqət yetirir.
Shift-left. Keyfiyyət, təhlükəsizlik, testlər və müşahidə inkişaf dövrünün bir hissəsidir.
3) Təşkilat və rollar
Platformanın SRE komandası: ümumi alətlər, siyasətlər, paylaynlar, GitOps, xidmət kataloqları.
Daxili SRE (embedded): SLO-da müştərək məqsədlər olan məhsul komandası ilə birlikdə işləyir.
Növbə (on-call): rotasiya, yük limitləri, kompensasiya, məşq.
RACI: xidmət sahibi, SLO sahibi, hadisələrdə IC, Comms Lead, Scribe.
4) SLI/SLO və büdcə səhvləri (məhsul ilə əlaqə)
SLI: əlçatanlıq, gizlilik, biznes əməliyyatlarının müvəffəqiyyəti, məlumatların aktuallığı.
SLO: Windows hədəfləri 28-30 gün + istisnalar.
Error Budget = 1 − SLO. Siyasətçilər: relizlər, təcrübələr, kanaryalar və fiqurlar faktiki burn-rate ilə tənzimlənir.
Kohortlara görə dizayn: regionlar, provayderlər, VIP seqmentlər - anomaliyaları itirməmək üçün ayrı SLO-lar.
5) Default müşahidə
Metriklər: uğur/səhv, p50/p95/p99, saturation (CPU/mem/IO/conn).
Qeydlər: strukturlaşdırılmış, sorğuların/relizlərin/bayraqların korrelyasiyası ilə.
Trace: keçici gecikmə və səhv kartı, hot-paths.
Sintetika + RUM: xarici nümunələr və real müştəri telemetri.
SLO Dashboard: burn-down büdcə, reliz annotasiyalar, kanareyka, provayderlər.
6) Dəyişikliklər və buraxılışın idarə edilməsi
Paypline CI/CD: determinant montajlar, artefaktların imzası, təhlükəsizlik skanerləri, müqavilə testləri.
Proqressiv strategiyalar: canary/blue-green/shadow; həyat dövrü ilə fich bayraqları.
Keyfiyyət qapıları: policy-as-code, SLO-guardrails, deqradasiya zamanı avtomatik geri dönüş.
GitOps: kod kimi konfiqurasiya/siyasət, çərşənbə promosyon, audit.
7) Hadisələr və post-mortemlər
SEV/P səviyyələri üzrə bəyannamə, IC dərhal təyin edilir, SEV-1 + ilə sərbəst buraxılır.
Burn-rate alertlər: qısa və uzun pəncərələr, bölgələr və nümunə növlərinə görə kvorum.
Playbook: geri qaytarmalar, deqradasiyalar, provayderlərin feyloveri, limitlər/retralar.
RCA və CAPA: faktologiya, səbəblilik, ölçülə bilən hərəkətlər, nəzarət nöqtələri (D + 14/D + 30).
Bilik kataloqu: şablonları və dərsləri yenidən istifadə edirik.
8) Etibarlılıq testi
Mikroservislər üçün müqavilə testləri və consumer-driven contracts.
Real nümunələr, test p99/GC fasilələr/quyruqları növbələr üçün yük profilləri.
Chaos/Resilience-cases: asılılıq, şəbəkə, gecikmələr; game-days və DR-təlimlər.
BD miqrasiyası: expand → migrate → contract, dönüşümlülük, iki versiyası uyğunluq testləri.
9) Tutum və dəyər idarəetmə (FinOps)
Kritik yollarda Capacity Units və headroom.
HPA/VPA/KEDA xüsusi metrik və lag növbələri ilə.
Multi-provayderlər: kvotalar, SLO/gizli marşrutlaşdırma, avto-feylover.
Unit-economics: $/1k sorğu, $/uğurlu əməliyyat; caches optimallaşdırma, log, egress.
10) Etibarlılığın bir hissəsi kimi təhlükəsizlik
SAST/DAST/SCA, sirlərin axtarışı, SBOM, şəkillərin imzası.
mTLS və giriş siyasəti (OPA/ABAC); minimum imtiyazlar.
Açarların/sertifikatların rotasiyası, son tarixlərə nəzarət, test müddəti bitmə ssenariləri.
Təhlükəsizlik hadisələri - fərdi playbook, forensika, tənzimləyici bildirişlər.
11) Mədəniyyət və proseslər
SLO-rəylər: həftəlik/aylıq, borcların «bənövşəyi üzlüklərə» üstünlük verilməsi.
Təlim və simulyasiyalar: on-call təlimləri, insident məşqləri, chaos-days.
Vahid standartlar: hazırlıq yoxlama vərəqləri, SLA kommunikasiyaları, post-mortem formatı.
Alert yorğunluq göstəriciləri: hədəf eşik ≤ səs-küy, müntəzəm sazlama.
12) SRE funksiyasının yetkinlik metrikası
DORA metrik: deploes tezliyi, lead time, MTTR, change-failure-rate.
SLO-icra: yaşıl zonada xidmətlərin payı, burn-rate trendi.
Alert gigiyena:% peyck hərəkətləri, median alert/növbə, saxta payı.
RCA/CAPA: vaxtında yerinə yetirilməsi, sistemli (fərdi olmayan) səbəblərin payı, reopen-rate.
Dəyəri: $/SLO nöqtəsi, $/1k sorğu, avtoskeyl səmərəliliyi.
13) «Xidmət hazırlığı» çek-siyahısı
- SLI/SLO, SLO sahibi və müşahidə pəncərəsi müəyyən edilmişdir.
- Daşbordlar və burn-rate alert xüsusi, xarici sintetik var.
- Paypline: imzalar/skanlar, müqavilə/inteqrasiya testləri, kanarya/bayraqlar, avtomatik rollback.
- BD miqrasiyası geri çevrilebilir, yük profilləri zirvələri əhatə edir.
- Hadisə playbook və provayder əlaqə; status-səhifə.
- Capacity headroom təsdiq; HPA/KEDA və provayder kvotaları yoxlanılır.
- Konfiqlər və siyasətçilər - Git, Çərşənbə promosyonu, audit daxildir.
- Təhlükəsizlik: koddan kənar sirlər, mTLS/rotasiya, TLS vaxt nəzarət altında.
14) Anti-nümunələr
«99. 999% və ya heç bir şey" - əlçatmaz məqsədlər → əbədi qırmızı burn-rate.
Kanaryalar və fiç bayraqları olmayan buraxılışlar → böyük partlayışlar.
Bir monitorinq nöqtəsi → saxta həyəcan və qaçırma.
→ Sürüklənmə və dinlənilməzlikdə konfiqurasiyaların əl ilə dəyişdirilməsi.
CAPA olmadan post-mortem → təkrarlanan hadisələr.
SRE kimi «yanğınsöndürənlər» arxitekturanı dəyişdirmək hüququ olmadan → borc bağlanmır.
15) SRE tətbiqi yol xəritəsi (3-6 aylıq nümunə)
1. Ay 1: xidmətlərin və kritik yolların inventarlaşdırılması; SLI/SLO layihələri; baza daşbordları və burn-rate alertlər; on-call start.
2. Ay 2: Kanaryalar/Fich bayraqları, Avtomatik geri çəkilmələr; GitOps konfiqurasiya; hadisə pleybuklarının kataloqu; status-səhifə.
3. Ay 3: müqavilə testləri, yük profilləri, expand/contract sxemi üzrə DB miqrasiyası; ilk game-days.
4. Ay 4-6: Multi-provayder marşrutları, DR təlimləri, xərclərin optimallaşdırılması, yetkinlik metrikası, komandalar üçün KPI.
16) Yekun
SRE əməliyyat inkişaf sistemidir: şəffaf keyfiyyət hədəfləri (SLO), idarəolunan dəyişiklik sürəti (səhv büdcəsi), avtomatlaşdırma və hadisə intizamı, sabitlik testi və şüurlu qiymət. Bu yanaşma ilə buraxılışlar rutin, etibarlılıq isə rəqabət üstünlüyünə çevrilir.