SRE medeniýeti we in engineeringenerçilik ýörelgeleri
1) SRE medeniýeti näme
SRE medeniýeti, dolandyrylýan ygtybarlylygy emele getirýän gymmatlyklaryň we tejribeleriň toplumydyr: SLO-maksatlar → ýalňyşlyk-býudjet → aňly üýtgeşmeler töwekgelçiligi → çalt durnuklaşma → hadysalarda okamak.
Esasy paradigma: tizlik ≠ ygtybarlylygyň duşmany. Töwekgelçilikler dozalananda we awtomatlaşdyrylanda goýberilişleriň tizligi mümkindir.
- User-centric: Ulanyjynyň görşi ýaly ygtybarlylygy görkezýäris (SLI/SLO).
- Awtomation-first: islendik gaýtalanýan hereket → skript/syýasat/kontroller.
- Blamelessness: ýalňyşlyklar - ulgamlaýyn, adamlaryň däl-de, sebäplerini derňeýäris.
- Data-driven: metriklere we ýalňyşlyklaryň býudjetlerine esaslanýan çözgütler.
- Simplicity: ýönekeý, barlanylýan mehanizmler> "jadyly" çözgütler.
2) SRE-iň esasy in engineeringenerçilik ýörelgeleri
1. SLO/SLI we ýalňyşlyklaryň býudjeti ileri tutulýan ugurlaryň we alertingiň esasyny düzýär.
2. Waka → durnuklaşdyryş → RCA - ilki alamatlar, soň sebäpler.
3. El zähmetini azaltmak (toil) - SRE wagtynyň 50% -ini ≤ maksat, wagtyň geçmegi bilen pes.
4. Önümçilik taýýarlygy - "production readiness" daşarky traffige çenli hökmanydyr.
5. Ýönekeýlik we izolýasiýa - az baglanyşyk, has köp blast radius çäklendirmeleri.
6. Adaty syn etmek - metrikler/loglar/ýollar, SLO widgetler, sintetika.
7. Üýtgeşmeler dolandyrylýar - progressive delivery, kanareýka hasaplamalary, auto-rollback.
8. Security by design - syrlar, elýeterlilik, audit, iň az artykmaçlyklar.
9. Okuw siklleri - dyrnaklar, bulam-bujarlyk oýunlary, postmortemler, retrospektivler.
10. FinOps-habarlylyk - "dokuzlaryň bahasy", cost-to-serve, täsirli SLO.
3) Däp-dessurlar we prosesler
3. 1 Production Readiness Review (PRR)
Traffigi açmazdan ozal hyzmatda aşakdakylar bolmaly:- SLI/SLO, daşbord we alertler (fast/slow burn).
- Health-endpoints '/healthz ', '/readyz', '/startupz '.
- Runbook/playbook hadysalary, owner/on-call, escalation chain.
- Backups/DR-plan, resurs çäkleri, býudjet hasaplamalary.
- Şowsuzlyga çydamlylyk synaglary (fiç-baýdaklar, rollback ssenarileri).
3. 2 Hepdelik SLO-brifing
Hyzmatlar boýunça error-budget ýagdaýy.
Bir hepdäniň içinde bolan wakalar, CAPA-ösüş.
Goýberiş töwekgelçiligi: nirede rugsat berilýär/deple bilen çäklendirilýär (býudjet boýunça).
3. 3 Aýyplamasyz postmortem
Faktlar we wagt, ulanyjy täsiri, kömek/päsgel berdi.
"Günäkär" däl-de, ulgamlaýyn sebäpler (prosesler/gurallar).
Eýeleri we möhletleri bilen anyk CAPA, kompaniýanyň içinde köpçülige aýan bolmak.
3. 4 Bulam-bujarlyk we gyrgynçylyk oýunlary
Şowsuzlyklaryň meýilleşdirilen sanjymlary (tor, DB, nagt pul, nodlar) + maksatly SLO.
"Game day": durnuklaşdyrmaga wagt, MTTR ölçemek, pleýbuklary sazlamak.
4) Alerting we ses
Ýörelgeler:- Alert only on symptoms: SLO ýa-da ulanyjy ýoly bozuldy.
- Multi-window, multi-burn: çalt we haýal kanallar.
- Quorum/anti-flapping: 'for' gijikdirmeleri, maintenance basyşy.
- "CPU> 80%" -den çykyň - şeýle signallar dashbordlara, пейjere däl.
- Actionable paýy ≥ 80%.
- Median time-to-ack ≤ 5 minut (P1 boýunça).
- "Pager fatigue" -iň peselmegi: inerener üçin hepdede 1 gijeki page ≤.
5) Üýtgetmeleri dolandyrmak
Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO signallary boýunça awto-rollback (ýalňyşlyklar/gizlinlik).
Global yzyna gaýtarmagyň ýerine feature-flags we kill-switch.
Change policy by risk: fast lane для low-risk; CAB - diňe ýokary töwekgelçilikli.
yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }
6) toil-iň azalmagy (adaty el zähmeti)
Toil çeşmeleriniň mysallary: el bilen deploiler, täzeden başlamalar, "giriş" biletleri, nobatlary arassalamak.
Çemeleşme:- Gaýtalanýan meseleleriň sanawy → awtomatlaşdyryş/öz-özüne hyzmat etmek.
- KPI: toil üçin% wagt, "awtomatlaşdyrylan ädimler/waka", "self-service çenli minut".
- Platforma hyzmatlarynyň katalogy (namespaces, DB, nobatlar, daşbordlar, alertler).
7) Synlamak we SLO-ilkinji dizaýn
Golden Signals (latency, traffic, errors, saturation).
SLO-kartoçkalar her toparda: maksat, penjire, býudjet, burn-alertler.
Drilldown: metriklerden loglere/tracklere; 'trace _ id' -de.
Sintetika: blackbox + headless scripts (login/deposit/checkout).
8) Kuwwatlyklary dolandyrmak we durnuklylyk
Capacity planning: maksatly RPS/bäsdeşlik, AZ/sebit boýunça ätiýaçlyk gory.
Bulkhead/shedding: howuzlaryň izolýasiýasy, ikinji derejeli funksiýalaryň şowsuzlygy.
Backpressure we nobatlar: lag-control, DLQ, uýgunlaşýan bäsdeşlik.
Failover we DR: RPO/RTO, yzygiderli DR-drill.
9) Howpsuzlyk ygtybarlylygyň bir bölegi hökmünde
Secrets: gizlin dolandyryjy, JIT elýeterliligi, audit.
WAF/DDoS-guard perimetrde, müşderi/tenant üçin çäklendirmeler.
PII-minimalizasiýa, DSAR/Legal Hold hadysalarda.
Supply chain security: artefaktlaryň goly, esasy şekilleriň syýasaty.
10) On-kollanyň saglygy
"Ýalňyz" aýlanmalar, açyk dynç alyş penjireleri.
"Gijelerine oýanmak" bosagasy diňe SLO arkaly P1/P2.
Psihogigiena: ukynyň ýetmezçiligi operasiýa töwekgelçiligi hökmünde kesgitlenýär.
Metrikler: page/ned, gijeki page/inerener, dikeldiş wagty.
11) SRE kämillik ölçegleri
SLO coverage: SLO/alertler bilen möhüm ýollaryň paýy ≥ 90%.
Error-budget governance: freeze-düzgünleri bar we ulanylýar.
Toil: ≤ 30-40% wagt, peselmek tendensiýasy.
MTTD/MTTR: çärýekleýin dinamikada araçylar.
Awto-mitigation rate:% awtomatiki hereket hadysalary.
PRR pass-rate: önümçilik taýýarlygyndan geçen goýberilişleriň paýy.
Postmortem SLA: SEV-1 - postmortem ≤ 48 sagat.
12) Resminamalar we bilimler
Iň az toplumy:- Runbooks/playbook (iň ýokary ssenariler: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
- SLO-kartoçkalar we daşbordlar.
- PRR-çek-listleri we goýberiş şablonlary.
- Platforma we OLAs/SLAs hyzmatlarynyň katalogy.
- Okuw materiallary: SRE 101, Chaos 101, On-call 101.
13) Anti-patternler
Hero-culture: ulgamlaýyn fiksleriň ýerine "halas edijiler".
Şowhunly alerting: CPU/CD-ler, ýüzlerçe gereksiz signal.
"DevOps - adam": bulaşyk jogapkärçilik, eýeleri ýok.
SLO ýoklugy: "hemme zady ýaşyl saklaýarys" → ileri tutulýan bulam-bujarlyk.
Yza süýşürilen postmortemalar we "jadygöý awy".
Kanareýalarsyz global yza gaýdyp gelmek.
Konfigadaky/repodaky syrlar; hereketleriň barlagy ýok.
Observability actionable signallarsyz "owadan grafikler" hökmünde.
14) Artefaktlaryň şablonlary
14. 1 SRE Hartiýasy (bölek)
yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]
14. 2 Mini-PRR çek sanawy
- SLI/SLO we burn-alertler sazlandy
- Saglyk-endpointler we sintetika
- Runbook/playbook + eýesi/on-call
- Rollback/Ficha-baýdaklar/Kanarya
- Daşbordlar latency/errors/traffic/saturation
- Howpsuzlyk çäkleri/kwotalary/guardrails
- DR-meýilnama we bellikler synagdan geçirildi
15) Tapgyrlar boýunça ornaşdyrmak (4 sprint)
Sprint 1 - Binýat
Möhüm ulanyjy ýollaryny we SLI-leri kesgitlemek.
SLO düzüň we burn-alertleri işe giriziň.
PRR we iň az pleýbuklary giriziň.
Sprint 2 - Üýtgeşmeleri dolandyrmak
SLO boýunça awto-rollback.
Self-service amallary, hyzmatlaryň katalogy.
Toil inwentarizasiýasy we awtomatlaşdyryş meýilnamasy.
Sprint 3 - Okuw siklleri
Postmortem-däp, bulam-bujarlyk oýunlarynyň senenamasy.
Daşbordlar SLO + hadysalar, hasabat error-budget.
Sprint 4 - Optimizasiýa we masştab
SLO portfeli, FinOps "cost per 9".
DR-düzgün-nyzamyň girizilmegi, howpsuzlyk barlagy.
KPI on-cola, ýadawlygyň öňüni almak.
16) Mini-FAQ
SRE = "Hemme zady düzetmek"?
Ýok. SRE ygtybarlylyk ulgamyny dolandyrýar: SLO, alerting, prosesler, awtomatlaşdyryş we okuw.
Işewürligi ygtybarlylyga maýa goýmaga nädip ynandyrmaly?
ROI görkeziň: MTTR-iň azalmagy, konwersiýanyň ösüşi, SLA-nyň az karzy, cost-to-serve-den pes, durnukly goýberişler.
Aýratyn SRE buýruklary gerekmi?
Gibrid model: platformada strategiki SRE + möhüm önümlerde embedded-SRE.
Jemi
SRE medeniýeti wezipe däl, töwekgelçilik bilen işlemegiň usulydyr: SLO → ýalňyşlyklaryň býudjeti → dolandyrylýan üýtgeşmeler → awtomatlaşdyryş → okuw. Ýörelgeleri düzüň, däp-dessurlary (PRR, post-mortemalar, bulam-bujarlyk oýunlary) dörediň, toil-i surata düşüriň, "standart" synlamagy guruň we on-call-a üns beriň. Şeýlelik bilen, durnukly ösüş tizligini, öňünden aýdyp boljak neşirleri we ygtybarly, tygşytly platformany alarsyňyz.