GH GambleHub

SRE medeniýeti we in engineeringenerçilik ýörelgeleri

1) SRE medeniýeti näme

SRE medeniýeti, dolandyrylýan ygtybarlylygy emele getirýän gymmatlyklaryň we tejribeleriň toplumydyr: SLO-maksatlar → ýalňyşlyk-býudjet → aňly üýtgeşmeler töwekgelçiligi → çalt durnuklaşma → hadysalarda okamak.
Esasy paradigma: tizlik ≠ ygtybarlylygyň duşmany. Töwekgelçilikler dozalananda we awtomatlaşdyrylanda goýberilişleriň tizligi mümkindir.

Esasy gymmatlyklar:
  • User-centric: Ulanyjynyň görşi ýaly ygtybarlylygy görkezýäris (SLI/SLO).
  • Awtomation-first: islendik gaýtalanýan hereket → skript/syýasat/kontroller.
  • Blamelessness: ýalňyşlyklar - ulgamlaýyn, adamlaryň däl-de, sebäplerini derňeýäris.
  • Data-driven: metriklere we ýalňyşlyklaryň býudjetlerine esaslanýan çözgütler.
  • Simplicity: ýönekeý, barlanylýan mehanizmler> "jadyly" çözgütler.

2) SRE-iň esasy in engineeringenerçilik ýörelgeleri

1. SLO/SLI we ýalňyşlyklaryň býudjeti ileri tutulýan ugurlaryň we alertingiň esasyny düzýär.
2. Waka → durnuklaşdyryş → RCA - ilki alamatlar, soň sebäpler.
3. El zähmetini azaltmak (toil) - SRE wagtynyň 50% -ini ≤ maksat, wagtyň geçmegi bilen pes.
4. Önümçilik taýýarlygy - "production readiness" daşarky traffige çenli hökmanydyr.
5. Ýönekeýlik we izolýasiýa - az baglanyşyk, has köp blast radius çäklendirmeleri.
6. Adaty syn etmek - metrikler/loglar/ýollar, SLO widgetler, sintetika.
7. Üýtgeşmeler dolandyrylýar - progressive delivery, kanareýka hasaplamalary, auto-rollback.
8. Security by design - syrlar, elýeterlilik, audit, iň az artykmaçlyklar.
9. Okuw siklleri - dyrnaklar, bulam-bujarlyk oýunlary, postmortemler, retrospektivler.
10. FinOps-habarlylyk - "dokuzlaryň bahasy", cost-to-serve, täsirli SLO.

3) Däp-dessurlar we prosesler

3. 1 Production Readiness Review (PRR)

Traffigi açmazdan ozal hyzmatda aşakdakylar bolmaly:
  • SLI/SLO, daşbord we alertler (fast/slow burn).
  • Health-endpoints '/healthz ', '/readyz', '/startupz '.
  • Runbook/playbook hadysalary, owner/on-call, escalation chain.
  • Backups/DR-plan, resurs çäkleri, býudjet hasaplamalary.
  • Şowsuzlyga çydamlylyk synaglary (fiç-baýdaklar, rollback ssenarileri).

3. 2 Hepdelik SLO-brifing

Hyzmatlar boýunça error-budget ýagdaýy.
Bir hepdäniň içinde bolan wakalar, CAPA-ösüş.
Goýberiş töwekgelçiligi: nirede rugsat berilýär/deple bilen çäklendirilýär (býudjet boýunça).

3. 3 Aýyplamasyz postmortem

Faktlar we wagt, ulanyjy täsiri, kömek/päsgel berdi.
"Günäkär" däl-de, ulgamlaýyn sebäpler (prosesler/gurallar).
Eýeleri we möhletleri bilen anyk CAPA, kompaniýanyň içinde köpçülige aýan bolmak.

3. 4 Bulam-bujarlyk we gyrgynçylyk oýunlary

Şowsuzlyklaryň meýilleşdirilen sanjymlary (tor, DB, nagt pul, nodlar) + maksatly SLO.
"Game day": durnuklaşdyrmaga wagt, MTTR ölçemek, pleýbuklary sazlamak.

4) Alerting we ses

Ýörelgeler:
  • Alert only on symptoms: SLO ýa-da ulanyjy ýoly bozuldy.
  • Multi-window, multi-burn: çalt we haýal kanallar.
  • Quorum/anti-flapping: 'for' gijikdirmeleri, maintenance basyşy.
  • "CPU> 80%" -den çykyň - şeýle signallar dashbordlara, пейjere däl.
Alertleriň KPI hili:
  • Actionable paýy ≥ 80%.
  • Median time-to-ack ≤ 5 minut (P1 boýunça).
  • "Pager fatigue" -iň peselmegi: inerener üçin hepdede 1 gijeki page ≤.

5) Üýtgetmeleri dolandyrmak

Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO signallary boýunça awto-rollback (ýalňyşlyklar/gizlinlik).
Global yzyna gaýtarmagyň ýerine feature-flags we kill-switch.
Change policy by risk: fast lane для low-risk; CAB - diňe ýokary töwekgelçilikli.

Kanar ädiminiň şablony (ideologiki):
yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6) toil-iň azalmagy (adaty el zähmeti)

Toil çeşmeleriniň mysallary: el bilen deploiler, täzeden başlamalar, "giriş" biletleri, nobatlary arassalamak.

Çemeleşme:
  • Gaýtalanýan meseleleriň sanawy → awtomatlaşdyryş/öz-özüne hyzmat etmek.
  • KPI: toil üçin% wagt, "awtomatlaşdyrylan ädimler/waka", "self-service çenli minut".
  • Platforma hyzmatlarynyň katalogy (namespaces, DB, nobatlar, daşbordlar, alertler).

7) Synlamak we SLO-ilkinji dizaýn

Golden Signals (latency, traffic, errors, saturation).
SLO-kartoçkalar her toparda: maksat, penjire, býudjet, burn-alertler.
Drilldown: metriklerden loglere/tracklere; 'trace _ id' -de.
Sintetika: blackbox + headless scripts (login/deposit/checkout).

8) Kuwwatlyklary dolandyrmak we durnuklylyk

Capacity planning: maksatly RPS/bäsdeşlik, AZ/sebit boýunça ätiýaçlyk gory.
Bulkhead/shedding: howuzlaryň izolýasiýasy, ikinji derejeli funksiýalaryň şowsuzlygy.
Backpressure we nobatlar: lag-control, DLQ, uýgunlaşýan bäsdeşlik.
Failover we DR: RPO/RTO, yzygiderli DR-drill.

9) Howpsuzlyk ygtybarlylygyň bir bölegi hökmünde

Secrets: gizlin dolandyryjy, JIT elýeterliligi, audit.
WAF/DDoS-guard perimetrde, müşderi/tenant üçin çäklendirmeler.
PII-minimalizasiýa, DSAR/Legal Hold hadysalarda.
Supply chain security: artefaktlaryň goly, esasy şekilleriň syýasaty.

10) On-kollanyň saglygy

"Ýalňyz" aýlanmalar, açyk dynç alyş penjireleri.
"Gijelerine oýanmak" bosagasy diňe SLO arkaly P1/P2.
Psihogigiena: ukynyň ýetmezçiligi operasiýa töwekgelçiligi hökmünde kesgitlenýär.
Metrikler: page/ned, gijeki page/inerener, dikeldiş wagty.

11) SRE kämillik ölçegleri

SLO coverage: SLO/alertler bilen möhüm ýollaryň paýy ≥ 90%.
Error-budget governance: freeze-düzgünleri bar we ulanylýar.
Toil: ≤ 30-40% wagt, peselmek tendensiýasy.
MTTD/MTTR: çärýekleýin dinamikada araçylar.
Awto-mitigation rate:% awtomatiki hereket hadysalary.
PRR pass-rate: önümçilik taýýarlygyndan geçen goýberilişleriň paýy.
Postmortem SLA: SEV-1 - postmortem ≤ 48 sagat.

12) Resminamalar we bilimler

Iň az toplumy:
  • Runbooks/playbook (iň ýokary ssenariler: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
  • SLO-kartoçkalar we daşbordlar.
  • PRR-çek-listleri we goýberiş şablonlary.
  • Platforma we OLAs/SLAs hyzmatlarynyň katalogy.
  • Okuw materiallary: SRE 101, Chaos 101, On-call 101.

13) Anti-patternler

Hero-culture: ulgamlaýyn fiksleriň ýerine "halas edijiler".
Şowhunly alerting: CPU/CD-ler, ýüzlerçe gereksiz signal.
"DevOps - adam": bulaşyk jogapkärçilik, eýeleri ýok.
SLO ýoklugy: "hemme zady ýaşyl saklaýarys" → ileri tutulýan bulam-bujarlyk.
Yza süýşürilen postmortemalar we "jadygöý awy".
Kanareýalarsyz global yza gaýdyp gelmek.
Konfigadaky/repodaky syrlar; hereketleriň barlagy ýok.
Observability actionable signallarsyz "owadan grafikler" hökmünde.

14) Artefaktlaryň şablonlary

14. 1 SRE Hartiýasy (bölek)

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14. 2 Mini-PRR çek sanawy

  • SLI/SLO we burn-alertler sazlandy
  • Saglyk-endpointler we sintetika
  • Runbook/playbook + eýesi/on-call
  • Rollback/Ficha-baýdaklar/Kanarya
  • Daşbordlar latency/errors/traffic/saturation
  • Howpsuzlyk çäkleri/kwotalary/guardrails
  • DR-meýilnama we bellikler synagdan geçirildi

15) Tapgyrlar boýunça ornaşdyrmak (4 sprint)

Sprint 1 - Binýat

Möhüm ulanyjy ýollaryny we SLI-leri kesgitlemek.
SLO düzüň we burn-alertleri işe giriziň.
PRR we iň az pleýbuklary giriziň.

Sprint 2 - Üýtgeşmeleri dolandyrmak

SLO boýunça awto-rollback.
Self-service amallary, hyzmatlaryň katalogy.
Toil inwentarizasiýasy we awtomatlaşdyryş meýilnamasy.

Sprint 3 - Okuw siklleri

Postmortem-däp, bulam-bujarlyk oýunlarynyň senenamasy.
Daşbordlar SLO + hadysalar, hasabat error-budget.

Sprint 4 - Optimizasiýa we masştab

SLO portfeli, FinOps "cost per 9".
DR-düzgün-nyzamyň girizilmegi, howpsuzlyk barlagy.
KPI on-cola, ýadawlygyň öňüni almak.

16) Mini-FAQ

SRE = "Hemme zady düzetmek"?
Ýok. SRE ygtybarlylyk ulgamyny dolandyrýar: SLO, alerting, prosesler, awtomatlaşdyryş we okuw.

Işewürligi ygtybarlylyga maýa goýmaga nädip ynandyrmaly?
ROI görkeziň: MTTR-iň azalmagy, konwersiýanyň ösüşi, SLA-nyň az karzy, cost-to-serve-den pes, durnukly goýberişler.

Aýratyn SRE buýruklary gerekmi?
Gibrid model: platformada strategiki SRE + möhüm önümlerde embedded-SRE.

Jemi

SRE medeniýeti wezipe däl, töwekgelçilik bilen işlemegiň usulydyr: SLO → ýalňyşlyklaryň býudjeti → dolandyrylýan üýtgeşmeler → awtomatlaşdyryş → okuw. Ýörelgeleri düzüň, däp-dessurlary (PRR, post-mortemalar, bulam-bujarlyk oýunlary) dörediň, toil-i surata düşüriň, "standart" synlamagy guruň we on-call-a üns beriň. Şeýlelik bilen, durnukly ösüş tizligini, öňünden aýdyp boljak neşirleri we ygtybarly, tygşytly platformany alarsyňyz.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.