SRE мәдениет және инженерлік қағидаттар
1) SRE мәдениеті дегеніміз не?
SRE мәдениеті - бұл басқарылатын сенімділікті жасайтын құндылықтар мен тәжірибелердің жиынтығы: SLO-мақсаттар → қате-бюджет → өзгерістердің саналы тәуекелдері → жылдам тұрақтандыру → оқыс оқиғаларды оқыту.
Негізгі парадигма: жылдамдық ≠ сенімділік жауы. Тәуекелдер мөлшерлеп, автоматтандырылған кезде релиздердің жылдамдығы болуы мүмкін.
- User-centric: сенімділікті пайдаланушы (SLI/SLO) көргендей белгілейміз.
- Automation-first: кез келген қайталанатын әрекет → скрипт/саясат/контроллер.
- Blamelessness: қателер - жүйелі, адамдарды емес, себептерін зерттейміз.
- Data-driven: өлшемдер мен қателер бюджеттеріне негізделген шешімдер.
- Simplicity: қарапайым, тексерілетін механизмдер> «сиқырлы» шешімдер.
2) SRE негізгі инженерлік қағидаттары
1. SLO/SLI және қателер бюджеті - басымдықтар мен алертингтің негізі.
2. Инцидент → тұрақтандыру → RCA - алдымен симптомдар, содан кейін себептер.
3. Қол еңбегін азайту (toil) - SRE уақытының 50% -ын ≤ мақсаты, уақыт өте келе төмендеу.
4. Өнiм дайындығы - «production readiness» сыртқы трафикке дейiн мiндеттi.
5. Қарапайымдылық және оқшаулау - өзара байланысы аз, blast radius шектеулері көп.
6. Әдепкі бақылау - метрика/логи/трасса, SLO-виджеттер, синтетика.
7. Өзгерістер басқарылады - progressive delivery, канареялық есептеулер, auto-rollback.
8. Security by design - құпиялар, қолжетімділіктер, аудит, ең аз артықшылықтар.
9. Оқу циклдері - діріл, хаос ойындары, постмортемалар, ретроспективалар.
10. ФинОпс-саналылық - «тоғыздардың бағасы», cost-to-serve, тиімді SLO.
3) Рәсімдер мен процестер
3. 1 Production Readiness Review (PRR)
Трафикті қосқанға дейін сервисте:- SLI/SLO, дашборд және алерта (fast/slow burn).
- Health-эндпоинттер '/healthz ', '/readyz', '/startupz '.
- Runbook/playbook инциденттер, owner/on-call, escalation chain.
- Backups/DR-жоспар, ресурстар лимиттері, бюджеттік есептеулер.
- Істен шығуға төзімділік тестілері (фича-жалаулар, rollback сценарийлер).
3. 2 Апта сайынғы SLO-брифинг
Сервистер бойынша error-budget мәртебесі.
Бір аптадағы оқыс оқиғалар, CAPA-прогресс.
Релиздік тәуекел: депломен рұқсат етілген/шектелген (бюджет бойынша).
3. 3 Айыптаусыз постмортем
Фактілер және таймлайн, пайдаланушы әсері, не көмектесті/кедергі келтірді.
Жүйелік себептер (процестер/құралдар), «кінәлі» емес.
Иелері және мерзімі бар нақты CAPA, компания ішінде жариялылық.
3. 4 Хаос және қақтығыс ойындары
Жоспарлы іркілістерді инъекциялау (желі, ДБ, кэш, тар) + нысаналы SLO.
«Game day»: тұрақтандыру уақыты, MTTR өлшеу, плейбуктерді түзету.
4) Алертинг және шу
Принциптері:- Alert only on symptoms: SLO немесе пайдаланушы жолы бұзылған.
- Multi-window, multi-burn: жылдам және баяу арналар.
- Quorum/анти-флаппинг: 'for' кідірістері, maintenance кезінде басу.
- «CPU> 80%» - мұндай дабылдар пейджерге емес, дэшбордқа.
- actionable үлесі ≥ 80%.
- Median time-to-ack ≤ 5 минут (P1 бойынша).
- «Pager fatigue» төмендеуі: инженерге аптасына 1 түнгі пейдж ≤.
5) Өзгерістерді басқару
Progressive delivery: canary → 10% → 25% → 50% → 100%.
SLO-сигналдары бойынша Auto-rollback (қателер/жасырындылық).
Жаһандық кері қайтарудың орнына feature-flags және kill-switch.
Change policy by risk: fast lane для low-risk; CAB - тек high-risk.
yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }
6) toil (күнделікті қол еңбегін) төмендету
toil дереккөздерінің мысалдары: қол деплойлары, қайта іске қосулар, «рұқсат беру» тикеттері, кезектерді тазалау.
Тәсіл:- Қайталанатын міндеттерді түгендеу → автоматтандыру/өзіндік қызмет көрсету.
- KPI:% toil, «автоматтандырылған қадамдар/инцидент», «self-service минутына дейін».
- Платформа қызметтерінің каталогы (namespaces, БД, кезектер, дашбордтар, алерта).
7) Бақылау және SLO-бірінші дизайн
Golden Signals (latency, traffic, errors, saturation).
Әр командадағы SLO-карточкалар: мақсат, терезе, бюджет, burn-алерта.
Drilldown: метрикадан логиге/трассаға; 'trace _ id' әдепкі логдарда.
Синтетика: blackbox + headless сценарийлер (login/deposit/checkout).
8) Қуаттарды басқару және орнықтылық
Capacity planning: мақсатты RPS/бәсекелестік, AZ/өңір бойынша қор.
Bulkhead/шеддинг: пулдарды оқшаулау, бірінші кезекте қосалқы функциялардың істен шығуы.
Backpressure және кезектер: лаг-бақылау, DLQ, бейімделетін бәсекелестік.
Failover және DR: RPO/RTO, тұрақты DR-бұрғылау.
9) Қауіпсіздік сенімділіктің бір бөлігі ретінде
Secrets: құпия менеджері, JIT-қатынас, аудит.
WAF/DDoS-guard периметрде, клиенттің/тенанттың лимиттері.
PII-минимизация, инциденттерде DSAR/Legal Hold.
Supply chain security: артефактілердің қолтаңбасы, негізгі бейнелер саясаты.
10) Он-колла денсаулығы
«Жалғыз адамдарсыз» ротациялар, демалыстың анық терезелері.
«Түнде ояту» табалдырығы - тек SLO бойынша P1/P2.
Психогигиена: ұйқының жетіспеушілігі операциялық қауіп ретінде белгіленеді.
Метриктер: пейджи/апта, түнгі пейджи/инженер, қалпына келтіру уақыты.
11) SRE жетілу өлшемдері
SLO coverage: SLO/алерті бар сындарлы жолдардың үлесі ≥ 90%.
Error-budget governance: freeze-ережелер бар және қолданылады.
Toil: ≤ 30-40% уақыт, төмендеу үрдісі.
MTTD/MTTR: тоқсандық динамикадағы медиандар.
Auto-mitigation rate:% автоматты әрекет ететін оқыс оқиғалар.
PRR pass-rate: прод-әзірліктен өткен релиздердің үлесі.
Postmortem SLA: SEV-1 - постмортем ≤ 48 сағат.
12) Құжаттама және білім
Ең кіші жиынтық:- Runbooks/playbook (топ-сценарийлер: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
- SLO-карточкалар мен дашбордтар.
- PRR-чек парақтары және релиздер үлгілері.
- Платформа және OLAs/SLAs қызметтерінің каталогы.
- Оқу материалдары: SRE 101, Chaos 101, On-call 101.
13) Қарсы үлгілер
Hero-culture: жүйелік фикстердің орнына «құтқарушылар».
Шулы алертинг: пейджерге CPU/дискілер, жүздеген қажетсіз сигналдар.
«DevOps - адам»: жауапкершілік, иелері жоқ.
SLO-ның жоқтығы: «бәрін жасылдандырамыз» → басымдық хаос.
Кейінге қалдырылған постмортемалар және «сиқырларды аулау».
Канареяларсыз жаһандық қайту.
Конфигадағы/реподағы құпиялар; әрекет аудиті жоқ.
Observability actionable-сигналдары жоқ «әдемі графика» ретінде.
14) Артефактілердің үлгілері
14. 1 SRE-Хартиясы (фрагмент)
yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]
14. 2 Шағын PRR чек парағы
- SLI/SLO және burn-алерттер теңшелген
- Health-эндпоинттер және синтетика
- Runbook/playbook + иесі/on-call
- Роллбэк/фича-жалаулар/канарейка
- Дашбордтар latency/errors/traffic/saturation
- Қауіпсіздік лимиттері/квоталары/guardrails
- DR-жоспар және бекаптар сынақтан өткізілді
15) Кезеңдер бойынша енгізу (4 спринт)
Спринт 1 - Іргетас
Сындарлы пайдаланушы жолдарын және SLI-ді анықтау.
SLO тұжырымдау және burn-алертін іске қосу.
PRR және ең аз плейбуктерді енгізу.
Спринт 2 - Өзгерістерді басқару
Канареялық орналасулар, SLO бойынша auto-rollback.
Self-service операциялары, қызметтер каталогы.
toil түгендеу және автоматтандыру жоспары.
Спринт 3 - Оқу циклдері
Постмортем-салт, хаос ойындарының күнтізбесі.
Дашбордтар SLO + инциденттер, есептілік error-budget.
Спринт 4 - Оңтайландыру және масштаб
SLO, FinOps «cost per 9» портфелі.
DR-пәнді енгізу, қауіпсіздік аудиті.
KPI он-колла, жанудың алдын алу.
16) Шағын FAQ
SRE = «бәрін жөндеу»?
Жоқ. SRE сенімділік жүйесін басқарады: SLO, алертинг, процестер, автоматтандыру және оқыту.
Бизнесті сенімділікке инвестициялауға қалай көндіру керек?
ROI көрсетіңіз: MTTR төмендеуі, конверсия өсімі, SLA бойынша кредиттер аз, cost-to-serve төмен, тұрақты релиздер.
Жеке SRE пәрмендері қажет пе?
Гибридтік модель: платформадағы стратегиялық SRE + сыни өнімдердегі embedded-SRE.
Жиынтығы
SRE мәдениеті - бұл лауазым емес, тәуекелмен жұмыс істеудің тәсілі: SLO → қателер бюджеті → басқарылатын өзгерістер → автоматтандыру → оқыту. Принциптерді белгілеңіз, ритуалдар (PRR, постмортемалар, хаос ойындары) жасаңыз, toil түсіріңіз, «әдепкі» бақылау жасаңыз және он-колл сақтаңыз. Осылайша сіз тұрақты даму жылдамдығын, болжамды шығарылымдарды және сенімді, үнемді платформаны аласыз.