Операциялық қабаттың архитектурасы
1) Операциялық қабаттың міндеті
Операциялық қабат - бұл болжамды пайдалануды қамтамасыз ететін платформа және тәжірибелер жиынтығы: жылдам релиздер, төмен MTTR, комплаенс және басқарылатын құн. Ол өнімдер мен инфрақұрылым үшін сүйеніштер жасайды: стандарттар, автоматтандыру, бақылау, өзгерістерді басқару және қауіпсіз кіру.
2) Логикалық модель (жазықтықтар мен домендер)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
Негізгі домендер:
- Сервис-каталог/CMDB: сервистердің, иелерінің, SLO, тәуелділіктердің бірыңғай тізілімі.
- Оркестрлеу: пайплайндар, міндеттер, крондар, бэкаптар, DR.
- Саясат (Policy-as-Code): алерта, қатынас, retentions, change-gates.
- Бақылау қабілеті: метрика/трейс/логи, SLI/SLO, алерта және статус-бет.
- Рұқсаттар/құпиялар: JIT/JEA, токендер, крипто, KMS/Vault.
- Инциденттер/өзгерістер: ITSM/тикеттер, CAB/RFC, пост-мортемалар, симуляциялар.
- DataOps: деректер, жаңалық, lineage, сапа келісімшарттары.
- FinOps: шығындарды есепке алу, лимиттер, квоталар, оңтайландыру.
3) Референс-ағындар
3. 1 Релизі (CI/CD → GitOps)
1. Коды/манифесті бар PR → тестілер/сканерлер → артефактілердің қолы.
2. SLO-гардрейлі прогрессивті деплой (канарейка/blue-green).
3. Деградация кезіндегі авто-роллбек; телеметриядағы релиздің аннотациясы.
3. 2 Оқиға (Detect → Respond → Recover)
1. Burn-rate/симптомдары + кворум → Page + war-room.
2. Трассалар/дәліздер бойынша диагностика; ойнатқыштар.
3. Шегініс/фолбэк/лимиттер → AAR/RCA → CAPA.
3. 3 Өзгерту (RFC/CAB)
1. Тәуекелді талдау + қызмет көрсету терезесі + backout-жоспар.
2. Сындарлы емес алгоритмдердің Suppression, SLO-сигналдар белсенді.
3. Evidence және есеп, саясатты қайта қарау.
4) Сервис-каталог және CMDB
Төлсипаттары: иесі, SLI/SLO, тәуелділік (ішкі/сыртқы), дашбордтар, алерттар, runbook 'i, деректер кластары (PII/қаржы), аймақтар (prod/stage/dev).
Авто-толтыру: CI/CD, телеметрия және репозиторийлерден.
Пайдалану: ересектерді бағыттау, эскалация, blast radius есебі, жетілу бойынша есептілік.
5) Саясат код ретінде (Policy-as-Code)
Санаттар: қолжетімділік (RBAC/ABAC), қауіпсіздік (SAST/SCA/DAST), алерталар/SLO, ретенциялар, change-gates, ресурстар/квоталар.
Механика: декларативтік ережелер (YAML/Rego/CEL), CI валидациясы, Control Plane мәжбүрлеп орындату.
Мысал: «егер барлық SLO жасыл болса, белсенді SEV-1 болмаса, тестілеуден өткен болса, қолтаңбалар дұрыс болса, депломен рұқсат етіледі».
6) Оркестрлеу және орындау
CI/CD: build → scan → sign → promote.
Jobs/CronJobs/DAG: бэкаптар/ротациялар/бэкфилдер; мерзімдік және бәсекелестік (Forbid/Replace).
Өтімділік және қайту: check-then-act, қадам маркерлері, circuit-breaker.
Іске қосу құқықтары: JIT есептер, шектеулі scope; аудит.
7) Бақылануы және сигналдардың сапасы
Домендер бойынша SLI/SLO: бизнес-операциялардың қолжетімділігі/жасырындылығы/табысы, деректердің жаңаруы.
Алерттар: екі терезеде burn-rate, кворум, дедуп/rate-limit, runbook және иесі.
Логи/метрика/трейс trace_id байланысты; графиктерден логтарға арналар.
Мәртебе-бет: үлгілер, жаңартулар жиілігі, жарияланымдар аудиті.
8) Қолжетімділік, құпиялар, крипто
Құпиялар қоймасы (KMS/Vault), ротация, репо құпияларына тыйым салу.
JIT/JEA: операция/ауысым уақытына құқық беру.
сервистер арасында mTLS/OIDC; сурет/SBOM қолтаңбасы.
Аудит: өзгермейтін журналдар, сындарлы әрекеттерге арналған WORM.
9) Тосын оқиғалар, өзгерістер, қызмет көрсету терезелері
Инциденттер: SEV матрицасы, IC/TL/Comms/Scribe, жаңартылған үлгілер, AAR → RCA → CAPA.
Өзгерістер: RFC/CAB, тәуекел бағалау, канарейка, backout.
Қызмет көрсету терезелері: уақытты таңдау, коммуникация, suppression ережелер, evidence.
10) Операциялық қабаттағы DataOps
Деректер келісімшарттары (сұлбалар, жаңалық/толымдылық SLA).
Әрбір қабаттағы DQ-тестілер (Bronze/Silver/Gold).
Lineage және каталогтар; некеге тұру үшін карантин.
Жас/дрейф бойынша SLO деректер мен алерталар.
11) FinOps және құны
Unit-экономика: $/1k сұраулар, $/сәтті транзакция, $/GiB логтар, $/SLO-тармақ.
Квоталар/лимиттер: egress, лог-көлемдер, міндеттердің ұзақтығы.
Оңтайландыру: партия/кэш/материалдандыру/мұрағаттар (hot-warm-cold).
Есептер: арзан «қымбат» сервистер/сұрау салулар, артық шығынға арналған тәуекелдер.
12) Интерфейстер: ChatOps/Portals/API
Платформа порталы: сервистер каталогы, «деплой/кері қайту» түймелері, SLO мәртебесі, терезе слоттары, саясат.
ChatOps: `/deploy`, `/handover start`, `/mw create`, `/status update` — с аудитом и evidence.
API: ITSM/HR/биллинг/провайдерлермен интеграциялау үшін.
13) Жауапкершілік моделі (RACI)
Platform/SRE: бақылау жазықтығы, саясат, бақылау, ротация.
Product/Dev: SLO сервистері, релиздер, плейбуктер.
Security: құпиялар, осалдықтар, IR.
Data/Analytics: DataOps, жаңалық/сапа SLA.
Compliance/Legal: реттеуіш, evidence сақтау.
Support/Comms: мәртебе-бет, клиенттік хабарлар.
14) Операциялық қабаттың жетілу өлшемдері
SLO coverage: белгілі бір SLI/SLO және burn-rate бар сервистер%.
Alert hygiene: actionable ≥80%, FP ≤5%, alerts/on-call-hour (p95).
DORA: деплоялардың жиілігі, lead time, MTTR, change-failure-rate.
Change governance: RFC өзгерістері%, «on-time» терезелері%, қайтарулар%.
Security: құпияларды/сертификаттарды ротациялаудың орташа уақыты, осалдықтарды жабу.
FinOps: $/бірлік және% QoQ үнемдеу.
Docs: runbook/SOP жабу, жаңалық (90 күнге ≤).
15) «Ең аз өміршең операциялық қабат (MVP)» чек-парағы
- Иелері, SLO, тәуелділіктері және дашбордтары бар сервис-каталог/CMDB.
- CI/CD + GitOps, артефактілердің қолы, прогрессивті релиздер, авто-кері қайту.
- trace_id және SLO-алерті бар біріктірілген телеметрия (екі терезе, кворум).
- Policy-as-Code: қатынас, алерта, ретенция, change-gates.
- Құпия қоймасы, JIT/JEA, mTLS/SSO, өзгермейтін аудит.
- ITSM/оқиғалар: SEV матрицасы, ойнатқыштар, статус-бет, жаңартылған үлгілер.
- Қызмет көрсету терезелері: күнтізбе, RFC үлгілері, backout жоспарлары, evidence.
- FinOps: шығындардың көрінуі, квоталар/лимиттер, есептер.
- Құжаттама (Docs-as-Code), SOP/Runbook үлгілері, өнімге дайындықты тексеру парағы.
16) Қарсы үлгілер
Бақылау жазықтығы мен саясаты жоқ «Платформа = скрипттер жиыны».
Мониторинг «барлық» → алерт көшкіні, alert fatigue.
GitOps/аудитсіз қолмен жасалған прод-өзгерістер.
Сақтау орны мен ротациясы жоқ ауыспалы ортадағы құпиялар.
SLO болмауы: сапа мақсаттары туралы емес, сезімдер туралы даулаймыз.
Иелерінің бөлек каталогтары/кестелері → жоғалған эскалациялар.
High-risk өзгерістерінің backout-жоспары жоқ.
Құрылымы/корреляциясы жоқ логтар → ұзақ тергеу.
17) Шағын үлгілер
17. 1 Сервис карточкасы (каталог)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. 2 Алерт саясаты (идея)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 Gate деплой (жалған)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) Енгізудің жол картасы (8-12 апта)
1. Нед. 1-2: сервистерді түгендеу → каталог/CMDB; базалық SLI/SLO және дашбордтар.
2. Нед. 3-4: GitOps + прогрессивті релиздер; Policy-as-Code (аллергия/ретенция).
3. Нед. 5-6: бірыңғай телеметрия және мәртебе-бет; кворуммен burn-rate; runbook жабуы.
4. Нед. 7-8: құпиялар/JIT, өзгермейтін аудит; RFC/қызмет көрсету терезелері.
5. Нед. 9-10: FinOps есептілігі, квоталар/лимиттер; логтар мен сақтауды оңтайландыру.
6. Нед. 11-12: инциденттерді симуляциялау/DR; жетілу метрикасы; үздіксіз жақсарту жоспары.
19) Қорытынды
Операциялық қабаттың архитектурасы - бұл бақылау жазықтығы плюс пайдалануды қайталанатын, өлшенетін және қауіпсіз процеске айналдыратын стандартталған практикалар. Сервис-каталог, GitOps, телеметрия, саясат, қауіпсіз қолжетімділік және басқарылатын өзгерістер тұрақты релиздер береді, тез қалпына келтіру және мөлдір құн, яғни бизнес үшін операциялық болжамдылық.