Орталық басқару дашборды
1) Мақсаты және қағидаттары
Орталық басқару дашборды (бұдан әрі - ОДБ) - операцияларда шешім қабылдау үшін бірыңғай терезе. Ол телеметриядан, ITSM, CI/CD, сервистер каталогынан, жұмыс күнтізбесінен және провайдерлерден сигналдарды біріктіріп, оларды қолданыстағы (actionable) виджеттерге айналдырады.
Принциптері:- SLO-first: жоғарыда - Tier-0/1 бойынша мақсатты SLO және burn-rate.
- One-click to action: виджеттен - playbook/runbook немесе тикетке.
- Бірыңғай сөздік: бірдей SEV, мәртебелер, түстер және табалдырықтар.
- Оқиғалар аңдатпалары: барлық графиктердегі релиздер/конфигалар/терезелер.
- Рөлдер мен рұқсаттар: жеке көріністер (on-call, IC, менеджмент).
- Төмен шу: көздердің кворумы, терезелер бойынша дедупликация және басу.
2) Рөлдер және негізгі сценарийлер
On-call (P1/P2): «не жанып жатқанын» тез түсіну және ойнатқышты ашу (≤ 1 шерту).
IC: SEV жариялау, war-room режимін іске қосу, comm-apdate cadence бақылау.
Release Manager: гейтс, канарейка прогресін, кері шегіну дайындығын көру.
Service Owner/Product: бизнес-SLI (төлемдердің/тіркеулердің табысы), фич әсері.
SRE/Platform: сыйымдылық, автоскейл, аномалиялар, DR-дайындық.
FinOps: $/бірлік, артық шығындар, бюджеттік тәуекелдер.
Security/Legal: posture, кілт сертификаттар, айналым терезелері, WORM-аудит сілтемелері.
3) ОДБ ақпараттық сәулеті
Жоғарғы сөре (hero панелі):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV-мәртебесі: белсенді оқиғалар және олардың таймлайн.
- Релиздер мәртебесі: канарейка/blue-green, белсенді гейттер.
- Провайдерлердің «Traffic lights» (PSP/KYC/CDN).
- Қызмет көрсету терезелері (қазір/24 сағат), suppression-карта.
- Сыйымдылығы: болжаммен CPU/RAM/IO/queue-depth/p95 latency.
- FinOps: $/1k txn, күндізгі спенд vs бюджет, көлем ауытқулары.
- DataOps: витриналардың жаңаруы, SLA пайплайндар, DQ қателері.
- Security: сертификаттар мерзімі, құпияларды ауыстыру, сыни осалдықтар (age/SLA).
- «SLO релизі», «провайдер, бас тарту/жасырындылық» корреляциялары.
- Жылдам сілтемелер: логтар, трейдерлер, тикеттер, плейбуктер, SOP, эскалация матрицасы.
4) Виджеттер (референс-жиынтық)
1. SLO & Burn-rate
Ағымдағы SLI, бюджеттің мақсаты мен шығысын (1 сағат/6 сағат) көрсетеді.
Әрекет: сервистің тозу ойнатқышын ашу.
2. Инциденттер (SEV панелі)
Белсенді/соңғы, Declare/Comms таймерлері, IC/Comms рөлдері.
Әрекет: war-room, апдейт үлгісін, IC чек парағын ашу.
3. Релиздер/Конфиги
Канарейка 1 → 5 → 25%, жалаулар, кері қайту (SOP түймешігі/сілтемесі).
Аңдатпалар: нұсқа, коммиттер, автор.
4. Қызмет көрсету терезелері
Ағымдағы/алдағы, impacted-сервистер/өңірлер; suppression-маска.
Әрекет: хабарламаларды келісу, SLO күзетшілерін қосу.
5. Сыйымдылық/Автоскейл
Тұтыну болжамы (Naive/AR), hotspot-карта, warm-pool.
Әрекет: квота/скейл-ережелерді сұрату (PR repo-саясатта).
6. FinOps
$/бірлік, топ «қымбат» сұраулар/логтар, daily burn vs budget.
Әрекет: есеп пен ұсынымды ашу (логтардың семплингі, мұрағаттар).
7. Провайдерлер
SLA/PSP/KYC/CDN мәртебесі, бағыттар салмағы, фолбэк дайындығы.
Әрекет: Салмақты, коммуникация үлгісін серіктестерге ауыстыру.
8. Security
Сертификаттар (30д ≤), мерзімін өткізіп алған ротациялар, осалдықтар (age), күдікті оқиғалар.
Әрекет: IR-плейбук/тикет ашу.
9. DataOps
Витриналардың жаңаруы, өткізу пайызы, пайплайн істен шығуы, DLQ.
Әрекет: бэкфилл/карантин/rollback трансформациясы.
5) Жай-күйлер/түстер/табалдырықтар (эталон)
Green: SLI мақсат шегінде, burn-rate <1 ×.
Amber: SLI деградацияланады, burn-rate 1-2 ×, өсуі p95, бірақ workaround бар.
Red: breach немесе болжамды burn-out <1 сағ; SEV-1/0 ашу.
Grey: suppression (терезе), телеметрия жоқ (көз қатесі).
6) Аннотациялар мен корреляциялар
Релиз/ /терезе/провайдерлік мәртебелер SLO-бағандарда көрсетіледі.
Маркер бойынша басу → diff, автор, гейтс, «Кері/Фолбэк/SOP» түймешігі.
Оқиғада таймлайн ChatOps аңдатпалары мен әрекеттерінен құрылады.
7) Деректер көздері және верификация
Телеметрия: метрика/трейс/логи с trace_id.
ITSM: оқиғалар/проблемалар/өзгерістер (мәртебелер/SLA).
CI/CD: релиздер, қолтаңбалар, артефактілер, тестілер.
Сервистер каталогы/CMDB: иелері, SLO, тәуелділіктер.
Күнтізбе: қызмет көрсету терезелері.
Провайдерлер: статус-API + қолмен растау (жеке витринаға қону).
FinOps: ресурстардың биллингі/тегтері, лог-көлемдер, egress.
Сапаны бақылау: кворум, қайталанатын зонд, жас SLA, «мылқау» көздерге арналған алерталар.
8) Көрсету режимдері
War-room: SLO/Incidents/Releases/Comms-таймер.
Executive (28 күн): MTTR/MTTD/SEV mix, $/бірлік, SLO-адгеренс трендтері.
On-call: ықшам «түнгі» панель (қараңғы режим, ірі сандар).
Мультитенант/аймақ: service/region/tenant сүзгілері; пресеттер.
9) Навигация және әрекеттер (one-click)
'/declare sev1 ', '/freeze', '/rollback ', '/status update', «ойнатқышты ашу» түймешіктері.
Дрилл-, : SLO → график → алдын ала толтырылған сүзгілермен логи/трейстер ( , .
Шэринг: панельдерді тикетке/мәртебе бетіне түсіру.
10) Қауіпсіздік, қолжетімділік, аудит
SSO/OIDC + RBAC/ABAC: рөлдер мен сатып алулар (view/action).
JIT/JEA: «қауіпті» әрекет уақытша жоғарылатумен ғана қол жетімді.
Аудит өзгермейді: кім не басқанын, қандай сұраулар/командалар кетті.
Құпиялар: көрсетілмейді, тек құпия менеджерге сілтемелер.
11) ОДҚ жетілу өлшемдері
Actionability ≥ 90%: тек кестелерге емес, әрекеттерге апарады.
Time-to-First-Action ≤ SEV-1/0 кезінде ОДБ-дан 2 мин.
ОДБ «шындық көзі» болған оқиғалардың үлесі 95% ≥.
Freshness виджеттер:% «жаңа 5 мин» деректерімен.
Coverage: SLO-карточкалары мен аннотациялары бар сындарлы сервистер%.
Zero-blind-spots: бір аптада «мылқау» көздер = 0.
12) Чек парақтары
Жобалау
- Рөлдер мен сценарийлер сипатталған (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Түстер сөздігі/SEV/шектері келісілген.
- Кворум және SLA жаңалық деректер көздері.
- War-room/On-call/Executive орналасуы.
- ChatOps/ITSM/CI/CD/CMDB интеграциялық жоспары.
Пайдалану
- Виджеттер линтерден өтеді (міндетті өрістер, owner, табалдырықтар).
- Аптасына бір рет - ЦДУ жақсартуларымен Escalation/Alert Review.
- Инциденттердің снапшоттары AAR/RCA-ға тіркеледі.
- Қараңғы режим/кезекшілікке арналған мобильді пресет.
- Дереккөздердің «үнсіздігіне» және аңдатпалардың дұрыстығына арналған тестілер.
13) Үлгілер (идеялар)
13. 1 Виджеттің анықтамасы (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Оқыс оқиғалар карточкасы (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Релизмен байланыс
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 FinOps виджеті
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Қарсы үлгілер
«Графиктер қабырғасы» әрекетсіз және плейбуксыз.
Командалар бойынша түрлі түстер/табалдырықтар → SEV-дегі шатасу.
Релиздердің/терезелердің аңдатпалары жоқ - себептердің күрделі корреляциясы.
Кворумсыз қайталанатын көздер - жалған Page/шу.
Панельдегі құпиялар/кілттер - ағып кету қаупі.
Баяу рендер (сұраулар/агрегациялар кешіктірілмеген) - панельдер ұрыста ашылмайды.
15) Енгізудің жол картасы (4-8 апта)
1. Нед. 1: рөлдер бойынша талаптарды жинау, мәртебелер/түстер сөздігі, үш режимнің макеттері.
2. Нед. 2: SLO/Incidents/Releases/Windows қосылымы, аңдатпалар, ChatOps әрекеттері.
3. Нед. 3: FinOps/Capacity/Providers/DataOps/Security қосу, көздердің кворумы.
4. Нед. 4: War-room режимі, ITSM-де снэпшоттар, Tier-0-да ұшқыш.
5. Нед. 5-6: өнімділікті оңтайландыру, мобильді/on-call пресет, виджеттер линтері.
6. Нед. 7-8: жетілу метрикасы, апта сайынғы шолу, автоматты ұсынымдар (логтардың семплингі, квоталар, фолбэк).
16) Жиынтық
ЦДУ - бұл «әдемі графиктер» емес, шешімдер панелі: SLO және burn-rate жоғарыдан, инциденттер/релиздер/терезелер бір контексте, ChatOps және SOP арқылы жедел әрекеттер, расталған көздер мен аңдатпалар. Мұндай дашборд MTTA/MTTR төмендетеді, коммуникацияны жеңілдетеді, FinOps-ты қолдайды және пайдалануды мөлдір және болжамды етеді.