Операциялық дашборд
(Бөлім: Операциялар және Басқару)
1) Мақсаты және қағидаттары
Операциялық дашборд - бұл платформаның денсаулығын мониторингілеу және іс-қимыл қабылдау үшін «бір терезе». Ол пайдаланушының рөлі контексінде (SRE, Product, Қаржы, Compliance, Support, Серіктестер) көрсеткіштерді, оқиғаларды, алерттерді және бизнес-көрсеткіштерді біріктіреді.
Принциптері:- Actionable by design: әрбір виджетте әрекет түймешігі (rollback, pauze, re-run, re-route) бар.
- Role-aware: құқықтар мен нақтылау деңгейлері/тенанттың/өңірдің рөліне байланысты.
- Source-of-truth: цифрлар биллингпен/журналдармен/түбіртектермен үйлеседі.
- Near-real-time + тарихи: оқиғалар үшін секундтар/минуттар, трендтер үшін айлар/жылдар.
- Explainability: Кез келген агрегат 'trace _ id' дегендегі шикі оқиғаға дейін ашылады.
2) Рөлдер мен сценарийлер (кім және не үшін келеді)
SRE/Платформа: қолжетімділік, жасырындылық p50/p95/p99, қате/ретра, capacity, cost per 1k оқиғалар.
Өнім/Операциялар: E2E-Success Rate, конверсия, серіктестер онбордингінің уақыты, фичефлагтар.
Қаржы/FinOps: түсім/COGS/CM бірлігіне, egress/ingress, бюджеттер және ауытқулар.
Комплаенс/Қауіпсіздік: түбіртектер/қолтаңбалар, PII-сұрау салулар, SoD-бұзушылықтар, қайта сертификаттау мәртебесі.
Support/CS: билеттер кезегі, MTTA/MTTR, SLA әріптестер мен өңірлер бойынша.
Серіктестер/Тенанттар: SLO-ның меншікті өлшемдері, вебхуктардың мәртебелері, usage және квоталар.
3) North Star және негізгі SLI/SLO
North Star: E2E Success Rate әрбір өңірде мақсатты p95 кезінде сындарлы бағыттар бойынша.
SLI (мысал):- per-арна/өңір қол жетімділігі.
- Жасырындылығы p50/p95/p99.
- Error-rate және ретрайлардың үлесі.
- Вебхуктарды жеткізу сәтті аяқталды (түбіртектермен%).
- Бір бірлікке 1k оқиғаның және egress/ingress құны.
- Оқыс оқиғалар жиынтығы: MTTA, MTTR, error-budget burn.
- Қол жетімділік ≥ 99. 95 %/өңір/арна.
- p95 ≤ 120 мс (витрина), ≤ 250 мс (checkout/quote).
- Вебхуктардың табыстылығы ≥ 99. 5 минут ішінде 5% терезе.
- quote және checkout = 0 арасындағы Δ (бөлу ережелері бойынша 1 minor unit ±).
- Реакция уақыты P1 ≤ 10 мин., MTTR ≤ 60 мин.
4) Дашборд деректерінің архитектурасы
Оқиға шинасы: телеметрия (traces/metrics/logs), бизнес-ивенттер, биллинг, комплаенс.
Стриминг/агрегация: T + 5s/T + 1m терезелері near-real-time үшін; Кепілдік жеткізілім үшін CDC/outbox.
Сақтау орындары: time-series (жедел), OLAP (ұзақ тарихы), WORM-журналдар (аудит).
Семантикалық қабат: метрика сөздігі, өлшем бірліктері, өңірлер мен тенанттар бойынша қалыпқа келтіру.
Шикізатқа арналған линк: drill-down 'trace _ id '/' event _ id' дейін және қолдары (receipt_hash).
5) Интерфейс және виджеттер дизайны
Жаһандық қалпақ: сүзгілер (уақыт, өңір, тенант, өнім, орта), күй индикаторлары.
Тақталар (KPIs): E2E Success, қол жетімділік, p95, error-rate, cost/1k, egress.
Графиктер: sparkline трендтер, өңірлер бойынша heat-map, перценттік графиктер.
Кестелер: топ-қателер, тозуы бар әріптестер, квоталардың артуы, жабылмаған инциденттер.
Іс-қимыл секциялары: «Промо-пауза», «Фичтерді қайтару», «Квотаны арттыру», «Жеткізуді қайта бастау».
Context-help: метрика/әдістеме туралы кеңестер және SLO-мен байланыс.
6) Дашборд модульдері (ұсынылатын жиынтық)
1. Платформаның денсаулығы: қолжетімділік/жасырындылық/қателер, burn-down error-бюджет.
2. Серіктестік интеграциялар: вебхуктардың мәртебесі, түбіртектер, демпотенттік дубльдер, lag кезектер.
3. Checkout & Бағалар: витрина checkout сәйкестік, 'fx _ version', 'tax _ rule _ version', бас тарту-кейстер.
4. Мазмұн/Каталогтар: жариялау уақыты, кэш/мүгедек қателері, freshness.
5. RTP & Limits (егер қолданылса): теор. vs observed RTP, лимиттердің іске қосылуы, экспозиция.
6. FinOps: COGS/бірлік, egress/ingress, compute/storage, бюджеттер/кап-алерталар.
7. Security/Compliance: SoD, JIT, MFA, қол қойылған операциялар, PII-сұраулар мен журналдар.
8. Support: кезектер, MTTA/MTTR, себептер, авто-бумалар.
9. Release/Feature Flags: релиздердің мәртебесі, канареялық аймақтар, инциденттермен регрессияның автожауғышы.
10. Experiments: A/B guardrails, SLI/ROI-ге фич әсері.
7) Алерттар, руналар және эскалациялар
'trace _ id' бойынша шуды азайтатын және дедупликациялайтын P1-P3 деңгейінің алерттары.
Авто-рунбуктар: іске қосылғанда - тексерулерді/фикстерді іске қосу (кэшті тазалау, роутингті қайта қосу, промо-пауза).
Эскалация: матрица 24 × 7, жауаптың SLO, арналар (chat/voice/SMS), «қызыл түйме».
Post-incident: себеп-салдарлық байланыстары бар есеп үлгілері және action items.
8) Мультиөңірлік және multi-tenant
Кесінділер: өңір/тенант/арна/провайдер, тәуелсіз SLO және бюджеттер.
Сенім аймақтары: PII/қаржы деректері - тек тиісті салаларда ғана көрінеді, қалғандары - агрегаттар.
Cost-aware: p95 бірдей бағамен маршруттарды салыстыру; оңтайландыру жөніндегі ұсынымдар.
9) Қауіпсіздік және құпиялылық
RBAC/ABAC: рөлдер бойынша көріну және әрекет ету; Өнімді/теңгерімді иелену үшін ReBAC.
Қолдар мен түбіртектер: қаржылық/сыни оқиғалар үшін - хэштер және DSSE-түбіртектер.
PII-гигиена: токенизация, бүркемелеу, тек бекітілген джобтар арқылы ғана қол жеткізу.
Аудит: Конфигурацияларды/рөлдерді/лимиттерді өзгертуге арналған WORM журналдары, жаңғыртылуы.
10) Деректер метриктерінің моделі (мысал)
`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`
`dim` `{region, tenant, product, provider, version, environment}`
`point` `{metric, value, ts, dims{}, trace_id, signature?}`
`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`
`slo` `{name, target, window, burn_rate, owners[], runbook_url}`
`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`
11) Дашбордтың API/вебхоктары
'POST/ingest/metrics' - метриктерді қабылдау (схема, лимиттер, аутентификация).
'POST/ingest/events' - бизнес оқиғалар (нұсқалар/қолтаңбалар).
`GET /kpis? filters... '- виджеттерге арналған агрегаттар.
'GET/traces/{ trace _ id}' - терең айналдыру.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.
12) Деректер сапасы және тесттер
Data contracts: сұлбалар және қабылдау валидациясы, нұсқалау ('expand → migrate → contract').
Аномалиялар: өткізу/секіру мониторингі, «flatline »/» noise» шектері.
Сэмплирлеу: high-QPS метриктер үшін - репрезентативтілікті сақтай отырып, жылжымалы.
Backfill: қауіпсіз кері жүктеулер.
13) Дашбордтың өзінің метрикасы (метрика метрикасы)
UI/API қолжетімділігі ≥ 99. 9%.
Latency p95 API ≤ 300 мс.
Completeness: деректерді терезеге жіберген көздердің үлесі 99 ≥. 5%.
Freshness: 30 с ≤ инкрементальды жаңартулардың артта қалуы
Correctness: эталондық есептерден алшақтық ≤ 0. 1%.
14) Дашбордта экономика және FinOps
Cost per 1k провайдер/өңір бойынша ыдыраған оқиғалар.
Egress/Ingress жылу карталары, кэштеу/роутинг ұсыныстары.
Бюджеттер/кап-алерттер: 80/90/100%, автотротлинг және басымдық беру.
15) Қолжетімділік және UX
Түнгі тақырып, қысқаша қолтаңбалар, мәртебе белгісі.
Пернетақталық навигация және a11y: қарама-қарсы, alt, aria-белгілер.
Сақталған пресеттер: «SRE кезекшілігі», «қаржы», «әріптес».
Снапшоттар және шэринг: сүзгілермен және сілтемемен/экспортпен жай-күйін белгілеу.
16) Тәуекелдер және қарсы паттерндер
Dash-sprawl: метриканың бір сөздігінсіз 20 түрлі дашборд.
Vanity-метриктер: SLO/әрекеттермен байланыссыз әдемі графиктер.
Сандардың үйлеспеушілігі: есептер ≠ биллинг/аудит.
Шулы аллергтер: шаршау және жіберу P1.
drill-down болмауы: бастапқы және себептерге жету мүмкін емес.
17) Енгізу чек-парағы
- Рөлдер мен сценарийлерді анықтау; North Star және SLI/SLO келісу.
- Метриктер мен бірліктер сөздігін жасау; data contracts.
- ingest (metrics/events/traces), OLAP және WORM-аудитін баптау.
- Негізгі модульдерді іске асыру (денсаулық, серіктестер, checkout, FinOps, Security).
- Руна және эскалациясы бар алерталарды қосу; «қызыл түймешік».
- Әрекетті қосу: rollback/pause/re-route/raise-limit.
- Өңірлер/тенанттар бойынша heat-map құру; сүзгілер мен пресеттер.
- Сандардың биллингпен/түбіртектермен жиналуын тексеру.
- Ойын-күні (GameDay): провайдерді өшіру, ретра көшкіні, бағаның синхрондалмауы.
- Апта сайын SLO реву және post-mortem-сапасы.
18) RACI
19) FAQ
Барлық есептерді дашбордпен ауыстыруға бола ма?
Жоқ. Дашборд - жедел және іс-қимыл үшін; формальды есептілік/аудит - жекелеген артефактілер.
Қанша «нақты уақыт» керек?
Инциденттер үшін - секунд/минут, экономика үшін - минут/сағат; абсолюттік «онлайн» емес, келісім маңызды.
Алерт дауысымен қалай күресуге болады?
SLO-бағдарланған шарттар, агрегация, 'trace _ id' бойынша дедупликация, басымдылық және авто-рунбуктер.
Метриканың дұрыстығын қалай тексеруге болады?
Эталондық есептермен тұрақты салыстыру, тест фидтары, бақылау іріктемелері және WORM-журналдар.
Түйіндеме: Операциялық дашборд - «әдемі тақта» емес, басқару құралы: бірыңғай SLI/SLO, интерфейстегі әрекеттер, шикізатқа дейінгі трасса және биллингпен және аудитпен қатаң үйлесімділік. Оны оқиға архитектурасына салыңыз, рөлдер бойынша контекст беріңіз, руналар мен эскалацияларды қосыңыз - және сіз болжамды операцияларды, жылдам шешімдерді және тұрақты өсуді аласыз.