Операциялык дашборд
(Бөлүк: Операциялар жана башкаруу)
1) Максаты жана принциптери
Операциялык дашборд - бул платформанын ден соолугуна мониторинг жүргүзүү жана иш-аракеттерди кабыл алуу үчүн "бирдиктүү терезе". Бул колдонуучунун ролунун контекстинде метрикаларды, окуяларды, тобокелдиктерди жана бизнес көрсөткүчтөрдү бириктирет (SRE, Product, Finance, Compliance, Support, Partners).
Принциптери:- Actionable by design: ар бир widget аракет баскычы бар (rollback, pauze, re-run, re-route).
- Role-aware: укуктар жана деталдаштыруу деңгээл ролу/тенант/аймак көз каранды.
- Source-of-truth: сандар биллинг/журналдар/дүмүрчөктөр менен дал келет.
- Near-real-time + тарыхый: окуялар үчүн секунд/мүнөт, ай/жыл үчүн тренддер.
- Explainability: ар кандай бирдиги менен чийки иш-чара ачылат 'trace _ id'.
2) Ролдору жана жагдайлар (ким жана эмне үчүн келет)
SRE/Платформа: жеткиликтүүлүк, латенттүүлүк p50/p95/p99, ката/retry, capacity, наркы per 1k окуялар.
Продукт/Операциялар: E2E-Success Rate, конверсия, өнөктөштөрдүн онбординг убактысы, физикалык.
Финансы/FinOps: киреше/COGS/CM бирдиги, egress/ingress, бюджеттер жана капкалар, четтөөлөр.
Комплаенс/Коопсуздук: дүмүрчөктөр/кол тамгалар, PII-суроолор, SoD-бузуулар, кайра иштетүү статусу.
Support/CS: билеттердин кезеги, MTTA/MTTR, өнөктөштөр жана региондор боюнча SLA.
Өнөктөштөр/Тенанттар: SLO өздүк өлчөмдөрү, Webhook статусу, usage жана квота.
3) Түндүк Star жана негизги SLI/SLO
North Star: E2E Success Rate ар бир аймакта максаттуу p95 критикалык жолдору боюнча.
SLI (мисал):- Жеткиликтүү per-канал/аймак.
- Жашыруун p50/p95/p99.
- Error-rate жана retrains үлүшү.
- Вебхуктарды жеткирүү ийгилиги (квитанциялар менен%).
- Баасы 1k окуялар жана бирдик үчүн egress/ingress.
- MTTA, MTTR, error-budget burn.
- Жеткиликтүүлүгү ≥ 99. 95 %/аймак/канал.
- p95 ≤ 120 мс (витрина), ≤ 250 мс (текшерүү/quote).
- Вебхуктардын ийгилиги ≥ 99. 5-мүнөттө 5%. терезе.
- Δ жана checkout = 0 (бөлүштүрүү эрежелери боюнча ± 1 minor unit) ортосунда.
- P1 жооп убактысы ≤ 10 мин, MTTR ≤ 60 мин.
4) Dashboard маалыматтар архитектурасы
Окуя шиналар: телеметрия (traces/metrics/logs), бизнес-чаралар, биллинг, комплаенс.
Агымы/жыйындысы: терезелер T + 5s/T + 1m үчүн near-реалдуу убакыт; кепилдик жеткирүү үчүн CDC/outbox.
Сактоо: time-series (ыкчам), OLAP (узак тарыхы), WORM-журналдар (аудит).
Семантикалык катмар: метриканын сөздүгү, өлчөө бирдиктери, региондор жана тенанттар боюнча нормалдашуу.
Чийки зат үчүн Link: drill-down чейин 'trace _ id '/' event _ id' жана кол тамгалар (receipt_hash).
5) Дизайн Interface жана Widget
Global калпак: чыпкалар (убакыт, аймак, тенант, продукт, айлана-чөйрө), мамлекеттик көрсөткүчтөр.
Плиткалар (KPIs): E2E Success, жеткиликтүүлүк, p95, error-rate, cost/1k, egress.
Графиктер: sparkline тенденциялар, аймактар боюнча heat-map, кагаз графиктер.
Таблицалар: топ-каталар, деградация менен өнөктөштөр, ашыкча квоталар, жабылбаган окуялар.
Иш-аракеттер секциялары: "Пауза промо", "Скат чичи", "Квотаны жогорулатуу", "Жеткирүүнү кайра баштоо".
Context-help: Метрика/ыкмалар жана SLO менен байланыш жөнүндө кеп.
6) Dashboard модулдары (сунушталган топтому)
1. Ден соолук платформа: жеткиликтүүлүгү/жашыруун/каталар, бурн-down error-бюджет.
2. Өнөктөштүк интеграциялар: вебхуктардын статусу, дүмүрчөктөр, демпотенттик дубль, lag кезек.
3. Checkout & Баалар: Showcase checkout шайкештиги, 'fx _ version', 'tax _ rule _ version', баш тартуу-учурлар.
4. Мазмун/каталогдор: жарыялоо убактысы, кэш/майып каталар, freshness.
5. RTP & Limits (колдонулса): теор. vs observed RTP, лимиттерди ишке киргизүү, экспозиция.
6. FinOps: COGS/бирдиги, egress/ingress, compute/storage, бюджеттер/cap-alert.
7. Security/Compliance: SoD, JIT, MFA, кол коюлган операциялар, PII-суроолор жана журналдар.
8. Support: кезек, MTTA/MTTR, себептери, auto-runbook.
9. Release/Feature Flags: Releases статусу, Канар аймактар, окуя менен Auto Regression клейкалары.
10. Experiments: A/B guardrails, SLI/ROI боюнча fich таасири.
7) Алерталар, рундар жана эскалация
'trace _ id' боюнча ызы-чууну басаңдатуу жана дедупликациялоо менен P1-P3 деңгээлинин алерттери.
Авто-рунбуктар: иштегенде - текшерүүлөрдү/фикстерди баштоо (кэшти тазалоо, роутингди которуу, промо-пауза).
Эскалация: матрица 24 × 7, SLO жооп, каналдар (chat/voice/SMS), "кызыл баскычы".
Post-incident: себептик байланыштар жана action items менен отчеттордун үлгүлөрү.
8) Мультирегионалдуулук жана multi-tenant
Тилкелер: аймак/тенант/канал/провайдер, көз карандысыз SLO жана бюджеттер.
Ишеним зоналары: PII/каржы маалыматтары - тиешелүү аймактарда гана көрүнүп турат, калгандары - агрегаттар.
Cost-aware: p95 бирдей баада маршруттарды салыштыруу; оптималдаштыруу боюнча сунуштар.
9) Коопсуздук жана купуялык
RBAC/ABAC: ролдорду көрүү жана иш-аракеттер; продукт/тенант ээлик ReBAC.
Кол тамгалар жана дүмүрчөктөр: финансылык/оор окуялар үчүн - хэштер жана DSSE дүмүрчөктөрү.
PII-гигиена: tokenization, маскировкалоо, жетүү гана бекитилген Jobs аркылуу.
Аудит: WORM журналдар өзгөрүүлөр конфигурациялары/ролдору/лимиттери, ойноо жөндөмдүүлүгү.
10) Метрикалык маалыматтар модели (мисал)
`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`
`dim` `{region, tenant, product, provider, version, environment}`
`point` `{metric, value, ts, dims{}, trace_id, signature?}`
`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`
`slo` `{name, target, window, burn_rate, owners[], runbook_url}`
`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`
11) Dashboard API/Webhucks
'POST/ingest/metrics' - метриктерди кабыл алуу (схема, лимиттер, аутентификация).
'POST/ingest/events' - бизнес окуялар (версиялар/кол тамгалар).
`GET /kpis? filters... '- виджеттер үчүн агрегаттар.
'GET/traces/{ trace _ id}' - терең үгүттөө.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.
12) Маалымат сапаты жана тесттер
Data contracts: кабыл алуудагы схемалар жана валидация, версиялоо ('expand → migrate → contract').
Аномалиялар: өтүү/секирүү мониторинг, босоголор "flatline "/" noise".
Sample: high-QPS метрика үчүн - жылма, өкүлчүлүгүн сактоо менен.
Backfill: коопсуз кайра жүктөмөлөр менен белгилөө нускасы.
13) Dashboard өзү метрика (метрика)
UI/API жеткиликтүүлүгү ≥ 99. 9%.
Latency p95 API суроо ≤ 300 ms.
Completeness: терезеге маалыматтарды жөнөткөн булактардын үлүшү 99 ≥. 5%.
Freshness: 30 б ≤ кийинки тактоо артта
Correctness: шилтеме отчеттор менен айырмачылыктар ≤ 0. 1%.
14) Экономика жана Dashboard FinOps
Cost per 1k провайдер/аймак боюнча ыдыраган окуялар.
Egress/Ingress жылуулук карталары, кэш/роутинг сунуштар.
Бюджеттер/cap-алерттер: 80/90/100%, автотротлинг жана артыкчылыктуу.
15) Жеткиликтүүлүк жана UX
Түнкү тема, кыска кол тамгалар, статус сөлөкөттөрү.
Клавиатура багыттоо жана a11y: контраст, alt, aria-белгилер.
Сакталган пресеттер: "SRE нөөмөт", "каржы", "өнөктөш".
Snapshots жана шеринг: чыпкалар жана шилтеме/экспорт менен абалын чечүү.
16) Тобокелдиктер жана анти-үлгүлөрү
Dash-sprawl: 20 ар кандай dashboard эч кандай сөздүк метрика.
Vanity-метриктер: SLO/иш-аракеттер менен байланышпаган кооз графиктер.
Сандардын дал келбестиги: отчеттор ≠ биллинг/аудит.
Ызы-чуу кооптуулугу: чарчоо жана P1 өтүү.
Жок drill-down: баштапкы жана себептери жетүү мүмкүн эмес.
17) Киргизүү чек-тизмеси
- ролдорду жана сценарийлерди аныктоо; Түндүк Star жана SLI/SLO макулдашуу.
- Метрика жана бирдиктердин сөздүгүн баштоо; data contracts.
- орнотуу ingest (metrics/events/traces), OLAP жана WORM аудит.
- Негизги модулдарды ишке ашыруу (ден соолук, өнөктөштөр, текшерүү, FinOps, коопсуздук).
- Руна жана эскалация менен алерттерди киргизүү; "кызыл баскычы".
- Иш-аракеттерди кошуу: rollback/pause/re-route/raise-limit.
- Региондор/Тенанттар боюнча жылуулук картасын куруу; чыпкалар жана алдын ала жазуулар.
- Биллинг/квитанциялар менен сандардын чогулушун текшерүү.
- Оюн-Day (GameDay): кызмат көрсөтүүчүнүн өчүрүү, retrains көчкү, баалардын synchronization.
- Жума сайын SLO жана post-mortem-сапаты.
18) RACI
19) FAQ
Бардык отчетторду дашборд менен алмаштырууга болобу?
Жок. Dashbord - ыкчам жана иш-аракеттер үчүн; формалдуу отчеттуулук/аудит - өзүнчө артефакттар.
Канча "реалдуу убакыт" керек?
Окуялар үчүн - секунд/мүнөт, экономика үчүн - мүнөт/саат; абсолюттук "онлайн" эмес, ырааттуулук маанилүү.
Кантип Алерт ызы-чуу менен күрөшүүгө болот?
SLO-багытталган шарттар, агрегация, 'trace _ id' боюнча дедупликация, артыкчылыктуу жана auto-runbook.
Метриктердин тууралыгын кантип текшерүү керек?
Эталондук отчеттор менен үзгүлтүксүз салыштыруу, сыноо куралдары, сыноо үлгүлөрү жана WORM журналдар.
Резюме: Операциялык дашборд - "кооз такта" эмес, башкаруу куралы: бирдиктүү SLI/SLO, интерфейстен иш-аракеттер, чийки заттын изи жана биллинг жана аудит менен катуу шайкештик. Аны иш-чаранын архитектурасына куруп, ролдор боюнча контекст берип, рундарды жана эскалацияларды кошуңуз - ошондо сиз болжолдуу операцияларды, тез чечимдерди жана туруктуу өсүштү аласыз.