GH GambleHub

Операциялык дашборд

(Бөлүк: Операциялар жана башкаруу)

1) Максаты жана принциптери

Операциялык дашборд - бул платформанын ден соолугуна мониторинг жүргүзүү жана иш-аракеттерди кабыл алуу үчүн "бирдиктүү терезе". Бул колдонуучунун ролунун контекстинде метрикаларды, окуяларды, тобокелдиктерди жана бизнес көрсөткүчтөрдү бириктирет (SRE, Product, Finance, Compliance, Support, Partners).

Принциптери:
  • Actionable by design: ар бир widget аракет баскычы бар (rollback, pauze, re-run, re-route).
  • Role-aware: укуктар жана деталдаштыруу деңгээл ролу/тенант/аймак көз каранды.
  • Source-of-truth: сандар биллинг/журналдар/дүмүрчөктөр менен дал келет.
  • Near-real-time + тарыхый: окуялар үчүн секунд/мүнөт, ай/жыл үчүн тренддер.
  • Explainability: ар кандай бирдиги менен чийки иш-чара ачылат 'trace _ id'.

2) Ролдору жана жагдайлар (ким жана эмне үчүн келет)

SRE/Платформа: жеткиликтүүлүк, латенттүүлүк p50/p95/p99, ката/retry, capacity, наркы per 1k окуялар.
Продукт/Операциялар: E2E-Success Rate, конверсия, өнөктөштөрдүн онбординг убактысы, физикалык.
Финансы/FinOps: киреше/COGS/CM бирдиги, egress/ingress, бюджеттер жана капкалар, четтөөлөр.
Комплаенс/Коопсуздук: дүмүрчөктөр/кол тамгалар, PII-суроолор, SoD-бузуулар, кайра иштетүү статусу.
Support/CS: билеттердин кезеги, MTTA/MTTR, өнөктөштөр жана региондор боюнча SLA.
Өнөктөштөр/Тенанттар: SLO өздүк өлчөмдөрү, Webhook статусу, usage жана квота.

3) Түндүк Star жана негизги SLI/SLO

North Star: E2E Success Rate ар бир аймакта максаттуу p95 критикалык жолдору боюнча.

SLI (мисал):
  • Жеткиликтүү per-канал/аймак.
  • Жашыруун p50/p95/p99.
  • Error-rate жана retrains үлүшү.
  • Вебхуктарды жеткирүү ийгилиги (квитанциялар менен%).
  • Баасы 1k окуялар жана бирдик үчүн egress/ingress.
  • MTTA, MTTR, error-budget burn.
SLO (мисал):
  • Жеткиликтүүлүгү ≥ 99. 95 %/аймак/канал.
  • p95 ≤ 120 мс (витрина), ≤ 250 мс (текшерүү/quote).
  • Вебхуктардын ийгилиги ≥ 99. 5-мүнөттө 5%. терезе.
  • Δ жана checkout = 0 (бөлүштүрүү эрежелери боюнча ± 1 minor unit) ортосунда.
  • P1 жооп убактысы ≤ 10 мин, MTTR ≤ 60 мин.

4) Dashboard маалыматтар архитектурасы

Окуя шиналар: телеметрия (traces/metrics/logs), бизнес-чаралар, биллинг, комплаенс.
Агымы/жыйындысы: терезелер T + 5s/T + 1m үчүн near-реалдуу убакыт; кепилдик жеткирүү үчүн CDC/outbox.
Сактоо: time-series (ыкчам), OLAP (узак тарыхы), WORM-журналдар (аудит).
Семантикалык катмар: метриканын сөздүгү, өлчөө бирдиктери, региондор жана тенанттар боюнча нормалдашуу.
Чийки зат үчүн Link: drill-down чейин 'trace _ id '/' event _ id' жана кол тамгалар (receipt_hash).

5) Дизайн Interface жана Widget

Global калпак: чыпкалар (убакыт, аймак, тенант, продукт, айлана-чөйрө), мамлекеттик көрсөткүчтөр.
Плиткалар (KPIs): E2E Success, жеткиликтүүлүк, p95, error-rate, cost/1k, egress.
Графиктер: sparkline тенденциялар, аймактар ​ ​ боюнча heat-map, кагаз графиктер.
Таблицалар: топ-каталар, деградация менен өнөктөштөр, ашыкча квоталар, жабылбаган окуялар.
Иш-аракеттер секциялары: "Пауза промо", "Скат чичи", "Квотаны жогорулатуу", "Жеткирүүнү кайра баштоо".
Context-help: Метрика/ыкмалар жана SLO менен байланыш жөнүндө кеп.

6) Dashboard модулдары (сунушталган топтому)

1. Ден соолук платформа: жеткиликтүүлүгү/жашыруун/каталар, бурн-down error-бюджет.
2. Өнөктөштүк интеграциялар: вебхуктардын статусу, дүмүрчөктөр, демпотенттик дубль, lag кезек.
3. Checkout & Баалар: Showcase checkout шайкештиги, 'fx _ version', 'tax _ rule _ version', баш тартуу-учурлар.
4. Мазмун/каталогдор: жарыялоо убактысы, кэш/майып каталар, freshness.
5. RTP & Limits (колдонулса): теор. vs observed RTP, лимиттерди ишке киргизүү, экспозиция.
6. FinOps: COGS/бирдиги, egress/ingress, compute/storage, бюджеттер/cap-alert.
7. Security/Compliance: SoD, JIT, MFA, кол коюлган операциялар, PII-суроолор жана журналдар.
8. Support: кезек, MTTA/MTTR, себептери, auto-runbook.
9. Release/Feature Flags: Releases статусу, Канар аймактар, окуя менен Auto Regression клейкалары.
10. Experiments: A/B guardrails, SLI/ROI боюнча fich таасири.

7) Алерталар, рундар жана эскалация

'trace _ id' боюнча ызы-чууну басаңдатуу жана дедупликациялоо менен P1-P3 деңгээлинин алерттери.
Авто-рунбуктар: иштегенде - текшерүүлөрдү/фикстерди баштоо (кэшти тазалоо, роутингди которуу, промо-пауза).
Эскалация: матрица 24 × 7, SLO жооп, каналдар (chat/voice/SMS), "кызыл баскычы".
Post-incident: себептик байланыштар жана action items менен отчеттордун үлгүлөрү.

8) Мультирегионалдуулук жана multi-tenant

Тилкелер: аймак/тенант/канал/провайдер, көз карандысыз SLO жана бюджеттер.
Ишеним зоналары: PII/каржы маалыматтары - тиешелүү аймактарда гана көрүнүп турат, калгандары - агрегаттар.
Cost-aware: p95 бирдей баада маршруттарды салыштыруу; оптималдаштыруу боюнча сунуштар.

9) Коопсуздук жана купуялык

RBAC/ABAC: ролдорду көрүү жана иш-аракеттер; продукт/тенант ээлик ReBAC.
Кол тамгалар жана дүмүрчөктөр: финансылык/оор окуялар үчүн - хэштер жана DSSE дүмүрчөктөрү.
PII-гигиена: tokenization, маскировкалоо, жетүү гана бекитилген Jobs аркылуу.
Аудит: WORM журналдар өзгөрүүлөр конфигурациялары/ролдору/лимиттери, ойноо жөндөмдүүлүгү.

10) Метрикалык маалыматтар модели (мисал)

`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`

`dim` `{region, tenant, product, provider, version, environment}`

`point` `{metric, value, ts, dims{}, trace_id, signature?}`

`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`

`slo` `{name, target, window, burn_rate, owners[], runbook_url}`

`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`

11) Dashboard API/Webhucks

'POST/ingest/metrics' - метриктерди кабыл алуу (схема, лимиттер, аутентификация).
'POST/ingest/events' - бизнес окуялар (версиялар/кол тамгалар).
`GET /kpis? filters... '- виджеттер үчүн агрегаттар.
'GET/traces/{ trace _ id}' - терең үгүттөө.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.

12) Маалымат сапаты жана тесттер

Data contracts: кабыл алуудагы схемалар жана валидация, версиялоо ('expand → migrate → contract').
Аномалиялар: өтүү/секирүү мониторинг, босоголор "flatline "/" noise".
Sample: high-QPS метрика үчүн - жылма, өкүлчүлүгүн сактоо менен.
Backfill: коопсуз кайра жүктөмөлөр менен белгилөө нускасы.

13) Dashboard өзү метрика (метрика)

UI/API жеткиликтүүлүгү ≥ 99. 9%.
Latency p95 API суроо ≤ 300 ms.
Completeness: терезеге маалыматтарды жөнөткөн булактардын үлүшү 99 ≥. 5%.

Freshness: 30 б ≤ кийинки тактоо артта

Correctness: шилтеме отчеттор менен айырмачылыктар ≤ 0. 1%.

14) Экономика жана Dashboard FinOps

Cost per 1k провайдер/аймак боюнча ыдыраган окуялар.
Egress/Ingress жылуулук карталары, кэш/роутинг сунуштар.
Бюджеттер/cap-алерттер: 80/90/100%, автотротлинг жана артыкчылыктуу.

15) Жеткиликтүүлүк жана UX

Түнкү тема, кыска кол тамгалар, статус сөлөкөттөрү.
Клавиатура багыттоо жана a11y: контраст, alt, aria-белгилер.
Сакталган пресеттер: "SRE нөөмөт", "каржы", "өнөктөш".
Snapshots жана шеринг: чыпкалар жана шилтеме/экспорт менен абалын чечүү.

16) Тобокелдиктер жана анти-үлгүлөрү

Dash-sprawl: 20 ар кандай dashboard эч кандай сөздүк метрика.
Vanity-метриктер: SLO/иш-аракеттер менен байланышпаган кооз графиктер.
Сандардын дал келбестиги: отчеттор ≠ биллинг/аудит.
Ызы-чуу кооптуулугу: чарчоо жана P1 өтүү.
Жок drill-down: баштапкы жана себептери жетүү мүмкүн эмес.

17) Киргизүү чек-тизмеси

  • ролдорду жана сценарийлерди аныктоо; Түндүк Star жана SLI/SLO макулдашуу.
  • Метрика жана бирдиктердин сөздүгүн баштоо; data contracts.
  • орнотуу ingest (metrics/events/traces), OLAP жана WORM аудит.
  • Негизги модулдарды ишке ашыруу (ден соолук, өнөктөштөр, текшерүү, FinOps, коопсуздук).
  • Руна жана эскалация менен алерттерди киргизүү; "кызыл баскычы".
  • Иш-аракеттерди кошуу: rollback/pause/re-route/raise-limit.
  • Региондор/Тенанттар боюнча жылуулук картасын куруу; чыпкалар жана алдын ала жазуулар.
  • Биллинг/квитанциялар менен сандардын чогулушун текшерүү.
  • Оюн-Day (GameDay): кызмат көрсөтүүчүнүн өчүрүү, retrains көчкү, баалардын synchronization.
  • Жума сайын SLO жана post-mortem-сапаты.

18) RACI

АймакRACI
Метрикалык сөздүк/SLI/SLOPlatform AnalyticsCTOProduct, SRE, FinanceБардык
Булактарды интеграциялооData EngHead of DataSRE, SecurityProduct
Алерталар жана рундарSRECTOProduct, FinOpsSupport
Коопсуздук/купуялыкSecurity/PrivacyCISO/DPOLegal, ComplianceБардык
Финансылык метрикаFinOpsCFOProduct, DataАудит

19) FAQ

Бардык отчетторду дашборд менен алмаштырууга болобу?
Жок. Dashbord - ыкчам жана иш-аракеттер үчүн; формалдуу отчеттуулук/аудит - өзүнчө артефакттар.

Канча "реалдуу убакыт" керек?
Окуялар үчүн - секунд/мүнөт, экономика үчүн - мүнөт/саат; абсолюттук "онлайн" эмес, ырааттуулук маанилүү.

Кантип Алерт ызы-чуу менен күрөшүүгө болот?
SLO-багытталган шарттар, агрегация, 'trace _ id' боюнча дедупликация, артыкчылыктуу жана auto-runbook.

Метриктердин тууралыгын кантип текшерүү керек?
Эталондук отчеттор менен үзгүлтүксүз салыштыруу, сыноо куралдары, сыноо үлгүлөрү жана WORM журналдар.

Резюме: Операциялык дашборд - "кооз такта" эмес, башкаруу куралы: бирдиктүү SLI/SLO, интерфейстен иш-аракеттер, чийки заттын изи жана биллинг жана аудит менен катуу шайкештик. Аны иш-чаранын архитектурасына куруп, ролдор боюнча контекст берип, рундарды жана эскалацияларды кошуңуз - ошондо сиз болжолдуу операцияларды, тез чечимдерди жана туруктуу өсүштү аласыз.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.