Əməliyyat daşbordu
(Bölmə: Əməliyyatlar və İdarəetmə)
1) Təyinat və prinsiplər
Əməliyyat dashboard platformanın sağlamlığını izləmək və hərəkət etmək üçün "vahid pəncərə 'dir. Bu istifadəçi rolu kontekstində metriklər, hadisələr, risklər və biznes göstəriciləri birləşdirir (SRE, Product, Finance, Compliance, Support, Partners).
Prinsiplər:- Actionable by design: Hər widget hərəkət düyməsi var (rollback, pauze, re-run, re-route).
- Role-aware: hüquq və detal səviyyələri/tenant/region rolundan asılıdır.
- Source-of-truth: rəqəmlər billing/jurnal/qəbzlərlə üst-üstə düşür.
- Near-real-time + tarixilik: hadisələr üçün saniyələr/dəqiqələr, trendlər üçün aylar/illər.
- Explainability: Hər hansı bir vahid 'trace _ id' ilə xam bir hadisəyə qədər açılır.
2) Rollar və ssenarilər (kim və niyə gəlir)
SRE/Platform: əlçatanlıq, gecikmə p50/p95/p99, səhv/retray, capacity, cost per 1k hadisələr.
Məhsul/Əməliyyatlar: E2E-Success Rate, Konvertasiya, Partnyorların onbordinq vaxtı, Fitness.
Maliyyə/FinOps: gəlir/COGS/CM vahid, egress/ingress, büdcə və kaps, sapmalar.
Komplayens/Təhlükəsizlik: qəbzlər/imzalar, PII sorğuları, SoD pozuntuları, resertifikasiya statusu.
Support/CS: biletlərin növbəsi, partnyorlar və regionlar üzrə MTTA/MTTR, SLA.
Partnyorlar/Tenantlar: SLO-nun öz metrikası, vebhuk statusu, usage və kvotalar.
3) North Star və açar SLI/SLO
North Star: Hər bölgədə hədəf p95 kritik marşrutları üzrə E2E Success Rate.
SLI (nümunə):- per-kanal/region mövcudluğu.
- Gecikmə p50/p95/p99.
- Error-rate və retras payı.
- Vebhukların çatdırılmasının müvəffəqiyyəti (qəbzlərlə%).
- 1k hadisə və vahid üçün egress/ingress dəyəri.
- Hadisələrin xülasəsi: MTTA, MTTR, error-budget burn.
- Mövcudluğu ≥ 99. 95 %/region/kanal.
- p95 ≤ 120 ms (vitrin), ≤ 250 ms (checkout/quote).
- Vebhukların müvəffəqiyyəti ≥ 99. 5 dəqiqə ərzində 5%. pəncərə.
- quote və checkout = 0 arasında Δ (paylama qaydalarına görə 1 minor unit ±).
- Reaksiya müddəti P1 ≤ 10 dəq, MTTR ≤ 60 dəq.
4) Dashboard məlumat arxitekturası
Hadisə şini: telemetriya (traces/metrics/logs), biznes tədbirləri, billing, komplayens.
Axın/aqreqasiya: yaxın real vaxt üçün T + 5s/T + 1m pəncərələr; CDC/outbox zəmanətli çatdırılma üçün.
Saxlama: time-series (operativ), OLAP (uzun tarix), WORM jurnalları (audit).
Semantik təbəqə: metrik lüğət, ölçü vahidləri, regionlar və tenantlar üzrə normallaşma.
Xammal linki: 'trace _ id '/' event _ id' və imzalara qədər drill-down (receipt_hash).
5) Interfeys və widget dizaynı
Qlobal papaq: filtrlər (vaxt, region, tenant, məhsul, mühit), vəziyyət göstəriciləri.
Plitələr (KPI): E2E Success, mövcudluq, p95, error-rate, cost/1k, egress.
Qrafiklər: sparkline trendlər, bölgələr üzrə istilik-map, üz işlənmiş qrafiklər.
Cədvəllər: top səhvlər, deqradasiya ilə tərəfdaşlar, həddindən artıq kvota, örtülməmiş hadisələr.
Fəaliyyət bölmələri: «Promosyon fasiləsi», «Fiçin geri çəkilməsi», «Kvotanın artırılması», «Çatdırılmanı yenidən başlat».
Context-help: metrika/metodika ilə bağlı məsləhətlər və SLO ilə əlaqə.
6) Dashboard modulları (tövsiyə olunan dəst)
1. Platformanın sağlamlığı: əlçatanlıq/gecikmə/səhvlər, burn-down error-büdcə.
2. Tərəfdaşlıq inteqrasiyaları: vebhuk statusu, qəbzlər, idempotent dublları, lag növbələri.
3. Checkout & Qiymətlər: vitrin, 'fx _ version', 'tax _ rule _ version', uğursuzluq-cases.
4. Məzmun/Kataloqlar: nəşr vaxtı, cache/əlil səhvləri, freshness.
5. RTP & Limits (mümkünsə): teor. vs observed RTP, limitlərin işə salınması, ekspozisiya.
6. FinOps: COGS/vahid, egress/ingress, compute/storage, büdcələr/cap-alertlər.
7. Security/Compliance: SoD, JIT, MFA, imzalanmış əməliyyatlar, PII sorğular və jurnallar.
8. Support: növbələr, MTTA/MTTR, səbəblər, avtomobil runbook.
9. Release/Feature Flags: relizlər statusu, kanarya bölgələri, hadisələrlə regressiya avtomatik yapışdırma.
10. Experiments: A/B guardrails, SLI/ROI fich təsiri.
7) Alertlər, rünlər və eskalasiyalar
'trace _ id' tərəfindən səs-küyün azaldılması və duplikasiyası ilə P1-P3 səviyyəsinin alertləri.
Avto-runbook: işə salındıqda - yoxlamalar/fikslərin işə salınması (cache təmizlənməsi, routing keçid, promo fasiləsi).
Eskalasiya: matris 24 × 7, SLO cavab, kanallar (chat/voice/SMS), «qırmızı düymə».
Post-incident: səbəb-nəticə əlaqələri və action items ilə hesabat şablonları.
8) Multiregionallıq və multi-tenant
Dilimlər: region/tenant/kanal/provayder, müstəqil SLO və büdcələr.
Etimad zonaları: PII/maliyyə məlumatları - yalnız müvafiq sahələrdə, qalanları - aqreqatlarda görünür.
Cost-aware: eyni p95 qiymətə marşrutların müqayisəsi; optimallaşdırma tövsiyələri.
9) Təhlükəsizlik və məxfilik
RBAC/ABAC: görünürlük və rollar üzrə fəaliyyət; Məhsul/tenant sahibi üçün ReBAC.
İmzalar və qəbzlər: maliyyə/kritik hadisələr üçün - xeş və DSSE qəbzləri.
PII-gigiyena: tokenizasiya, maskalama, yalnız təsdiq edilmiş joblar vasitəsilə giriş.
Audit: WORM jurnalları konfiqurasiya/rolları/limitləri, reproduktivlik dəyişikliyi üçün.
10) Metrik məlumat modeli (nümunə)
`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`
`dim` `{region, tenant, product, provider, version, environment}`
`point` `{metric, value, ts, dims{}, trace_id, signature?}`
`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`
`slo` `{name, target, window, burn_rate, owners[], runbook_url}`
`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`
11) Dashboard API/vebhuk
'POST/ingest/metrics' - metriklərin qəbulu (sxem, limitlər, autentifikasiya).
'POST/ingest/events' - biznes hadisələri (versiyalar/imzalar).
`GET /kpis? filters... '- widget üçün aqreqatlar.
'GET/traces/{ trace _ id}' - dərin tanıtım.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.
12) Məlumat keyfiyyəti və testlər
Data contracts: sxemlər və qəbulda validasiya, versiya ('expand → migrate → contract').
Anomaliyalar: keçid/atlama monitorinqi, «flatline »/» noise» həddi.
Nümunə: high-QPS metrik üçün - sürüşmə, reprezentativliyi qoruyun.
Backfill: qeyd versiyası ilə təhlükəsiz geri yükləmələr.
13) Daşbordun metrikası (metrik metrik)
UI/API mövcudluğu ≥ 99. 9%.
Latency p95 API üçün sorğular ≤ 300 ms.
Completeness: pəncərəyə məlumat göndərən mənbələrin payı 99 ≥. 5%.
Freshness: 30 s ≤ daxili yeniləmələrin gecikməsi
Correctness: istinad hesabatları ilə uyğunsuzluq ≤ 0. 1%.
14) Dashboard İqtisadiyyat və FinOps
Cost per 1k provayder/region üzrə parçalanma hadisələri.
Egress/Ingress istilik kartları, caching/routing tövsiyələr.
Büdcələr/qapalı alertlər: 80/90/100%, avtotrotlinq və prioritetləşdirmə.
15) Mövcudluq və UX
Gecə mövzusu, qısa imzalar, status nişanları.
Klaviatura naviqasiyası və a11y: kontrast, alt, aria işarələri.
Saxlanılan presetlər: «SRE növbətçiliyi», «maliyyə», «tərəfdaş».
Snapshot və paylaşma: filtrlər və link/ixrac ilə vəziyyəti düzəltmək.
16) Risklər və anti-nümunələr
Dash-sprawl: bir metrik lüğət olmadan 20 müxtəlif dashboard.
Vanity Metrics: SLO/hərəkətləri ilə əlaqəsi olmayan gözəl qrafiklər.
Rəqəmlərin uyğunsuzluğu: hesabatlar ≠ billing/audit.
Səs-küylü həyəcanlar: yorğunluq və P1 keçidləri.
drill-down olmaması: əsas və səbəblərə çatmaq mümkün deyil.
17) Giriş çek siyahısı
- Rolları və ssenariləri müəyyən edin; North Star və SLI/SLO.
- Metrik lüğət və vahidləri; data contracts rəsmiləşdirmək.
- ingest (metrics/events/traces), OLAP və WORM auditini konfiqurasiya edin.
- Əsas modulları həyata keçirmək (sağlamlıq, tərəfdaşlar, checkout, FinOps, Təhlükəsizlik).
- Runes və eskalasiya ilə alert daxil; «qırmızı düymə».
- Hərəkət əlavə edin: rollback/pause/re-route/raise-limit.
- Bölgələrə/tenantlara görə heat-map qurmaq; filtrlər və presetlər.
- Billing/qəbzlərlə rəqəmlərin yığılmasını yoxlamaq.
- Oyun-gün (GameDay): Provayderin bağlanması, retrai uçqunu, qiymətlərin sinxronizasiyası.
- SLO həftəlik review və post-mortem keyfiyyəti.
18) RACI
19) FAQ
Bütün hesabatları dashboard ilə əvəz etmək olarmı?
Yox. Dashboard - əməliyyat və fəaliyyət üçün; formal hesabat/audit - ayrı-ayrı artefaktlar.
Nə qədər «real vaxt» lazımdır?
Hadisələr üçün - saniyə/dəqiqə, iqtisadiyyat üçün - dəqiqə/saat; mütləq «onlayn» deyil, uyğunluq vacibdir.
Həyəcan səsləri ilə necə mübarizə aparmaq olar?
SLO yönümlü şərtlər, aqreqasiya, 'trace _ id' deduplikasiyası, prioritetləşdirmə və avto runbuklar.
Metrlərin düzgünlüyünü necə yoxlamaq olar?
Etalon hesabatları, test fidləri, test nümunələri və WORM jurnalları ilə müntəzəm yoxlamalar.
Xülasə: Əməliyyat panosu «gözəl lövhə» deyil, idarəetmə alətidir: vahid SLI/SLO, interfeys hərəkətləri, xammal izi və billing və audit ilə ciddi uyğunluq. Hadisə memarlığı üzərində qurun, rol kontekstini verin, run və eskalasiya əlavə edin - və proqnozlaşdırıla bilən əməliyyatlar, sürətli həllər və davamlı artım əldə edəcəksiniz.