GH GambleHub

業務和管理→審計指標和SLA

審核指標和SLA

1)為什麼需要它

如果指標不正確-解決方案不正確,則SLA將「在紙上」被打破,反之亦然地隱藏問題。度量和SLA審核可確保對用戶和合作夥伴的承諾的可比性,可信性和法律安全性。

目標是:
  • 提供單一的「真相來源」(SSOT)和可重現的計算。
  • 減少行車記錄/報告/計費之間的差異。
  • 使SLA可行且可驗證(基於evidence)。
  • 在測量中檢測降解的時間與服務中的降解時間一樣早。

2)責任的基本概念和界限

度量(度量):可測量的量(RPS,p95,CR,GGR,成功率)。
KPI/OKR:指標綁定的目標。
SLO:目標服務質量(例如「p99 ≤ 400 ms 99」。9%的時間")。
SLA:外部承諾;具有法律意義,基於SLO。
OLA:團隊/供應商之間的內部協議,支持SLA。
SSOT:其數據被視為報告參考的系統/存儲。

3)分類學指標(層)

1.基礎架構:CPU/Memory/IO/Net,Pod/節點,HPA/VPA。
2.平臺:隊列/流(lag,throughput),DB/緩存(連接,命中),API(p95/p99,5xx)。
3.業務流:存款/收款,投註,遊戲啟動,授權,KYC。
4.產品/營銷:轉換,ARPPU/LTV,廣告系列。
5.流程質量:MTTA/MTTR,更改故障率,清單覆蓋。

規則:每個度量必須具有層,所有者和公式。

4)數據來源和「真相」

在線電視計量學:Prometheus/OTel,logi(ELK/ClickHouse),跟蹤。
活動和會計:Kafka/Outbox,DWH/日期發布會(BigQuery/ClickHouse)。
手工制品:驗屍、滴答作響、事件登記冊。
外部註冊:提供商報告(PSP/KYC/工作室),計費。

沖突解決方案:對於「Online vs DWH」的差異,有優先權規定(例如,對於SLA,來自DWH的聚合具有源跟蹤性)。

5)度量審計過程(管理輪廓)

1.清單:指標目錄/SLO/SLA(名稱,所有者,層,公式,來源,計算頻率)。
2.公式驗證:將SQL/prom查詢與定義(單位計算測試)進行對賬。
3.采樣和重新排序:抽樣事件/日誌行和手動對賬。
4.輪廓映射:比較在線行車記錄和DWH報告。
5.更改控制:在電路/邏輯發布時通過公式的評論。
6.SLA審核:驗證裝配和異常是否正確(計劃維護、不可抗力)。
7.報告和改進:發現的差異和截止日小說的列表。

6)定義和公式(樣本)

Success Rate (API):

`success = requests - (5xx + timeouts + circuit_open)`

`success_rate = success / requests`

Latency p95/p99:

SSOT包含一個窗口定義(滾動5m/1h)和聚合定義(HDR/TDigest)。

SLO(示例):
  • 「SLO_availability_month=(時間_工作是有效的_例外)/一般_時間」
SLA(提供商的示例):
  • `SLA_month = 99.UTC窗口上有90%的藥房,不包括計劃窗口(T-48通知),可證明的過境運營商事故(文件)"

7)數據質量: 驗證和異同

質量檢查:
  • Полнота (completeness): `received_events / expected_events ≥ 0.99`.
  • 及時(時效):加載時差≤ N分鐘。
  • 唯一性(uniqueness):不使用按鍵(idempotency-key)。
  • 一致性(一致性):金額/貨幣/符號。
  • 線性(monotonicity)-計數器不會「回滾」。
關於測量質量(想法)的Alerts:

ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8)SLA/OLA審計: 方法

1.收集例外日歷:計劃窗口、商定的降級、供應商行為。
2.Uptime計算:通過一個時間區,依靠SSOT。
3.事件核對:時間線、門票、驗屍。

4.歸因: 自身故障,提供商,過境,DDoS,管理工作.

5.SLA外圍:用戶體驗(E2E) vs一個特定的API。
6.報告:月份/季度報告:事實、拒絕、賠償(如適用)、糾正措施。

9)驗證計算的可重復性

公式驗證:具有SQL/PromQL/基座規範的 Git存儲庫。
單位度量測試:在合成數據上(邊緣案例:跳過、雙打、日期邊界)。
數據線:從行車記錄儀回到源表和事件。
Snapshots:將數據凍結到截止點,以便筆計算可比。

10)控制樣本(采樣)

每天:按關鍵流(押金/利率/KUS)進行10-20個事件-手動跟蹤對賬↔ DWH。
每周:1%的樣本用於比較「Online vs DWH」。
每月:一組SLA效應事件-詳細重建。

樣本行為模板(簡述):

Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11)審核行車記錄和警報

單一度量詞典:直接在行車記錄儀上的詞匯表。
版本/活動註釋:查看偏差的原因。
發布前/發布後比較:自動回歸面板。
雙重/差異:識別「兩個不同的p99」-編輯公式/窗口。
面板可用性:權限、備份、鏈接/版本控制。

12)指標變更管理

RFC過程:更改公式/窗口/源-通過RFC評估對SLA/報告的影響。
遷移「expand → migrate → contract」:暫時運行兩個版本,我們進行比較,然後關閉舊版本。
通信:「通過新方法」提前通知產品/企業值變化。

13) iGaming/fintech的細節

需求峰值:度量必須承受爆炸載荷(聚集不是「紮根」)。
提供商:SLA依賴供應商的OLA →保留其報告,事件狀態和配額。
成本:「cost_per_1k_calls」和「成功成本」是必備的面板。
防凍風險:對延遲和「誤報」指標的敏感性。

14) Dashbords審計(最低設置)

Metrics Health: completeness/timeliness/duplicates, ingest-lag, ошибки ETL.

SLO/SLA Evidence:計算的SLO,實際的SLA,例外,事件/行為引用。
Online vs DWH Compare:p95/p99/Success率、偏差和趨勢。
Vendor SLA:按供應商劃分的藥房/配額/超時/成本。
Release Impact:放置/打開幻燈片後的指標回歸。

15)審計支票清單(運營)

  • 具有所有者和公式的指標/SLO/SLA目錄是相關的。
  • SSOT是為每個報告/面板定義的。
  • 公式的統一測試是綠色的,計算的管道已記錄下來。
  • 對數據質量的Alerta是活躍的(完整性/時效性/雙重性)。
  • 「Online vs DWH」 ≤允許閾值的差異(例如≤2%)。
  • 統一的SLA豁免已記錄下來,並附在報告中。
  • 進行了檢查抽樣並確定了行為。
  • 所有公式更改均通過RFC和遷移。

16)示例(片段)

PromQL-發布前/發布後p99的比較:

api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL-控制事件的完整性:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanager規則-輪廓的差異:

ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17)反模式

不同面板上兩個不同的「相同」度量公式。
更改未遷移和通知的度量標準是OKR/SLA中的「跳躍」。
本地Excel中的報告為「真相」(不可復制)。
SLA計算中時區和日歷的混合。
SLA例外沒有記錄在案。
測量質量沒有差異。

18)測量成熟度KPI

漂移率Online↔DWH(目標≤2%)。
Metrics Health Uptime(沒有最大/ETL降解的時間)。
時間到修復公式(解決公式錯誤的時間)。
SLA Dispute Rate(與合作夥伴發生有爭議案件的頻率)。
Coverage SLO/SLA(正式描述為SLO/SLA的關鍵路徑比例)。

19)角色和責任

度量/服務的所有者:公式,來源,dashbord,alertes。
Observability/SRE:SSOT/平臺,公式測試,數據質量差異。
數據/BI: DWH,報告可重現性,lineage。
律師/合夥人經理:SLA安排和例外。
事件經理:與SLA的事件歸因和捆綁。

20)快速啟動(30天)

第一周:度量清單/SLO/SLA和所有者;指定SSOT。
第二周:包括數據質量差異和「Online vs DWH」面板。
第3周:進行控制抽樣,平整p95/p99的視線。
第4周:將公式的RFC過程正式化,編寫帶有應用程序的月度SLA報告。

21) FAQ

Q: SSOT對於SLA算什麼?

A:可重復計算存儲(DWH)和全線存儲;在線面板-用於操作控制,不用於法律行為。

問:如何對抗「兩個p99」?
答:將窗口/聚合方法鎖定在度量目錄中,遷移面板,在漂移中添加警報。

問:如何考慮計劃工作?
答:維護例外日歷,並根據合同規則自動從SLA中減去它們;儲存確認文物。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。