GH GambleHub

操作と→管理パフォーマンス指標

パフォーマンスメトリック

1)なぜパフォーマンスメトリックなのか

パフォーマンスは、特定のコストで応答時間とスループットでターゲットSLOを提供するシステムの能力です。メトリックなしでは不可能です:
  • インシデントの前に劣化を検出し、
  • 容量と予算を予測し、
  • 代替の比較(キャッシュとDB、 gRPCとREST)、
  • リリース後のリグレッションを管理します。

原則:1つのメトリック辞書、パーセンタイルによる集計(p50/p90/p95/p99)、「ホット」と「コールド」パスの個別のアカウンティング、コンテキスト(バージョン、地域、プロバイダ、デバイス)。

2)メトリクスの分類

2.1基本的なSREフレーム

4つの黄金信号:遅延、トラフィック、エラー、彩度。
RED(マイクロサービス用):レート、エラー、期間。
USE(ハードウェア用):使用率、彩度、エラー。

2.2つのレベル

インフラストラクチャ:CPU、 RAM、ディスク、ネットワーク、コンテナ、ノード。
プラットフォーム/サービス:APIエンドポイント、キュー、キャッシュ、データベース、イベントバス。
カスタマーエクスペリエンス:Web Vitals、モバイルSDK、ストリーミング、CDN。
データプラットフォーム:ETL/ELT、ストリーム、ストアフロント、BI遅延。
ビジネスの重要な流れ:承認、KYC、預金/支払い、ゲームラウンド。

3)主要な指標と数式のカタログ

3.1 APIおよびマイクロサービス

RPS(毎秒リクエスト)。
遅延p50/p95/p99 (ms)-好ましくは"end-to-end'と"backend-only"。
エラー率(%)=5xx+4xx検証済み/すべてのリクエスト。
彩度:平均ワーカーキューの長さ、飛行中のリクエスト。
コールドスタートレート(FaaS用)。
スロットリング/ドロップリクエスト。

SLOの例: p95レイテンシ≤ EU東地域で2kまでのRPSで250ミリ秒;エラー≤ 0。5%.

3.2データベース

QPS/Transactions/s、 avg/medianクエリ時間、p95クエリ時間。
ロック待ち/デッドロック、行/インデックスのヒット率、バッファキャッシュミス%。
RepLag(レプリケーション)、チェックポイント/フラッシュ時間、Autovacuum lag。
ホットキー/スキュー-負荷によるトップNキー。

「コアリクエスト」の式:QPS/ vCPU_core_count→シャーディングの信号。

3.3キャッシュとCDN

Hit Ratio(%)、Evictions/s、 Latency p95、 Item Size percentiles。
Origin Offload(%)CDN、 TTFB、 Stale-while-revalidate hit%。

3.4キュー/ストリーム

入力/出力msg/s、コンシューマラグ、リバランスレート。
処理時間p95のDLQ率。

3.5インフラ/コンテナ

CPU使用率%、CPUスロットル%、ランキュー長。
メモリRSS/ワーキングセット、 OOM kills、 Page Faults。
ディスクIOPS/レイテンシ/スループット、ネットワークRTT/再送。
ノードの飽和:保留中のポッド、圧力(CPU/メモリ/IO)。

3.6 Webクライアント(UX)

コアウェブバイタル:LCP、 INP、 CLS。
TTFB、 FCP、 TTI、リソースタイミング(DNS、 TLS、 TTFB、ダウンロード)。
エラーレート(JS)、ロングタスク、SPAルート変更時間。
CDNジオレイテンシー(パーセンタイル)。

3.7モバイルクライアント

アプリ開始時間(寒い/暖かい)、ANR率、クラッシュフリーセッション%。
ネットワーク往復/セッション、ペイロードサイズ、バッテリードレイン/セッション。
オフラインの成功率。

3.8データプラットフォームとレポート

フレッシュネス・ラグ(T-now→video-now)、スループット・ロー/s、ジョブ成功率%。
処理されたTBあたりのコスト、パーティーごとのスキュー、レイトイベント%。
キーダッシュボードのBI Time-to-Render p95。

3.9ドメインクリティカルフロー(例としてiGaming)

Auth P95、 KYC TTV (Time-to-Verify)、入金/出金p95。
ゲームラウンド期間p95、 RNGコールレイテンシ、プロバイダRTT p95。
支払いPSP成功率、チャージバック調査SLA。

4)正規化、パーセンタイルおよびアトリビューション

パーセンタイルと平均:p50/p90/p95/p99を修正-平均ピーク痛みを滑らかにします。
セクション:アプリケーションのバージョン、地域、プロバイダ、ネットワークチャネル(4G/Wi-Fi)、デバイス。
相関:因果チェーンの「バックエンド専用」と「リアルユーザー」メトリクスを関連付けます。
Exemplars/Traces:極端なパーセンタイルとトレースを関連付ける。

5)しきい値とアラート(おおよそのグリッド)

レイテンシp95 (コアAPI):警告>250ミリ秒、クリティカル>400ミリ秒5分。
エラー率:警告>0。5%、クリティカル>2%(エンドポイント、グローバルではありません)。
DB RepLag: warning> 2 s、 critical> 10 s。
カフカ消費者の遅れ(時間):警告>30秒、重要>2分。
Web LCP (p75):警告>2。5秒、クリティカル>4秒。
モバイルANR:警告>0。5%、重要>1%。
ETL鮮度:warning>+15 min、 critical>+60 min {{ETL Freshness: warning>+15 min、 critical>+60 min。

私たちは、静的+適応しきい値(季節性、日パターン)、重複除外、およびサービス/リリースによるアラートのグループ化を使用します。

6)性能のテスト

タイプ:ベースライン、ストレス、長期(浸漬)、カオス(リンク/PSPを劣化)。
ロードプロファイル:実際のトランザクション(配布ベース)、「バースト」、地域のピーク。
目標:目標RPSおよびミックス操作によるSLO達成、バックプレッシャー検証。
実行メトリクス:スループット、エラー%、p95レイテンシ、GC一時停止、CPUスロットル、キューラグ、コスト/実行。

回帰ルール:p95が等しいプロファイルで10%以上劣化していない場合、リリースが成功したと見なされ、要求(CPU-ms/request)のコストが>15%増加していません。

7)容量の計画および価格/性能

需要モデル:RPS時間×平均作業/要求(CPU-ms、 IO-ops)。
ヘッドルーム:クリティカルパスの30〜50%マージン、P95による自動スケーリング。
コストKPI: 1kリクエストあたりのコスト、1 GBあたりのコスト、1 pp LCPの改善あたりのコスト。
キャッシュ/非正規化:read 「cache ROI」=(CPU-ms節約−キャッシュコスト)。
暖かい領域と寒い領域:CDN/エッジへのオフロード、読み取り専用レプリケーション。

8)観察可能性およびプロファイリングの練習

トレース:すべてのホップにわたる分散トレースID;サンプリングはスマートです(テールベース)。
メトリクス:Prometheus/OpenTelemetry、名前とラベルの単一の記法。
ログ:トレース相関/スパンで、ノイズをログに予算、PII編集。
プロファイラ:CPU/ヒープ/Alloc/ロックプロファイル、連続プロファイル(eBPF)。
サンプルインスタンス:p99バーストを特定のスパン/SQL/PSP呼び出しに関連付けます。

9)リリースとチームメトリクス(完全性のために)

DORA:展開頻度、リードタイム、変更障害率、MTTR。
スペース:満足、性能、活動、コミュニケーション、効率。
これらの指標は鉄に関するものではなく、パフォーマンスの安定性に直接影響します。

10)アンチパターン

平均を追跡する:p95/p99を無視する。
「グローバル」エラー率:痛みを伴うエンドポイントを非表示にします。
バージョンによるアトリビューションなし:クライアントのリグレッションをキャッチすることは不可能です。
アラートスパム:ヒステリシスおよび季節性の訂正のないしきい値。
ブラインド最適化:採点やトレースはありません。
UXとバックエンドの待ち時間の混在:顧客体験からの誤った結論。

11)チェックリスト

ユニファイドメトリック標準

  • 数式、単位、所有者を含むメトリックの辞書
  • 必須パーセンタイルp50/p90/p95/p99
  • トレース相関とログ相関
  • タグ:地域、バージョン、プロバイダ、デバイス、ネットワークチャネル
  • ヒステリシスと重複除外のしきい値

リリース前

  • ステージとprodのベースラインp95/p99
  • カナリアトラフィック+A/Bメトリック比較
  • 高速ロールバックフラグ機能
  • 観察ランブック

定期的に

  • 最も遅いトップN クエリ/SQLレビュー
  • キャッシュポリシーとTTLの監査
  • 鮮度とデータベースレプリケーションのチェック
  • 外部プロバイダの劣化テスト(PSP、 KYC)

12)ミニプレイブック(例)

劣化P95/API/支払い

1.エラー%とPSP外部タイムアウトをチェックします。
2.コンシューマラグキューコルベックをチェックします。
3.p99の例を見るSQL/HTTPボトルネックをトレースする?
4.ディレクトリ/リミットキャッシュを有効にし、N+1を削減します。
5.予算:一時的に労働者のリソースを20%引き上げ、オートスケールを含む。
6.Post-fix: index by (psp_id、 status、 created_at)、 retray-jitter。

DBにおけるRepLagの増加

1.「重い」リクエストと長いトランザクションをチェックします。
2.レプリケーションの同時性を高め、チェックポイントを調整します。
3.読み取り専用のキャッシュ/レプリカをオフロードします。
4.ピークウィンドウで-部分的なデノーム+バッチ。

13) 数式/SQLの例(簡略化)

エンドポイントによるエラー率

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

レイテンシp95 (TDigest/約)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

消費者ラグ(時間)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14)ダッシュボードへの埋め込みとレポート作成

KPIカード:p95レイテンシ、エラー%、RPS、 WoW/DoDトレンドの彩度。
トップN「最悪」エンドポイント/SQL/リソース、クリック可能なドリルダウン→トレース。
クライアントバージョン相関:カラム「version→p95 LCP/INP→conversion」。
世界地図:地理遅延(CDN)、地域別PSP遅延。
SLOパネル:SLOのタイムシェア、SLOからのクラッシュ、「error budget」。

15)合計

パフォーマンスメトリクスは、単一の語彙、パーセンタイル、アトリビューション、優れたオブザビリティ、および厳格なSLOというシステム規律です。テクニカル(レイテンシー、ラグ、キャッシュヒット)と製品信号(KYC時間、P95デポジット、LCP)を組み合わせることで、予測可能でスケーラブルな、エクスペリエンスの品質と配信コストを管理できます。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。