操作と→管理パフォーマンス指標
パフォーマンスメトリック
1)なぜパフォーマンスメトリックなのか
パフォーマンスは、特定のコストで応答時間とスループットでターゲットSLOを提供するシステムの能力です。メトリックなしでは不可能です:- インシデントの前に劣化を検出し、
- 容量と予算を予測し、
- 代替の比較(キャッシュとDB、 gRPCとREST)、
- リリース後のリグレッションを管理します。
原則:1つのメトリック辞書、パーセンタイルによる集計(p50/p90/p95/p99)、「ホット」と「コールド」パスの個別のアカウンティング、コンテキスト(バージョン、地域、プロバイダ、デバイス)。
2)メトリクスの分類
2.1基本的なSREフレーム
4つの黄金信号:遅延、トラフィック、エラー、彩度。
RED(マイクロサービス用):レート、エラー、期間。
USE(ハードウェア用):使用率、彩度、エラー。
2.2つのレベル
インフラストラクチャ:CPU、 RAM、ディスク、ネットワーク、コンテナ、ノード。
プラットフォーム/サービス:APIエンドポイント、キュー、キャッシュ、データベース、イベントバス。
カスタマーエクスペリエンス:Web Vitals、モバイルSDK、ストリーミング、CDN。
データプラットフォーム:ETL/ELT、ストリーム、ストアフロント、BI遅延。
ビジネスの重要な流れ:承認、KYC、預金/支払い、ゲームラウンド。
3)主要な指標と数式のカタログ
3.1 APIおよびマイクロサービス
RPS(毎秒リクエスト)。
遅延p50/p95/p99 (ms)-好ましくは"end-to-end'と"backend-only"。
エラー率(%)=5xx+4xx検証済み/すべてのリクエスト。
彩度:平均ワーカーキューの長さ、飛行中のリクエスト。
コールドスタートレート(FaaS用)。
スロットリング/ドロップリクエスト。
SLOの例: p95レイテンシ≤ EU東地域で2kまでのRPSで250ミリ秒;エラー≤ 0。5%.
3.2データベース
QPS/Transactions/s、 avg/medianクエリ時間、p95クエリ時間。
ロック待ち/デッドロック、行/インデックスのヒット率、バッファキャッシュミス%。
RepLag(レプリケーション)、チェックポイント/フラッシュ時間、Autovacuum lag。
ホットキー/スキュー-負荷によるトップNキー。
「コアリクエスト」の式:QPS/ vCPU_core_count→シャーディングの信号。
3.3キャッシュとCDN
Hit Ratio(%)、Evictions/s、 Latency p95、 Item Size percentiles。
Origin Offload(%)CDN、 TTFB、 Stale-while-revalidate hit%。
3.4キュー/ストリーム
入力/出力msg/s、コンシューマラグ、リバランスレート。
処理時間p95のDLQ率。
3.5インフラ/コンテナ
CPU使用率%、CPUスロットル%、ランキュー長。
メモリRSS/ワーキングセット、 OOM kills、 Page Faults。
ディスクIOPS/レイテンシ/スループット、ネットワークRTT/再送。
ノードの飽和:保留中のポッド、圧力(CPU/メモリ/IO)。
3.6 Webクライアント(UX)
コアウェブバイタル:LCP、 INP、 CLS。
TTFB、 FCP、 TTI、リソースタイミング(DNS、 TLS、 TTFB、ダウンロード)。
エラーレート(JS)、ロングタスク、SPAルート変更時間。
CDNジオレイテンシー(パーセンタイル)。
3.7モバイルクライアント
アプリ開始時間(寒い/暖かい)、ANR率、クラッシュフリーセッション%。
ネットワーク往復/セッション、ペイロードサイズ、バッテリードレイン/セッション。
オフラインの成功率。
3.8データプラットフォームとレポート
フレッシュネス・ラグ(T-now→video-now)、スループット・ロー/s、ジョブ成功率%。
処理されたTBあたりのコスト、パーティーごとのスキュー、レイトイベント%。
キーダッシュボードのBI Time-to-Render p95。
3.9ドメインクリティカルフロー(例としてiGaming)
Auth P95、 KYC TTV (Time-to-Verify)、入金/出金p95。
ゲームラウンド期間p95、 RNGコールレイテンシ、プロバイダRTT p95。
支払いPSP成功率、チャージバック調査SLA。
4)正規化、パーセンタイルおよびアトリビューション
パーセンタイルと平均:p50/p90/p95/p99を修正-平均ピーク痛みを滑らかにします。
セクション:アプリケーションのバージョン、地域、プロバイダ、ネットワークチャネル(4G/Wi-Fi)、デバイス。
相関:因果チェーンの「バックエンド専用」と「リアルユーザー」メトリクスを関連付けます。
Exemplars/Traces:極端なパーセンタイルとトレースを関連付ける。
5)しきい値とアラート(おおよそのグリッド)
レイテンシp95 (コアAPI):警告>250ミリ秒、クリティカル>400ミリ秒5分。
エラー率:警告>0。5%、クリティカル>2%(エンドポイント、グローバルではありません)。
DB RepLag: warning> 2 s、 critical> 10 s。
カフカ消費者の遅れ(時間):警告>30秒、重要>2分。
Web LCP (p75):警告>2。5秒、クリティカル>4秒。
モバイルANR:警告>0。5%、重要>1%。
ETL鮮度:warning>+15 min、 critical>+60 min {{ETL Freshness: warning>+15 min、 critical>+60 min。
私たちは、静的+適応しきい値(季節性、日パターン)、重複除外、およびサービス/リリースによるアラートのグループ化を使用します。
6)性能のテスト
タイプ:ベースライン、ストレス、長期(浸漬)、カオス(リンク/PSPを劣化)。
ロードプロファイル:実際のトランザクション(配布ベース)、「バースト」、地域のピーク。
目標:目標RPSおよびミックス操作によるSLO達成、バックプレッシャー検証。
実行メトリクス:スループット、エラー%、p95レイテンシ、GC一時停止、CPUスロットル、キューラグ、コスト/実行。
回帰ルール:p95が等しいプロファイルで10%以上劣化していない場合、リリースが成功したと見なされ、要求(CPU-ms/request)のコストが>15%増加していません。
7)容量の計画および価格/性能
需要モデル:RPS時間×平均作業/要求(CPU-ms、 IO-ops)。
ヘッドルーム:クリティカルパスの30〜50%マージン、P95による自動スケーリング。
コストKPI: 1kリクエストあたりのコスト、1 GBあたりのコスト、1 pp LCPの改善あたりのコスト。
キャッシュ/非正規化:read 「cache ROI」=(CPU-ms節約−キャッシュコスト)。
暖かい領域と寒い領域:CDN/エッジへのオフロード、読み取り専用レプリケーション。
8)観察可能性およびプロファイリングの練習
トレース:すべてのホップにわたる分散トレースID;サンプリングはスマートです(テールベース)。
メトリクス:Prometheus/OpenTelemetry、名前とラベルの単一の記法。
ログ:トレース相関/スパンで、ノイズをログに予算、PII編集。
プロファイラ:CPU/ヒープ/Alloc/ロックプロファイル、連続プロファイル(eBPF)。
サンプルインスタンス:p99バーストを特定のスパン/SQL/PSP呼び出しに関連付けます。
9)リリースとチームメトリクス(完全性のために)
DORA:展開頻度、リードタイム、変更障害率、MTTR。
スペース:満足、性能、活動、コミュニケーション、効率。
これらの指標は鉄に関するものではなく、パフォーマンスの安定性に直接影響します。
10)アンチパターン
平均を追跡する:p95/p99を無視する。
「グローバル」エラー率:痛みを伴うエンドポイントを非表示にします。
バージョンによるアトリビューションなし:クライアントのリグレッションをキャッチすることは不可能です。
アラートスパム:ヒステリシスおよび季節性の訂正のないしきい値。
ブラインド最適化:採点やトレースはありません。
UXとバックエンドの待ち時間の混在:顧客体験からの誤った結論。
11)チェックリスト
ユニファイドメトリック標準
- 数式、単位、所有者を含むメトリックの辞書
- 必須パーセンタイルp50/p90/p95/p99
- トレース相関とログ相関
- タグ:地域、バージョン、プロバイダ、デバイス、ネットワークチャネル
- ヒステリシスと重複除外のしきい値
リリース前
- ステージとprodのベースラインp95/p99
- カナリアトラフィック+A/Bメトリック比較
- 高速ロールバックフラグ機能
- 観察ランブック
定期的に
- 最も遅いトップN クエリ/SQLレビュー
- キャッシュポリシーとTTLの監査
- 鮮度とデータベースレプリケーションのチェック
- 外部プロバイダの劣化テスト(PSP、 KYC)
12)ミニプレイブック(例)
劣化P95/API/支払い
1.エラー%とPSP外部タイムアウトをチェックします。
2.コンシューマラグキューコルベックをチェックします。
3.p99の例を見るSQL/HTTPボトルネックをトレースする?
4.ディレクトリ/リミットキャッシュを有効にし、N+1を削減します。
5.予算:一時的に労働者のリソースを20%引き上げ、オートスケールを含む。
6.Post-fix: index by (psp_id、 status、 created_at)、 retray-jitter。
DBにおけるRepLagの増加
1.「重い」リクエストと長いトランザクションをチェックします。
2.レプリケーションの同時性を高め、チェックポイントを調整します。
3.読み取り専用のキャッシュ/レプリカをオフロードします。
4.ピークウィンドウで-部分的なデノーム+バッチ。
13) 数式/SQLの例(簡略化)
エンドポイントによるエラー率
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
レイテンシp95 (TDigest/約)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
消費者ラグ(時間)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14)ダッシュボードへの埋め込みとレポート作成
KPIカード:p95レイテンシ、エラー%、RPS、 WoW/DoDトレンドの彩度。
トップN「最悪」エンドポイント/SQL/リソース、クリック可能なドリルダウン→トレース。
クライアントバージョン相関:カラム「version→p95 LCP/INP→conversion」。
世界地図:地理遅延(CDN)、地域別PSP遅延。
SLOパネル:SLOのタイムシェア、SLOからのクラッシュ、「error budget」。
15)合計
パフォーマンスメトリクスは、単一の語彙、パーセンタイル、アトリビューション、優れたオブザビリティ、および厳格なSLOというシステム規律です。テクニカル(レイテンシー、ラグ、キャッシュヒット)と製品信号(KYC時間、P95デポジット、LCP)を組み合わせることで、予測可能でスケーラブルな、エクスペリエンスの品質と配信コストを管理できます。