操作と→管理パフォーマンス指標

パフォーマンスメトリック

1）なぜパフォーマンスメトリックなのか

パフォーマンスは、特定のコストで応答時間とスループットでターゲットSLOを提供するシステムの能力です。メトリックなしでは不可能です：

インシデントの前に劣化を検出し、
容量と予算を予測し、
代替の比較（キャッシュとDB、 gRPCとREST）、
リリース後のリグレッションを管理します。

原則：1つのメトリック辞書、パーセンタイルによる集計（p50/p90/p95/p99）、「ホット」と「コールド」パスの個別のアカウンティング、コンテキスト（バージョン、地域、プロバイダ、デバイス）。

2）メトリクスの分類

2.1基本的なSREフレーム

4つの黄金信号：遅延、トラフィック、エラー、彩度。
RED（マイクロサービス用）：レート、エラー、期間。
USE（ハードウェア用）：使用率、彩度、エラー。

2.2つのレベル

インフラストラクチャ：CPU、 RAM、ディスク、ネットワーク、コンテナ、ノード。
プラットフォーム/サービス：APIエンドポイント、キュー、キャッシュ、データベース、イベントバス。
カスタマーエクスペリエンス：Web Vitals、モバイルSDK、ストリーミング、CDN。
データプラットフォーム：ETL/ELT、ストリーム、ストアフロント、BI遅延。
ビジネスの重要な流れ：承認、KYC、預金/支払い、ゲームラウンド。

3）主要な指標と数式のカタログ

3.1 APIおよびマイクロサービス

RPS（毎秒リクエスト）。
遅延p50/p95/p99 （ms）-好ましくは"end-to-end'と"backend-only"。
エラー率（％）=5xx+4xx検証済み/すべてのリクエスト。
彩度：平均ワーカーキューの長さ、飛行中のリクエスト。
コールドスタートレート（FaaS用）。
スロットリング/ドロップリクエスト。

SLOの例： p95レイテンシ≤ EU東地域で2kまでのRPSで250ミリ秒；エラー≤ 0。5%.

3.2データベース

QPS/Transactions/s、 avg/medianクエリ時間、p95クエリ時間。
ロック待ち/デッドロック、行/インデックスのヒット率、バッファキャッシュミス％。
RepLag（レプリケーション）、チェックポイント/フラッシュ時間、Autovacuum lag。
ホットキー/スキュー-負荷によるトップNキー。

「コアリクエスト」の式：QPS/ vCPU_core_count→シャーディングの信号。

3.3キャッシュとCDN

Hit Ratio（％）、Evictions/s、 Latency p95、 Item Size percentiles。
Origin Offload（％）CDN、 TTFB、 Stale-while-revalidate hit％。

3.4キュー/ストリーム

入力/出力msg/s、コンシューマラグ、リバランスレート。
処理時間p95のDLQ率。

3.5インフラ/コンテナ

CPU使用率％、CPUスロットル％、ランキュー長。
メモリRSS/ワーキングセット、 OOM kills、 Page Faults。
ディスクIOPS/レイテンシ/スループット、ネットワークRTT/再送。
ノードの飽和：保留中のポッド、圧力（CPU/メモリ/IO）。

3.6 Webクライアント（UX）

コアウェブバイタル：LCP、 INP、 CLS。
TTFB、 FCP、 TTI、リソースタイミング（DNS、 TLS、 TTFB、ダウンロード）。
エラーレート（JS）、ロングタスク、SPAルート変更時間。
CDNジオレイテンシー（パーセンタイル）。

3.7モバイルクライアント

アプリ開始時間（寒い/暖かい）、ANR率、クラッシュフリーセッション％。
ネットワーク往復/セッション、ペイロードサイズ、バッテリードレイン/セッション。
オフラインの成功率。

3.8データプラットフォームとレポート

フレッシュネス・ラグ（T-now→video-now）、スループット・ロー/s、ジョブ成功率％。
処理されたTBあたりのコスト、パーティーごとのスキュー、レイトイベント％。
キーダッシュボードのBI Time-to-Render p95。

3.9ドメインクリティカルフロー（例としてiGaming）

Auth P95、 KYC TTV （Time-to-Verify）、入金/出金p95。
ゲームラウンド期間p95、 RNGコールレイテンシ、プロバイダRTT p95。
支払いPSP成功率、チャージバック調査SLA。

4）正規化、パーセンタイルおよびアトリビューション

パーセンタイルと平均：p50/p90/p95/p99を修正-平均ピーク痛みを滑らかにします。
セクション：アプリケーションのバージョン、地域、プロバイダ、ネットワークチャネル（4G/Wi-Fi）、デバイス。
相関：因果チェーンの「バックエンド専用」と「リアルユーザー」メトリクスを関連付けます。
Exemplars/Traces：極端なパーセンタイルとトレースを関連付ける。

5）しきい値とアラート（おおよそのグリッド）

レイテンシp95 （コアAPI）：警告>250ミリ秒、クリティカル>400ミリ秒5分。
エラー率：警告>0。5％、クリティカル>2％（エンドポイント、グローバルではありません）。
DB RepLag： warning> 2 s、 critical> 10 s。
カフカ消費者の遅れ（時間）：警告>30秒、重要>2分。
Web LCP （p75）：警告>2。5秒、クリティカル>4秒。
モバイルANR：警告>0。5％、重要>1％。
ETL鮮度：warning>+15 min、 critical>+60 min {{ETL Freshness： warning>+15 min、 critical>+60 min。

私たちは、静的+適応しきい値（季節性、日パターン）、重複除外、およびサービス/リリースによるアラートのグループ化を使用します。

6）性能のテスト

タイプ：ベースライン、ストレス、長期（浸漬）、カオス（リンク/PSPを劣化）。
ロードプロファイル：実際のトランザクション（配布ベース）、「バースト」、地域のピーク。
目標：目標RPSおよびミックス操作によるSLO達成、バックプレッシャー検証。
実行メトリクス：スループット、エラー％、p95レイテンシ、GC一時停止、CPUスロットル、キューラグ、コスト/実行。

回帰ルール：p95が等しいプロファイルで10％以上劣化していない場合、リリースが成功したと見なされ、要求（CPU-ms/request）のコストが>15％増加していません。

7）容量の計画および価格/性能

需要モデル：RPS時間×平均作業/要求（CPU-ms、 IO-ops）。
ヘッドルーム：クリティカルパスの30〜50％マージン、P95による自動スケーリング。
コストKPI： 1kリクエストあたりのコスト、1 GBあたりのコスト、1 pp LCPの改善あたりのコスト。
キャッシュ/非正規化：read 「cache ROI」=（CPU-ms節約−キャッシュコスト）。
暖かい領域と寒い領域：CDN/エッジへのオフロード、読み取り専用レプリケーション。

8）観察可能性およびプロファイリングの練習

トレース：すべてのホップにわたる分散トレースID；サンプリングはスマートです（テールベース）。
メトリクス：Prometheus/OpenTelemetry、名前とラベルの単一の記法。
ログ：トレース相関/スパンで、ノイズをログに予算、PII編集。
プロファイラ：CPU/ヒープ/Alloc/ロックプロファイル、連続プロファイル（eBPF）。
サンプルインスタンス：p99バーストを特定のスパン/SQL/PSP呼び出しに関連付けます。

9）リリースとチームメトリクス（完全性のために）

DORA：展開頻度、リードタイム、変更障害率、MTTR。
スペース：満足、性能、活動、コミュニケーション、効率。
これらの指標は鉄に関するものではなく、パフォーマンスの安定性に直接影響します。

10）アンチパターン

平均を追跡する：p95/p99を無視する。
「グローバル」エラー率：痛みを伴うエンドポイントを非表示にします。
バージョンによるアトリビューションなし：クライアントのリグレッションをキャッチすることは不可能です。
アラートスパム：ヒステリシスおよび季節性の訂正のないしきい値。
ブラインド最適化：採点やトレースはありません。
UXとバックエンドの待ち時間の混在：顧客体験からの誤った結論。

11）チェックリスト

ユニファイドメトリック標準

数式、単位、所有者を含むメトリックの辞書
必須パーセンタイルp50/p90/p95/p99
トレース相関とログ相関
タグ：地域、バージョン、プロバイダ、デバイス、ネットワークチャネル
ヒステリシスと重複除外のしきい値

リリース前

ステージとprodのベースラインp95/p99
カナリアトラフィック+A/Bメトリック比較
高速ロールバックフラグ機能
観察ランブック

定期的に

最も遅いトップN クエリ/SQLレビュー
キャッシュポリシーとTTLの監査
鮮度とデータベースレプリケーションのチェック
外部プロバイダの劣化テスト（PSP、 KYC）

12）ミニプレイブック（例）

劣化P95/API/支払い

1.エラー％とPSP外部タイムアウトをチェックします。
2.コンシューマラグキューコルベックをチェックします。
3.p99の例を見るSQL/HTTPボトルネックをトレースする？
4.ディレクトリ/リミットキャッシュを有効にし、N+1を削減します。
5.予算：一時的に労働者のリソースを20％引き上げ、オートスケールを含む。
6.Post-fix： index by （psp_id、 status、 created_at)、 retray-jitter。

DBにおけるRepLagの増加

1.「重い」リクエストと長いトランザクションをチェックします。
2.レプリケーションの同時性を高め、チェックポイントを調整します。
3.読み取り専用のキャッシュ/レプリカをオフロードします。
4.ピークウィンドウで-部分的なデノーム+バッチ。

13）数式/SQLの例（簡略化）

エンドポイントによるエラー率

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

レイテンシp95 （TDigest/約）

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

消費者ラグ（時間）

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14）ダッシュボードへの埋め込みとレポート作成

KPIカード：p95レイテンシ、エラー％、RPS、 WoW/DoDトレンドの彩度。
トップN「最悪」エンドポイント/SQL/リソース、クリック可能なドリルダウン→トレース。
クライアントバージョン相関：カラム「version→p95 LCP/INP→conversion」。
世界地図：地理遅延（CDN）、地域別PSP遅延。
SLOパネル：SLOのタイムシェア、SLOからのクラッシュ、「error budget」。

15）合計

パフォーマンスメトリクスは、単一の語彙、パーセンタイル、アトリビューション、優れたオブザビリティ、および厳格なSLOというシステム規律です。テクニカル（レイテンシー、ラグ、キャッシュヒット）と製品信号（KYC時間、P95デポジット、LCP）を組み合わせることで、予測可能でスケーラブルな、エクスペリエンスの品質と配信コストを管理できます。

操作と→管理パフォーマンス指標

パフォーマンスメトリック

リリース前

定期的に

レイテンシp95 （TDigest/約）

消費者ラグ（時間）

Web LCP p75

お問い合わせ

迅速な連絡

動画はまもなく更新されます

現在、私たちはプロジェクトで非常に多忙です