容量計画と負荷増加

概要

パワーは、期待される負荷の増加と故障のためにターゲットのSLOに耐える能力です。基礎：

1.需要予測（基準トレンド+季節性+イベント）。

2.ロードモデル（インターネットのオープンモデル）。

3.ヘッドルームと誤った予算。

4.スケーリング（horizon/vertical/auto）+リミッター（rate-limit/backpressure）。

5.ファイナンス：$/1000 RPS、 $/ms p95、シナリオ別TCO。

利用規約とメトリクス

スループット：RPS/QPS/CPS-実際のスループット。
レイテンシp95/p99：ユーザーパスのターゲットSLO。
彩度：CPU/メモリ/IO/FD/接続/キューのロード。
エラー率：5xx/timeout/429、期間の誤った予算。
ヘッドルーム：ピーク時の無料電力のシェア（推奨≥ 30％）。
バースト：短期スパイク（秒/分）、スパイク：シャープ上昇× N。

基本モデルと数式

Little's Law（キュー付きシステム用）


L = λ W

Lはシステムの平均要求数、λは平均入力率（RPS）、 Wはシステムの平均時間です。キューの深さを推定するのに便利です。

荷重係数（ρ）


ρ = λ / μ

μ-サービス速度（100％ CPUでのRPS）。ρ→1の場合、レイテンシーは非線形に増加します-作業ポイントをρ 0 ≤保ちます。6–0.75.

安全係数/マージン


Capacity_required = Peak_load (1 + Headroom) Degradation_factor

Degradation_factorがN障害、キャッシュの劣化、1つのPoP/リージョンの損失を占めている場合（例： 1。2).

需要予測

1.履歴：日/週のプロフィール、季節性、イベントとの相関（マッチ/ストリーム/ペイアウト）。

2.イベント： シナリオ係数（通常日× 1、トーナメント× 2。3、最終的な× 3。5).

3.変動の原因：マーケティングキャンペーン、リリース、ボット異常。
4.予報ユニット：ルート別RPS（ログイン、ロビー、カタログ、決済）、CPS TLS、 QPS DB、 IOPSディスク、egress Gbps。
5.信頼：保守的で攻撃的な2つのシナリオを維持します。

ロードシミュレーション

Open-model （Poisson-like arrival）： public API/web-サイジングのための使用。
クローズドモデル（VU+think-time）：内部シーケンスに適しています。結合しなさい。
配線混合物：エンドポイントあたりの重量分数；「熱い」だけでなく「、高価な」（登録、預金）を含みます。
忘れないでください：レトラ、キュー、パートナー制限（PSP、サードパーティのAPI）。

安全マージン設計

ヘッドルームターゲット：ピークまで≥ 30％（インターネット用）。支払の中心および重大な道のため-40-50％。
N+1/N+2： SLOに違反することなく、1-2インスタンス/ゾーンの障害に耐えます。
複数の領域：各地域は（隣人の損失を生き残るために）総ピークの60％を≥に引っ張ります。
劣化モード：二次関数を無効にし、ペイロードを減らし、キャッシュ/スタブ応答を有効にします。

レイヤーによるサイジング

ネットワーク/エッジ

前面のCPS/RPS、 TLSハンドシェイクp95、再開≥ 70％、出力Gbps。
Anycast/Geoルーティング、CDN/WAF制限（事前に同意）。
マージン：link/aplink ≥ピーク× 1。3のH3の余白のUDP/443が付いているSYNのbacklog。

バランサー/プロキシ

インスタンスへのRPS、オープン接続、キュー、CPU/IRQ。
キープアライブと接続プール-バックエンドへの接続を削減します。
在庫：ρ ≤ 0。7、ルートごとのリミッタCPS/RPS。

アプリケーション

高原のコアあたりの目標性能（RPS/コア）。
プール（スレッド/DB/HTTP）-制限に実行しないでください。
在庫：CPU 60〜70％、レイテンシートリガ（p95）までオートスケール。

キャッシュ

ヒット率、ホットセットのボリューム、立ち退き、レプリカ。
リザーブ：メモリ≥ 1。2 ×ホットセット、ネットワークヘッドルーム≥ 30％。

データベース

QPS/TPM、 p95リクエスト、ロック、バッファキャッシュ、WAL/レプリケーションラグ。
IOPSおよびレイテンシードライブはp95のキーです。
マージン：CPUオペレーティングポイント50-65％、レプリカラグ<ターゲット；チャーディングプランとread-replicas。

ディスク/ストレージ

IOPS （4k/64k）、スループット、fsyncコスト。
在庫：IOPS ≥ピーク× 1。5のターゲットウィンドウのレイテンシp95；ログ/データのための独立したプール。

GPU/ML（オンライン推論がある場合）

サンプル/s、レイテンシ、VRAMヘッドルーム、バッチ処理。
マージン：バッチパラメータは「saw」負荷、ウォームプールGPUの下にあります。

オートスケーリング

HPA/KEDA： CPUメトリック+カスタム（p95レイテンシ、RPS、キュー）。
暖かいプール：イベント前に予熱されたインスタンス。
ステップスケーリング：「見た」ではないようにクールダウンでステップ。
反作用時間：前部層のためのT_scale ≤ 1-2分を向けて下さい；DBの場合-事前に。

リミッターとバックプレッシャー

IP/ASN/デバイス/ルート；パートナー・クォータ。
TTLでキュー、タイムアウト前に拒否「礼儀」（429/gray-vol経由）。
Idempotence：支払のためのキー；budget+jitterでリトレイします。
リクエスト折りたたみ/SWR：スプラッシュ中に起源を起こしないでください。

クイック計算の例

与えられた：35k RPS APIピーク予測、p95 ≤ 250ミリ秒、平均サービス時間8ミリ秒/インスタンス60％ CPU→μ≈125 RPS/コア、 8コア/インスタンス→~ 1000 RPS/インスタンス。
ステップ1（在庫なし）：35インスタンス。

ステップ2（ヘッドルーム30％）： 35 × 1。3 = 46.

ステップ3（1つのAZの失敗、+20％）： 46 × 1。2 ≈ 55.

ステップ4（丸め+ホットリザーブ10％）：61インスタンス。
チェック：ρ ≈ 35k/（ 61k） ≈ 0。57-グリーンゾーンで。

金融モデル（FinOps）

レイヤーごとに$/1000 RPS（エッジ、プロキシ、アプリ、DB）。
$/ms p95（テール削減コスト）。
TCOシナリオ：オンデマンド対予約スポット（中断のリスクがある）。
容量計画：四半期ごとのアカウント/クラスタ制限、クラウドクォータ、PSP/CDN制限。

障害とDRの準備

マルチAZ/リージョン：各アーム≈負荷の60％です。
フェイルオーバー計画：Anycast、 GSLBスイッチング、TTL ≤ 60-120を撤回します。
重要な依存関係：PSP/銀行限界、セカンダリプロバイダ。
定期的な演習：PoP/BG/キャッシュをオフにしたゲームの日。

観測可能性と初期飽和信号

p95/p99の成長と安定した入力でキュー。
ヒット比キャッシュドロップ、オリジンエグレスの増加。
Retransmitts/ECN CEの増加、TLSの再開は落ちる。
成長429/タイムアウトと再試行率。
データベースの場合-競合の増加、チェックポイント時間、WAL fsync。

運用慣行

容量レビュー毎月：事実と計画。
イベントのウィンドウを変更：カーネルと制限をフリーズします。
Prewarm （CDN/DNS/TLS/プール）ピークの10-30分前。
リミットバージョニング：Gitのrate-limit/pools設定を修正しました。

iGaming/fintech固有の

トーナメント/マッチ：spike+plateauプロファイル、ボットのグレールート、個別の登録/デポジット制限。
支払い/PSP：プロバイダ/メソッドクォータ、フォールバックルート、egress-IPプール、SLA Time-to-Wallet。
コンテンツプロバイダ：スタジオ、ホットキャッシュ、シャードプールによる配布。
Antifraud/AML：ルール/スコアの制限、ピーク時の軽いルールへの劣化。

実装チェックリスト

ピーク予測（ベース/シーズン/イベント）、2つのシナリオ。
SLO/間違った予算とターゲットのヘッドルーム≥ 30％です。
レイヤー単位でのサイジング（edge/proxy/app/cache/DB/IO/network）
レート制限、キュー、idempotency、再試行予算。
HPA/KEDA+暖かいプール；イベント前のプロモーションプラン。
マルチAZ/リージョン、フェイルオーバープレイブック、TTLおよびGSLB。
クラウド/PSP/CDNクォータは一貫しており、文書化されています。
観測可能性：容量ダッシュボード、初期飽和信号。
DR演習と定期的なキャパシティ・レビュー。

よくあるエラー

テイリング/スパイクなしの平均RPSの計画。
ρ≈0.9 「on paper」-レイテンシはわずかなノイズで爆発します。
外部サービス制限（PSP/CDN/DBクラスタ）を無視します。
劣化モードがなく、バックプレッシャーがカスケードに失敗しています。
予熱なしの自動スケール-ピークの「後」を管理します。
すべてのレイヤーのシングルヘッドルーム-ボトルネックが移行します。

ミニプレイブック

ピークイベント前（T-30分）

1.minReplicas/target HPAを増やし、ウォームプールを有効にします。
2.CDN/DNS/TLS/接続をウォームアップし、キャッシュをウォームアップします。
3.合意されたPSPプール制限とクォータを引き上げます。
4.灰色のルート/ボットフィルタ、狭い重いエンドポイントをオンにします。

地域の部分的な損失

1.GSLB→近隣地域、TTL 60-120 s。
2.劣化モード（キャッシュ/簡略チェックアウト）を有効にします。
3.PSP/egress-IPの制限を再配布します。
4.状態通信、p95/error制御。

リトリートでサージ

1.再試行予算を削減し、バックオフ+ジッタを有効にします。
2.GETでリクエスト折りたたみ/SWRを有効にします。
3.「ノイズの多い」ASNのレート制限を一時的に引き締めます。

［結果］

キャパシティプランニングは、需要予測+エンジニアリングモデル+安全マージン+運用レバーです。SLOとヘッドルームを正式化し、外部の制限を考慮し、スケーリングと劣化を自動化し「、ミリ秒当たりのコスト」を測定し、定期的な容量レビューを実施します。その後、負荷の増加はリスクではなく、管理可能なビジネスメトリックに変わります。