容量計画と負荷増加
概要
パワーは、期待される負荷の増加と故障のためにターゲットのSLOに耐える能力です。基礎:1.需要予測(基準トレンド+季節性+イベント)。
2.ロードモデル(インターネットのオープンモデル)。
3.ヘッドルームと誤った予算。
4.スケーリング(horizon/vertical/auto)+リミッター(rate-limit/backpressure)。
5.ファイナンス:$/1000 RPS、 $/ms p95、シナリオ別TCO。
利用規約とメトリクス
スループット:RPS/QPS/CPS-実際のスループット。
レイテンシp95/p99:ユーザーパスのターゲットSLO。
彩度:CPU/メモリ/IO/FD/接続/キューのロード。
エラー率:5xx/timeout/429、期間の誤った予算。
ヘッドルーム:ピーク時の無料電力のシェア(推奨≥ 30%)。
バースト:短期スパイク(秒/分)、スパイク:シャープ上昇× N。
基本モデルと数式
Little's Law(キュー付きシステム用)
L = λ W
Lはシステムの平均要求数、λは平均入力率(RPS)、 Wはシステムの平均時間です。キューの深さを推定するのに便利です。
荷重係数(ρ)
ρ = λ / μ
μ-サービス速度(100% CPUでのRPS)。ρ→1の場合、レイテンシーは非線形に増加します-作業ポイントをρ 0 ≤保ちます。6–0.75.
安全係数/マージン
Capacity_required = Peak_load (1 + Headroom) Degradation_factor
Degradation_factorがN障害、キャッシュの劣化、1つのPoP/リージョンの損失を占めている場合(例: 1。2).
需要予測
1.履歴:日/週のプロフィール、季節性、イベントとの相関(マッチ/ストリーム/ペイアウト)。
2.イベント: シナリオ係数(通常日× 1、トーナメント× 2。3、最終的な× 3。5).
3.変動の原因:マーケティングキャンペーン、リリース、ボット異常。
4.予報ユニット:ルート別RPS(ログイン、ロビー、カタログ、決済)、CPS TLS、 QPS DB、 IOPSディスク、egress Gbps。
5.信頼:保守的で攻撃的な2つのシナリオを維持します。
ロードシミュレーション
Open-model (Poisson-like arrival): public API/web-サイジングのための使用。
クローズドモデル(VU+think-time):内部シーケンスに適しています。結合しなさい。
配線混合物:エンドポイントあたりの重量分数;「熱い」だけでなく「、高価な」(登録、預金)を含みます。
忘れないでください:レトラ、キュー、パートナー制限(PSP、サードパーティのAPI)。
安全マージン設計
ヘッドルームターゲット:ピークまで≥ 30%(インターネット用)。支払の中心および重大な道のため-40-50%。
N+1/N+2: SLOに違反することなく、1-2インスタンス/ゾーンの障害に耐えます。
複数の領域:各地域は(隣人の損失を生き残るために)総ピークの60%を≥に引っ張ります。
劣化モード:二次関数を無効にし、ペイロードを減らし、キャッシュ/スタブ応答を有効にします。
レイヤーによるサイジング
ネットワーク/エッジ
前面のCPS/RPS、 TLSハンドシェイクp95、再開≥ 70%、出力Gbps。
Anycast/Geoルーティング、CDN/WAF制限(事前に同意)。
マージン:link/aplink ≥ピーク× 1。3のH3の余白のUDP/443が付いているSYNのbacklog。
バランサー/プロキシ
インスタンスへのRPS、オープン接続、キュー、CPU/IRQ。
キープアライブと接続プール-バックエンドへの接続を削減します。
在庫:ρ ≤ 0。7、ルートごとのリミッタCPS/RPS。
アプリケーション
高原のコアあたりの目標性能(RPS/コア)。
プール(スレッド/DB/HTTP)-制限に実行しないでください。
在庫:CPU 60〜70%、レイテンシートリガ(p95)までオートスケール。
キャッシュ
ヒット率、ホットセットのボリューム、立ち退き、レプリカ。
リザーブ:メモリ≥ 1。2 ×ホットセット、ネットワークヘッドルーム≥ 30%。
データベース
QPS/TPM、 p95リクエスト、ロック、バッファキャッシュ、WAL/レプリケーションラグ。
IOPSおよびレイテンシードライブはp95のキーです。
マージン:CPUオペレーティングポイント50-65%、レプリカラグ<ターゲット;チャーディングプランとread-replicas。
ディスク/ストレージ
IOPS (4k/64k)、スループット、fsyncコスト。
在庫:IOPS ≥ピーク× 1。5のターゲットウィンドウのレイテンシp95;ログ/データのための独立したプール。
GPU/ML(オンライン推論がある場合)
サンプル/s、レイテンシ、VRAMヘッドルーム、バッチ処理。
マージン:バッチパラメータは「saw」負荷、ウォームプールGPUの下にあります。
オートスケーリング
HPA/KEDA: CPUメトリック+カスタム(p95レイテンシ、RPS、キュー)。
暖かいプール:イベント前に予熱されたインスタンス。
ステップスケーリング:「見た」ではないようにクールダウンでステップ。
反作用時間:前部層のためのT_scale ≤ 1-2分を向けて下さい;DBの場合-事前に。
リミッターとバックプレッシャー
IP/ASN/デバイス/ルート;パートナー・クォータ。
TTLでキュー、タイムアウト前に拒否「礼儀」(429/gray-vol経由)。
Idempotence:支払のためのキー;budget+jitterでリトレイします。
リクエスト折りたたみ/SWR:スプラッシュ中に起源を起こしないでください。
クイック計算の例
与えられた:35k RPS APIピーク予測、p95 ≤ 250ミリ秒、平均サービス時間8ミリ秒/インスタンス60% CPU→μ≈125 RPS/コア、 8コア/インスタンス→~ 1000 RPS/インスタンス。
ステップ1(在庫なし):35インスタンス。
ステップ2(ヘッドルーム30%): 35 × 1。3 = 46.
ステップ3(1つのAZの失敗、+20%): 46 × 1。2 ≈ 55.
ステップ4(丸め+ホットリザーブ10%):61インスタンス。
チェック:ρ ≈ 35k/( 61k) ≈ 0。57-グリーンゾーンで。
金融モデル(FinOps)
レイヤーごとに$/1000 RPS(エッジ、プロキシ、アプリ、DB)。
$/ms p95(テール削減コスト)。
TCOシナリオ:オンデマンド対予約スポット(中断のリスクがある)。
容量計画:四半期ごとのアカウント/クラスタ制限、クラウドクォータ、PSP/CDN制限。
障害とDRの準備
マルチAZ/リージョン:各アーム≈負荷の60%です。
フェイルオーバー計画:Anycast、 GSLBスイッチング、TTL ≤ 60-120を撤回します。
重要な依存関係:PSP/銀行限界、セカンダリプロバイダ。
定期的な演習:PoP/BG/キャッシュをオフにしたゲームの日。
観測可能性と初期飽和信号
p95/p99の成長と安定した入力でキュー。
ヒット比キャッシュドロップ、オリジンエグレスの増加。
Retransmitts/ECN CEの増加、TLSの再開は落ちる。
成長429/タイムアウトと再試行率。
データベースの場合-競合の増加、チェックポイント時間、WAL fsync。
運用慣行
容量レビュー毎月:事実と計画。
イベントのウィンドウを変更:カーネルと制限をフリーズします。
Prewarm (CDN/DNS/TLS/プール)ピークの10-30分前。
リミットバージョニング:Gitのrate-limit/pools設定を修正しました。
iGaming/fintech固有の
トーナメント/マッチ:spike+plateauプロファイル、ボットのグレールート、個別の登録/デポジット制限。
支払い/PSP:プロバイダ/メソッドクォータ、フォールバックルート、egress-IPプール、SLA Time-to-Wallet。
コンテンツプロバイダ:スタジオ、ホットキャッシュ、シャードプールによる配布。
Antifraud/AML:ルール/スコアの制限、ピーク時の軽いルールへの劣化。
実装チェックリスト
- ピーク予測(ベース/シーズン/イベント)、2つのシナリオ。
- SLO/間違った予算とターゲットのヘッドルーム≥ 30%です。
- レイヤー単位でのサイジング(edge/proxy/app/cache/DB/IO/network)
- レート制限、キュー、idempotency、再試行予算。
- HPA/KEDA+暖かいプール;イベント前のプロモーションプラン。
- マルチAZ/リージョン、フェイルオーバープレイブック、TTLおよびGSLB。
- クラウド/PSP/CDNクォータは一貫しており、文書化されています。
- 観測可能性:容量ダッシュボード、初期飽和信号。
- DR演習と定期的なキャパシティ・レビュー。
よくあるエラー
テイリング/スパイクなしの平均RPSの計画。
ρ≈0.9 「on paper」-レイテンシはわずかなノイズで爆発します。
外部サービス制限(PSP/CDN/DBクラスタ)を無視します。
劣化モードがなく、バックプレッシャーがカスケードに失敗しています。
予熱なしの自動スケール-ピークの「後」を管理します。
すべてのレイヤーのシングルヘッドルーム-ボトルネックが移行します。
ミニプレイブック
ピークイベント前(T-30分)
1.minReplicas/target HPAを増やし、ウォームプールを有効にします。
2.CDN/DNS/TLS/接続をウォームアップし、キャッシュをウォームアップします。
3.合意されたPSPプール制限とクォータを引き上げます。
4.灰色のルート/ボットフィルタ、狭い重いエンドポイントをオンにします。
地域の部分的な損失
1.GSLB→近隣地域、TTL 60-120 s。
2.劣化モード(キャッシュ/簡略チェックアウト)を有効にします。
3.PSP/egress-IPの制限を再配布します。
4.状態通信、p95/error制御。
リトリートでサージ
1.再試行予算を削減し、バックオフ+ジッタを有効にします。
2.GETでリクエスト折りたたみ/SWRを有効にします。
3.「ノイズの多い」ASNのレート制限を一時的に引き締めます。
[結果]
キャパシティプランニングは、需要予測+エンジニアリングモデル+安全マージン+運用レバーです。SLOとヘッドルームを正式化し、外部の制限を考慮し、スケーリングと劣化を自動化し「、ミリ秒当たりのコスト」を測定し、定期的な容量レビューを実施します。その後、負荷の増加はリスクではなく、管理可能なビジネスメトリックに変わります。