クラウドコストの最適化
1)なぜFinOpsとどのような目標
目標は、SLO/開発速度を維持しながらCOGSを削減することです。主な問題:- 1リクエスト、1アクティブユーザー、1テナントはいくらですか?
- 新機能/トラフィックの限界効果は何ですか?
- 「リーク」(出力、冗長ログ、CPU/メモリのオーバーヘッド、アイドルリソース)はどこにありますか?
基準メトリクス
Cost/Req、 Cost/Minute Active、 Cost/Tenant/Brand、 Cost/GB-stored、 Cost/GB-egress。
COGS%:売上高のコストのシェア。
廃棄物%:(支払われたが未使用のリソース)/(すべてのリソース)。
2)整理: タグ、所有権、予算
タグ/ラベル:'env'、 'team'、 'service'、 'tenant'、 'product'、 'cost_center'、 'slo_tier'。
所有:各リソースには所有者とTTLがあります。
予算/アラート:毎月/毎週の予算で、しきい値は50/80/100%+異常検出。
コードとしてのポリシー:禁止「タグなし」、サイズ制限、既定のリージョン、割り当てられたクォータ。
hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}
3)経済の建築レバー
3.1正しい寸法と自動スケーリング
右サイジング:実際のCPU/RAM p95のインスタンスを選択します。
自動スケーリング:水平>垂直;K8s-クラスタオートスケーラー/Karpenter、サーバーレス-min/maxの並列処理。
冷たい方法-ライン/バッチ;長期的なタスク-スケジュールで労働者に。
3.2スポット/購入容量
ステートレス/背景およびCIのための点/Preemptible;On-Demandバッファを保持します。
RI/CUD/節約プラン:安定した50-70%のベースロードを予約し、残りは弾性です。
3.3データストレージとクラス
別途:ホット(SSD)、ウォーム(標準)、コールド/アーカイブ(氷河/アーカイブ)。
ライフサイクルポリシー:シフトクラス、期間後に削除します。
必要な場所でバージョン管理を有効にし、監査のみにオブジェクトロック(WORM)を有効にします。
3.4ネットワークおよび出口
「raw」インターネットの代わりにプライベートチャンネル(PrivateLink/PSC/Direct Connect/Interconnect)
CDN/edge+stale-while-revalidateは、地域間の出力を低減します。
圧縮(Brotli/Zstd)、 HTTP/3/QUIC-より少ないRTT/再接続。
3.5データベースとキャッシュ
2レベルのスキームを選択します:キャッシュ(Redis/Memcached)+ストレージ。
分析のためのレプリカを読み、自動真空/圧縮、pgBouncer/RDSプロキシを使用します。
大きなテーブルの場合-パーティショニング/TTL/アーカイブ。
4) Kubernetes-economics
SLOクラスによる要求/制限;'limits: null' prohibition。
VPA(推奨事項)、Karpenter(囲炉裏のインスタンスの選択)、ビンパッキング(許容/親和性)。
prod/stage/devをクラスタ/ノードレベル(異なるタイプとポリシー)で分離します。
ネットワークとストレージクラス:「どこでもプレミアム」ではなく、ロードプロファイルでSC/IOPSを選択します。
QoSクラスと優先順位:バックグラウンドジョブの保存。
ログプロファイル:ローカルバッファを持つサイドカーエージェント。
5)サーバーレス経済学
最小インスタンス/プロビジョニングされた並列処理-ホットハンドルのみ。
小さなdeploy-bundle、 lazy-init、共有接続。
締め切りと重いタスクのキュー。
ファンクションアグリゲーター(ファンイン)に応じてダース旅行の代わりに。
6)観測可能性: 貴重なテレメトリーの支払い
ログ:構造、冗長性なし;クラス別のプレゼンテーション(prod errorsより長い、debug-short)。
トレースサンプリング:テールベース-100% エラー/p99、残りの1-10%。
メトリクス:集計/ダウンサンプリング、スパース送信。
送信前のPIIフィルタリング(バイト数とリスクが少ない)。
7)サプライヤーネットワークとマーケットプレイス
地域の価格、マネージドサービスの限界、市場のバンドルを比較します。
交渉:ボリュームディスカウント(RI/CUD)、コミット、クレジットプログラム。
オーバーラップ機能を備えたSaaSの複製は避けてください。
8)単位経済学およびダッシュボード
主要なコストSLI/SLO
ルート別のコスト/Req(ログイン、カタログ、デポジット)。
費用/テナント/ブランド/地域。
Egress/Req、 Storage/Req、 Compute/Req。
廃棄物%○カバレッジRI/SP%。
ダッシュボード(最小セット)
リソースに降下するサービス/チームの「コストマップ」。
「ヒートマップ」を方向別に出力します。
「サービス→コスト→SLO」: p99とCost/Reqの相関。
「RI/CUD/Spot」の適用範囲およびライン節約。
9) FinOpsプロセス
サービス所有者とのアカウントの毎週の分析。
生産を含める前に機能のコストを評価してレビューを変更します。
ガードレール:クォータ制限、アイドルリソースの自動補完、テスト環境のTTL。
GameDays of Value:人工スペード/フィーチャーフラグ、予算の持続可能性のチェック。
10) Antipatterns
TTLのない「一時的な」リソース→永遠に。
`0.0.0.0/0 'egress+CDN→egressアカウントが爆発しません。
タグ/ラベルがなければ→コストを割り当てることは不可能です。
DEBUGは売上、100%トレース-意味のないテラバイトでログを記録します。
プロビジョニング/serverful 「just in case」 usage metricsなし。
すべての負荷はオンデマンドのみで、RI/Spot/コミットはありません。
11) iGaming/Financeの詳細
PSP/支払手数料-COGSの一部:スマートルーティングを安価で信頼性の高いプロバイダに最適化する。キャッシュの状態は、idempotencyなしで繰り返しを避けます。
KYC/AMLベンダー:パッケージリクエスト、使用結果キャッシュ(ポリシー別TTL)、測定コスト/KYC。
「お金の方法」(入金/出金):別々のSLOと予算;ピークイベントのための埋蔵量、暖かい標本だけそこに。
Content/CDN:ローカルエッジとリージョナルドメインを使用して、排出量を削減し、データ常駐に準拠します。
法的要件:監査のためのWORMストレージ-制限範囲(集計、TTL、圧縮)。
12)ミニレシピ
12.1ログリテンションポリシー
Prodの間違い:30-90日;情報:7-14;デバッグ:24-72時間。
コンプライアンスの要求に応じてのみアーカイブします。
12.2カナリアテレメトリー
新しい機能-最初の24時間のトレースの100%→その後、テールサンプリング。
12.3オブジェクトライフサイクル
json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]
12.4予算/アラート(アイデア)
チームごとの毎月の予算;アラート50/80/100%;異常検出>24時間の傾向の30%
13) Prod Readinessチェックリスト
- 100%リソースタグと所有者;政治家はタグなしのものをブロックします。
- 予算とアラート+異常検出;タナント/ブランド/リージョンに関するレポート。
- RI/CUD/スポットカバーベースロード;オンデマンドバッファがあります。
- K8s: requests/limits set;VPA/Karpenter;ビンのパッキング;ストレージ/IOPSクラスを分離します。
- Serverless:ホットパスのみのプロビジョニング/min;冷たい-キューを通して。
- CDN/edgeが有効になっています。PaaSへのプライベートチャンネル;egress-dashboardを実行します。
- ログ/トレイル:テールサンプリング、クラス別の保持;PIIフィルタリング。
- ストレージライフサイクルとアーカイブ;大きいテーブルの仕切り。
- 財務ダッシュボードCost/Req、 Cost/Tenant、 Waste%、 Coverage RI/SP%。
- iGamingの場合:PSP/KYC/AML経費会計、SLOおよびマネーパス予算、WORM監査。
14) TL;DR(ドクター)
まず、可視性(タグ、予算、ダッシュボード)、次に構造レバー:正しい寸法、自動スケーリング、RI/Spot/コミット、 CDN/エッジおよびプライベートチャネル、ストレージクラスとライフサイクル。貴重なテレメトリー(テールサンプリング、ショートリテンション)を支払い、ガードレールを自動化します。iGamingでは、PSP/KYC/AMLをCOGSの一部として考え、別々のSLOと予算で「マネーパス」を強調表示します。