Optimierung der Cloud-Kosten
1) Warum FinOps und welche Ziele
Ziel ist es, die COGS zu reduzieren und gleichzeitig die SLO/Entwicklungsgeschwindigkeit beizubehalten. Kernfragen:- Wie viel kostet 1 Anfrage, 1 aktiver Benutzer, 1 Tenant?
- Welche Margenwirkung hat der neue Ficher/Traffic?
- Wo sind die „Leaks“ (egress, redundante Logs, overhead CPU/Speicher, Leerlauf Ressourcen)?
Grundlegende Metriken
Cost/Req, Cost/Minute Active, Cost/Tenant/Brand, Cost/GB-stored, Cost/GB-egress.
COGS%: Anteil der Kosten am Umsatz.
Waste%: (bezahlte, aber ungenutzte Ressourcen )/( alle Ressourcen).
2) Aufräumen: Tags, Besitz, Budgets
Tags/Labels: „env“, „team“, „service“, „tenant“, „product“, „cost _ center“, „slo _ tier“.
Besitz: Jede Ressource hat einen Eigentümer und eine TTL.
Budgets/Alerts: monatliche/wöchentliche Budgets mit Schwellenwerten von 50/80/100% + anomale Erkennung.
Richtlinien als Code: No-Tag-Verbot, Größenlimits, Standardregionen, zugewiesene Kontingente.
hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}
3) Architektonische Sparhebel
3. 1 Richtige Abmessungen und Auto-Scaling
Rightsizing: Passen Sie die Instances an die tatsächliche CPU/RAM p95 an.
Auto-Scaling: horizontal> vertikal; для K8s — Cluster Autoscaler/Karpenter, для serverless — min/max concurrency.
Kalte Wege - in der Warteschlange/Batchi; langzeitige Aufgaben - in Werkern nach Zeitplan.
3. 2 Spot/zurückgekaufte Kapazität
Spot/Preemptible für Steitless/Backgrounds und CI; Halten Sie einen On-Demand-Puffer.
RI/CUD/Sparpläne: Buchen Sie stabile 50-70% der Grundlast, der Rest ist elastisch.
3. 3 Speicherung und Datenklassen
Teilen: heiß (SSD), warm (Standard), kalt/Archiv (Glacier/Archiv).
Lifecycle-Richtlinien: Klassen verschieben, nach Ablauf löschen.
Aktivieren Sie die Versionierung dort, wo Sie sie benötigen, und object lock (WORM) nur für Audits.
3. 4 Netzwerk und egress
CDN/edge + stale-while-revalidate reduziert den überregionalen egress.
Private Kanäle (PrivateLink/PSC/Direct Connect/Interconnect) statt „rohem“ Internet.
Kompression (Brotli/Zstd), HTTP/3/QUIC - weniger RTT/Wiederverbindungen.
3. 5 Datenbanken und Caches
Wählen Sie ein zweistufiges Schema: Cache (Redis/Memcached) + Speicher.
Lesen Sie Replikate für Analysen, schalten Sie AutoTaxi/Compact ein, verwenden Sie pgBouncer/RDS Proxy.
Für große Tabellen - Partitionierung/TTL/Archiv.
4) Kubernetes-Wirtschaft
Requests/Limits nach SLO-Klassen; Verbot von „limits: null“.
VPA (Empfehlungen), Karpenter (Auswahl von Instanzen für Pods), Bin-Verpackung (Toleranzen/Affinität).
Trennen Sie prod/stage/dev auf Cluster-/Node-Ebene (verschiedene Typen und Richtlinien).
Netzwerk- und Storedge-Klassen: Wählen Sie SC/IOPS nach Lastprofil und nicht „überall Premium“.
QoS-Klassen und Prioritäten: Sparen Sie bei Hintergrundaufgaben.
Logprofile: Sidecar-Agenten mit lokalem Puffer, Senden von Schlachten.
5) Serverless-Wirtschaft
Min instances/provisioned concurrency - nur für heiße Stifte.
Kleines Deploy-Bundle, Lazy-Init, Sharing-Anschlüsse.
Die Fristen der Erfüllung und die Überführung in die Warteschlange der schweren Aufgaben.
Aggregator-Funktionen (Fan-in) statt ein Dutzend Wanderungen in Abhängigkeit.
6) Observability: Bezahlen für wertvolle Telemetrie
Protokolle: strukturell, ohne verboseness; Retenzen nach Klassen (Prod-Fehler sind länger, Debug ist kurz).
Trace Sampling: tail-based - 100% Fehler/p99, Rest 1-10%.
Metriken: Aggregation/Downsampling, Sparse-Senden.
Filterung der PII vor dem Versand (weniger Bytes und Risiken).
7) Lieferantennetzwerk und Marktplatz
Vergleichen Sie die Preise von Regionen, die Margen von Managed-Services, Marktplatz-Bundles.
Verhandlungen: Mengenrabatte (RI/CUD), Kommitverträge, Kreditprogramme.
Vermeiden Sie doppelte SaaS mit sich überschneidenden Funktionen.
8) Einheitsökonomie und Dashboards
Die wichtigsten SLI/SLO-Kosten
Kosten/Req nach Strecken (Login, Katalog, Deposit).
Cost/Tenant/Brand/Region.
Egress/Req, Storage/Req, Compute/Req.
Waste % и Coverage RI/SP %.
Dashboards (Mindestsatz)
„Kostenkarte“ nach Diensten/Teams mit Abstiegen zur Ressource.
„Heatmap“ egress nach Richtungen.
„Service → Kosten → SLO“: Korrelation zwischen p99 und Cost/Req.
„RI/CUD/Spot“ Abdeckung und Einsparungen entlang der Linien.
9) FinOps-Prozesse
Wöchentliche Abrechnung mit Servicebesitzern.
Change Review mit Kostenschätzung von fich bis prod inclusion.
Guardrails: Quotenlimits, automatische Vervollständigung von Idle-Ressourcen, TTL auf Testumgebungen.
GameDays Kosten: künstliche Peaks/Fitch-Flaggen, Budget-Nachhaltigkeitscheck.
10) Antipatterns
„Temporäre“ Ressourcen ohne TTL → für immer.
`0. 0. 0. 0/0 'egress + CDN fehlt → egress-Konten explodieren.
Ohne Tags/Labels ist es → unmöglich, die Kosten zu verteilen.
DEBUG-Level-Protokolle in der Produktion, 100% Traces sind bedeutungslose Terabytes.
Provisioned/serverful „nur für den Fall“ ohne Nutzungsmetriken.
Alle Lasten sind nur On-Demand, keine RI/Spot/Commits.
11) Spezifität von iGaming/Finanzen
PSP/Zahlungsgebühren - Teil von COGS: Smart-Routing auf günstige/zuverlässige Anbieter optimieren; Status zwischenspeichern, Wiederholungen ohne Idempotenz vermeiden.
KYC/AML-Anbieter: Anfragen bündeln, Ergebnis-Cache verwenden (TTL nach Richtlinie), Kosten/KYC messen.
„Wege des Geldes“ (Einzahlung/Auszahlung): separate SLOs und Budget; Reserven für Spitzenereignisse, warme Exemplare nur da.
Content/CDN: Lokale Edge und regionale Domains zur Reduzierung von Egress und Einhaltung der Datenresidenz.
Gesetzliche Anforderungen: WORM-Speicher für Audit - Umfang begrenzen (Aggregation, TTL, Kompression).
12) Mini-Rezepte
12. 1 Log-Retenche-Politik
Prod-Fehler: 30-90 Tage; Info: 7–14; Debug: 24-72 Stunden.
Archiv nur auf Compliance-Anforderung.
12. 2 Kanarische Telemetrie
Für ein neues fichy - 100% traces die ersten 24 Stunden → dann tail-sampling.
12. 3 Objektlebenszyklen
json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]
12. 4 Budgets/Alerts (Idee)
Monatliches Budget pro Team; Alerts 50/80/100%; Anomalieerkennung> 30% des Trends in 24 Stunden
13) Checkliste Prod-Ready
- Tags und Besitzer auf 100% der Ressourcen; Richtlinien blockieren Nicht-Tags.
- Budgets und Alerts + anomale Erkennung; Berichte über Tenants/Marken/Regionen.
- RI/CUD/Spot decken die Grundlast ab; Es gibt einen On-Demand-Puffer.
- K8s: requests/limits gesetzt; VPA/Karpenter; bin packing; getrennte Storage/IOPS-Klassen.
- Serverless: provisioned/min nur für heiße Pfade; kalt - durch die Warteschlangen.
- CDN/Edge aktiviert; private Kanäle zu PaaS; egress-dashboard.
- Logs/Traces: Tail-Sampling, Retreats nach Klassen; PII-Filtration.
- Speicherlebenszyklen und Archive; Partitionierung von großen Tabellen.
- Finanzielle Dashboards Cost/Req, Cost/Tenant, Waste%, Coverage RI/SP%.
- Für iGaming: Kostenrechnung PSP/KYC/AML, SLO und Budgets „Geldwege“, WORM-Audit.
14) TL; DR
Zuerst die Sichtbarkeit (Tags, Budgets, Dashboards), dann die strukturellen Hebel: richtige Dimensionen, Auto-Scaling, RI/Spot/Commits, CDN/Edge und private Kanäle, Speicherklassen und Lifecycles. Bezahlen Sie für wertvolle Telemetrie (Tail-Sampling, Short Retentions) und automatisieren Sie Ihre Guardrails. Berücksichtigen Sie bei iGaming PSP/KYC/AML als Teil von COGS und ordnen Sie „Geldpfade“ mit separaten SLOs und Budgets zu.