Optimierung der Cloud-Kosten

1) Warum FinOps und welche Ziele

Ziel ist es, die COGS zu reduzieren und gleichzeitig die SLO/Entwicklungsgeschwindigkeit beizubehalten. Kernfragen:

Wie viel kostet 1 Anfrage, 1 aktiver Benutzer, 1 Tenant?
Welche Margenwirkung hat der neue Ficher/Traffic?
Wo sind die „Leaks“ (egress, redundante Logs, overhead CPU/Speicher, Leerlauf Ressourcen)?

Grundlegende Metriken

Cost/Req, Cost/Minute Active, Cost/Tenant/Brand, Cost/GB-stored, Cost/GB-egress.
COGS%: Anteil der Kosten am Umsatz.
Waste%: (bezahlte, aber ungenutzte Ressourcen )/( alle Ressourcen).

2) Aufräumen: Tags, Besitz, Budgets

Tags/Labels: „env“, „team“, „service“, „tenant“, „product“, „cost _ center“, „slo _ tier“.
Besitz: Jede Ressource hat einen Eigentümer und eine TTL.
Budgets/Alerts: monatliche/wöchentliche Budgets mit Schwellenwerten von 50/80/100% + anomale Erkennung.
Richtlinien als Code: No-Tag-Verbot, Größenlimits, Standardregionen, zugewiesene Kontingente.

Beispiel Terraform - obligatorische Tags (Idee):

hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}

3) Architektonische Sparhebel

3. 1 Richtige Abmessungen und Auto-Scaling

Rightsizing: Passen Sie die Instances an die tatsächliche CPU/RAM p95 an.
Auto-Scaling: horizontal> vertikal; для K8s — Cluster Autoscaler/Karpenter, для serverless — min/max concurrency.
Kalte Wege - in der Warteschlange/Batchi; langzeitige Aufgaben - in Werkern nach Zeitplan.

3. 2 Spot/zurückgekaufte Kapazität

Spot/Preemptible für Steitless/Backgrounds und CI; Halten Sie einen On-Demand-Puffer.
RI/CUD/Sparpläne: Buchen Sie stabile 50-70% der Grundlast, der Rest ist elastisch.

3. 3 Speicherung und Datenklassen

Teilen: heiß (SSD), warm (Standard), kalt/Archiv (Glacier/Archiv).
Lifecycle-Richtlinien: Klassen verschieben, nach Ablauf löschen.
Aktivieren Sie die Versionierung dort, wo Sie sie benötigen, und object lock (WORM) nur für Audits.

3. 4 Netzwerk und egress

CDN/edge + stale-while-revalidate reduziert den überregionalen egress.
Private Kanäle (PrivateLink/PSC/Direct Connect/Interconnect) statt „rohem“ Internet.
Kompression (Brotli/Zstd), HTTP/3/QUIC - weniger RTT/Wiederverbindungen.

3. 5 Datenbanken und Caches

Wählen Sie ein zweistufiges Schema: Cache (Redis/Memcached) + Speicher.
Lesen Sie Replikate für Analysen, schalten Sie AutoTaxi/Compact ein, verwenden Sie pgBouncer/RDS Proxy.
Für große Tabellen - Partitionierung/TTL/Archiv.

4) Kubernetes-Wirtschaft

Requests/Limits nach SLO-Klassen; Verbot von „limits: null“.
VPA (Empfehlungen), Karpenter (Auswahl von Instanzen für Pods), Bin-Verpackung (Toleranzen/Affinität).
Trennen Sie prod/stage/dev auf Cluster-/Node-Ebene (verschiedene Typen und Richtlinien).
Netzwerk- und Storedge-Klassen: Wählen Sie SC/IOPS nach Lastprofil und nicht „überall Premium“.
QoS-Klassen und Prioritäten: Sparen Sie bei Hintergrundaufgaben.
Logprofile: Sidecar-Agenten mit lokalem Puffer, Senden von Schlachten.

5) Serverless-Wirtschaft

Min instances/provisioned concurrency - nur für heiße Stifte.
Kleines Deploy-Bundle, Lazy-Init, Sharing-Anschlüsse.
Die Fristen der Erfüllung und die Überführung in die Warteschlange der schweren Aufgaben.
Aggregator-Funktionen (Fan-in) statt ein Dutzend Wanderungen in Abhängigkeit.

6) Observability: Bezahlen für wertvolle Telemetrie

Protokolle: strukturell, ohne verboseness; Retenzen nach Klassen (Prod-Fehler sind länger, Debug ist kurz).
Trace Sampling: tail-based - 100% Fehler/p99, Rest 1-10%.
Metriken: Aggregation/Downsampling, Sparse-Senden.
Filterung der PII vor dem Versand (weniger Bytes und Risiken).

7) Lieferantennetzwerk und Marktplatz

Vergleichen Sie die Preise von Regionen, die Margen von Managed-Services, Marktplatz-Bundles.
Verhandlungen: Mengenrabatte (RI/CUD), Kommitverträge, Kreditprogramme.
Vermeiden Sie doppelte SaaS mit sich überschneidenden Funktionen.

8) Einheitsökonomie und Dashboards

Die wichtigsten SLI/SLO-Kosten

Kosten/Req nach Strecken (Login, Katalog, Deposit).
Cost/Tenant/Brand/Region.
Egress/Req, Storage/Req, Compute/Req.
Waste % и Coverage RI/SP %.

Dashboards (Mindestsatz)

„Kostenkarte“ nach Diensten/Teams mit Abstiegen zur Ressource.
„Heatmap“ egress nach Richtungen.
„Service → Kosten → SLO“: Korrelation zwischen p99 und Cost/Req.
„RI/CUD/Spot“ Abdeckung und Einsparungen entlang der Linien.

9) FinOps-Prozesse

Wöchentliche Abrechnung mit Servicebesitzern.
Change Review mit Kostenschätzung von fich bis prod inclusion.
Guardrails: Quotenlimits, automatische Vervollständigung von Idle-Ressourcen, TTL auf Testumgebungen.
GameDays Kosten: künstliche Peaks/Fitch-Flaggen, Budget-Nachhaltigkeitscheck.

10) Antipatterns

„Temporäre“ Ressourcen ohne TTL → für immer.
`0. 0. 0. 0/0 'egress + CDN fehlt → egress-Konten explodieren.
Ohne Tags/Labels ist es → unmöglich, die Kosten zu verteilen.
DEBUG-Level-Protokolle in der Produktion, 100% Traces sind bedeutungslose Terabytes.
Provisioned/serverful „nur für den Fall“ ohne Nutzungsmetriken.
Alle Lasten sind nur On-Demand, keine RI/Spot/Commits.

11) Spezifität von iGaming/Finanzen

PSP/Zahlungsgebühren - Teil von COGS: Smart-Routing auf günstige/zuverlässige Anbieter optimieren; Status zwischenspeichern, Wiederholungen ohne Idempotenz vermeiden.
KYC/AML-Anbieter: Anfragen bündeln, Ergebnis-Cache verwenden (TTL nach Richtlinie), Kosten/KYC messen.
„Wege des Geldes“ (Einzahlung/Auszahlung): separate SLOs und Budget; Reserven für Spitzenereignisse, warme Exemplare nur da.
Content/CDN: Lokale Edge und regionale Domains zur Reduzierung von Egress und Einhaltung der Datenresidenz.
Gesetzliche Anforderungen: WORM-Speicher für Audit - Umfang begrenzen (Aggregation, TTL, Kompression).

12) Mini-Rezepte

12. 1 Log-Retenche-Politik

Prod-Fehler: 30-90 Tage; Info: 7–14; Debug: 24-72 Stunden.
Archiv nur auf Compliance-Anforderung.

12. 2 Kanarische Telemetrie

Für ein neues fichy - 100% traces die ersten 24 Stunden → dann tail-sampling.

12. 3 Objektlebenszyklen

json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]

12. 4 Budgets/Alerts (Idee)

Monatliches Budget pro Team; Alerts 50/80/100%; Anomalieerkennung> 30% des Trends in 24 Stunden

13) Checkliste Prod-Ready

Tags und Besitzer auf 100% der Ressourcen; Richtlinien blockieren Nicht-Tags.
Budgets und Alerts + anomale Erkennung; Berichte über Tenants/Marken/Regionen.
RI/CUD/Spot decken die Grundlast ab; Es gibt einen On-Demand-Puffer.
K8s: requests/limits gesetzt; VPA/Karpenter; bin packing; getrennte Storage/IOPS-Klassen.
Serverless: provisioned/min nur für heiße Pfade; kalt - durch die Warteschlangen.
CDN/Edge aktiviert; private Kanäle zu PaaS; egress-dashboard.
Logs/Traces: Tail-Sampling, Retreats nach Klassen; PII-Filtration.
Speicherlebenszyklen und Archive; Partitionierung von großen Tabellen.
Finanzielle Dashboards Cost/Req, Cost/Tenant, Waste%, Coverage RI/SP%.
Für iGaming: Kostenrechnung PSP/KYC/AML, SLO und Budgets „Geldwege“, WORM-Audit.

14) TL; DR

Zuerst die Sichtbarkeit (Tags, Budgets, Dashboards), dann die strukturellen Hebel: richtige Dimensionen, Auto-Scaling, RI/Spot/Commits, CDN/Edge und private Kanäle, Speicherklassen und Lifecycles. Bezahlen Sie für wertvolle Telemetrie (Tail-Sampling, Short Retentions) und automatisieren Sie Ihre Guardrails. Berücksichtigen Sie bei iGaming PSP/KYC/AML als Teil von COGS und ordnen Sie „Geldpfade“ mit separaten SLOs und Budgets zu.

Optimierung der Cloud-Kosten

Grundlegende Metriken

Dashboards (Mindestsatz)

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet