Ottimizzazione dei costi cloud
1) Perché FinOps e quali obiettivi
L'obiettivo è ridurre il COGS mantenendo SLO/velocità di sviluppo. Domande chiave:- Quanto costa 1 richiesta, 1 utente attivo, 1 thenant?
- Qual è l'effetto marginale del nuovo ficer/traffico?
- Dove sono le «perdite» (egress, sovrappeso, overhead CPU/memoria, risorse inattive)?
Metriche di base
Cost/Req, Cost/Minute Active, Cost/Tenant/Brand, Cost/GB-stored, Cost/GB-egress.
COGS%: percentuale di costo del fatturato.
Waste%: (risorse pagate ma inutilizzate )/( tutte le risorse).
2) Ordine: tag, possesso, budget
Tagging/etichetta: «eng», «team», «service», «tenant», «product», «cost _ center», «slo _ tier».
Proprietà: ogni risorsa ha proprietario e TTL.
Budget/alert: budget mensili/settimanali con soglie di 50/80/100% + anomaly detection.
Criteri come codice: disabilitazione senza tag, limiti di quota, regioni predefinite, quote selezionate.
hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}
3) Strumenti di risparmio architettonico
3. 1 Dimensioni corrette e scale automatico
Rithtsizing: inserisci le istanze sotto CPU/RAM p95 effettivo.
Schaying automatico: orizzontale> verticale; для K8s — Cluster Autoscaler/Karpenter, для serverless — min/max concurrency.
Percorsi freddi - in coda/batch; Attività longitudinali - nei worker pianificati.
3. 2 Potenza spotch/riscossione
Spot/Preemptible per statless/background e CI; tenete il buffer On-Demand.
RI/CUD/Savings Plans: prenotare un carico di lavoro stabile del 50-70%, il resto è elastico.
3. 3 Storage e classi di dati
Separa hot (SSD), warm (standard), cold/archivio (Glacier/Archive).
Criteri dei lifcicli: spostamento delle classi, eliminazione dopo la scadenza.
Attivare la versioning dove si desidera e l'object lock (WORM) solo per il controllo.
3. 4 Rete ed egress
CDN/edge + stale-while-revalidate riduce l'egress interregionale.
Canali privati (PrivateLink/PSC/Direct Connect/Interconnect) invece di Internet grezzo.
Compressione (Brotli/Zstd), HTTP/3/QUIC - inferiore a RTT/riconnessione.
3. 5 Database e cache
Selezionare uno schema su due livelli: cache (Redis/Memcached) + storage.
Leggi le repliche per gli analisti, abilita l'auto e la compattazione, usa pgBouncer/RDS Proxy.
Per le grandi tabelle, partizionare/TTL/archivio.
4) Kubernets-economy
Richiesti/Limits per classe SLO; proibizione'limits: null '.
VPA (raccomandazioni), Karpenter (selezione delle istanze per i sottopassi), Bin packing (tolerations/affinity).
Suddivide prod/stage/dave a livello di cluster/nodi (diversi tipi e criteri).
Classi di rete e di standing: scegli l'SC/IOPS in base al profilo di carico anziché «premium ovunque».
classi e priorità QoS: risparmi sui processi di fondo.
I profili dei fogli sono agenti sidecar con buffer locale, invio batch.
5) Serverless-economy
Min instanze/procurioned concertency - solo per le maniglie calde.
Piccolo deposito-bandle, lazy-init, sharing connect.
Tempi di completamento e adozione in coda di attività difficili.
Funzioni di aggregazione (fan-in) invece di una dozzina di escursioni a seconda.
6) Paghi per la preziosa telemetria
Logi: strutturali, senza verboseness; Retenze per classe (errori prod più lungo, debug - breve).
Sampling trace: tail-based - 100% errori/p99, il resto 1-10%.
Metriche: aggregazione/downsempling, invio sparse.
Filtra il PII prima dell'invio (meno byte e rischi).
7) Rete fornitori e Marketplace
Confrontare i prezzi delle regioni, i margini dei servizi managed, il marketplace bandle.
Negoziazioni: sconti volumetrici (RI/CUD), committenti, programmi di credito.
Evitare di duplicare il SaaS con la funzione che si interseca.
8) Unit economy e dashboard
SLI/SLO di base
Cost/Req per percorsi (login, catalog, deposit).
Cost/Tenant/Brand/Region.
Egress/Req, Storage/Req, Compute/Req.
Waste % и Coverage RI/SP %.
Dashboard (set minimo)
Mappa dei costi per servizi/comandi con download alla risorsa.
«Mappa termica» egress in direzione.
La correlazione tra p99 e Cost/Req.
«RI/CUD/Spot» copertura e risparmio linee.
9) Processi di FinOps
Contabilità settimanale con i proprietari dei servizi.
Change review con stima del costo del Fich prima della prod-inclusione.
Garrails: limiti di quota, completamento automatico delle risorse idle, TTL per gli ambienti di prova.
GameDays del costo: picchi artificiali/flag, verifica della sostenibilità del budget.
10) Antipattern
Risorse temporanee senza TTL per sempre.
`0. 0. 0. 0/0 'egress + nessun CDN → egress esplode.
Senza tag o etichette, non è possibile distribuire i costi.
Loghi di livello DEBUG in vendita, trace 100% - terabyte senza senso.
Provioned/serverful «per sicurezza» senza metriche di utilizzo.
Tutti i carichi sono solo On-Demand, senza RI/Spot/Commit.
11) Specificità iGaming/finanza
PSP/Commissione dei pagamenti - parte di COGS: ottimizza lo smart-routing per i provider a basso costo/affidabilità nella cache degli stati, evitare ripetizioni senza idimpotenza.
KYC/AML Vendor: batch di query, usa la cache dei risultati (TTL per criteri), misura Cost/KYC.
«Vie di denaro» (deposito/ritiro): singoli SLO e budget; riserve per eventi di picco, esemplari caldi solo lì.
Contenuti/CDN: edge locali e domini regionali per ridurre l'egress e rispettare data residency.
Requisiti legali: storage WORM per il controllo - Limitare il volume (aggregazione, TTL, compressione).
12) Mini-ricette
12. 1 Criterio di retino dei logi
Errori prod: 30-90 giorni Info: 7–14; Debug 24-72 ore.
Archivio solo su richiesta della compilazione.
12. 2 Telemetria canaria
Per la nuova, il 100% dei trace sono le prime 24 ore, poi il tail-sampling.
12. 3 lifcicli di oggetti
json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]
12. 4 Budget/alert (idea)
Budget mensile per team; alert 50/80/100%; anataly detection> 30% del trend in 24 ore
13) Assegno-foglio prod-pronto
- Tag e proprietari al 100% delle risorse; I criteri bloccano quelli non modificati.
- Budget e alert + anataly detection; Report su thenant/brand/regioni.
- RI/CUD/Spot coprono il carico di riferimento; c'è un buffer On-Demand.
- K8s: richiesti/limits impostati; VPA/Karpenter; bin packing; classi Storage/IOPS separate.
- Serverless: provioned/min solo per le vie calde; fredda, attraverso le code.
- CDN/edge abilitati; Canali privati verso il PaaS; egress-dashboard.
- Logi/trailer: tail-sampling, retenze per classe; Filtro PII.
- lifcicli di archiviazione e archivio Partizionamento di grandi tabelle.
- Dashboard finanziari Cost/Req, Cost/Tenant, Waste%, Coverage RI/SP%.
- Per i iGaming: contabilità PSP/KYC/AML spese, SLO e budget «percorsi di denaro», controllo WORM.
14) TL; DR
Prima la visibilità (tag, budget, dashboard), poi le basi strutturali: dimensioni corrette, skailing automatico, RI/Spot/commit, CDN/edge e canali privati, classi di conservazione e lifcicli. Pagare per la preziosa telemetria (tail-sampling, brevi retenze) e automatizzare i guardrail. Nel iGaming, prendere in considerazione PSP/KYC/AML come parte del COGS e assegnare «percorsi di denaro» con SLO e budget separati.