FinOps e budget dell'infrastruttura
1) Obiettivi e area di responsabilità
FinOps unisce ingegneria, finanza e prodotto per gestire il costo mantenendo SLO/velocità di consegna.
Risultati:- Trasparenza dei costi per servizi/comandi/tenanti/regioni.
- Prevedibilità (piano/fatto, deviazioni, reforecast).
- Trade-off consapevoli: prestazioni e costi.
- Product/Owners - obiettivi di reddito/unit economy.
- Eng/Platform è una leva architettonica e SLO.
- Finanza - budget, committenti, rendicontazione.
- processo, strumenti, addestramento.
2) Metriche e unit economy
Costi SLI base:- Cost/Req (costo 1 richiesta), Cost/ActiveUser/Month/Tenant/Brand/Region.
- COGS% (costo/fatturato), Gross Margin.
- Waste% = pagato - utilizzato.
- Coverage% (RI/CUD/SP) è la percentuale di carico coperta dai committenti.
- Egress/Req, Storage/Req, Observability/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Tagging, possesso e regole
Tag obbligatori: «eng», «team», «service», «tenant», «product», «cost _ center», «slo _ tier», «owner», «ttl».
Proprietà: ogni risorsa ha un periodo di revisione responsabile.
Criteri come codice: impedisce la creazione di risorse senza tag, limiti di quota, regioni valide, tempo di vita degli ambienti di prova.
- Deny «egress pubblico senza proxy/Private Link».
- Richiesta di descrizione/owner/ttl per i firewall SG/NSG.
- Quote di bilancio per team (soglie morbide/rigide).
4) Cicli di bilancio e calendario
Budget annuale (AOP) - Obiettivi di COGS, margini, committenti nelle nuvole.
Piani trimestrali: aggiustamenti per roadmap/stagionalità.
Rolling-forecast (mensile, orizzonte 6-9 mes): tiene conto del dato e dei trend, ricalca deficit/surplus.
Pool di incidenti: riserva del 3-5% per egress/capacità imprevisti.
1. Società 2) Prodotto/Marchio (3) Comando/Servizio (4) Ambiente (5) Classe delle risorse.
5) Previsione di carico e costi
Driver: MAU/DAU, RPS percorsi, quantità di dati, frequenza batch/ML, stagionalità, campagne di marketing.
Modelle, espone. antialiasing + eventi. aggiustamenti (comunicati, regioni, provider).
Se l'RPS cresce del X%, la migrazione in un'altra regione, l'attivazione della cache/edge, la modifica della classe di storage.
- Separare i fissi (commit, leasing, AlwaysOn) e le variabili (on-demand/spot, egress).
- Tenete la scala scalabile (passo capex/commit) fino ai picchi.
6) Commit nei provider cloud
Riserved Impianti/CUD/Savings Plans chiudono il carico di lavoro di base stabile tra il 50% e il 70%.
Diversifica in base alla durata (1/3/estensione), per regione/tipo di istanza.
Buffer On-Demand per picchi e errori.
Spot/Preemptible: statless/CI/analisi di fondo, con fallback sicuro.
- Prima il rightsizing e lo scailing automatico, poi i committenti.
- Rivendite/mercati (dove disponibili) per RI inutilizzati.
- Controllare le tariffe egress e gli sconti per i canali diretti.
7) Strumenti architettonici per ridurre i costi
Compute: skailing automatico orizzontale, Karpenter/Cluster Autocaler, class-based QoS, disattivare i cluster «night».
Storage - Classi di storage (hot/warm/cold), lifcicli/TTL, partizionamento, deducibilità, compressione.
Network: CDN/edge + SWR, PrivateLink/PSC, aggregazione delle chiamate API, HTTP/3/QUIC.
DB/Cache: pgBouncer/RDS Proxy, repliche read, TTL/archivio, cache a due passi.
Osservabilità: tail-sampling trace (100% errori e p99, resto 1-10%), retenze per classe, downsampling metriche.
8) Chargeback / Showback
Modello di fatturazione interna:- Showback: rapporto mensile senza trasferimento di denaro.
- Marceback (rigido): accantonamento effettivo del budget del team.
- Costi diretti per tag.
- La piattaforma di loging (egress) è proporzionale ai driver (query, GPL, storage).
- «Avvocato» valigette controverse: FinOps-gild aiuta i team a ottimizzare.
9) Dashboard e alert
Minimo obbligatorio:- Mappa dei costi per servizi/comandi/tenanti/regioni da drilim a risorsa.
- Piano/fatto/deviazione + previsione (rolling).
- Coverage RI/CUD/Spot e risparmio.
- Egress heatmap (destinazioni, provider, PSP).
- Cost ↔ SLO: correlazione p95/p99 con Cost/Req.
- Anataly detection: picco> 30% del trend in 24 ore
- Budget: 50/80/100% del periodo.
- La crescita improvvisa dell'egress, «logi DEBUG in vendita», il calo del coverage%.
- Servizi idle e volumi non utilizzati/IPs.
10) Processi e RACI
FinOps-stand up settimanale: top deviazioni, azioni, proprietari.
Change review - Stima del costo del fiocco prima del prod-inclusione.
del costo: picchi artificiali/flag-flag per verificare la sostenibilità del budget.
Runbooks: come aumentare/ridurre i committenti, come tagliare urgentemente egress/logi, come parcheggiare l'ambiente.
11) Documenti e modelli
11. 1 Modello di bilancio (sezione)
Reddito/MAU/tenenti
COGS: Compute/Storage/Network/Observability/3rd-party
Committenti RI/CUD/SP (copertura, scadenza)
Riserva incidenti (3-5%)
Piano di ottimizzazione (effetto economico, proprietario, scadenza)
11. 2 Modello «cosa se»
ΔRPS = +20% → ΔCompute + ΔEgress
Abilita CDN-SWR → - X% egress, -Y $
Traduzione dei reparti da 30 a 14 giorni → - Z $
CUD + 20k $/anno di ritorno 7,5 ms
12) Gestione dei rischi e della compliance
Fornitori: SLA/multe, strategie di uscita, rischi lock-in.
Legale: regioni/data di conservazione, WORM per il controllo.
FX/valuta: sensibilità al tasso di cambio, contabilità multivaluta.
Capitalizzazione/ammortamento: interpretazione di commiti a lungo termine e connessioni private.
13) Antipattern
Risorse temporanee senza TTL per sempre.
Commit fino a rightsizing/scagling automatico.
Senza tag, le spese sono grigie.
Un unico login DEBUG su un trace/100%.
Dave/stage in 24 x 7 senza pausa auto.
Spot senza buffer on-demand.
Egress pubblico in ogni spoke senza CDN/proxy.
14) Specificità iGaming/finanza
PSP/Commissione - Parte di COGS: smart-routing a basso costo/affidabilità, cache di stato, Idampotenza ripetizione.
KYC/AML: batch di query, cache di criteri TTL, metrica Cost/KYC.
«Vie di denaro» (deposito/ritiro): budget/SLO separato, provvisioned capacity solo qui, dashboard costo-in-tempo-reale.
Data residency: account/progetti regionali, CDN/edge locali, canali PSP privati.
GGR/margine - Allinea Cost/Req alle verticali di gioco/provider; report per marchio/giurisdizione.
15) Rapido risparmio ricette
Abilita il tail-sampling dei trace e riduce le righe per classe.
Sollevare SWR su CDN, scalare origin-shield.
Andare al pgBouncer/RDS Proxy, rimuovere la tempesta dei connettori.
Riduce i richiesti/limits a p95 e abilita Karpenter.
Trasferire lo statico/archivio in cold-storage con i lifcicli.
Riduce l'egress attraverso il PrivateLink/PSC, fissa il FQDN-allowlists.
16) Foglio di assegno prod FinOps
- Tag/proprietari/TTL al 100% delle risorse; I politici bloccano i non tesserati.
- Budget e alert 50/80/100%; anataly detection attivato.
- Rightsizing eseguito; scailing automatico/interruzione degli ambienti uv.
- Coverage RI/CUD/SP di destinazione (50-70% della base); c'è un buffer on-demand.
- CDN/edge + SWR; Canali privati verso il PaaS/PSP; egress-dashboard.
- Logi/trailer: tail-sampling, retenze per classe; Filtro PII.
- Criteri di storage: classi, TTL, archivio partizionamento di grandi tabelle.
- Dashboard Cost/Req, Cost/Tenant/Brand/Region; Heatmap egress; piano/fatto/previsione.
- Processi: FinOps-stand-up, cambiamento-review del valore, GameDays.
- Budget «percorsi di denaro», contabilità PSP/KYC/AML, controllo WORM.
17) TL; DR
Fare trasparenza (tag, dashboard, piano/fatto), abilitare il rightsizing + scailing automatico, chiudere il carico di base con i committenti (RI/CUD/SP), ridurre l'egress/conservazione con CDN/SWR, PrivateLink, classi e lifcicli, e pagare solo per la preziosa telemetria. Gestite il budget attraverso rolling-forecast, alert e chargeback, mentre tenete separato il tracciato e il budget delle «vie del denaro» con rigidi SLO e PSP/KYC/AML.