FinOps et budgétisation de l'infrastructure
1) Objectifs FinOps et zone de responsabilité
FinOps combine l'ingénierie, la finance et le produit pour gérer la valeur tout en maintenant la vitesse d'approvisionnement/SLO.
Résultats :- Transparence des coûts par service/équipe/tenants/région.
- Prévisibilité (plan/fait, écarts, reforecast).
- Trade-off conscient : performance ↔ coût.
- Product/Owners - objectifs de revenu/économie unitaire.
- Eng/Platform - leviers architecturaux et SLO.
- Finances - budgets, commits, rapports.
- FinOps Guild - processus, outils, formation.
2) Métriques et économie unitaire
Coût SLI de base :- Cost/Req (coût 1 demande), Cost/ActiveUser/Month, Cost/Tenant/Brand/Region.
- COGS % (coût/chiffre d'affaires), Grosss Margin.
- Waste % = payé − utilisé.
- Coverage % (RI/CUD/SP) est la proportion de charge couverte par les commits.
- Egress/Req, Storage/Req, Observability/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Tagging, propriété et politiques
Les mots-clés obligatoires sont : « bou », « team », « service », « tenant », « product », « cost _ center », « slo _ tier », « owner », « ttl ».
Propriété : chaque ressource a une responsabilité et un délai de révision.
Stratégies en tant que code : interdiction de créer des ressources sans étiquettes, limites de taille, régions autorisées, durée de vie des environnements de test.
- Deny « egress public sans proxy/PrivateLink ».
- L'exigence "description/owner/ttl'pour SG/NSG/pare-feu.
- Quotas budgétaires par équipe (seuils doux/rigides).
4) Cycles budgétaires et calendrier
Budget annuel (AOP) : objectifs pour COGS, marge, commits aux nuages.
Plans trimestriels : rajustements en fonction de la saisonnalité.
Rolling-forecast (mensuel, horizon 6-9 mois) : prend en compte le fait et les tendances, recalcule le déficit/excédent.
Pool d'incidents : une réserve de 3 à 5 % pour les egresses/capacités imprévues.
1. Société → 2) Produit/Marque → 3) Équipe/Service → 4) Environnement → 5) Classe Ressources.
5) Prédire la charge et les coûts
Pilotes : MAU/DAU, RPS par itinéraire, volumes de données, fréquence des trampolines/ML, saisonnalité, campagnes marketing.
Modèles : Expo. lissage + événements. adaptations (sorties, régions, fournisseurs).
Si : Augmentation de X % du RPS, migration vers une autre région, activation de la mise en cache/edge, changement de classe de stockage.
- Séparez les fixes (commits, locations, AlwaysOn) et les variables (on-demand/spot, egress).
- Avoir une « échelle » de mise à l'échelle (marches capex/commit) jusqu'à des pics.
6) Commits chez les fournisseurs de cloud
Réserved Instances/CUD/Savings Plans : fermeture stable de 50 à 70 % de la charge de base.
Diversifiez par période (1/3/allongeable), par région/type d'instances.
Tampon On-Demand pour les pics et les échecs.
Spot/Preemptible : statless/CI/analyse de fond, avec fallback sécurisé.
- D'abord le rightsizing et le skating automatique, puis les commits.
- Revente/marchés (lorsque disponibles) pour les IR inutilisés.
- Contrôlez les tarifs egress et les réductions pour les flux directs.
7) Leviers architecturaux de réduction des coûts
Compute : Skaling automatique horizontal, Karpenter/Cluster Autoscaler, QoS de classe, désactivation des clusters « de nuit ».
Stockage : classes de stockage (hot/warm/cold), lifecycles/TTL, lot, déduplication, compression.
Réseau : CDN/edge + SWR, PrivateLink/PSC, agrégation d'appels API, HTTP/3/QUIC.
DB/Cache : pgBouncer/RDS Proxy, répliques de lecture, TTL/archive, cache à deux étapes.
Observability : tail-sampling traces (100 % d'erreurs et p99, le reste 1-10 %), retences par classe, métriques de downsampling.
8) Chargeback / Showback
Modèle de facturation « interne » :- Showback (doucement) : un rapport mensuel sans transfert d'argent.
- Chargeback (dur) : Annulation réelle du budget de l'équipe.
- Coûts directs → par tag.
- Général (egress, loging platform) → proportionnel aux pilotes (requêtes, Go logs, stockage).
- Le « plaidoyer » des cas controversés : La guilde FinOps aide les équipes à optimiser.
9) Dashboards et alertes
Minimum obligatoire :- Carte des coûts : par services/équipes/tenants/régions, de la drilime à la ressource.
- Plan/faits/écarts + prévisions (rolling).
- Coverage RI/CUD/Spot et économies.
- Egress heatmap (directions, fournisseurs, PSP).
- Cost ↔ SLO : corrélation p95/p99 avec Cost/Req.
- Anomaly detection : sursaut> 30 % de la tendance en 24 heures
- Budgets : 50/80/100 % de la période.
- Croissance soudaine de l'egress, « DEBUG-logs dans la vente », baisse du coverage %.
- « Idle-services » et volumes/IP inutilisés.
10) Processus et RACI
FinOps-stand-up hebdomadaire : aberrations, actions, propriétaires.
Examen du changement : estimation du coût de la fiche avant l'inclusion.
GameDays de coût : les pics artificiels/drapeaux de fich → tester la viabilité du budget.
Runbooks : comment augmenter/réduire les commits, comment réduire l'urgence egress/logs, comment garer les environnements.
11) Documents et modèles
11. 1 Modèle de budget (fragment)
Revenu/MAU/tenants
COGS: Compute/Storage/Network/Observability/3rd-party
Commits RI/CUD/SP (couverture, durée)
Réserve d'incidents (3-5 %)
Plan d'optimisation (effet économique, propriétaire, durée)
11. 2 Modèle « quoi que ce soit »
ΔRPS = +20% → ΔCompute + ΔEgress
Activer CDN-SWR → − X % egress, − Y $
Traduction des logs de 30 à 14 jours → − Z $
CUD + 20k $/an → rendement 7,5 mois
12) Gestion des risques et conformité
Fournisseurs : SLA/pénalités, stratégies de sortie, lock-in-risk.
Juridique : régions/durées de conservation, WORM pour l'audit.
FX/devise : sensibilité au taux de change, comptabilité multi-devises.
Capitalisation/amortissement : interprétation des commits à long terme et des connexions privées.
13) Anti-modèles
Les ressources « temporaires » sans TTL → pour toujours.
Commits avant rightsizing/auto-skating.
Absence d'étiquettes → dépenses « grises ».
Un seul DEBUG-logue sur la vente/100 % trays.
Dev/stage à 24 × 7 sans auto-pause.
Spot sans tampon à la demande.
Egress public dans chaque spoke sans CDN/proxy.
14) Spécificité de l'iGaming/finance
PSP/commissions font partie de COGS : smart routing à moins cher/fiable, cache de statut, idempotence de répétition.
KYC/AML : paquet de requêtes, cache TTL par stratégie, métrique Cost/KYC.
« Chemins d'argent » (dépôt/retrait) : budget séparé/SLO, capacity provisioned seulement ici, dashboards « coût-temps réel ».
Résidence de données : comptes/projets régionaux, CDN/edge locaux, canaux privés vers PSP.
GGR/marge : lier Cost/Req aux verticaux/fournisseurs de jeux ; rapports par marque/juridiction.
15) Recettes d'économie rapide
Activer les trames tail-sampling et réduire les rétentions des logs par classe.
Soulevez le SWR sur le CDN, réchauffez l'origin-shield.
Passer à pgBouncer/RDS Proxy, supprimer la « tempête » des connexions.
Réduire les demandes/limites à p95 et activer Karpenter.
Migrer la statique/l'archive vers le cold-storage avec des lifestyles.
Réunir l'egress via PrivateLink/PSC, enregistrer les FQDN-allowlists.
16) Chèque prod-prêt FinOps
- Tags/propriétaires/TTL sur 100 % des ressources ; les politiciens bloquent les sans-étiquette.
- Budgets et alertes 50/80/100 %; anomaly detection incluse.
- Rightsizing fait ; auto-skating/pause des environnements dev.
- Coverage RI/CUD/SP ≥ cible (50 à 70 % de la base) ; il y a un tampon on-demand.
- CDN/edge + SWR; canaux privés vers PaaS/PSP ; egress-dashboard.
- Logs/remorques : tail-sampling, retences par classe ; filtrage PII.
- Politiques de stockage : classes, TTL, archives ; le lot des grandes tables.
- Dashboards Cost/Req, Cost/Tenant/Brand/Region ; Heatmap egress; plan/fait/prévision.
- Processus : FinOps-stand-up, change-review des coûts, GameDays.
- Pour iGaming : budgets des « chemins de l'argent », comptabilité PSP/KYC/AML, audit WORM.
17) TL; DR
Faites de la transparence (tags, dashboards, plan/fait), activez le rightsizing + auto-skating, fermez la charge de base avec des commits (RI/CUD/SP), réduisez l'egress/stockage au détriment de CDN/SWR, PrivateLink, classes et lifecycles, payez seulement pour le prix télémétrie. Gérez votre budget via rolling-forecast, alertes et chargeback, et pour iGaming, gardez un contour et un budget distincts avec des SLO rigides et avec PSP/KYC/AML en tête.