Optimiser les dépenses d'infrastructure

Résumé succinct

L'efficacité financière de l'infrastructure repose sur trois éléments :

1. Mesurabilité transparente (tags, showback/chargeback, $/unité de valeur).

2. Discipline d'ingénierie (rightsizing, auto-skale, classes de stockage/cache/réseaux).

3. Les solutions architecturales (où les octets et les millisecondes « coulent »).

L'objectif est de réduire le TCO tout en maintenant le SLO et la vitesse de développement.

Mesures commerciales et économie unitaire

$/1000 RPS - coût du traitement de 1000 demandes sur les itinéraires clés.
$/ms p95 - coût de réduction de 1 ms de la queue de retard (important pour la conversion).
$/joueur/mois ou $/dépôt - pour iGaming/fintech.
TCO = compute + storage + network egress + managed-services + licences + support.
Capitalisation de la dette technique : déterminez le coût de la latence/fuite « non réparée » des loges.

Exemple :

Si l'API coûte 120 $/heure et donne 60k RPS à la cible p95, $/1000 RPS ≈ 2 $/h. Toute optimisation doit être comparée à cette « valeur unitaire ».

Inventaire et tagging

Les mots-clés sont obligatoires : « bou », « owner », « product », « service », « region », « cost-center », « tier ».
Showback/Chargeback : rapports hebdomadaires par équipe/service.
Contrôle des ressources « no man's » : sans étiquettes - nous ne déployons pas, nous ne prolongeons pas.

Esquisse SQL pour le rapport DWH (idée) :

sql
SELECT env, product, service,
SUM(cost_usd) AS cost_month,
SUM(rps) AS rps_month,
SUM(cost_usd)/NULLIF(SUM(rps)/1000,0) AS usd_per_1k_rps
FROM finops_daily
WHERE usage_date BETWEEN:from AND:to
GROUP BY 1,2,3;

Rightsizing et classes d'instances

Profils CPU/mémoire : filmer les profils sous charge ; abaissez les demandes/limites à un « point de fonctionnement » CPU de 50 à 70 %.
Taille des instances : souvent plus rentable que N petits au lieu de M grands (mieux que bin-packing + CA).
Instances ARM : moins cher à des performances comparables si la pile est compatible.
Pools chauds/froids : conservez une petite réserve de warm au lieu d'un « gras » permanent.

Réductions et modes de consommation

Reserved/Savings Plans/Committed Use : réservez une base durable (40 à 70 % d'économies).
Spot/Preemptible : pour les tâches non critiques/asynchrones, CI, analytiques, cache workers.
Stratégie mix : la base est reservée, les pics sont à la demande, l'arrière-plan est spot.

Auto-Skaling et élasticité

HPA/KEDA par signaux SLO (latency, queue lag, RPS) et pas seulement par CPU.
Cluster Autoscaler avec pools warm et image pre-pull pour les démarrages rapides.
Scale-down avec hystérésis pour ne pas « scier » les clusters (anti-flapping).

Réseau et egress - un « mangeur » silencieux du budget

CDN/tiered-cache/origin-shield réduisent l'egress de l'origin.
Compression (Brotli/gzip), webp/avif, diff-API (ne transmettre que les champs modifiés).
Regroupez les appels vers une API externe, utilisez keepalive/retry-budget.
Moins de chats à l'intérieur de DC : event-driven, batch, agrégation d'événements.

Entrepôts et données

Classes de stockage : chaud (NVMe), chaud (gp2/gp3), froid (S3/Glacier/archive).
Politiques de lifecycle : traduction automatique des « anciens » objets vers des classes bon marché.
Compression/lot en DWH, TTL en tables/snapshots temporaires.
Refus de réplication redondante : RF raisonnable, politiques de snapshot économiques.
Mise en cache : Redis/Memcached pour hot-set au lieu des lectures « chères » des bases de données.

Logs, métriques, trajets - payer intelligemment

L'échantillonnage des logs (rate-limit par niveau/modèle), les logs « structurels » au lieu de parler.
Tail-based sampling pour les pistes (nous gardons les « queues » p99 et les erreurs, le reste - nous coupons agressivement).
Downsampling métriques : agrégation dans les jeux push, stockage high-res seulement 7-14 jours.
Filtration PII - réduit les risques et le volume.

Architecture et « coût milliseconde »

HTTP/2/3 + resumption : moins de handshake → moins de CPU/egress/latence.
Clé cache et TTL : hit-ratio élevé - argent direct (moins d'origin et de DB).
gRPC/protobaf pour service-service : plus petits octets.
Batch/stream pour les tâches d'arrière-plan ; l'idempotence → moins de rétrogrades.
Sélection OBD : ne stockez pas « tout en un » - KV/cache bon marché pour les lectures fréquentes, analyste - dans la colonne DWH.
Schémas de données : champs courts/types compressés, contrôle de la cardinalité des indices.

DR, réserves et multi-régions

Objectif commercial : RTO/RPO → la valeur de DR. Ne payez pas trop pour un actif-actif si l'actif-passif est suffisant.
Gardez les sauvegardes froides dans une classe bon marché, la réplique est différentielle.
Un paquet unique de RR/régions : chaque zone tire ≥60 % du pic → résiste à la défaillance d'un voisin sans redondance « or ».

Environnement et CI/CD

Auto-hibernation des stajings/aperçu des environs, auto-TTL.
Runner-CI sur spot, cache d'artefacts, limites de parallélisme.
Les données de test sont compactes, générant on-the-fly, et non stockant des gigaoctets.

Gestion des fournisseurs et des licences

Révisez les volumes et les types de prix une fois par trimestre.
Le fournisseur d'accès concurrentiel est un argument dans la négociation.
Licences (APM/sécurité) : calculez $ pour le signal utile plutôt que pour « toutes les loges du monde ».

Processus et gestion

cérémonies FinOps : rapport hebdomadaire par équipe, mensuel Cost Review (top 10 des « fuites », items d'action).
Guardrails : quotas de projet/neimspace, budget-alertes, interdiction de déployer des ressources sans étiquettes.
Blameless post-mer sur les « incidents de prix » (fuite de loges, runaway autoscale).
IaC : toutes les limites, classes, TTL - dans le référentiel, PR.

Chèque d'économie

Tags/showback/chargback inclus, il n'y a pas de ressources « no man's ».
Rightsizing par profil, ARM/autres types évalués.
Les rabais de commit ferment la base, spot - fond/analytique/CI.
HPA/KEDA par métriques SLO, CA avec pools warm.
CDN/tiered-cache, compression, clé cache sans « bruit ».
Entrepôts : classes, lifecycle, TTL, caches pour hot-set.
Logs/remorques : sample, tail-based, filtres PII.
DR sur RTO/RPO, backups froids en classe bon marché.
Environnement avec auto-TTL, CI sur spot.
FinOps rythmes et guardrails en IaC.

Erreurs typiques

« Optimisation sans métriques » : Pas de $/1000 RPS → vous ne pouvez pas comparer les options.
Les ressources désactivées/inutilisées sont suspendues pendant des mois.
Stockage « tout » dans la classe chaude, pas de lifecycle.
Logs comme « trou noir » : 100 % ingest, 0 % consommation.
L'Auto-skejl selon CPU sans compte des latency/tours → переплата et la SLO-régression.
DR trop agressif sans justification commerciale.
Microservices « pour cocher » - croissance du trafic interservices et des factures.

Mini-playbooks

1) Vérification rapide du compte (48 heures)

1. Coupez par top 10 services/région. 2) Pour chacun - $/1000 RPS, hit-ratio CDN, egress.
2. Lancez les clés TTL/cache, éteignez les logs « bruyants ». 4) Activer lifecycle sur S3/objets.

2) Réduction de 25 % de l'egress

1. Tiered-cache+shield, `stale-while-revalidate`. 2) Compresser les images en webp/avif.
2. Diff-API et gzip/brotli par texte. 4) Vérifier les demandes répétées/Retrai.

3) Coupe des coûts d'OBD

1. Requêtes de haut niveau (p95/IO) → index/batching. 2) Hot-set в Redis.
2. Archivage des anciennes données (TTL), read-replicas sur store bon marché.

4) Fin de la « scie » du skate

1. Augmenter la stabilisation/cooldown. 2) MinReplicas> 0 au sommet.
2. Préchauffage des connexions/TLS. 4) Couper les retraits superflus.

Exemple de Nginx « économique » (compression, cache, SWR)

nginx proxy_cache_path /var/cache/nginx levels=1:2 keys_zone=EDGE:512m max_size=50g inactive=7d;

server {
listen 443 ssl http2 reuseport;

Compression brotli on; brotli_comp_level 5; gzip on;

Static: year, immutable location/assets/{
add_header Cache-Control "public, max-age=31536000, immutable" always;
try_files $uri =404;
}

Semi-dynamics: s-maxage + SWR location/catalog/{
proxy_cache EDGE;
add_header Cache-Control "public, s-maxage=600, max-age=120, stale-while-revalidate=900, stale-if-error=86400" always;
proxy_ignore_headers Set-Cookie;
proxy_pass https://origin_catalog;
}
}

Spécificité pour iGaming/fintech

Pics (matchs/tournois) : soulever « minReplicas » à l'avance et réchauffer le CDN/TLS, mais garder le headroom en point - seulement sur les chemins chauds (catalogues, lobby, matchs), le reste en mode degrad.
Paiements/PSP : cache d'annuaire (BIN, limites), idempotence réduit le coût des prises, egress pool séparé pour les listes de fournisseurs blancs.
Antifrod/bots : itinéraires « gris » et challenges bon marché sur le bord au lieu d'un contrôle profond coûteux pour chaque demande.
Contenu direct/fournisseurs : cache au bord + limitation de la fréquence des mises à jour ; Les contrats CDN à renégocier aux grands ivants.

Résultat

L'optimisation des coûts n'est pas un nettoyage ponctuel, mais un processus FinOps permanent : mesurez la valeur ($/unité), automatisez les solutions économiques (cache/TTL/sempling), utilisez des rabais et les bonnes classes de ressources, gardez l'élasticité sous SLO et ne compliquez pas l'architecture là où elle n'est pas rentable. De cette façon, vous réduirez le TCO en maintenant la vitesse du produit et la stabilité de la plate-forme.