Optimizarea costurilor în cloud
1) De ce FinOps și ce obiective
Scopul este de a reduce COGS menținând în același timp viteza SLO/dezvoltare. Aspecte cheie:- Cât costă 1 cerere, 1 utilizator activ, 1 chiriaș?
- Care este efectul marginal al noii caracteristici/trafic?
- Unde sunt „scurgerile” (ieșire, jurnale redundante, procesor/memorie deasupra capului, resurse inactive)?
Valorile iniţiale
Cost/Req, Cost/Minut Activ, Cost/Chiriaș/Marcă, Cost/GB-stocat, Cost/GB-ieșire.
COGS%: ponderea costului vânzărilor în venituri.
Deșeuri%: (resurse plătite, dar neutilizate )/( toate resursele).
2) Tidying up: tag-uri, proprietate, bugete
Etichete: 'env', 'team', 'service', 'chiriaş', 'produs', 'cost _ center', 'slo _ tier'.
Proprietate: Fiecare resursă are un proprietar și TTL.
Bugete/alerte: bugete lunare/săptămânale cu praguri de 50/80/100% + detectare anomalii.
Politici ca cod: interdicție „fără etichete”, limite de dimensiune, regiuni implicite, cote alocate.
hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}
3) Pârghii arhitecturale ale economiei
3. 1 Dimensiuni corecte și auto-scalare
Rightsizing: selectați instanțe pentru procesorul real/RAM p95.
Scalare automată: orizontală> verticală; для K8s - Cluster Autoscaler/Karpenter, для serverless - min/max concurență.
Modalități reci - în linie/batchi; sarcini pe termen lung - lucrătorilor pe un program.
3. 2 Capacitate spot/achiziționat
Spot/Preventibil pentru apatrizi/fundal și CI; ţineţi tamponul la cerere.
RI/CUD/Planuri de economii: Rezervați o bază stabilă de 50-70%, restul este elastic.
3. 3 Stocarea datelor și clase
Separat: fierbinte (SSD), cald (standard), rece/arhivă (Ghețar/Arhivă).
Politicile ciclului de viață: schimbați clasele, ștergeți după termen.
Activați versionarea acolo unde este necesar și blocarea obiectelor (WORM) numai pentru audit.
3. 4 Rețea și ieșire
CDN/edge + stale-în timp ce-revalidat reduce ieșirea interregională.
Canale private (PrivateLink/PSC/Direct Connect/Interconnect) în loc de „raw” Internet.
Compresie (Brotli/Zstd), HTTP/3/QUIC - mai puțin RTT/reconectări.
3. 5 Baze de date și cache-uri
Alegeți o schemă cu două niveluri: memorie cache (Redis/Memcached) + stocare.
Citiți replici pentru analize, includeți auto-vid/compactare, utilizați pgBouncer/RDS Proxy.
Pentru tabele mari - partiționare/TTL/arhivă.
4) Kubernetes-economie
Cereri/Limite pe clase SLO; "limite: null' prohibitie.
VPA (recomandări), Karpenter (selectarea instanțelor pentru vatră), ambalare Bin (toleranțe/afinitate).
Separați prod/stage/dev la nivel de cluster/nod (diferite tipuri și politici).
Clase de rețea și stocare: alegeți SC/IOPS după profilul de încărcare, nu „premium peste tot”.
Clasele și prioritățile QoS: economisirea locurilor de muncă de fond.
Profile jurnal: agenți laterali cu tampon local, trimiterea de loturi.
5) Serverless-economie
Instanțe min/concurență provizionată - numai pentru mânere fierbinți.
Pachet mic de implementare, init leneș, conexiuni de partajare.
Termene limită și sarcini grele de așteptare.
Agregatoare de funcții (ventilator) în loc de o duzină de călătorii în funcție de.
6) Observabilitate: plătiți pentru telemetrie valoroasă
Jurnale: structurale, fără verbozitate; prezentare pe clase (erori prod mai lungi, depanare - scurte).
Prelevarea urmelor: pe bază de coadă - 100% erori/p99, restul 1-10%.
Valori: agregare/sub-eșantionare, trimitere rară.
Filtrarea PII înainte de a trimite (mai puțini octeți și riscuri).
7) Rețeaua și piața furnizorilor
Comparați prețurile regiunilor, marginalitatea serviciilor gestionate, pachetele de piață.
Negocieri: reduceri de volum (RI/CUD), angajamente, programe de credit.
Evitați duplicarea SaaS cu funcționalitate suprapusă.
8) Economie de unitate și tablouri de bord
Cost major SLI/SLO
Cost/Req pe rute (login, catalog, depozit).
Cost/Chiriaș/Marcă/Regiune.
Ieşire/Req, Stocare/Req, Calcul/Req.
Deșeuri% и Acoperire RI/SP%.
Tablouri de bord (set minim)
„Harta costurilor” pentru servicii/echipe cu coborari in resursa.
ieșire „hartă de căldură” de direcție.
„Service → cost → SLO”: corelarea p99 și cost/req.
„RI/CUD/Spot” acoperire și economii de linie.
9) Procesele FinOps
Analiza săptămânală a conturilor cu proprietarii de servicii.
Revizuirea modificărilor cu evaluarea costului caracteristicilor înainte de includerea producției.
Guardrails: limite de cotă, completarea automată a resurselor inactive, TTL pentru mediile de testare.
GameDays of Value: Pică artificială/Feature Flags, Verificarea sustenabilității bugetului.
10) Antipattern
Resurse „temporare” fără TTL → pentru totdeauna.
`0. 0. 0. 0/0 'egress + nu CDN → conturile de ieșire explodează.
Fără etichete/etichete, este → imposibil să alocați costuri.
DEBUG busteni în vânzări, 100% urme - terabytes fără sens.
Provizionate/serverful „pentru orice eventualitate” fără măsurători de utilizare.
Toate încărcăturile sunt doar la cerere, fără RI/Spot/commits.
11) Specificul iGaming/Finanțe
PSP/taxe de plată - parte a COGS: optimizarea rutării inteligente către furnizori ieftini/de încredere; stări cache, evitați repetarea fără idempotență.
Furnizori KYC/AML: cereri de pachete, utilizați cache-ul rezultatelor (TTL după politică), măsurați costul/KYC.
„Modalități bănești” (depunere/retragere): SLO-uri separate și buget; rezerve pentru evenimente de vârf, exemplare calde doar acolo.
Conținut/CDN: Domenii locale și regionale pentru a reduce ieșirea și pentru a respecta rezidența de date.
Cerințe legale: stocarea WORM pentru domeniul de audit - limită (agregare, TTL, compresie).
12) Mini rețete
12. 1 Politica de păstrare a jurnalului
Erori prod: 30-90 de zile; Info: 7-14; Depanare: 24-72 ore.
Arhiva numai la cerere de conformitate.
12. 2 Telemetrie canară
Pentru o nouă caracteristică - 100% din urme pentru primele 24 de ore → apoi coadă-eșantionare.
12. 3 Cicluri de viață ale obiectelor
json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]
12. 4 Bugete/alerte (idee)
Bugetul lunar pentru fiecare echipă; alerte 50/80/100%; detectarea anomaliilor> 30% din tendință în 24 de ore
13) Lista de verificare Prod Readiness
- 100% tag-uri de resurse și proprietari; politicienii le blochează pe cele fără taguri.
- Bugete și alerte + detectarea anomaliilor; rapoarte privind tananții/mărcile/regiunile.
- RI/CUD/Spot acoperă baseload; există un tampon la cerere.
- K8s: cereri/limite stabilite; VPA/Karpenter; bin de ambalare; clase separate de stocare/IOPS.
- Serverless: provizionat/min numai pentru căi fierbinți; rece - prin cozi.
- CDN/edge activat; canale private pentru PaaS; tabloul de bord de ieşire.
- Jurnale/trasee: prelevare de probe, retenții pe clase; Filtrare PII.
- Cicluri de viață de stocare și arhivă; partiționarea tabelelor mari.
- Tablouri de bord financiare Cost/Req, Cost/Chiriaș, Deșeuri%, Acoperire RI/SP%.
- Pentru iGaming: PSP/KYC/AML contabilitate cheltuieli, SLO și bugete cale de bani, audit WORM.
14) TL; DR
În primul rând, vizibilitate (tag-uri, bugete, tablouri de bord), apoi pârghii structurale: dimensiuni corecte, auto-scalare, RI/Spot/comite, CDN/edge și canale private, clase de stocare și cicluri de viață. Plătiți pentru telemetrie valoroasă (prelevarea de probe, retenții scurte) și automatizați parapeții. În iGaming, luați în considerare PSP/KYC/AML ca parte a COGS și evidențiați „căile de bani” cu SLO-uri și bugete separate.