FinOps i budżetowanie infrastruktury
1) Cele FinOps i obszar odpowiedzialności
FinOps integruje inżynierię, finanse i produkt do zarządzania kosztami przy jednoczesnym zachowaniu prędkości SLO/dostawy.
Wyniki:- Przejrzystość kosztów według usług/zespołu/najemcy/regionu.
- Przewidywalność (plan/rzeczywisty, odchylenia, ponowne odcast).
- Świadomy kompromis: koszt wykonania.
- Produkt/Właściciele - Przychody/Cele Gospodarki Jednostkowej.
- Eng/Platform - dźwignie architektoniczne i SLO.
- Finanse - budżety, zobowiązania, sprawozdawczość.
- FinOps Guild - proces, narzędzia, szkolenia.
2) Metryka i ekonomia jednostek
Koszt podstawowy SLIs:- Koszt/Req (koszt 1 żądania), Koszt/ Użytkownik/miesiąc, Koszt/Najemca/Marka/Region.
- COGS% (koszt/dochód), marża brutto.
- Odpady% = płatne - używane.
- Pokrycie% (RI/CUD/SP) - udział obciążenia objętego zobowiązaniami.
- Egress/Req, Przechowywanie/Req, Obserwowalność/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Znakowanie, własność i polityka
Wymagane znaczniki: 'na', 'zespół', 'usługa', 'najemca', 'produkt', 'cost _ center', 'slo _ tier', 'właściciel', 'ttl'.
Własność: każdy zasób ma odpowiedzialny okres przeglądu.
Zasady jako kod: wyłączyć niewykorzystane tworzenie zasobów, limity wielkości, ważne regiony, przetestować czas życia środowiska.
- Zaprzecz „public egress bez proxy/Link”.
- "Opis/właściciel/ttl' wymóg dla SG/NSG/zapory.
- Kwoty budżetowe na zespół (progi miękkie/twarde).
4) Cykle budżetowe i kalendarz
Roczny budżet (AOP): cele dla COGS, marże, zobowiązania przy chmurach.
Plany kwartalne: korekty według mapy drogowej/sezonowości.
Prognoza krocząca (miesięczna, horyzont 6-9 miesięcy): uwzględnia fakty i tendencje, ponownie oblicza deficyt/nadwyżkę.
Pula wypadków: 3-5% rezerwy na nieoczekiwane wyjście/pojemność.
1. Firma → 2) Produkt/Marka → 3) Zespół/Serwis → 4) Środowisko → 5) Klasa zasobów.
5) Prognozowanie obciążenia i kosztów
Kierowcy: MAU/DAU, RPS drogą, woluminy danych, częstotliwość masła/ML, sezonowość, kampanie marketingowe.
Modele: expon. anty-aliasing + wydarzenia. korekty (zwolnienia, regiony, dostawcy).
Co-jeśli: X% wzrost RPS, migracja do innego regionu, możliwość buforowania/krawędzi, zmiana klasy pamięci masowej.
- Oddzielne stałe (zobowiązania, dzierżawa, On) i zmienne (na żądanie/na miejscu, egress).
- Masz drabinę skalarną (capex/commit steps) do szczytów.
6) Zobowiązania u dostawców w chmurze
Zarezerwowane Instancje/CUD/Plany oszczędnościowe: Zamknij stabilne 50-70% podstawy.
Zróżnicowanie według terminów (1/3/przedłużalne), według typów regionów/instancji.
Bufor na żądanie dla szczytów i korytek.
Spot/Preemptible: bezpaństwowiec/CI/tło analityki, z bezpiecznym awaryjnym.
- Najpierw prawowitość i autoskalowanie, a następnie popełnia.
- Odsprzedaż/rynki (o ile są dostępne) niewykorzystanych OI.
- Kontrola stawek i zniżek za kanały bezpośrednie.
7) Dźwignie redukcji kosztów architektonicznych
Obliczenie: poziomy autoskalowanie, Karpenter/Cluster Autoscaler, klasowy QoS, wyłączanie klastrów dev „night”.
Przechowywanie: klasy pamięci masowej (ciepłe/ciepłe/zimne), cykle życia/TTL, partycjonowanie, dedup, kompresja.
Sieć: CDN/krawędź + SWR, • Link/PSC, agregacja połączeń API, HTTP/3/QUIC.
DB/Cache: pgBouncer/RDS Proxy, czytaj repliki, TTL/archiwum, dwustopniowy pamięć podręczna.
Obserwowalność: ślady próbkowania ogonowego (100% błędów i p99, reszta 1-10%), retencje według klasy, mierniki downsampling.
8) Obciążenie zwrotne/Showback
Wewnętrzny model rozliczeniowy:- Showback (miękki): miesięczny raport bez przelewu.
- Obciążenie zwrotne (twarde): faktycznie odpisuje budżet zespołu.
- Bezpośredni koszt → według tagu.
- Ogólne (egress, logging platform) → proporcjonalne do sterowników (żądania, dzienniki GB, przechowywanie).
- „Advocacy” kontrowersyjnych przypadków: FinOps-guild pomaga zespołom zoptymalizować.
9) Deski rozdzielcze i wpisy
Obowiązkowe minimum:- Mapa kosztów: według usług/zespołów/najemców/regionów od drilim do zasobów.
- Plan/rzeczywiste/odchylenia + prognoza (toczenie).
- Pokrycie RI/CUD/Spot i oszczędności.
- mapa ogrzewania Egress (kierunki, dostawcy, PSP).
- Koszt, tj. SLO: p95/p99 korelacja z kosztem/Req.
- Wykrywanie anomalii: wzrost o> 30% trendu w ciągu 24 godzin.
- Budżety: 50/80/100% okresu.
- Nagły wzrost egress, "DEBUG-logs in prod', spadek zasięgu%.
- „Usługi bezczynności” i niewykorzystane tomy/IP.
10) Procesy i RACI
Co tydzień FinOps stand-up: top odchylenia, akcje, właściciele.
Przegląd zmian: ocena kosztów cech przed włączeniem produkcji.
GameDays koszt: sztuczne piki/flagi funkcji → sprawdzenie stabilności budżetu.
Runbooks: jak zwiększyć/zmniejszyć zobowiązania, jak pilnie wyciąć egress/dzienniki, jak zaparkować środowiska.
11) Dokumenty i szablony
11. 1 Szablon budżetu (fragment)
Dochody/MAU/Najemcy
KOCE: Compute/Storage/Network/Observability/3rd-party
Zobowiązania RI/CUD/SP (zasięg, termin)
Rezerwa na incydenty (3-5%)
Plan optymalizacji (efekt ekonomiczny, właściciel, termin)
11. 2 Co-jeśli szablon
ΔRPS = + 20% → ΔCompute + ΔEgress
Włącz CDN-SWR → − X% egress, − Y $
Transfer kłód z 30 do 14 dni → − Z $
CUD + 20k $/rok → zemsta 7. 5 miesięcy
12) Zarządzanie ryzykiem i zgodność
Dostawcy: SLA/kary, strategie wyjścia, ryzyko zamknięcia.
Prawo: regiony/okresy zatrzymania, WORM dla audytu.
FX/waluta: czułość kursu wymiany, rozliczanie wielokrotności.
Kapitalizacja/amortyzacja: interpretacja długoterminowych zobowiązań i połączeń prywatnych.
13) Antypattery
„Tymczasowe” zasoby bez TTL → na zawsze.
Zobowiązuje się do prawowitego/autoskalowania.
Brak znaczników → szare koszty.
Pojedynczy dziennik DEBUG w sprzedaży/100% śladów.
Dev/etap 24 × 7 bez automatycznej przerwy.
Miejsce bez bufora na żądanie.
Publiczne wyjście w każdym przemawiało bez CDN/pełnomocnika.
14) Szczegóły dotyczące iGaming/Finance
PSP/prowizje - część COGS: smart-routing do tańszych/bardziej niezawodnych, pamięci podręcznej stanu, powtarzalności iempotencji.
KYC/AML: pakiet zapytania, pamięć podręczna z TTL według zasad, Cost/KYC metric.
„Sposoby wpłaty” (depozyt/wypłata): oddzielny budżet/SLO, rezerwowa zdolność tylko tutaj, deski rozdzielcze w czasie rzeczywistym.
Rezydencja danych: rachunki/projekty regionalne, lokalny CDN/edge, kanały prywatne do PSP.
GGR/marginalność: powiązanie kosztów/Req z pionami/dostawcami; sprawozdania według marki/jurysdykcji.
15) Szybkie przepisy oszczędnościowe
Umożliwia pobieranie próbek na ogonie śladów i redukcję retencji kłód według klasy.
Podnieść SWR do CDN, rozgrzać tarczę pochodzenia.
Przejdź do serwera proxy pgBouncer/RDS, usuń „burzę” połączeń.
Zmniejszyć żądania/limity do p95 i włączyć Karpenter.
Przenieść statyczne/archiwum do chłodni z cyklami życia.
Przynieś egress za pośrednictwem, fix FQDN-permlists.
16) Lista kontrolna FinOps prod
- Tagi/właściciele/TTL 100% zasobów; Politycy blokują te beztagowe.
- Budżety i wpisy 50/80/100%; włączone jest wykrywanie anomalii.
- Prawowitość zakończona; środowiska autoskalowe/pauzujące dev.
- Zakres RI/CUD/SP ≥ cel (50-70% podstawa); istnieje bufor na żądanie.
- CDN/edge + SWR; prywatne kanały do PaaS/PSP; deska rozdzielcza.
- Kłody/ścieżki: pobieranie próbek ogonowych, zatrzymywanie według klas; Filtrowanie PII.
- Zasady przechowywania: klasy, TTL, archiwum; rozdzielanie dużych stołów.
- Koszty/Req, Koszt/Najemca/Marka/Region deski rozdzielcze; Wyjście z mapy cieplnej; plan/rzeczywista/prognoza.
- Procesy: FinOps stand-up, koszt przeglądu zmian, GameDays.
- W przypadku iGaming: budżety na „sposoby pieniężne”, rachunkowość PSP/KYC/AML, audyt WORM.
17) TL; DR
Zrób przezroczystość (tagi, deski rozdzielcze, plan/fakt), włącz prawowitość + autoskalowanie, zamknij obciążenie bazowe za pomocą zatwierdzeń (RI/CUD/SP), zmniejsz wyciek/magazynowanie za pomocą CDN/SWR, telemetria. Zarządzaj swoim budżetem za pomocą prognozy kroczącej, wpisów i obciążeń zwrotnych, a dla iGaming zachować odrębny kontur i budżet „ścieżek pieniężnych” z ciasnymi SLO i rachunkowości PSP/KYC/AML.