Optymalizacja kosztów chmury
1) Dlaczego FinOps i jakie cele
Celem jest zmniejszenie COGS przy jednoczesnym zachowaniu prędkości SLO/rozwoju. Najważniejsze kwestie:- Ile wynosi 1 żądanie, 1 aktywny użytkownik, 1 najemca?
- Jaki jest margines efektu nowej funkcji/ruchu?
- Gdzie są „przecieki” (egress, redundant logs, CPU/memory overhead, bezczynne zasoby)?
Metryka wyjściowa
Koszt/Req, Koszt/Minuta Aktywny, Koszt/Najemca/Marka, Koszt/GB przechowywane, Koszt/GB-egress.
COGS%: udział kosztów sprzedaży w przychodach.
% odpadów: (zapłacone, ale niewykorzystane zasoby )/( wszystkie zasoby).
2) Porządkowanie: tagi, własność, budżety
Tagi/etykiety: „,” zespół „,” serwis', „najemca”, „produkt”, „cost _ center”, „slo _ tier”.
Własność: Każdy zasób posiada właściciela i TTL.
Budżety/wpisy: miesięczne/tygodniowe budżety o progach 50/80/100% + wykrywanie anomalii.
Zasady jako kod: zakaz „bez znaczników”, limity wielkości, regiony domyślne, przydzielone kwoty.
hcl module "policy" {
source = "finops/policy/required-tags"
required_tags = ["env","team","service","cost_center","tenant"]
}
3) Dźwignie architektoniczne gospodarki
3. 1 Prawidłowe wymiary i automatyczne skalowanie
Rightsizing: wybierz instancje dla rzeczywistego procesora/pamięci RAM p95.
Automatyczne skalowanie: poziomy> pionowy; мла K8s - Cluster Autoscaler/Karpenter, дла serverless - min/max concurrency.
Zimne drogi - w linii/batchi; zadania długoterminowe - dla pracowników w harmonogramie.
3. 2 Zdolność kasowa/nabyta
Spot/Preemptible dla bezpaństwowców/tła i CI; przytrzymaj bufor na żądanie.
RI/CUD/Oszczędności Plany: Zarezerwuj stabilny 50-70% podstawowy, reszta jest elastyczna.
3. 3 Przechowywanie danych i klasy
Oddzielne: gorące (SSD), ciepłe (standardowe), zimne/archiwum (lodowiec/archiwum).
Zasady dotyczące cyklu życia: lekcje zmiany, usuwanie po upływie terminu.
Włączanie wersji w razie potrzeby i blokady obiektów (WORM) tylko do celów audytu.
3. 4 Sieć i wyjście
CDN/edge + stale-while-revalidate zmniejsza międzyregionalne wyjście.
Kanały prywatne (Z-Linka/PSC/Direct Connect/Interconnect) zamiast „surowego” Internetu.
Kompresja (Brotli/Zstd), HTTP/3/QUIC - mniej RTT/ponowne połączenia.
3. 5 Bazy danych i bufory
Wybierz dwupoziomowy schemat: cache (Redis/Memcached) + storage.
Przeczytaj repliki do analiz, w tym automatyczne podciśnienie/zagęszczenie, użyj pgBouncer/RDS Proxy.
Dla dużych tabel - partycjonowanie/TTL/archiwum.
4) Kubernety-ekonomia
Żądania/limity według klasy SLO; "limity: null' prohibition.
VPA (zalecenia), Karpenter (wybór przypadków dla słuchu), pakowanie Bin (tolerancje/powinowactwo).
Oddzielny prod/stage/dev na poziomie klastra/węzła (różne rodzaje i zasady).
Klasy sieci i pamięci masowej: wybierz SC/IOPS według profilu obciążenia, a nie „premium wszędzie”.
Klasy i priorytety QoS: oszczędność miejsc pracy w tle.
Profile dziennika: agenci boczne z lokalnym buforem, wysyłane partiami.
5) Serverless-ekonomia
Min instancje/rezerwiste współistnienie - tylko dla gorących uchwytów.
Mały pakiet rozmieszczenia, leniwy-init, wspólne połączenia.
Terminy i kolejkowanie ciężkich zadań.
Agregatory funkcyjne (wentylatory) zamiast kilkunastu wycieczek w zależności od.
6) Obserwowalność: opłata za cenną telemetrię
Kłody: strukturalne, bez słowności; prezentacja według klasy (prod błędy dłużej, debug - krótki).
Pobieranie próbek śladowych: na podstawie ogona - 100% błędów/p99, pozostałe 1-10%.
Mierniki: agregacja/downsampling, mało wysyłane.
Filtrowanie PII przed wysłaniem (mniej bajtów i ryzyka).
7) Sieć dostawcy i rynek
Porównaj ceny regionów, marginalność zarządzanych usług, pakiety rynkowe.
Negocjacje: zniżki na wolumen (RI/CUD), zobowiązania, programy kredytowe.
Unikaj powielania SaaS z zachodzącą na siebie funkcjonalnością.
8) Ekonomia jednostki i deski rozdzielcze
Duże koszty SLI/SLO
Koszt/Req na trasach (login, katalog, depozyt).
Koszt/Najemca/Marka/Region.
Egress/Req, Storage/Req, Compute/Req.
Odpady% - Zasięg RI/SP%.
Deski rozdzielcze (minimalny zestaw)
„Mapa kosztów” dla usług/zespołów z zejściem do zasobu.
wyjąć „mapę ciepła” według kierunku.
„Usługa → koszt → SLO”: korelacja p99 i Koszt/Req.
„RI/CUD/Spot” pokrycie i oszczędności linii.
9) Procesy FinOps
Cotygodniowa analiza kont u właścicieli usług.
Przegląd zmian wraz z oceną kosztów cech przed włączeniem produkcji.
Poręcze: limity kwot, automatyczne uzupełnianie zasobów bezczynności, TTL dla środowisk testowych.
GameDays of Value: sztuczne piki/flagi funkcyjne, sprawdzanie stabilności budżetu.
10) Antypattery
„Tymczasowe” zasoby bez TTL → na zawsze.
`0. 0. 0. 0/0megress + brak CDN → eksplodują konta egress.
Bez znaczników/etykiet, → niemożliwe jest przypisanie kosztów.
DEBUG loguje się w sprzedaży, 100% śladów - bez znaczenia terabajtów.
Rezerwa/serverful „just in case” bez mierników użytkowania.
Wszystkie obciążenia są tylko na żądanie, brak RI/Spot/commits.
11) Szczegóły dotyczące iGaming/Finance
PSP/opłaty płatnicze - część COGS: optymalizacja inteligentnych tras do tanich/niezawodnych dostawców; statusy pamięci podręcznej, unikać powtarzania bez idempotencji.
Sprzedawcy KYC/AML: żądania pakietu, użyj pamięci podręcznej wyników (TTL według zasad), pomiar Cost/KYC.
„Środki pieniężne” (depozyt/wypłata): oddzielne SLO i budżet; rezerwy dla wydarzeń szczytowych, ciepłe okazy tylko tam.
Zawartość/CDN: Lokalna krawędź i regionalne domeny, aby zmniejszyć wydobycie i przestrzegać rezydencji danych.
Wymagania prawne: magazynowanie WORM do audytu - zakres graniczny (agregacja, TTL, kompresja).
12) Mini przepisy kulinarne
12. 1 Polityka zatrzymywania kłód
Błędy Prod: 30-90 dni; Informacje: 7-14; Debug: 24-72 godziny.
Archiwum tylko na żądanie zgodności.
12. 2 Telemetria kanaryjska
Dla nowej funkcji - 100% śladów przez pierwsze 24 godziny → następnie próbkowanie ogona.
12. 3 Cykle życia obiektu
json
[
{"prefix": "raw/", "days_to_warm": 30, "days_to_cold": 90, "days_to_delete": 365},
{"prefix": "audit/", "lock": "WORM-365d"}
]
12. 4 Budżety/wpisy (pomysł)
miesięczny budżet na zespół; wpisy 50/80/100%; wykrywanie anomalii> 30% trendu w ciągu 24 godzin
13) Lista kontrolna gotowości Prod
- 100% znaczników zasobów i właścicieli; Politycy blokują niewykorzystane.
- Budżety i wpisy + wykrywanie anomalii; sprawozdania dotyczące garbników/marek/regionów.
- RI/CUD/Podstawowa osłona na miejscu; istnieje bufor na żądanie.
- K8s: wnioski/limity ustalone; VPA/Karpenter; pakowanie bloków; oddzielne klasy pamięci masowej/IOPS.
- Bez surowca: rezerwa/min tylko dla gorących ścieżek; zimno - przez kolejki.
- CDN/krawędź włączona; prywatne kanały do PaaS; deska rozdzielcza.
- Kłody/ścieżki: pobieranie próbek ogonowych, zatrzymywanie według klas; Filtrowanie PII.
- Cykle życia i archiwum magazynowania; rozdzielanie dużych stołów.
- Finansowe deski rozdzielcze Koszt/Req, Koszt/Najemca, Odpady%, Pokrycie RI/SP%.
- Dla iGaming: PSP/KYC/AML rachunkowość wydatków, SLO i budżety ścieżki pieniężnej, audyt WORM.
14) TL; DR
Po pierwsze, widoczność (tagi, budżety, deski rozdzielcze), następnie dźwignie strukturalne: poprawne wymiary, automatyczne skalowanie, RI/Spot/commits, CDN/edge i kanały prywatne, klasy pamięci masowej i cykle życia. Zapłacić za cenną telemetrię (próbkowanie ogona, krótkie zatrzymania) i automatyczne barierki. W iGaming, rozważyć PSP/KYC/AML jako część COGS i podkreślić „ścieżki pieniężne” z oddzielnych SLO i budżetów.