FinOps та бюджетування інфраструктури
1) Цілі FinOps і зона відповідальності
FinOps об'єднує інженерію, фінанси і продукт, щоб управляти вартістю при збереженні SLO/швидкості поставки.
Результати:- Прозорість витрат по сервісах/командах/тенантах/регіонах.
- Передбачуваність (план/факт, відхилення, reforecast).
- Усвідомлені trade-off: продуктивність ↔ вартість.
- Product/Owners - цілі по доходу/юніт-економіці.
- Eng/Platform - архітектурні важелі і SLO.
- Finance - бюджети, коміти, звітність.
- FinOps Guild - процес, інструменти, навчання.
2) Метрики та юніт-економіка
Базові SLI вартості:- Cost/Req (вартість 1 запиту), Cost/ActiveUser/Month, Cost/Tenant/Brand/Region.
- COGS% (собівартість/виручка), Gross Margin.
- Waste% = оплачено − використано.
- Coverage% (RI/CUD/SP) - частка навантаження, покрита комітами.
- Egress/Req, Storage/Req, Observability/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Тегування, володіння і політики
Обов'язкові теги: `env`, `team`, `service`, `tenant`, `product`, `cost_center`, `slo_tier`, `owner`, `ttl`.
Володіння: у кожного ресурсу є відповідальний і термін перегляду.
Політики як код: заборона створення ресурсів без тегів, ліміти розмірів, допустимі регіони, час життя тестових оточень.
- Deny «публічний egress без проксі/PrivateLink».
- Вимога'description/owner/ttl'для SG/NSG/брандмауерів.
- Бюджетні квоти per team (м'які/жорсткі пороги).
4) Бюджетні цикли та календар
Річний бюджет (AOP): цілі по COGS, маржі, комітам біля хмар.
Квартальні плани: коригування по roadmap/сезонності.
Rolling-forecast (щомісяця, горизонт 6-9 міс): враховує факт і тренди, перераховує дефіцит/профіцит.
Інцидентний пул: резерв на 3-5% для непередбачених egress/ємності.
1. Компанія → 2) Продукт/Бренд → 3) Команда/Сервіс → 4) Оточення → 5) Ресурсний клас.
5) Прогнозування навантаження і витрат
Драйвери: MAU/DAU, RPS за маршрутами, обсяги даних, частота батчів/ML, сезонність, маркетинг-кампанії.
Моделі: Експон. згладжування + подіїн. коригування (релізи, регіони, провайдери).
Що-якщо: зростання RPS на X%, міграція в інший регіон, включення кешування/edge, зміна класу зберігання.
- Розділіть фіксовані (коміти, лізинги, AlwaysOn) і змінні (он-деманд/спот, egress).
- Майте «сходи» масштабування (ступені capex/commit) до піків.
6) Коміти у хмарних провайдерів
Reserved Instances / CUD / Savings Plans: закривають стабільні 50-70% базового навантаження.
Диверсифікуйте за терміном (1/3/подовжені), за регіоном/типами інстансів.
Буфер On-Demand для піків і провалів.
Spot/Preemptible: стейтлесс/CI/фонова аналітика, з безпечним fallback.
- Спочатку rightsizing і автоскейлінг, потім коміти.
- Перепродаж/ринки (де доступні) для невикористовуваних RI.
- Контролюйте egress-тарифи та знижки за прямі канали.
7) Архітектурні важелі зниження вартості
Compute: горизонтальний автоскейлінг, Karpenter/Cluster Autoscaler, class-based QoS, відключення «нічних» dev-кластерів.
Storage: класи зберігання (hot/warm/cold), лайфцикли/TTL, партіонування, дедуп, компресія.
Network: CDN/edge + SWR, PrivateLink/PSC, агрегація API-викликів, HTTP/3/QUIC.
DB/Cache: pgBouncer/RDS Proxy, read-репліки, TTL/архів, двоступеневий кеш.
Observability: tail-sampling трейсів (100% помилок і p99, інше 1-10%), ретенції по класах, downsampling метрик.
8) Chargeback / Showback
Модель виставлення «внутрішніх рахунків»:- Showback (м'яко): щомісячний звіт без трансферу грошей.
- Chargeback (жорстко): фактичне списання бюджету команди.
- Прямі витрати → за тегами.
- Загальні (egress, логінг-платформа) → пропорційно драйверам (запити, ГБ-логів, зберігання).
- «Адвокатура» спірних кейсів: FinOps-гільдія допомагає командам оптимізувати.
9) Дашборди та алерти
Обов'язковий мінімум:- Карта витрат: по сервісах/командах/тенантах/регіонах з дрилим до ресурсу.
- План/факт/відхилення + прогноз (rolling).
- Coverage RI/CUD/Spot і економія.
- Egress heatmap (напрямки, провайдери, PSP).
- Cost ↔ SLO: кореляція p95/p99 з Cost/Req.
- Anomaly detection: сплеск> 30% від тренда за 24 год.
- Бюджети: 50/80/100% періоду.
- Раптове зростання egress, «DEBUG-логи в проді», падіння coverage%.
- «Idle-сервіси» та невикористовувані volumes/IPs.
10) Процеси і RACI
Щотижневий FinOps-стенд-ап: топ-відхилення, дії, власники.
Change review: оцінка вартості фіч перед прод-включенням.
GameDays вартості: штучні піки/фіч-прапори → перевірка стійкості бюджету.
Runbooks: як збільшити/зменшити коміти, як терміново урізати egress/логи, як паркувати оточення.
11) Документи та шаблони
11. 1 Шаблон бюджету (фрагмент)
Дохід/MAU/тенанти
COGS: Compute/Storage/Network/Observability/3rd-party
Коміти RI/CUD/SP (покриття, термін)
Резерв інцидентів (3-5%)
План оптимізацій (економ-ефект, власник, термін)
11. 2 Шаблон «що-якщо»
ΔRPS = +20% → ΔCompute + ΔEgress
Увімкнути CDN-SWR → −X% egress, −Y $
Переклад логів з 30 на 14 днів → −Z $
CUD + 20k $/рік → окупність 7,5 міс
12) Управління ризиками та комплаєнс
Постачальники: SLA/штрафи, вихідні стратегії, lock-in-ризики.
Юридика: регіони/терміни зберігання, WORM для аудиту.
FX/валюта: чутливість до курсу, мультивалютний облік.
Капіталізація/амортизація: інтерпретація довгострокових комітів і приватних підключень.
13) Антипатерни
«Тимчасові» ресурси без TTL → назавжди.
Коміти до rightsizing/автоскейлінгу.
Відсутність тегів → «сірі» витрати.
Єдиний DEBUG-лог на проді/100% трейсів.
Dev/stage в 24 × 7 без авто-паузи.
Спот без буфера on-demand.
Публічний egress в кожному spoke без CDN/проксі.
14) Специфіка iGaming/фінансів
PSP/комісії - частина COGS: smart-routing до більш дешевим/надійним, кеш статусів, ідемпотентність повторів.
KYC/AML: пакетування запитів, кеш з TTL з політики, метрика Cost/KYC.
«Шляхи грошей» (депозит/висновок): окремий бюджет/SLO, provisioned capacity тільки тут, дашборди «вартість-в-реальному-часі».
Data residency: регіональні акаунти/проекти, локальні CDN/edge, приватні канали до PSP.
GGR/маржинальність: прив'язка Cost/Req до ігрових вертикалей/провайдерів; звіти per бренд/юрисдикція.
15) Швидкі рецепти економії
Включити tail-sampling трейсів і скоротити ретеншни логів по класах.
Підняти SWR на CDN, прогріти origin-shield.
Перейти на pgBouncer/RDS Proxy, прибрати «шторм» конектів.
Знизити requests/limits до p95 і включити Karpenter.
Перенести статику/архів в cold-storage з лайфциклами.
Звести egress через PrivateLink/PSC, зафіксувати FQDN-allowlists.
16) Чек-лист prod-готовності FinOps
- Теги/власники/TTL на 100% ресурсів; політики блокують безтегові.
- Бюджети та алерти 50/80/100%; anomaly detection включений.
- Rightsizing виконаний; автоскейлінг/пауза dev-оточень.
- Coverage RI/CUD/SP ≥ цільового (50-70% бази); є on-demand буфер.
- CDN/edge + SWR; приватні канали до PaaS/PSP; egress-дашборд.
- Логи/трейси: tail-sampling, ретенції за класами; фільтрація PII.
- Storage-політики: класи, TTL, архів; Партіонування великих таблиць.
- Дашборди Cost/Req, Cost/Tenant/Brand/Region; Heatmap egress; план/факт/прогноз.
- Процеси: FinOps-стенд-ап, change-review вартості, GameDays.
- Для iGaming: бюджети «шляхів грошей», облік PSP/KYC/AML, WORM-аудит.
17) TL; DR
Зробіть прозорість (теги, дашборди, план/факт), увімкніть rightsizing + автоскейлінг, закрийте базове навантаження комітами (RI/CUD/SP), знизьте egress/зберігання за рахунок CDN/SWR, Private Link, класів і лайфциклів, платите тільки за цінну телеметрію. Керуйте бюджетом через rolling-forecast, алерти і chargeback, а для iGaming тримайте окремий контур і бюджет «шляхів грошей» з жорсткими SLO і урахуванням PSP/KYC/AML.