FinOps и бюджетирование инфраструктуры
1) Цели FinOps и зона ответственности
FinOps объединяет инженерию, финансы и продукт, чтобы управлять стоимостью при сохранении SLO/скорости поставки.
Результаты:- Прозрачность затрат по сервисам/командам/тенантам/регионам.
- Предсказуемость (план/факт, отклонения, reforecast).
- Осознанные trade-off: производительность ↔ стоимость.
- Product/Owners — цели по доходу/юнит-экономике.
- Eng/Platform — архитектурные рычаги и SLO.
- Finance — бюджеты, коммиты, отчетность.
- FinOps Guild — процесс, инструменты, обучение.
2) Метрики и юнит-экономика
Базовые SLI стоимости:- Cost/Req (стоимость 1 запроса), Cost/ActiveUser/Month, Cost/Tenant/Brand/Region.
- COGS % (себестоимость/выручка), Gross Margin.
- Waste % = оплачено − использовано.
- Coverage % (RI/CUD/SP) — доля нагрузки, покрытая коммитами.
- Egress/Req, Storage/Req, Observability/Req.
Cost/Req = (Compute + Storage + Network + Observability + 3rd-party) / #Requests
COGS% = COGS / Revenue
Waste% = (Idle + Over-provision + Unused) / Total
3) Тэгирование, владение и политики
Обязательные тэги: `env`, `team`, `service`, `tenant`, `product`, `cost_center`, `slo_tier`, `owner`, `ttl`.
Владение: у каждого ресурса есть ответственный и срок пересмотра.
Политики как код: запрет создания ресурсов без тегов, лимиты размеров, допустимые регионы, время жизни тестовых окружений.
- Deny «публичный egress без прокси/PrivateLink».
- Требование `description/owner/ttl` для SG/NSG/брандмауэров.
- Бюджетные квоты per team (мягкие/жесткие пороги).
4) Бюджетные циклы и календарь
Годовой бюджет (AOP): цели по COGS, марже, коммитам у облаков.
Квартальные планы: корректировки по roadmap/сезонности.
Rolling-forecast (ежемесячно, горизонт 6–9 мес): учитывает факт и тренды, пересчитывает дефицит/профицит.
Инцидентный пул: резерв на 3–5% для непредвиденных egress/емкости.
1. Компания → 2) Продукт/Бренд → 3) Команда/Сервис → 4) Окружение → 5) Ресурсный класс.
5) Прогнозирование нагрузки и затрат
Драйверы: MAU/DAU, RPS по маршрутам, объемы данных, частота батчей/ML, сезонность, маркетинг-кампании.
Модели: экспон. сглаживание + событийн. корректировки (релизы, регионы, провайдеры).
Что-если: рост RPS на X%, миграция в другой регион, включение кэширования/edge, смена класса хранения.
- Разделите фиксированные (коммиты, лизинги, AlwaysOn) и переменные (он-деманд/спот, egress).
- Имейте «лестницу» масштабирования (ступени capex/commit) до пиков.
6) Коммиты у облачных провайдеров
Reserved Instances / CUD / Savings Plans: закрывают стабильные 50–70% базовой нагрузки.
Диверсифицируйте по сроку (1/3/удлиняемые), по региону/типам инстансов.
Буфер On-Demand для пиков и провалов.
Spot/Preemptible: стейтлесс/CI/фоновая аналитика, с безопасным fallback.
- Сначала rightsizing и автоскейлинг, затем коммиты.
- Перепродажа/рынки (где доступны) для неиспользуемых RI.
- Контролируйте egress-тарифы и скидки за прямые каналы.
7) Архитектурные рычаги снижения стоимости
Compute: горизонтальный автоскейлинг, Karpenter/Cluster Autoscaler, class-based QoS, отключение «ночных» dev-кластеров.
Storage: классы хранения (hot/warm/cold), лайфциклы/TTL, партиционирование, дедуп, компрессия.
Network: CDN/edge + SWR, PrivateLink/PSC, агрегация API-вызовов, HTTP/3/QUIC.
DB/Cache: pgBouncer/RDS Proxy, read-реплики, TTL/архив, двуступенчатый кэш.
Observability: tail-sampling трэйсов (100% ошибок и p99, остальное 1–10%), ретенции по классам, downsampling метрик.
8) Chargeback / Showback
Модель выставления «внутренних счетов»:- Showback (мягко): ежемесячный отчет без трансфера денег.
- Chargeback (жестко): фактическое списание бюджета команды.
- Прямые затраты → по тегам.
- Общие (egress, логинг-платформа) → пропорционально драйверам (запросы, ГБ-логов, хранение).
- «Адвокатура» спорных кейсов: FinOps-гильдия помогает командам оптимизировать.
9) Дашборды и алерты
Обязательный минимум:- Карта затрат: по сервисам/командам/тенантам/регионам с дрилим до ресурса.
- План/факт/отклонения + прогноз (rolling).
- Coverage RI/CUD/Spot и экономия.
- Egress heatmap (направления, провайдеры, PSP).
- Cost ↔ SLO: корреляция p95/p99 с Cost/Req.
- Anomaly detection: всплеск > 30% от тренда за 24 ч.
- Бюджеты: 50/80/100% периода.
- Внезапный рост egress, «DEBUG-логи в проде», падение coverage %.
- «Idle-сервисы» и неиспользуемые volumes/IPs.
10) Процессы и RACI
Еженедельный FinOps-стэнд-ап: топ-отклонения, действия, владельцы.
Change review: оценка стоимости фич перед прод-включением.
GameDays стоимости: искусственные пики/фич-флаги → проверка устойчивости бюджета.
Runbooks: как увеличить/уменьшить коммиты, как срочно урезать egress/логи, как парковать окружения.
11) Документы и шаблоны
11.1 Шаблон бюджета (фрагмент)
Доход/MAU/тенанты
COGS: Compute/Storage/Network/Observability/3rd-party
Коммиты RI/CUD/SP (покрытие, срок)
Резерв инцидентов (3–5%)
План оптимизаций (эконом-эффект, владелец, срок)
11.2 Шаблон «что-если»
ΔRPS = +20% → ΔCompute + ΔEgress
Включить CDN-SWR → −X% egress, −Y $
Перевод логов с 30 на 14 дней → −Z $
CUD +20k$/год → окупаемость 7,5 мес
12) Управление рисками и комплаенс
Поставщики: SLA/штрафы, выходные стратегии, lock-in-риски.
Юридика: регионы/сроки хранения, WORM для аудита.
FX/валюта: чувствительность к курсу, мультивалютный учет.
Капитализация/амортизация: интерпретация долгосрочных коммитов и частных подключений.
13) Антипаттерны
«Временные» ресурсы без TTL → навсегда.
Коммиты до rightsizing/автоскейлинга.
Отсутствие тегов → «серые» расходы.
Единый DEBUG-лог на проде/100% трэйсов.
Dev/stage в 24×7 без авто-паузы.
Спот без буфера on-demand.
Публичный egress в каждом spoke без CDN/прокси.
14) Специфика iGaming/финансов
PSP/комиссии — часть COGS: smart-routing к более дешевым/надежным, кэш статусов, идемпотентность повторов.
KYC/AML: пакетирование запросов, кэш с TTL по политике, метрика Cost/KYC.
«Пути денег» (депозит/вывод): отдельный бюджет/SLO, provisioned capacity только здесь, дашборды «стоимость-в-реальном-времени».
Data residency: региональные аккаунты/проекты, локальные CDN/edge, приватные каналы к PSP.
GGR/маржинальность: привязка Cost/Req к игровым вертикалям/провайдерам; отчеты per бренд/юрисдикция.
15) Быстрые рецепты экономии
Включить tail-sampling трэйсов и сократить ретеншны логов по классам.
Поднять SWR на CDN, прогреть origin-shield.
Перейти на pgBouncer/RDS Proxy, убрать «шторм» коннектов.
Снизить requests/limits до p95 и включить Karpenter.
Перенести статику/архив в cold-storage с лайфциклами.
Свести egress через PrivateLink/PSC, зафиксировать FQDN-allowlists.
16) Чек-лист prod-готовности FinOps
- Тэги/владельцы/TTL на 100% ресурсов; политики блокируют безтеговые.
- Бюджеты и алерты 50/80/100%; anomaly detection включен.
- Rightsizing выполнен; автоскейлинг/пауза dev-окружений.
- Coverage RI/CUD/SP ≥ целевого (50–70% базы); есть on-demand буфер.
- CDN/edge + SWR; приватные каналы к PaaS/PSP; egress-дашборд.
- Логи/трейсы: tail-sampling, ретенции по классам; фильтрация PII.
- Storage-политики: классы, TTL, архив; партиционирование больших таблиц.
- Дашборды Cost/Req, Cost/Tenant/Brand/Region; Heatmap egress; план/факт/прогноз.
- Процессы: FinOps-стэнд-ап, change-review стоимости, GameDays.
- Для iGaming: бюджеты «путей денег», учет PSP/KYC/AML, WORM-аудит.
17) TL;DR
Сделайте прозрачность (тэги, дашборды, план/факт), включите rightsizing+автоскейлинг, закройте базовую нагрузку коммитами (RI/CUD/SP), снизьте egress/хранение за счет CDN/SWR, PrivateLink, классов и лайфциклов, платите только за ценную телеметрию. Управляйте бюджетом через rolling-forecast, алерты и chargeback, а для iGaming держите отдельный контур и бюджет «путей денег» с жесткими SLO и учетом PSP/KYC/AML.