Общие вычислительные ресурсы
1) Что такое «общие вычислительные ресурсы»
Общие вычислительные ресурсы (ОВР) — это логически единый пул CPU/GPU/памяти/диска/сети/DA (data availability), предоставляемый множеству ролей (разработчики, операторы узлов, провайдеры данных/контента, аналитики, ML-команды) через стандартизированные интерфейсы, политики и экономику стимулов. Цель — повысить утилизацию, снизить издержки и обеспечить предсказуемую производительность при мультиарендности и межцепных сценариях.
2) Таксономия ресурсов
Вычисления: CPU (общее назначение), GPU (обучение/инференс), NPU/TPU (ML-ускорители).
Память и диски: RAM, локальное NVMe, объектное/блочное хранилище, кэши (Redis/KeyDB).
Сеть: пропускная способность, egress/ingress, QoS классы, приватные каналы.
Данные и DA: квоты на публикации, репликации, снапшоты и хранение доказательств.
Служебные лимиты: количество подов/контейнеров, открытых файлов, дескрипторов, GPU-микроразделение (MIG).
3) Модели потребления (workload types)
Онлайн/низкая задержка: API, матчинг, игровые/финтех-контуры, кросс-чейн мессенджинг.
Стриминг/реал-тайм: обработка событий, анти-фрод, телеметрия, real-time аналитика.
Batch: ETL/ELT, отчетность, периодические расчеты, подготовка фич.
ML/AI: обучение (GPU-интенсивно), инференс (низкая задержка/высокая конверсия).
Хранилища и кэши: OLTP/OLAP, lakehouse, CDN/edge кэш.
Для каждого класса задаются SLO, приоритеты, изоляция и тарифы.
4) Оркестрация и планирование
Шедулинг по приоритету и классу QoS: EDF/LLF для «дедлайнов», приоритетные очереди, гарантированные «минимумы».
Запросы ресурсов: `requests/limits` для CPU/Memory, GPU-квоты и доли, preemptible/spot-пулы для экономии.
Анти-шум: cgroup/компенсация «noisy neighbor», NUMA-пиннинг, сетевые полисы.
Топология и локальность: co-location данных и вычислений, affinity/anti-affinity, edge-привязка.
Автомасштабирование: горизонтальное (HPA), вертикальное (VPA), кластерное (CA), автопилот для GPU/DA-батчей.
5) Мультиарендность и изоляция
Уровни: namespace→project→org (budget/quotas/ACL).
Изоляция: контейнеры, VM, песочницы (gVisor/Firecracker), сеть (VPC/NetworkPolicy), хранилища (CSI-полисы).
Политики шумоподавления: лимиты IOPS/egress, «fair-share» планирование, dedicated-тиеры для критичных сервисов.
Бюджеты ошибок/ресурсов: per-tenant error budget и resource budget с авто-деградацией.
6) QoS, приоритизация и SLO/SLA
Классы QoS: Q4 (критично-реaltime), Q3 (упорядоченные), Q2 (exactly-once-эффективно), Q1 (at-least-once), Q0 (best effort).
SLO-примеры: p95 latency API ≤ 200 мс (Q4), GPU-очередь ожидания ≤ 2 мин (Q3), batch в окно T ≤ 30 мин (Q1).
Договор QoS→ресурсы: каждому классу закрепляются гарантированные квоты и аварийные «стоп-краны».
7) Экономика и монетизация (биллинг/стимулы)
Единицы тарификации: vCPU-сек, GiB-часы RAM, GPU-минуты, GB-storage-мес, GB-egress, DA-байт/публикация.
Тарифные планы: pay-as-you-go, подписки с квотами и перерасходом, резервации (commit), spot/preemptible со скидками.
RevShare для провайдеров железа/дата-центров: доля оборота, SLA-бонусы/штрафы.
Маркетплейс мощности: листинг узлов/кластеров, рейтинги качества, аукционы слотов GPU.
- U-токен — оплата квот/лимитов, скидки.
- S-токен — залоги под SLA узлов/пулов (слэшинг за простои/нарушения).
- R-токен — репутация провайдера/арендатора (модификатор цены/приоритета).
- RNFT-контракты — индивидуальные договоры «ресурс↔обязательство» (лимиты, цена, срок, KPI, выход).
8) Контракты и сервисы ядра
Resource Registry: типы ресурсов, классы машин/GPU, доступные зоны/edge-POP.
Quota Manager: квоты/лимиты per tenant/project, бюджет egress/IOPS/DA.
Scheduler/Placement: поды/джобы/пулы, приоритеты, локальность, анти-шум.
Billing & Metering: счетчики по единицам, тарифы, перерасход, алерты по бюджету.
Rewards Router: распределение выплат провайдерам, штрафов за SLA-брейки.
Compliance Gate: регионы, ПДн/ФЗДн, возраст/KYC-ограничения, экспорт отчетов.
Observability Hub: метрики/трейсы/логи, DLQ для джоб, реплеи.
9) Безопасность и комплаенс
Аутентификация/авторизация: mTLS/OIDC, ABAC/RBAC, «наименьшие привилегии».
Сегментация сети: VPC, private-link, сервис-мэш с политиками трафика.
Данные: шифрование at-rest/in-transit, ключевая ротация, маскирование/фиктивные данные для тестов.
Изоляция GPU/CPU: запрет прямого доступа, контроль DMA/IOMMU, защита от side-channel.
Комплаенс: журнал аудита, региональная локализация данных, политики хранения/удаления, ZK-пропуски для проверок без раскрытия.
10) Наблюдаемость и управление производительностью
Метрики: uCPU%, GPU-util, RAM/Cache hit, диск IOPS/throughput, сеть p95 RTT/egress, очередь GPU/Batch-lag.
SLO/SLA-дашборды: «здоровье» по классам QoS и арендаторам, бюджеты ошибок.
Профилирование: flamegraph-снимки, hot path-анализ, автоматическая рекомендация размеров.
Алерты: превышение лагов, перегрев GPU-очередей, egress-взрыв, «noisy neighbor» флаги.
11) Анти-фрод и злоупотребления
Sybil/бот-нагрузка: S-залоги, R-репутация, поведенческие сигнатуры.
Злоупотребление egress/сканирование сети: rate limits/IDS, карантинные сегменты.
Фарминг спотовых скидок: анти-арб-политики, охлаждение, лимиты на «прыжки» между пулами.
Нечестные провайдеры: контроль заявленных спецификаций, синтетические пробы, слэшинг и «черные списки» RNFT.
12) Межцепные сценарии (мультичейн/edge)
Перенос права доступа: RNFT-права и квоты переносятся через мессенджинг, репутация (R) остается в домене доверия.
DA-квоты и публикации: тарификация за байт/частоту, финальность/временные замки.
Edge-вычисления: POP-узлы с локальными буферами, «проталкивание» инференса ближе к пользователю.
Дедуп и идемпотентность X-domain: глобальные `x_job_id`, таблицы seen на концах, challenge-периоды.
13) Планирование емкости и устойчивость
Capacity planning: тренды потребления, сезонность, запасы N недель, «красные линии» p95.
Game-days и стресс-тесты: перегруз GPU/egress/DA, выключение AZ/POP, сценарии деградации.
Деградация по дизайну: graceful fallback (менее точные модели/кэш), приоритеты Q4/Q3.
Зеленая эффективность: утилизация, carbon-aware шедулинг, охлаждение/стоимость энергии, перенос batch в «зеленые окна».
14) Метрики и KPI экосистемы ОВР
Утилизация: CPU/GPU busy %, RAM/Cache hit, хранилище IOPS/GB-использование.
Эффективность: cost-to-serve/запрос, утилизация спотов, маржа/минуту GPU.
Качество: p50/p95 latency по классам, SLA-брейки/1000 запросов, очередь/время запуска джоб.
Справедливость: индекс «noisy neighbor», доля инцидентов по арендаторам, распределение квот.
Экономика: доход/ресурс-единицу, NRR/GRR по планам, доля повторной выручки.
Безопасность: частота изоляций, egress-аномалии, репутационные слэш-события.
15)治理 (управление) ресурсами
Параметр-пропозалы: изменение тарифов/квот/коридоров через голосование.
R-модификатор: репутация ограничивает влияние «сырого капитала» в чувствительных изменениях.
Sunset-клаузулы: временные акции/скидки с авто-откатом.
Публичная отчетность: квартальные отчеты казначейства ОВР, аудит SLA.
16) Плейбук запуска
1. Картирование потребностей. Классы задач, SLO, локальность данных.
2. Дизайн пулов. Классы машин, GPU-тиеры, storage/network-уровни, edge-POP.
3. Политики и квоты. QoS-классы, budgets, лимиты egress/IOPS/DA.
4. Экономика. Тарифы, спот/резервы, стимулы провайдерам, RNFT-договоры.
5. Безопасность и комплаенс. mTLS/OIDC, шифрование, журналы аудита, geo-политики.
6. Наблюдаемость. Дашборды KPI/SLO, алерты, профилирование.
7. Пилот и масштабирование. Один класс задач (например, инференс) → расширение на batch/стриминг.
8. Инциденты и пост-мортемы. Game-days, реплеи, корректировка политик/тарифов.
17) Чек-лист прод-готовности
- Определены QoS/SLO для всех типов задач
- Включены квоты/лимиты и «fair-share» планирование
- Настроены spot/preemptible пулы и анти-арб-политики
- Реализованы RNFT-договоры, биллинг и Rewards Router
- Обеспечены изоляция, шифрование и комплаенс-отчетность
- Доступны дашборды утилизации/качества/экономики
- Отработаны аварии: стоп-краны, деградации, пост-мортемы
- Настроены мультичейн-переходы прав, DA-квоты, edge-распространение
18) Глоссарий
OVR (общие вычислительные ресурсы): единый пул мощностей для экосистемы.
RNFT: контракт-«отношение» для прав на ресурсы/лимиты/сроки.
S-токен: залог под SLA/ответственность провайдера/узла.
R-токен: непередаваемая репутация качества/надежности.
DA: слой доступности данных (публикация/хранение доказательств).
Spot/Preemptible: дешевые, но прерываемые ресурсы с политиками возобновления.
Итог: общие вычислительные ресурсы превращают экосистему в само-балансирующуюся фабрику вычислений, где утилизация высока, качество предсказуемо, стимулы выровнены, а безопасность и комплаенс встроены в протокол. Правильная оркестрация, экономика и治理 позволяют масштабировать мультиарендные нагрузки без потери производительности и доверия.