Загальні обчислювальні ресурси
1) Що таке «загальні обчислювальні ресурси»
Загальні обчислювальні ресурси (ОВР) - це логічно єдиний пул CPU/GPU/пам'яті/диска/мережі/DA (data availability), що надається безлічі ролей (розробники, оператори вузлів, провайдери даних/контенту, аналітики, ML-команди) через стандартизовані інтерфейси, політики та економіку стимулів. Мета - підвищити утилізацію, знизити витрати і забезпечити передбачувану продуктивність при мультиарендності і міжчіпних сценаріях.
2) Таксономія ресурсів
Обчислення: CPU (загальне призначення), GPU (навчання/інференс), NPU/TPU (ML-прискорювачі).
Пам'ять і диски: RAM, локальне NVMe, об'єктне/блокове сховище, кеші (Redis/KeyDB).
Мережа: пропускна здатність, egress/ingress, QoS класи, приватні канали.
Дані та DA: квоти на публікації, реплікації, снапшоти та зберігання доказів.
Службові ліміти: кількість подів/контейнерів, відкритих файлів, дескрипторів, GPU-мікророзділення (MIG).
3) Моделі споживання (workload types)
Онлайн/низька затримка: API, матчинг, ігрові/фінтех-контури, крос-чейн месенджинг.
Стрімінг/реал-тайм: обробка подій, анти-фрод, телеметрія, real-time аналітика.
Batch: ETL/ELT, звітність, періодичні розрахунки, підготовка фіч.
ML/AI: навчання (GPU-інтенсивно), інференс (низька затримка/висока конверсія).
Сховища та кеші: OLTP/OLAP, lakehouse, CDN/edge кэш.
Для кожного класу задаються SLO, пріоритети, ізоляція і тарифи.
4) Оркестрація і планування
Шедулінг за пріоритетом і класом QoS: EDF/LLF для «дедлайнів», пріоритетні черги, гарантовані «мінімуми».
Запити ресурсів: 'requests/limits'для CPU/Memory, GPU-квоти і частки, preemptible/spot-пули для економії.
Анти-шум: cgroup/компенсація «noisy neighbor», NUMA-пінінг, мережеві поліси.
Топологія і локальність: co-location даних та обчислень, affinity/anti-affinity, edge-прив'язка.
Автомасштабування: горизонтальне (HPA), вертикальне (VPA), кластерне (CA), автопілот для GPU/DA-батчів.
5) Мультиарендність та ізоляція
Рівні: namespace→project→org (budget/quotas/ACL).
Ізоляція: контейнери, VM, пісочниці (gVisor/Firecracker), мережа (VPC/NetworkPolicy), сховища (CSI-поліси).
Політики шумозаглушення: ліміти IOPS/egress, «fair-share» планування, dedicated-тієри для критичних сервісів.
Бюджети помилок/ресурсів: per-tenant error budget і resource budget з авто-деградацією.
6) QoS, пріоритизація і SLO/SLA
Класи QoS: Q4 (критично-pealtime), Q3 (впорядковані), Q2 (exactly-once-ефективно), Q1 (at-least-once), Q0 (best effort).
SLO-приклади: p95 latency API ≤ 200 мс (Q4), GPU-черга очікування ≤ 2 хв (Q3), batch у вікно T ≤ 30 хв (Q1).
Договір QoS→resursy: кожному класу закріплюються гарантовані квоти та аварійні «стоп-крани».
7) Економіка і монетизація (білінг/стимули)
Одиниці тарифікації: vCPU-сек, GiB-годинник RAM, GPU-хвилини, GB-storage-міс, GB-egress, DA-байт/публікація.
Тарифні плани: pay-as-you-go, підписки з квотами і перевитратою, резервації (commit), spot/preemptible зі знижками.
RevShare для провайдерів заліза/дата-центрів: частка обороту, SLA-бонуси/штрафи.
Маркетплейс потужності: лістинг вузлів/кластерів, рейтинги якості, аукціони слотів GPU.
- U-токен - оплата квот/лімітів, знижки.
- S-токен - застави під SLA вузлів/пулів (слешинг за простої/порушення).
- R-токен - репутація провайдера/орендаря (модифікатор ціни/пріоритету).
- RNFT-контракти - індивідуальні договори «resurs↔obyazatelstvo» (ліміти, ціна, термін, KPI, вихід).
8) Контракти та сервіси ядра
Resource Registry: типи ресурсів, класи машин/GPU, доступні зони/edge-POP.
Quota Manager: квоти/ліміти per tenant/project, бюджет egress/IOPS/DA.
Scheduler/Placement: поди/джоби/пули, пріоритети, локальність, анти-шум.
Billing & Metering: лічильники по одиницях, тарифи, перевитрата, алерти по бюджету.
Rewards Router: розподіл виплат провайдерам, штрафів за SLA-брейки.
Compliance Gate: регіони, ПДн/ФЗДн, вік/КУС-обмеження, експорт звітів.
Observability Hub: метрики/трейси/логи, DLQ для джоб, реплеї.
9) Безпека та комплаєнс
Автентифікація/авторизація: mTLS/OIDC, ABAC/RBAC, «найменші привілеї».
Сегментація мережі: VPC, private-link, сервіс-меш з політиками трафіку.
Дані: шифрування at-rest/in-transit, ключова ротація, маскування/фіктивні дані для тестів.
Ізоляція GPU/CPU: заборона прямого доступу, контроль DMA/IOMMU, захист від side-channel.
Комплаєнс: журнал аудиту, регіональна локалізація даних, політики зберігання/видалення, ZK-пропуски для перевірок без розкриття.
10) Спостережуваність і управління продуктивністю
Метрики: uCPU%, GPU-util, RAM/Cache hit, диск IOPS/throughput, мережа p95 RTT/egress, черга GPU/Batch-lag.
SLO/SLA-дашборди: «здоров'я» за класами QoS і орендарям, бюджети помилок.
Профілювання: flamegraph-знімки, hot path-аналіз, автоматична рекомендація розмірів.
Алерти: перевищення лагів, перегрів GPU-черг, egress-вибух, «noisy neighbor» прапори.
11) Анти-фрод і зловживання
Sybil/бот-навантаження: S-застави, R-репутація, поведінкові сигнатури.
Зловживання egress/сканування мережі: rate limits/IDS, карантинні сегменти.
Фармінг спотових знижок: антиарб-політики, охолодження, ліміти на «стрибки» між пулами.
Нечесні провайдери: контроль заявлених специфікацій, синтетичні проби, слешинг і «чорні списки» RNFT.
12) Міжчіпні сценарії (мультичейн/edge)
Перенесення права доступу: RNFT-права і квоти переносяться через месенджинг, репутація (R) залишається в домені довіри.
DA-квоти та публікації: тарифікація за байт/частоту, фінальність/тимчасові замки.
Edge-обчислення: POP-вузли з локальними буферами, «проштовхування» інференса ближче до користувача.
Дедуп і ідемпотентність X-domain: глобальні'x _ job _ id', таблиці seen на кінцях, challenge-періоди.
13) Планування ємності і стійкість
Capacity planning: тренди споживання, сезонність, запаси N тижнів, «червоні лінії» p95.
Game-days і стрес-тести: перевантаження GPU/egress/DA, вимикання AZ/POP, сценарії деградації.
Деградація по дизайну: graceful fallback (менш точні моделі/кеш), пріоритети Q4/Q3.
Зелена ефективність: утилізація, carbon-aware шедулінг, охолодження/вартість енергії, перенесення batch в «зелені вікна».
14) Метрики і KPI екосистеми ОВР
Утилізація: CPU/GPU busy%, RAM/Cache hit, сховище IOPS/GB-використання.
Ефективність: cost-to-serve/запит, утилізація спотів, маржа/хвилину GPU.
Якість: p50/p95 latency за класами, SLA-брейки/1000 запитів, черга/час запуску джоб.
Справедливість: індекс «noisy neighbor», частка інцидентів по орендарях, розподіл квот.
Економіка: дохід/ресурс-одиницю, NRR/GRR за планами, частка повторної виручки.
Безпека: частота ізоляцій, egress-аномалії, репутаційні слеш-події.
15) 治理 (управління) ресурсами
Параметр-пропозали: зміна тарифів/квот/коридорів через голосування.
R-модифікатор: репутація обмежує вплив «сирого капіталу» в чутливих змінах.
Sunset-клаузули: тимчасові акції/знижки з авто-відкатом.
Публічна звітність: квартальні звіти казначейства ОВР, аудит SLA.
16) Плейбук запуску
1. Картування потреб. Класи задач, SLO, локальність даних.
2. Дизайн пулів. Класи машин, GPU-тієри, storage/network-рівні, edge-POP.
3. Політики і квоти. QoS-класи, budgets, ліміти egress/IOPS/DA.
4. Економіка. Тарифи, спот/резерви, стимули провайдерам, RNFT-договори.
5. Безпека та комплаєнс. mTLS/OIDC, шифрування, журнали аудиту, geo-політики.
6. Спостережуваність. Дашборди KPI/SLO, алерти, профілювання.
7. Пілот і масштабування. Один клас задач (наприклад, інференс) → розширення на batch/стрімінг.
8. Інциденти і пост-мортеми. Game-days, реплеї, коригування політик/тарифів.
17) Чек-лист прод-готовності
- Визначені QoS/SLO для всіх типів завдань
- Включені квоти/ліміти і «fair-share» планування
- Налаштовані spot/preemptible пули і анти-арб-політики
- Реалізовані RNFT-договори, білінг і Rewards Router
- Забезпечені ізоляція, шифрування та комплаєнс-звітність
- Доступні дашборди утилізації/якості/економіки
- Відпрацьовані аварії: стоп-крани, деградації, пост-мортеми
- Налаштовані мультичейн-переходи прав, DA-квоти, edge-поширення
18) Глосарій
OVR (загальні обчислювальні ресурси): єдиний пул потужностей для екосистеми.
RNFT: контракт- «відношення» для прав на ресурси/ліміти/терміни.
S-токен: застава під SLA/відповідальність провайдера/вузла.
R-токен: непередавана репутація якості/надійності.
DA: шар доступності даних (публікація/зберігання доказів).
Spot/Preemptible: дешеві, але перериваються ресурси з політиками відновлення.
Підсумок: загальні обчислювальні ресурси перетворюють екосистему в само-балансуючу фабрику обчислень, де утилізація висока, якість передбачувано, стимули вирівняні, а безпека і комплаєнс вбудовані в протокол. Правильна оркестрація, економіка i治理 дозволяють масштабувати мультиарендні навантаження без втрати продуктивності і довіри.