Wspólne zasoby obliczeniowe
1) Czym są „wspólne zasoby obliczeniowe”
Wspólne zasoby obliczeniowe (GPU) to logicznie pojedyncza pula CPU/GPU/memory/disk/network/DA (dostępność danych) dostarczana do wielu ról (deweloperzy, operatorzy węzłów, dostawcy danych/treści, analitycy, zespoły ML) poprzez znormalizowane interfejsy, politykę i ekonomię zachęt. Celem jest zwiększenie wykorzystania, zmniejszenie kosztów i zapewnienie przewidywalnych wyników w scenariuszach wielopoziomowych i międzysieciowych.
2) Taksonomia zasobów
Obliczenia: procesor (cel ogólny), GPU (szkolenie/wnioskowanie), NPU/TPU (akceleratory ML).
Pamięć i dyski: pamięć RAM, lokalny NVMe, pamięć obiektowa/blokowa, bufory (Redis/KeyDB).
Sieć: przepustowość, wyjście/ingress, klasy QoS, kanały prywatne.
Dane i DA: kwoty na publikacje, replikacje, migawki i przechowywanie dowodów.
Limity usług: liczba strąków/kontenerów, otwarte pliki, deskryptory, mikro dział GPU (MIG).
3) Typy obciążeń roboczych
Online/low latency: API, matchmaking, gra/fintech circuits, cross-chain messaging.
Streaming/w czasie rzeczywistym: przetwarzanie zdarzeń, zwalczanie oszustw, telemetria, analityka w czasie rzeczywistym.
Partia: ETL/ELT, raportowanie, obliczenia okresowe, przygotowanie funkcji.
ML/AI: uczenie się (GPU-intensywne), wnioskowanie (niskie opóźnienie/wysoka konwersja).
Przechowywanie i buforowanie: OLTP/OLAP, lakehouse, CDN/cache krawędzi.
SLO, priorytety, izolacja i taryfy są ustalane dla każdej klasy.
4) Orkiestra i planowanie
Przecinanie według priorytetów i klasy QoS: EDF/LLF dla „terminów”, kolejek priorytetowych, gwarantowanych „minimów”.
Żądania zasobów: „żądania/limity” dla procesora/pamięci, kwot i akcji GPU, puli prewencyjne/kasowe dla oszczędności.
Anty-hałas: cgroup/kompensacja „hałaśliwy sąsiad”, szpilki NUMA, polityka sieciowa.
Topologia i lokalizacja: współinstalacja danych i obliczeń, powinowactwo/anty-powinowactwo, wiązanie krawędzi.
Autoskalowanie: poziomy (HPA), pionowy (VPA), klaster (CA), autopilot dla partii GPU/DA.
5) Wielopoziomowość i izolacja
Бровна: namespace → projekt → org (budżet/kontyngenty/ACL).
Izolacja: kontenery, VM, piaskownice (gVisor/Firecracker), sieć (VPC/اPolicy), przechowywanie (zasady CSI).
Polityka ograniczania hałasu: limity IOPS/wyjścia, planowanie sprawiedliwego udziału, dedykowane poziomy dla usług krytycznych.
Budżet błędu/zasobu: budżet błędu na jednego najemcę i budżet zasobów z automatyczną degradacją.
6) QoS, priorytety i SLO/SLA
Klasy QoS: Q4 (krytyczny czas pealtime), Q3 (zamówiony), Q2 (dokładnie raz skuteczny), Q1 (co najmniej raz), Q0 (najlepszy wysiłek).
Przykłady SLO: p95 latency API ≤ 200 ms (Q4), kolejka oczekiwania GPU ≤ 2 minuty (Q3), partia do okna T ≤ 30 minut (Q1).
Zamówienie QoS → resursy: gwarantowane kwoty i awaryjne „stop dźwigi” są przypisane do każdej klasy.
7) Ekonomia i monetyzacja (rozliczenia/zachęty)
Jednostki ładowania: vCPU-sec, GiB-hours RAM, GPU-minutes, GB-storage-month, GB-egress, DA-byte/publication.
Plany taryfowe: pay-as-you-go, subskrypcje z kontyngentami i nadmiernymi wydatkami, rezerwacje (commit), spot/preemptywne z rabatami.
RevShare dla dostawców sprzętu/centrów danych: udział obrotów, premie SLA/grzywny.
Rynek zasilania: notowania węzłów/klastrów, oceny jakości, aukcje gniazd GPU.
- U-token - wypłata kwot/limitów, rabatów.
- S-token - zastawy dla węzłów/puli SLA (ukośnik dla przestojów/naruszeń).
- R-token - reputacja dostawcy/najemcy (modyfikator cen/priorytetów).
- Kontrakty RNFT - indywidualne kontrakty „resurs” „obyazatelstvo” (limity, cena, termin, KPI, produkcja).
8) Umowy i usługi jądra
Rejestr zasobów: typy zasobów, klasy maszyn/GPU, strefy dostępne/krawędź-POP.
Zarządzający kwotą: kwoty/limity na najemcę/projekt, wyjście z budżetu/IOPS/DA.
Harmonogram/rozmieszczenie: strąki/miejsca pracy/baseny, priorytety, lokalizacja, antyhałas.
Billing & Metering: liczniki jednostkowe, taryfy, nadmierne wydatki, wpisy budżetowe.
Rewards Router: dystrybucja płatności dla dostawców, kary za przerwy SLA.
Brama zgodności: regiony, dane osobowe/dane osobowe, ograniczenia wieku/CCM, raporty eksportowe.
Obserwowalność Piasta: mierniki/ścieżki/dzienniki, DLQ do pracy, powtórki.
9) Bezpieczeństwo i zgodność
Uwierzytelnianie/autoryzacja: mTLS/OIDC, ABAC/RBAC, „najmniejsze uprawnienia”.
Segmentacja sieci: VPC, prywatne łącze, zacieranie usług z polityką ruchu.
Dane: szyfrowanie podczas odpoczynku/tranzytu, obrót klucza, maskowanie/manekina danych do testów.
Izolacja GPU/CPU: wyłączanie bezpośredniego dostępu, kontrola DMA/IOMMU, ochrona kanału bocznego.
Zgodność: dziennik audytu, regionalna lokalizacja danych, polityka zatrzymywania/usuwania, luki w ZK dla audytów bez ujawniania.
10) Obserwowalność i zarządzanie wynikami
Metryki: uCPU%, GPU-util, RAM/Cache hit, IOPS/przepustowość dysku, p95 RTT/egress sieci, GPU/Batch-lag kolejki.
SLO/SLA-dashboards: „zdrowie” przez klasy QoS i najemców, budżety błędów.
Profilowanie: migawki flamegraph, analiza gorącej ścieżki, automatyczna rekomendacja rozmiaru.
Wpisy: przekroczenie opóźnień, przegrzanie kolejek GPU, wybuch wyjścia, „hałaśliwe bandery sąsiadów”.
11) Zwalczanie nadużyć finansowych i nadużyć
Obciążenie Sybil/bot: S-zastawy, R-reputacja, sygnatury behawioralne.
Nadużycia/skanowanie sieci: limity stawek/IDS, segmenty kwarantanny.
Zniżki na miejsce farmacji: anty-arb polityków, chłodzenie, ograniczenia „skoki” między basenami.
Nieuczciwi dostawcy: kontrola zadeklarowanych specyfikacji, próbek syntetycznych, ukośników i „czarnych list” RNFT.
12) Scenariusze międzysieciowe (wielokołowe/krawędziowe)
Transfer praw dostępu: Prawa i kwoty RNFT są przekazywane za pośrednictwem wiadomości błyskawicznych, reputacja (R) pozostaje w domenie zaufania.
Kwoty i publikacje DA: pobieranie opłat za bajt/częstotliwość, końcowość/tymczasowe zamki.
Obliczanie krawędzi: węzły POP z lokalnymi buforami, „pchanie” wnioskowania bliżej użytkownika.
X-domain dedup i idempotence: global 'x _ job _ id', widziane tabele na końcach, okresy wyzwań.
13) Planowanie zdolności i zrównoważony rozwój
Planowanie zdolności produkcyjnych: tendencje konsumpcyjne, sezonowość, zapasy N tygodni, „czerwone linie” p95.
Dni gry i testy warunków skrajnych: przeciążenie GPU/egress/DA, zamknięcie AZ/POP, scenariusze degradacji.
Degradacja według projektu: graceful fallback (mniej dokładne modele/pamięć podręczna), priorytety Q4/Q3.
Ekologiczna wydajność: recykling, sheduling świadomy węgla, koszty chłodzenia/energii, przenoszenie partii do zielonych okien.
14) Wskaźniki i KPI ekosystemu OVR
Usuwanie: CPU/GPU busy%, RAM/Cache hit, IOPS/GB pamięci masowej.
Wydajność: koszt obsługi/żądanie, usuwanie na miejscu, margines/minuta GPU.
Jakość: opóźnienie p50/p95 według klasy, przerwy SLA/1000 żądań, zadanie czasu kolejki/startu.
Sprawiedliwość: indeks „hałaśliwego sąsiada”, udział zdarzeń w podziale na najemców, przydział kwot.
Ekonomia: przychody/zasoby-jednostka, NRR/GRR zgodnie z planami, udział w powtarzających się dochodach.
Bezpieczeństwo: częstotliwość izolacji, anomalie wypróżniania, reputacyjne zdarzenia ukośne.
15) (zarządzanie) zasobami
Propozycje parametrów: zmiana taryf/kontyngentów/korytarzy w drodze głosowania.
R-modyfikator: reputacja ogranicza wpływ „kapitału surowego” na zmiany wrażliwe.
Klauzule o zachodzie słońca: tymczasowe promocje/rabaty z automatycznym rollbackiem.
Sprawozdawczość publiczna: kwartalne sprawozdania skarbu OVR, audyt SLA.
16) Start playbook
1. Potrzeby mapowania. Klasy zadań, SLO, lokalizacja danych.
2. Projekt basenów. Klasy maszyn, poziomy GPU, poziomy pamięci masowej/sieci, krawędź-POP.
3. Polityki i kwoty. Klasy QoS, budżety, limity egress/IOPS/DA.
4. Ekonomia. Taryfy, rezerwy/rezerwy, zachęty dla dostawców, umowy RNFT.
5. Bezpieczeństwo i zgodność. mTLS/OIDC, szyfrowanie, dzienniki audytu, geo-polityki.
6. Obserwowalność. Deski rozdzielcze KPI/SLO, wpisy, profilowanie.
7. Pilot i skalowanie. Jedna klasa zadań (na przykład wniosek) → rozszerzenie do serii/strumieniowania.
8. Incydenty i zwłoki. Dni gry, powtórki, korekty polityki/taryfy.
17) Lista kontrolna dostawy
- QoS/SLO zdefiniowane dla wszystkich typów zadań
- Uwzględniono kwoty/limity i planowanie sprawiedliwego udziału
- Skonfigurowane pule punktowe/preemptywne i polityki antyarb
- Realizowane kontrakty RNFT, rozliczenia i Rewards Router
- Przekazywane sprawozdania dotyczące izolacji, szyfrowania i zgodności
- Dostępne deski rozdzielcze do recyklingu/jakości/ekonomii
- Wypadki wypracowane: żurawie stop, degradacja, pośmiertne
- Prawa wielokołowe, kwoty DA, konfiguracja dystrybucji krawędzi
18) Słownik
OVR (wspólne zasoby obliczeniowe): Pojedyncza pula zdolności ekosystemu.
RNFT: „relacja” umowna w odniesieniu do praw do zasobów/limitów/terminów.
Token S: zabezpieczenie od odpowiedzialności SLA/dostawcy/węzła.
R-token: niezbywalna renoma jakości/niezawodności.
DA: warstwa dostępności danych (publikacja/przechowywanie dowodów).
Spot/Preemptible: tanie, ale przerywalne zasoby z polityką odnawiania.
Najważniejsze: wspólne zasoby obliczeniowe przekształcają ekosystem w samowystarczalną fabrykę obliczeń, w której recykling jest wysoki, jakość jest przewidywalna, zachęty są wyrównywane, a bezpieczeństwo i zgodność są wbudowane w protokół. Odpowiednia orkiestra i ekonomia pozwalają na skalowanie ładunków wielopłatowych bez utraty wydajności i zaufania.