Gemeinsame Rechenressourcen
1) Was sind „gemeinsame Rechenressourcen“
Shared Computing Resources (AFR) ist ein logisch einheitlicher CPU-/GPU-/Speicher-/Festplatten-/Netzwerk-/DA-Pool (Data Availability), der über standardisierte Schnittstellen, Richtlinien und Anreizökonomie einer Vielzahl von Rollen (Entwickler, Knotenbetreiber, Daten-/Inhaltsanbieter, Analysten, ML-Teams) zur Verfügung gestellt wird. Ziel ist es, die Entsorgung zu erhöhen, die Kosten zu senken und eine vorhersehbare Leistung bei Multi-Leasing- und Inter-Chain-Szenarien zu gewährleisten.
2) Taxonomie der Ressourcen
Berechnungen: CPU (allgemeiner Zweck), GPU (Training/Inferenz), NPU/TPU (ML-Beschleuniger).
Speicher und Laufwerke: RAM, lokaler NVMe, Objekt-/Blockspeicher, Caches (Redis/KeyDB).
Netzwerk: Bandbreite, egress/ingress, QoS-Klassen, private Kanäle.
Daten und DA: Quoten für Veröffentlichungen, Replikationen, Snapshots und die Aufbewahrung von Beweisen.
Service-Limits: Anzahl der Pods/Container, geöffnete Dateien, Deskriptoren, GPU-Mikroteilung (MIG).
3) Verbrauchsmuster (Workload-Typen)
Online/niedrige Latenz: APIs, Matching, Spiel-/Fintech-Konturen, Cross-Chain-Messenger.
Streaming/Real-Time: Event-Verarbeitung, Anti-Fraud, Telemetrie, Real-Time Analytics.
Batch: ETL/ELT, Reporting, periodische Berechnungen, Vorbereitung von Fitch.
ML/AI: Training (GPU-intensiv), Inferenz (niedrige Latenz/hohe Konversion).
Speicher und Caches: OLTP/OLAP, Lakehouse, CDN/Edge-Cache.
Für jede Klasse werden SLOs, Prioritäten, Isolation und Tarife festgelegt.
4) Orchestrierung und Planung
Sheduling nach Priorität und QoS-Klasse: EDF/LLF für „Deadlines“, Prioritätswarteschlangen, garantierte „Minima“.
Ressourcenanfragen: 'requests/limits' für CPU/Speicher, GPU-Quote und Anteil, preemptible/Spot-Pools für Einsparungen.
Anti-Noise: cgroup/Kompensation „noisy neighbor“, NUMA-Pinning, Netzpolicen.
Topologie und Lokalität: Co-Location von Daten und Berechnungen, Affinität/Anti-Affinität, Edge-Bindung.
Automatische Skalierung: horizontal (HPA), vertikal (VPA), Cluster (CA), Autopilot für GPU/DA-Battles.
5) Multi-Leasing und Isolierung
Уровни: namespace→project→org (budget/quotas/ACL).
Isolierung: Container, VM, Sandboxen (gVisor/Firecracker), Netzwerk (VPC/NetworkPolicy), Speicher (CSI-Richtlinien).
Noise Cancelling Policies: IOPS/egress Limits, „Fair-Share“ -Planung, dedizierte Tiers für kritische Dienste.
Fehler-/Ressourcenbudgets: per-tenant Fehlerbudget und Ressourcenbudget mit Auto-Degradation.
6) QoS, Priorisierung und SLO/SLA
QoS-Klassen: Q4 (kritisch-pealtime), Q3 (geordnet), Q2 (exactly-once-effective), Q1 (at-least-once), Q0 (best effort).
SLO-Beispiele: p95 latency API ≤ 200 ms (Q4), GPU-Warteschlange ≤ 2 min (Q3), Batch im Fenster T ≤ 30 min (Q1).
Der Vertrag QoS→resursy: Jeder Klasse werden garantierte Quoten und Nothaltekräne zugewiesen.
7) Wirtschaft und Monetarisierung (Abrechnung/Anreize)
Ladeeinheiten: vCPU-sec, GiB-RAM-Stunden, GPU-Minuten, GB-Speicher-mes, GB-egress, DA-Byte/Publikation.
Tarifpläne: Pay-as-you-go, Abonnements mit Quoten und Überausgaben, Reservierungen (Commit), Spot/Preemptible mit Rabatten.
RevShare für Hardware-Anbieter/Rechenzentren: Umsatzanteil, SLA-Boni/Strafen.
Kapazitäts-Marktplatz: Node/Cluster-Listing, Qualitätsratings, GPU-Slot-Auktionen.
- U-Token - Bezahlung von Quoten/Limits, Rabatten.
- S-Token - Pfandrechte für SLA-Knoten/Pools (Slashing für Ausfallzeiten/Störungen).
- R-Token - Ruf des Anbieters/Mieters (Preis-/Prioritätsmodifikator).
- RNFT-Verträge - individuelle Verträge „resurs↔obyazatelstvo“ (Limits, Preis, Laufzeit, KPI, Exit).
8) Kernverträge und Dienstleistungen
Resource Registry: Ressourcentypen, Maschinenklassen/GPUs, verfügbare Zonen/Edge-POPs.
Quota Manager: Quoten/Limits per tenant/project, Budget egress/IOPS/DA.
Scheduler/Placement: Pods/Jobs/Pools, Prioritäten, Lokalität, Anti-Lärm.
Billing & Metering: Zähler nach Einheiten, Tarife, Mehrausgaben, Alerts nach Budget.
Belohnungsrouter: Verteilung von Zahlungen an Anbieter, Strafen für SLA-Pausen.
Compliance Gate: Regionen, PDn/FZDn, Alters-/CUS-Beschränkungen, Export von Berichten.
Observability Hub: Metriken/Traces/Logs, DLQ für Job, Replays.
9) Sicherheit und Compliance
Authentifizierung/Autorisierung: mTLS/OIDC, ABAC/RBAC, „least privilege“.
Netzwerk-Segmentierung: VPC, Private-Link, Service-Mash mit Traffic-Richtlinien.
Daten: At-Rest/In-Transit-Verschlüsselung, Schlüsselrotation, Maskierung/Dummy-Daten für Tests.
GPU/CPU-Isolation: Verbot des direkten Zugriffs, DMA/IOMMU-Steuerung, Side-Channel-Schutz.
Compliance: Prüfprotokoll, regionale Datenlokalisierung, Aufbewahrungs-/Löschrichtlinien, ZK-Pässe für Prüfungen ohne Offenlegung.
10) Beobachtbarkeit und Leistungsmanagement
Metriken: uCPU%, GPU-util, RAM/Cache hit, IOPS/throughput disk, p95 RTT/egress network, GPU/Batch-lag queue.
SLO/SLA-Dashboards: „Gesundheit“ nach QoS-Klassen und Mietern, Fehlerbudgets.
Profiling: Flamegraph-Snapshots, Hot-Path-Analyse, automatische Größenempfehlung.
Alerts: Überschreitung von Verzögerungen, Überhitzung von GPU-Warteschlangen, egress-Explosion, „noisy neighbor“ -Flags.
11) Anti-Betrug und Missbrauch
Sybil/Bot-Load: S-Zusagen, R-Reputation, Verhaltenssignaturen.
Missbrauch von egress/Netzwerk-Scans: rate limits/IDS, Quarantäne-Segmente.
Pharming Spot-Rabatte: Anti-ARB- Politik, Kühlung, Grenzen für „Sprünge“ zwischen den Pools.
Unehrliche Anbieter: Kontrolle der angegebenen Spezifikationen, synthetische Proben, Slashing und RNFT-Blacklists.
12) Inter-Chain-Szenarien (Multi-Chain/Edge)
Übertragung des Zugriffsrechts: RNFT-Rechte und -Kontingente werden per Messenger übertragen, Reputation (R) bleibt in der Vertrauensdomäne.
DA-Kontingente und Publikationen: Abrechnung pro Byte/Frequenz, Finalität/Zeitschlösser.
Edge-Computing: POP-Knoten mit lokalen Puffern, „Push“ -Inference näher am Benutzer.
Dedup und Idempotenz der X-Domäne: globale'x _ job _ id', Tabellen an den Enden gesehen, Herausforderungsperioden.
13) Kapazitätsplanung und Nachhaltigkeit
Kapazitätsplanung: Konsumtrends, Saisonalität, N-Wochen-Bestände, „rote Linien“ p95.
Spieltage und Stresstests: GPU/egress/DA-Überlastung, AZ/POP-Abschaltung, Degradationsszenarien.
Design Degradation: graceful fallback (weniger genaue Modelle/Cache), Q4/Q3 Prioritäten.
Grüne Effizienz: Recycling, Carbon-Aware-Scheduling, Kühlung/Energiekosten, Verlagerung der Batch in „grüne Fenster“.
14) Kennzahlen und KPIs des OVR-Ökosystems
Entsorgung: CPU/GPU busy%, RAM/Cache-Hit, IOPS/GB-Speicher-Nutzung.
Effizienz: Cost-to-Serve/Anfrage, Spot-Entsorgung, GPU-Marge/Minute.
Qualität: p50/p95 Latenz nach Klassen, SLA-Pausen/1000 Anfragen, Warteschlange/Jobstartzeit.
Fairness: „noisy neighbor“ -Index, Anteil der Vorfälle nach Mietern, Quotenverteilung.
Wirtschaft: Einkommen/Ressourceneinheit, NRR/GRR nach Plänen, Anteil der Wiedereinnahmen.
Sicherheit: Isolationshäufigkeit, Egress-Anomalien, Reputations-Slash-Ereignisse.
15) 治理 (Management) von Ressourcen
Parameter-Proposals: Änderung der Tarife/Quoten/Korridore durch Abstimmung.
R-Modifikator: Reputation begrenzt den Einfluss von „Rohkapital“ auf sensible Veränderungen.
Sunset-Klauseln: temporäre Aktionen/Rabatte mit Auto-Rollback.
Öffentliche Berichterstattung: Quartalsberichte des GERS Treasury, SLA Audit.
16) Launch-Playbook
1. Kartierung der Bedürfnisse. Aufgabenklassen, SLO, Datenlokalität.
2. Das Design der Pools. Maschinenklassen, GPU-Tiers, Storage/Network-Layer, Edge-POP.
3. Politik und Quoten. QoS-Klassen, Budgets, egress/IOPS/DA-Limits.
4. Die Wirtschaft. Tarife, Spot/Reserven, Anreize für Anbieter, RNFT-Verträge.
5. Sicherheit und Compliance. mTLS/OIDC, Verschlüsselung, Prüfprotokolle, Geo-Richtlinien.
6. Beobachtbarkeit. KPI/SLO Dashboards, Alerts, Profiling.
7. Pilot und Skalierung. Eine Klasse von Aufgaben (z. B. Inference) → die Erweiterung auf Batch/Streaming.
8. Vorfälle und Post-Mortems. Spieltage, Replays, Anpassung der Policen/Tarife.
17) Prod Readiness Checkliste
- QoS/SLO für alle Aufgabentypen definiert
- Quoten-/Limit- und „Fair-Share“ -Planung enthalten
- Spot/preemptible Pools und Anti-Arb-Richtlinien eingerichtet
- Implementierte RNFT-Verträge, Abrechnung und Rewards Router
- Isolierung, Verschlüsselung und Compliance-Berichterstattung sichergestellt
- Entsorgungs-/Qualitäts-/Wirtschafts-Dashboards verfügbar
- Geübte Unfälle: Stop-Kräne, Degradationen, Post-Mortems
- Konfigurierte Multi-Chain-Rechte-Übergänge, DA-Quoten, Edge-Verteilung
18) Glossar
OVR (Shared Computing Resources): Ein einziger Kapazitätspool für das Ökosystem.
RNFT: Vertrags- „Haltung“ für Rechte an Ressourcen/Grenzen/Fristen.
S-Token: Pfand unter SLA/Haftung des Anbieters/Knotens.
R-Token: Ein nicht übertragbarer Ruf für Qualität/Zuverlässigkeit.
DA: Datenverfügbarkeitsschicht (Veröffentlichung/Aufbewahrung von Beweisen).
Spot/Preemptible: billige, aber unterbrechbare Ressourcen mit Erneuerungsrichtlinien.
Fazit: Gemeinsame Rechenressourcen verwandeln das Ökosystem in eine sich selbst ausgleichende Rechenfabrik, in der die Auslastung hoch, die Qualität vorhersehbar, die Anreize ausgerichtet und Sicherheit und Compliance in das Protokoll eingebettet sind. Die richtige Orchestrierung und Wirtschaftlichkeit der i治理 ermöglichen die Skalierung von Multi-Leasing-Lasten ohne Produktivitäts- und Vertrauensverlust.