共有コンピューティングリソース
1)「共有コンピューティングリソース」とは"
共有コンピューティングリソース(GPU)は、標準化されたインターフェース、ポリシー、インセンティブ経済を通じて複数の役割(開発者、ノード事業者、データ/コンテンツプロバイダ、MLチーム)に提供されるCPU/GPU/メモリ/ディスク/ネットワーク/DA(データ可用性)の論理的に単一のプールです。目標は、使用率の向上、コストの削減、マルチリースおよびチェーン間シナリオにおける予測可能なパフォーマンスの提供です。
2)資源分類
計算:CPU(汎用)、GPU(トレーニング/推論)、NPU/TPU (MLアクセラレータ)。
メモリとディスク:RAM、ローカルNVMe、オブジェクト/ブロックストレージ、キャッシュ(Redis/KeyDB)。
ネットワーク:帯域幅、出力/入力、QoSクラス、プライベートチャンネル。
データとDA:出版物、複製、スナップショット、証拠の保存のためのクォータ。
サービス制限:ポッド/コンテナの数、オープンファイル、記述子、GPUマイクロ分割(MIG)。
3)ワークロードの種類
オンライン/低レイテンシ:API、マッチメイキング、ゲーム/フィンテック回路、クロスチェーンメッセージング。
ストリーミング/リアルタイム:イベント処理、不正防止、テレメトリー、リアルタイム分析。
バッチ:ETL/ELT、レポート、定期的な計算、機能の準備。
ML/AI:学習(GPU集中)、推論(低遅延/高変換)。
ストレージとキャッシュ:OLTP/OLAP、レイクハウス、CDN/エッジキャッシュ。
SLO、優先順位、分離、関税は各クラスに設定されています。
4)オーケストレーションと企画
優先順位とQoSクラスによるシェードリング:EDF/LLFは「期限」、優先順位キュー、保証された「最小値」。
リソースリクエスト:CPU/メモリ、 GPUクォータおよび共有の「要求/制限」、節約のためのプリエンプチブル/スポットプール。
アンチノイズ:cgroup/補償 「noisy neighbor」、 NUMAピン留め、ネットワークポリシー。
トポロジーと局所性:データと計算の共同位置、親和性/反親和性、エッジ結合。
オートスケーリング:水平(HPA)、垂直(VPA)、クラスタ(CA)、 GPU/DAバッチの自動操縦。
5)複数のテナントおよび分離
namespace→project→org (budget/quotas/ACL)。
分離:コンテナ、VM、サンドボックス(gVisor/Firecracker)、ネットワーク(VPC/NetworkPolicy)、ストレージ(CSIポリシー)。
ノイズ低減ポリシー:IOPS/egressの制限、公正な共有計画、重要なサービスのための専用階層。
エラー/リソース予算:テナントごとのエラー予算とリソース予算の自動分解。
6) QoS、優先順位付けおよびSLO/SLA
QoSクラス:Q4 (critical-pealtime)、 Q3 (ordered)、 Q2 (percenty-once-effective)、 Q1 (less-once)、 Q0 (best effective)。
SLOの例:p95 latency API ≤ 200 ms (Q4)、 GPU waiting queue ≤ 2分(Q3)、 batch to window T ≤ 30分(Q1)。
契約QoS→resursy:保証クォータと緊急停止クレーンが各クラスに割り当てられます。
7)経済と収益化(請求/インセンティブ)
充電ユニット:vCPU-sec、 GiB時間RAM、 GPU-minute、 GB-storage-month、 GB-egress、 DA-byte/publication。
料金プラン:お支払い、割引付きのサブスクリプション、予約(コミット)、割引付きのスポット/プリエンプティブル。
ハードウェアプロバイダ/データセンター向けRevShare:売上高、SLAボーナス/罰金のシェア。
電力市場:ノード/クラスタ一覧、品質評価、GPUスロットオークション。
- Uトークン-クォータ/制限、割引の支払い。
- Sトークン-SLAノード/プールのプレッジ(ダウンタイム/違反のスラッシュ)。
- Rトークン-プロバイダ/テナント(価格/優先度モディファイヤ)の評判。
- RNFT契約-個々の契約「resurs↔obyazatelstvo」(制限、価格、期間、KPI、出力)。
8)カーネル契約およびサービス
リソースレジストリ:リソースタイプ、マシン/GPUクラス、アクセス可能ゾーン/edge-POP。
クォータマネージャ:テナント/プロジェクトごとのクォータ/リミット、予算出力/IOPS/DA。
スケジューラ/配置:プール/ジョブ/プール、優先順位、局所性、アンチノイズ。
請求とメーター:単位メートル、関税、過払い、予算アラート。
報酬ルータ:プロバイダへの支払いの配布、SLAの破損に対する罰則。
コンプライアンスゲート:地域、個人データ/個人データ、年齢/CM制限、輸出レポート。
Observability Hub:メトリック/トレイル/ログ、ジョブ用DLQ、リプレイ。
9)安全性とコンプライアンス
認証/承認:mTLS/OIDC、 ABAC/RBAC、「最小権限」。
ネットワークセグメンテーション:VPC、プライベートリンク、トラフィックポリシーのサービスマッシュ。
データ:テストのためのat-rest/in-transit暗号化、キー回転、マスキング/ダミーデータ。
GPU/CPU分離:直接アクセス、DMA/IOMMU制御、サイドチャネル保護を無効にします。
コンプライアンス:監査ログ、データの地域化、保持/削除ポリシー、開示なしの監査のためのZKギャップ。
10) Observabilityおよび性能管理
メトリクス:uCPU%、 GPU-util、 RAM/Cacheヒット、IOPS/スループットディスク、 p95 RTT/egressネットワーク、GPU/Batch-lagキュー。
SLO/SLAダッシュボード:QoSクラスとテナントによる「健康」、エラー予算。
プロファイリング:フラメグラフスナップショット、ホットパス解析、自動サイズ推奨。
アラート:ラグを超える、GPUキューの過熱、排出爆発、「騒々しい隣人」フラグ。
11)詐欺防止と虐待
Sybil/bot load: S誓約、R評判、行動署名。
出口乱用/ネットワークスキャン:レート制限/IDS、隔離セグメント。
Pharmingスポット割引:アンチアーブ政治家、冷却、プール間の「ジャンプ」の制限。
不誠実なプロバイダ:宣言された仕様の制御、合成サンプル、スラッシングと「ブラックリスト」RNFT。
12)チェーン間シナリオ(マルチチェーン/エッジ)
アクセス権の移転:RNFTの権利とクォータはインスタントメッセージを介して転送され、評判(R)は信頼ドメインに残ります。
DAクォータと出版物:バイト当たりの充電/周波数、終了/一時的なロック。
エッジコンピューティング:ローカルバッファを持つPOPノード、ユーザに近い推論を「押す」。
X-domain dedupとidempotency: global 'x_job_id'、最後の表、チャレンジ期間。
13)キャパシティ・プランニングとサステナビリティ
キャパシティプランニング:消費動向、季節性、N週間の株式、「レッドライン」P95。
ゲーム日数とストレステスト:GPU/egress/DAオーバーロード、AZ/POPシャットダウン、劣化シナリオ。
設計による劣化:優美なフォールバック(より少ない正確なモデル/キャッシュ)、Q4/Q3優先順位。
グリーン効率:リサイクル、カーボンアウェアシェードリング、冷却/エネルギーコスト、グリーンウィンドウへのバッチ転送。
14) OVRエコシステムの指標とKPI
廃棄:CPU/GPU busy%、 RAM/Cacheヒット、IOPS/GBストレージ使用。
効率:費用対効果/要求、スポット処分、マージン/分GPU。
品質:クラスごとのp50/p95レイテンシ、SLA は/1000リクエスト、キュー/スタートタイムジョブを破ります。
公平性:「騒々しい隣人」インデックス、テナントによるインシデントのシェア、クォータの割り当て。
経済学:所得/資源単位、計画によるとNRR/GRR、繰り返し収益のシェア。
安全性:分離の頻度、排出異常、評判スラッシュイベント。
15)資源の治理(管理)
パラメータ提案:投票による関税/クォータ/回廊の変更。
R修飾子:評判は、敏感な変化における「生の資本」の影響を制限します。
Sunset条項:自動ロールバック付きの一時的なプロモーション/割引。
パブリックレポート:OVR財務、SLA監査の四半期報告書。
16) Playbookを起動する
1.マッピングの必要性。タスククラス、SLO、データローカリティ。
2.プールの設計。マシンクラス、GPU階層、ストレージ/ネットワークレベル、edge-POP。
3.ポリシーとクォータ。QoSクラス、予算、egress/IOPS/DA制限。
4.経済学。関税、スポット/準備金、プロバイダーへのインセンティブ、RNFT契約。
5.安全性とコンプライアンス。mTLS/OIDC、暗号化、監査ログ、ジオポリシー。
6.観測可能性。KPI/SLOダッシュボード、アラート、プロファイリング。
7.パイロットとスケーリング。1つのクラスのタスク(例えば、推論)→バッチ/ストリーミングの拡張。
8.事件と死後。ゲーム日、リプレイ、ポリシー/関税調整。
17)配達チェックリスト
- すべてのタスクタイプに定義されたQoS/SLO
- クォータ/リミットおよびフェアシェアプランニングが含まれています
- 設定されたスポット/プリエンプティブルプールおよびアンチアーブポリシー
- RNFT契約、請求および報酬ルータを実装
- 提供される分離、暗号化およびコンプライアンスレポート
- リサイクル/品質/経済ダッシュボードが利用可能
- 事故が解決しました:停止クレーン、劣化、死後
- 権利マルチ・チェーン・トランジション、DAクォータ、エッジ・ディストリビューション構成
18)用語集
OVR(共有コンピューティングリソース):エコシステムの単一の容量プール。
RNFT:リソース/制限/期限に対する権利のための契約-「関係」。
Sトークン:SLA/provider/node責任に対する担保。
Rトークン:品質/信頼性に対する譲渡不可の評判。
DA:データ可用性レイヤー(証拠の公開/保管)。
スポット/プリエンプチブル:安価ですが、更新ポリシーで中断可能なリソース。
ボトムライン:共有コンピューティングリソースは、エコシステムを自己バランスのとれたコンピューティングファクトリーに変えます。そこでは、リサイクルが高く、品質が予測可能であり、インセンティブが整合され、セキュリティとコンプライアンスがプロトコルに組み込まれています。適切なオーケストレーション、i治理経済学により、生産性と信頼性を損なうことなく、マルチリース負荷を拡大することができます。