通用計算資源
1)什麼是「共享計算資源」
通用計算資源(IVR)是邏輯上統一的CPU/GPU/內存/驅動器/網絡/DA(數據可用性)池,通過標準化的接口,策略和激勵經濟學為多個角色(開發人員,節點運營商,數據/內容提供商,分析,ML命令)提供。目的是提高處置能力,降低成本,並在多功能性和鏈間情景下提供可預測的性能。
2)資源分類
計算:CPU(一般分配),GPU(培訓/地獄),NPU/TPU(ML加速器)。
內存和驅動器:RAM,本地NVMe,對象/塊存儲,緩存(Redis/KeyDB)。
網絡:帶寬,egress/ingress,QoS類,私人通道。
數據和DA:發布配額,復制,竊聽和證據存儲。
服務限制:Pod/容器數量,打開的文件,描述符,GPU微分解(MIG)。
3)消費模式(工作負載類型)
在線/低延遲:API,對決,遊戲/金融科技輪廓,跨品牌信使。
流媒體/Real Time:事件處理、反欺詐、遙測、實時分析。
Batch:ETL/ELT,報告,定期計算,野餐準備。
ML/AI:培訓(GPU密集),地獄(低延遲/高轉換)。
存儲和緩存:OLTP/OLAP, lakehouse, CDN/edge緩存。
為每個班級指定了SLO,優先級,隔離和票價。
4)管弦樂隊和計劃
按優先級和QoS類:EDF/LLF表示「截止日期」,優先排隊並保證「最小值」。
資源請求:CPU/Memory的「請求/限制」,GPU配額和份額,preemptible/spot池以節省成本。
反噪音:cgroup/補償「噪音鄰居」,NUMA定位,網絡保單。
拓撲和局部性:數據和計算的共同位置,affinity/anti-affinity,邊緣綁定。
自動縮放:水平(HPA),垂直(VPA),聚類(CA),GPU/DA戰鬥自動駕駛儀。
5)多功能性和隔離
Уровни: namespace→project→org (budget/quotas/ACL).
絕緣:容器、VM、沙箱(gVisor/Firecracker)、網絡(VPC/NetworkPolicy)、存儲(CSI保單)。
降噪策略:IOPS/egress限制,「公平共享」計劃,關鍵服務的專有標準。
錯誤/資源預算:帶有自動降級功能的per-tenant error預算和資源預算。
6)QoS,優先級和SLO/SLA
QoS類:Q4(臨界時間),Q3(有序),Q2(僅有效),Q1(單一),Q0(最佳effort)。
SLO示例:p95 latency API ≤ 200毫秒(Q4),GPU等待隊列≤ 2分鐘(Q3),batch到T ≤ 30分鐘(Q1)窗口。
合同QoS→resursy:每個班級都有保證的配額和緊急停止水龍頭。
7)經濟和貨幣化(計費/激勵措施)
計費單位:vCPU秒,GiB時鐘RAM,GPU分鐘,GB存儲月份,GB-egress,DA字節/發布。
票價計劃:按需支付,訂閱配額和超支,預訂(commit),打折現貨/預付款。
鐵供應商/數據中心的RevShare:營業額份額,SLA獎金/罰款。
容量市場:節點/集群列表,質量評級,GPU插槽拍賣。
- U-token-支付配額/限額,折扣。
- S-token-節點/池SLA的承諾(因停機/違規而剝離)。
- R令牌-供應商/租戶的聲譽(價格/優先權修改器)。
- RNFT合同是個人「resurs↔obyazatelstvo」合同(限制,價格,期限,KPI,退出)。
8)核心合同和服務
資源註冊表:資源類型、機器/GPU 類、可用區域/edge-POP。
Quota Manager:配額/限額per tenant/project,預算egress/IOPS/DA。
Scheduler/Placement:pods/jobs/pool,優先級,位置,反噪音。
Billing&Metering:按單位計費,票價,超支,按預算計費。
獎勵路由器:分配付款給提供商,SLA休息罰款。
合規門:區域,PDn/FDFn,年齡/CUS限制,報告導出。
Observability Hub: 度量標準/traces/logs, DLQ for job, replay。
9)安全和合規性
身份驗證/授權:mTLS/OIDC,ABAC/RBAC,「最低權限」。
網絡細分:VPC,私人鏈接,帶有流量策略的服務市政廳。
數據:加密at-rest/in-transit,關鍵輪換,掩碼/虛擬數據用於測試。
GPU/CPU隔離:禁止直接訪問,DMA/IOMMU控制,側通道保護。
合規性:審計日誌、區域數據本地化、存儲/處置策略、用於無披露檢查的ZK跳過。
10)可觀察性和性能管理
度量標準:uCPU%,GPU-util,RAM/Cache命中,IOPS/throughput驅動器,p95 RTT/egress網絡,GPU/Batch-lag隊列。
SLO/SLA-dashbords:QoS類和租戶的「健康」,錯誤預算。
分析:flamegraph快照,熱路徑分析,自動尺寸推薦。
Alerts:滯後過多,GPU隊列過熱,egress爆炸,「無聲鄰居」旗幟。
11)反欺詐和虐待
Sybil/機器人負載:S承諾,R聲譽,行為特征。
egress濫用/網絡掃描:rate limits/IDS,隔離段。
現貨折扣:反豎琴政策,冷藏,池之間的「跳躍」限制。
不誠實的供應商:控制聲明的規格,合成樣品,slashing和RNFT的「黑名單」。
12)連鎖腳本(多通道/邊緣)
訪問權限轉移:RNFT權利和配額通過信使轉移,聲譽(R)保留在信任域中。
DA配額和出版物:按字節/頻率計費,最終值/時間鎖。
邊緣計算:具有本地緩沖區的POP節點,「推動」地獄更接近用戶。
X域的去勢和冪等性:全局「x_job_id」,末端的seen表,挑戰期。
13)容量規劃和可持續性
能力規劃:消費趨勢,季節性,N周庫存,「紅線」p95。
遊戲日和壓力測試:GPU/egress/DA過熱,AZ/POP關閉,降解場景。
通過設計降級:graceful fallback(不太精確的型號/緩存),Q4/Q3優先級。
綠色效率:回收、碳洗滌、冷卻/能源成本、將電池轉移到「綠色窗口」。
14)OVR生態系統的度量和KPI
處置:CPU/GPU busy%,RAM/Cache命中,IOPS/GB存儲使用。
效率:cost-to-serve/查詢,垃圾回收,保證金/分鐘GPU。
質量:p50/p95 latency按年級,SLA 破發/1000查詢,隊列/啟動時間job。
公平性:「噪音鄰居」指數,按租戶分列的事件比例,配額分配。
經濟學:收入/資源單位,按計劃計算的NRR/GRR,再收入份額。
安全:隔離頻率,egress異常,聲譽汙點事件。
15)治理(管理)資源
參數:通過投票改變關稅/配額/走廊。
R修飾語:聲譽限制了「原始資本」在敏感變化中的影響。
日落條款:臨時股票/自動回滾折扣。
公開報告:內審司財政部季度報告,SLA審計。
16)花花公子啟動
1.繪制需求圖。任務類,SLO,數據局部性。
2.池設計。機器類,GPU Tier,存儲/網絡級別,Edge-POP。
3.政策和配額。QoS類,預算表,egress/IOPS/DA限制。
4.經濟學。票價,現金/儲備,對提供商的獎勵,RNFT合同。
5.安全和合規。mTLS/OIDC、加密、審核日誌、地理策略。
6.可觀察性。KPI/SLO dashbords,alerta,分析。
7.飛行員和縮放。一類任務(例如地獄)→擴展到batch/流媒體。
8.事件和後面面部表情。遊戲日,中繼器,政策/票價調整。
17)準備就緒支票清單
- 為所有任務類型定義了QoS/SLO
- 包括配額/限額和「公平共享」規劃
- 定制spot/preemptible池和反豎琴政策
- 實施RNFT合同、計費和獎勵路由器
- 提供隔離、加密和合規報告
- 可用的廢物/質量/經濟性dashboard
- 事故已經完成:停止起重機,退化,後太平間
- 配置了多芯片權限轉換、DA配額、邊緣分發
18)詞匯表
OVR(共享計算資源):生態系統的單一容量池。
RNFT:資源/限制/時限權利的「關系」。
S令牌:SLA承諾/供應商/節點責任。
R令牌:不可轉讓的質量/可靠性聲譽。
DA:數據可用性層(證據)。
Spot/Preemptible:使用恢復策略的廉價但中斷的資源。
底線:共享計算資源將生態系統轉變為自我平衡的計算工廠,其中回收率高,質量可預測,激勵措施趨於一致,安全性和合規性嵌入協議中。正確的編排,經濟性i治理允許在不失去性能和信任的情況下擴展多目標負載。