通用计算资源
1)什么是"共享计算资源"
通用计算资源(IVR)是逻辑上统一的CPU/GPU/内存/驱动器/网络/DA(数据可用性)池,通过标准化的接口,策略和激励经济学为多个角色(开发人员,节点运营商,数据/内容提供商,分析,ML命令)提供。目的是提高处置能力,降低成本,并在多功能性和链间情景下提供可预测的性能。
2)资源分类
计算:CPU(一般分配),GPU(培训/地狱),NPU/TPU(ML加速器)。
内存和驱动器:RAM,本地NVMe,对象/块存储,缓存(Redis/KeyDB)。
网络:带宽,egress/ingress,QoS类,私人通道。
数据和DA:发布配额,复制,窃听和证据存储。
服务限制:Pod/容器数量,打开的文件,描述符,GPU微分解(MIG)。
3)消费模式(工作负载类型)
在线/低延迟:API,对决,游戏/金融科技轮廓,跨品牌信使。
流媒体/Real Time:事件处理、反欺诈、遥测、实时分析。
Batch:ETL/ELT,报告,定期计算,野餐准备。
ML/AI:培训(GPU密集),地狱(低延迟/高转换)。
存储和缓存:OLTP/OLAP, lakehouse, CDN/edge缓存。
为每个班级指定了SLO,优先级,隔离和票价。
4)管弦乐队和计划
按优先级和QoS类:EDF/LLF表示"截止日期",优先排队并保证"最小值"。
资源请求:CPU/Memory的"请求/限制",GPU配额和份额,preemptible/spot池以节省成本。
反噪音:cgroup/补偿"噪音邻居",NUMA定位,网络保单。
拓扑和局部性:数据和计算的共同位置,affinity/anti-affinity,边缘绑定。
自动缩放:水平(HPA),垂直(VPA),聚类(CA),GPU/DA战斗自动驾驶仪。
5)多功能性和隔离
Уровни: namespace→project→org (budget/quotas/ACL).
绝缘:容器、VM、沙箱(gVisor/Firecracker)、网络(VPC/NetworkPolicy)、存储(CSI保单)。
降噪策略:IOPS/egress限制,"公平共享"计划,关键服务的专有标准。
错误/资源预算:带有自动降级功能的per-tenant error预算和资源预算。
6)QoS,优先级和SLO/SLA
QoS类:Q4(临界时间),Q3(有序),Q2(仅有效),Q1(单一),Q0(最佳effort)。
SLO示例:p95 latency API ≤ 200毫秒(Q4),GPU等待队列≤ 2分钟(Q3),batch到T ≤ 30分钟(Q1)窗口。
合同QoS→resursy:每个班级都有保证的配额和紧急停止水龙头。
7)经济和货币化(计费/激励措施)
计费单位:vCPU秒,GiB时钟RAM,GPU分钟,GB存储月份,GB-egress,DA字节/发布。
票价计划:按需支付,订阅配额和超支,预订(commit),打折现货/预付款。
铁供应商/数据中心的RevShare:营业额份额,SLA奖金/罚款。
容量市场:节点/集群列表,质量评级,GPU插槽拍卖。
- U-token-支付配额/限额,折扣。
- S-token-节点/池SLA的承诺(因停机/违规而剥离)。
- R令牌-供应商/租户的声誉(价格/优先权修改器)。
- RNFT合同是个人"resurs↔obyazatelstvo"合同(限制,价格,期限,KPI,退出)。
8)核心合同和服务
资源注册表:资源类型、机器/GPU 类、可用区域/edge-POP。
Quota Manager:配额/限额per tenant/project,预算egress/IOPS/DA。
Scheduler/Placement:pods/jobs/pool,优先级,位置,反噪音。
Billing&Metering:按单位计费,票价,超支,按预算计费。
奖励路由器:分配付款给提供商,SLA休息罚款。
合规门:区域,PDn/FDFn,年龄/CUS限制,报告导出。
Observability Hub: 度量标准/traces/logs, DLQ for job, replay。
9)安全和合规性
身份验证/授权:mTLS/OIDC,ABAC/RBAC,"最低权限"。
网络细分:VPC,私人链接,带有流量策略的服务市政厅。
数据:加密at-rest/in-transit,关键轮换,掩码/虚拟数据用于测试。
GPU/CPU隔离:禁止直接访问,DMA/IOMMU控制,侧通道保护。
合规性:审计日志、区域数据本地化、存储/处置策略、用于无披露检查的ZK跳过。
10)可观察性和性能管理
度量标准:uCPU%,GPU-util,RAM/Cache命中,IOPS/throughput驱动器,p95 RTT/egress网络,GPU/Batch-lag队列。
SLO/SLA-dashbords:QoS类和租户的"健康",错误预算。
分析:flamegraph快照,热路径分析,自动尺寸推荐。
Alerts:滞后过多,GPU队列过热,egress爆炸,"无声邻居"旗帜。
11)反欺诈和虐待
Sybil/机器人负载:S承诺,R声誉,行为特征。
egress滥用/网络扫描:rate limits/IDS,隔离段。
现货折扣:反竖琴政策,冷藏,池之间的"跳跃"限制。
不诚实的供应商:控制声明的规格,合成样品,slashing和RNFT的"黑名单"。
12)连锁脚本(多通道/边缘)
访问权限转移:RNFT权利和配额通过信使转移,声誉(R)保留在信任域中。
DA配额和出版物:按字节/频率计费,最终值/时间锁。
边缘计算:具有本地缓冲区的POP节点,"推动"地狱更接近用户。
X域的去势和幂等性:全局"x_job_id",末端的seen表,挑战期。
13)容量规划和可持续性
能力规划:消费趋势,季节性,N周库存,"红线"p95。
游戏日和压力测试:GPU/egress/DA过热,AZ/POP关闭,降解场景。
通过设计降级:graceful fallback(不太精确的型号/缓存),Q4/Q3优先级。
绿色效率:回收、碳洗涤、冷却/能源成本、将电池转移到"绿色窗口"。
14)OVR生态系统的度量和KPI
处置:CPU/GPU busy%,RAM/Cache命中,IOPS/GB存储使用。
效率:cost-to-serve/查询,垃圾回收,保证金/分钟GPU。
质量:p50/p95 latency按年级,SLA 破发/1000查询,队列/启动时间job。
公平性:"噪音邻居"指数,按租户分列的事件比例,配额分配。
经济学:收入/资源单位,按计划计算的NRR/GRR,再收入份额。
安全:隔离频率,egress异常,声誉污点事件。
15)治理(管理)资源
参数:通过投票改变关税/配额/走廊。
R修饰语:声誉限制了"原始资本"在敏感变化中的影响。
日落条款:临时股票/自动回滚折扣。
公开报告:内审司财政部季度报告,SLA审计。
16)花花公子启动
1.绘制需求图。任务类,SLO,数据局部性。
2.池设计。机器类,GPU Tier,存储/网络级别,Edge-POP。
3.政策和配额。QoS类,预算表,egress/IOPS/DA限制。
4.经济学。票价,现金/储备,对提供商的奖励,RNFT合同。
5.安全和合规。mTLS/OIDC、加密、审核日志、地理策略。
6.可观察性。KPI/SLO dashbords,alerta,分析。
7.飞行员和缩放。一类任务(例如地狱)→扩展到batch/流媒体。
8.事件和后面面部表情。游戏日,中继器,政策/票价调整。
17)准备就绪支票清单
- 为所有任务类型定义了QoS/SLO
- 包括配额/限额和"公平共享"规划
- 定制spot/preemptible池和反竖琴政策
- 实施RNFT合同、计费和奖励路由器
- 提供隔离、加密和合规报告
- 可用的废物/质量/经济性dashboard
- 事故已经完成:停止起重机,退化,后太平间
- 配置了多芯片权限转换、DA配额、边缘分发
18)词汇表
OVR(共享计算资源):生态系统的单一容量池。
RNFT:资源/限制/时限权利的"关系"。
S令牌:SLA承诺/供应商/节点责任。
R令牌:不可转让的质量/可靠性声誉。
DA:数据可用性层(证据)。
Spot/Preemptible:使用恢复策略的廉价但中断的资源。
底线:共享计算资源将生态系统转变为自我平衡的计算工厂,其中回收率高,质量可预测,激励措施趋于一致,安全性和合规性嵌入协议中。正确的编排,经济性i治理允许在不失去性能和信任的情况下扩展多目标负载。