AI基础设施和GPU池
(部分: 技术和基础设施)
简短摘要
Production-AI不是"单个服务器上的单个模型",而是由GPU节点,通用加速器池,统一伺服器,数据/接头,可观察性和成本控制组成的群集。对于iGaming来说,这是实时至关重要的:反欺诈、个性化、聊天机器人、LLM助手、游戏/股票推荐。基础砖:用于调度的Kubernetes/Slurm,工作负载隔离,高速网络(与RDMA 100/200/400G),快速存储,成熟的MLOps和"钢筋混凝土"SLO。
1)建筑地图
图层:1.计算集群:GPU-nods(A/H类,AMD/ROCm,Intel Gaudi等),用于预处理的CPU-nods/fichs。
2.网络:100G+以太网/IB,RDMA(RoCEv2),NCCL拓扑,QoS。
3.存储:对象(S3连接),由本地NVMe scratch分布式POSIX(Ceph/grid)。
4.数据/fichi: fichestor (online/offline)、矢量DB (ANN)、缓存(Redis)、队列。
5.ML平台:工件和模型注册表,piplines(CI/CD),版本控制,fichi作为代码。
6.服务层:Triton/KServe/vLLM/text-generation-inference(TGI),A/B/金丝雀,自动荧光。
7.Howernance和安全:PII,保密,审计,出口政策,权重/日记许可证。
类型负载:- 在线得分(p95 ≤ 50-150毫秒)是反性,推荐和排名。
- LLM伺服器(p95 ≤ 200-800毫秒乘128-512令牌)-聊天/代理/提示。
- 批量分析/预培训-夜间窗口,离线度量。
- Feintüning/适应-定期进行,优先级低于在线。
2) GPU池和规划
池模型
"Serving"池:短请求,高战斗,严格的SLO。
训练池/Feintüning:长期训练、分布式训练(DDP)。
"R&D/实验"池:配额/限额,允许预付款。
"CPU/Pre-/后处理"池:标准化,令牌化,CPU上的排名。
规划师
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm(通常用于HPC培训)-可以通过单独的操作员与K8s混合。
公平共享和配额:GPU,CPU,内存的命名空间配额;GPU时钟的"银行";内通/项目限制。
GPU分工
MIG (Multi-Instance GPU):将加速器切成绝缘切片(用于旋转/多影子)。
MPS:用于小型任务的Sharing SM(监控干扰)。
NVLink/PCIe:在定位pod时考虑拓扑(Topology Aware Scheduling)。
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3)网络和节点间性能
NCCL的RDMA(RoCEv2);ECN/PFC设置,流量类隔离。
本地化:在单个"工厂"(pod/host/Optics)内进行培训,更接近用户(边缘/区域)。
同步控制:调谐配置文件,巨型框架,pin-ning接口。
4)存储和数据
权重/工件存储:对象(转化,可变性)。
Datasets/fichi:Lakehouse(Delta/Iceberg/Hudi)+offline fichestor;在线fichestor(毫秒SLA)。
矢量DB(ANN):Faiss/ScaNN/加速器或向量矢量引擎;硬化,HNSW/IVF,复制。
本地NVMe缓存:冷启动的加热/栓塞。
5)伺服模型
框架的
Triton Inference Server(多模式,多模式,动态战斗)。
KServe(K8s本地,自动计算HPA/KPA,金丝雀)。
vLLM/TGI用于LLM令牌化和高性能解码(paged attention,KV缓存离线)。
ONNX Runtime/TensorRT-LLM-用于编译和加速。
优化
量化:INT8/FP8/INT4 (percentils/校准, AWQ/GPTQ)-在网上小心,测量质量。
图的汇编:tensorRT,TorchInductor/XLA,融合的内核。
Batching/microbatching: 动态和静态;для LLM — continuous batching.
KV缓存:查询之间的圆圈,在长上下文下在CPU/NVMe上越位。
投机解码:选秀模型+验证器加速令牌发音。
令牌/上下文限制,提前停止,停止单词,每个请求的时间预算。
Deploy Policy
A/B,金丝雀,影子-潜伏期/质量/业务指标的比较。
蓝绿色-没有市区。
SLO/错误滚回。
6)培训/战斗机
DDP/FSDP/ZeRO:分布式内存/梯度,NVLink/拓扑计数。
检查点:增量/完整,vs I/O频率。
Mixed Precision: bf16/fp16 + loss scaling;分析稳定性。
Dataset sharding:统一迭代器,跨节点复制。
优先级:不连续的jobs(预emptible)有利于伺服。
独立管道:data → train → eval →注册表→按门标准升级到PROD。
7) MLOps和平台
模型注册表:版本、签名、依赖性、许可证/权重使用权。
CI/CD模型:兼容性测试,表演回归,质量门,安全门。
Fichestor:离线/在线一致性(特征伴侣)、TTL和backfill。
Data/Model Lineage:从dataset到报告/实验的跟踪。
LLM(转化)的prompts/模板目录。
8)可观察性和SLO
在线指标:- 潜伏性p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy,记忆,错误。
- LLM特点:输入/输出令牌,平均响应长度,限制故障比例,快取命中KV。
- 质量:自动回归测试(离线),在线遥测(内容标志,毒性,金色样本的精度)。
- 商务SLO:个性化转换,防冻精度,保留。
Alerts:p99/队列增长,tokens/s下降,batch-fill降解,VRAM/PCIe-throttle耗尽,rate-limit故障增加。
9)安全、合规和隐私
PII/融资:按区域划分计算和数据,静止/过境加密,令牌化。
秘密/密钥:KMS/Secrets Manager;排除在映像/代码中的存储。
LLM输出策略:安全过滤器,红色团队,prompts/响应日志(匿名)。
许可证:符合dataset/重量许可证;"no-redistribute"/商业限制。
Tenant隔离:namespace-RBAC,网络,MIG幻灯片,限制和配额。
10)成本和大麻
卡帕西蒂计划:负载配置文件(RPS,令牌/秒),锦标赛和活动的"尾巴"。
备份/备份:混合池(备份+备份/备份),并重新设置任务和支票。
Autoscale:RPS/queue depth/GPU-util的HPA/KPA;"温暖的开始",体重变暖。
模型动物园:减少变种数量;使用适应(LoRA/PEFT)而不是完全复制。
缓存:embeddings/昂贵请求的结果,LLM的KV缓存谢林。
令牌优化:prompts压缩,retrieval-augmented generation (RAG), rerank直到生成。
11)多区域,HA和DR
主动/主动旋转更接近用户,全局漫游(基于latency)。
通过完整性检查复制权重和拳头;在发布时加热缓存。
DR计划:AZ/地区的损失,备用池的疏散,对集中目录的依赖控制。
溷乱日:GPU-nod/网络域/存储故障测试。
12)配置模板(概念)
Triton-动态战斗:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe是金丝雀:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM-启动(想法):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13)LLM特点: RAG和搜索轮廓
索引:chanking, embeddings, ANN在"tenant/locale"上溷淆。
Rerank: CPU/GPU幻灯片上的轻型模型,以提高精度。
Prompts/上下文缓存:dedup,canonicalization。
敏感域的引用/责任策略(CUS/规则)。
14)实施支票
1.记录SLO (p95 latency/tokens/s,可用性)和负载配置文件。
2.将群集分解为池(serving/train/R&D),输入配额/优先级。
3.启用RDMA/NCCL和拓扑意识调度。
4.配置存储:权重、dataset、fichestor (online/offline)、矢量DB。
5.选择一个伺服堆栈(Triton/KServe/vLLM), 添加一个战斗/KV缓存/量化。
6.运行模型注册表,CI/CD,金丝雀/shadow-depla。
7.设定可观察性:系统+业务指标,质量,跟踪。
8.输入安全策略/PII、许可证、审核。
9.优化TCO: reserved+spot, autoscale,缓存,PEFT而不是完整的克隆。
10.准备HA/DR并度过游戏日。
15)反模式
"每个大型GPU都",没有池和优先级。
LLM没有动态战斗和KV缓存,→ p99爆炸和成本。
在单个池上进行训练和旋转,而无需进行预处理→ SLO事件。
零质量/安全遥测→不可见的退化和风险。
没有模型/模型注册表的集中式整体→没有可重复性。
忽略权重/数据许可证。
结果
成功的AI基础架构是具有智能调度的GPU池,高网络和正确的存储,高效的伺服器(战斗,缓存,量化,编译),成熟的MLOps和严格的SLO。结合安全/PII、多区域HA/DR和深思熟虑的Phinops,该平台提供稳定的p99、可控的$/查询以及快速推出新车型--从防冻到个性化和LLM助手。