GH GambleHub

AI基础设施和GPU池

(部分: 技术和基础设施)

简短摘要

Production-AI不是"单个服务器上的单个模型",而是由GPU节点,通用加速器池,统一伺服器,数据/接头,可观察性和成本控制组成的群集。对于iGaming来说,这是实时至关重要的:反欺诈、个性化、聊天机器人、LLM助手、游戏/股票推荐。基础砖:用于调度的Kubernetes/Slurm,工作负载隔离,高速网络(与RDMA 100/200/400G),快速存储,成熟的MLOps和"钢筋混凝土"SLO。

1)建筑地图

图层:

1.计算集群:GPU-nods(A/H类,AMD/ROCm,Intel Gaudi等),用于预处理的CPU-nods/fichs。

2.网络:100G+以太网/IB,RDMA(RoCEv2),NCCL拓扑,QoS。

3.存储:对象(S3连接),由本地NVMe scratch分布式POSIX(Ceph/grid)。

4.数据/fichi: fichestor (online/offline)、矢量DB (ANN)、缓存(Redis)、队列。

5.ML平台:工件和模型注册表,piplines(CI/CD),版本控制,fichi作为代码。

6.服务层:Triton/KServe/vLLM/text-generation-inference(TGI),A/B/金丝雀,自动荧光。

7.Howernance和安全:PII,保密,审计,出口政策,权重/日记许可证。

类型负载:
  • 在线得分(p95 ≤ 50-150毫秒)是反性,推荐和排名。
  • LLM伺服器(p95 ≤ 200-800毫秒乘128-512令牌)-聊天/代理/提示。
  • 批量分析/预培训-夜间窗口,离线度量。
  • Feintüning/适应-定期进行,优先级低于在线。

2) GPU池和规划

池模型

"Serving"池:短请求,高战斗,严格的SLO。
训练池/Feintüning:长期训练、分布式训练(DDP)。
"R&D/实验"池:配额/限额,允许预付款。
"CPU/Pre-/后处理"池:标准化,令牌化,CPU上的排名。

规划师

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).

Slurm(通常用于HPC培训)-可以通过单独的操作员与K8s混合。
公平共享和配额:GPU,CPU,内存的命名空间配额;GPU时钟的"银行";内通/项目限制。

GPU分工

MIG (Multi-Instance GPU):将加速器切成绝缘切片(用于旋转/多影子)。
MPS:用于小型任务的Sharing SM(监控干扰)。
NVLink/PCIe:在定位pod时考虑拓扑(Topology Aware Scheduling)。

K8s注释示例(概念):
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3)网络和节点间性能

NCCL的RDMA(RoCEv2);ECN/PFC设置,流量类隔离。
本地化:在单个"工厂"(pod/host/Optics)内进行培训,更接近用户(边缘/区域)。
同步控制:调谐配置文件,巨型框架,pin-ning接口。

4)存储和数据

权重/工件存储:对象(转化,可变性)。
Datasets/fichi:Lakehouse(Delta/Iceberg/Hudi)+offline fichestor;在线fichestor(毫秒SLA)。
矢量DB(ANN):Faiss/ScaNN/加速器或向量矢量引擎;硬化,HNSW/IVF,复制。
本地NVMe缓存:冷启动的加热/栓塞。

5)伺服模型

框架的

Triton Inference Server(多模式,多模式,动态战斗)。
KServe(K8s本地,自动计算HPA/KPA,金丝雀)。
vLLM/TGI用于LLM令牌化和高性能解码(paged attention,KV缓存离线)。
ONNX Runtime/TensorRT-LLM-用于编译和加速。

优化

量化:INT8/FP8/INT4 (percentils/校准, AWQ/GPTQ)-在网上小心,测量质量。
图的汇编:tensorRT,TorchInductor/XLA,融合的内核。

Batching/microbatching: 动态和静态;для LLM — continuous batching.

KV缓存:查询之间的圆圈,在长上下文下在CPU/NVMe上越位。
投机解码:选秀模型+验证器加速令牌发音。
令牌/上下文限制,提前停止,停止单词,每个请求的时间预算。

Deploy Policy

A/B,金丝雀,影子-潜伏期/质量/业务指标的比较。
蓝绿色-没有市区。
SLO/错误滚回。

6)培训/战斗机

DDP/FSDP/ZeRO:分布式内存/梯度,NVLink/拓扑计数。
检查点:增量/完整,vs I/O频率。
Mixed Precision: bf16/fp16 + loss scaling;分析稳定性。
Dataset sharding:统一迭代器,跨节点复制。
优先级:不连续的jobs(预emptible)有利于伺服。
独立管道:data → train → eval →注册表→按门标准升级到PROD。

7) MLOps和平台

模型注册表:版本、签名、依赖性、许可证/权重使用权。
CI/CD模型:兼容性测试,表演回归,质量门,安全门。
Fichestor:离线/在线一致性(特征伴侣)、TTL和backfill。
Data/Model Lineage:从dataset到报告/实验的跟踪。
LLM(转化)的prompts/模板目录。

8)可观察性和SLO

在线指标:
  • 潜伏性p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy,记忆,错误。
  • LLM特点:输入/输出令牌,平均响应长度,限制故障比例,快取命中KV。
  • 质量:自动回归测试(离线),在线遥测(内容标志,毒性,金色样本的精度)。
  • 商务SLO:个性化转换,防冻精度,保留。

Alerts:p99/队列增长,tokens/s下降,batch-fill降解,VRAM/PCIe-throttle耗尽,rate-limit故障增加。

9)安全、合规和隐私

PII/融资:按区域划分计算和数据,静止/过境加密,令牌化。
秘密/密钥:KMS/Secrets Manager;排除在映像/代码中的存储。
LLM输出策略:安全过滤器,红色团队,prompts/响应日志(匿名)。
许可证:符合dataset/重量许可证;"no-redistribute"/商业限制。
Tenant隔离:namespace-RBAC,网络,MIG幻灯片,限制和配额。

10)成本和大麻

卡帕西蒂计划:负载配置文件(RPS,令牌/秒),锦标赛和活动的"尾巴"。
备份/备份:混合池(备份+备份/备份),并重新设置任务和支票。
Autoscale:RPS/queue depth/GPU-util的HPA/KPA;"温暖的开始",体重变暖。
模型动物园:减少变种数量;使用适应(LoRA/PEFT)而不是完全复制。
缓存:embeddings/昂贵请求的结果,LLM的KV缓存谢林。
令牌优化:prompts压缩,retrieval-augmented generation (RAG), rerank直到生成。

11)多区域,HA和DR

主动/主动旋转更接近用户,全局漫游(基于latency)。
通过完整性检查复制权重和拳头;在发布时加热缓存。
DR计划:AZ/地区的损失,备用池的疏散,对集中目录的依赖控制。
溷乱日:GPU-nod/网络域/存储故障测试。

12)配置模板(概念)

Triton-动态战斗:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe是金丝雀:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM-启动(想法):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13)LLM特点: RAG和搜索轮廓

索引:chanking, embeddings, ANN在"tenant/locale"上溷淆。
Rerank: CPU/GPU幻灯片上的轻型模型,以提高精度。
Prompts/上下文缓存:dedup,canonicalization。
敏感域的引用/责任策略(CUS/规则)。

14)实施支票

1.记录SLO (p95 latency/tokens/s,可用性)和负载配置文件。
2.将群集分解为池(serving/train/R&D),输入配额/优先级。
3.启用RDMA/NCCL和拓扑意识调度。
4.配置存储:权重、dataset、fichestor (online/offline)、矢量DB。
5.选择一个伺服堆栈(Triton/KServe/vLLM), 添加一个战斗/KV缓存/量化。
6.运行模型注册表,CI/CD,金丝雀/shadow-depla。
7.设定可观察性:系统+业务指标,质量,跟踪。
8.输入安全策略/PII、许可证、审核。
9.优化TCO: reserved+spot, autoscale,缓存,PEFT而不是完整的克隆。
10.准备HA/DR并度过游戏日。

15)反模式

"每个大型GPU都",没有池和优先级。
LLM没有动态战斗和KV缓存,→ p99爆炸和成本。
在单个池上进行训练和旋转,而无需进行预处理→ SLO事件。
零质量/安全遥测→不可见的退化和风险。
没有模型/模型注册表的集中式整体→没有可重复性。
忽略权重/数据许可证。

结果

成功的AI基础架构是具有智能调度的GPU池,高网络和正确的存储,高效的伺服器(战斗,缓存,量化,编译),成熟的MLOps和严格的SLO。结合安全/PII、多区域HA/DR和深思熟虑的Phinops,该平台提供稳定的p99、可控的$/查询以及快速推出新车型--从防冻到个性化和LLM助手。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。