AI基础设施和GPU池

（部分： 技术和基础设施）

简短摘要

Production-AI不是"单个服务器上的单个模型"，而是由GPU节点，通用加速器池，统一伺服器，数据/接头，可观察性和成本控制组成的群集。对于iGaming来说，这是实时至关重要的：反欺诈、个性化、聊天机器人、LLM助手、游戏/股票推荐。基础砖：用于调度的Kubernetes/Slurm，工作负载隔离，高速网络（与RDMA 100/200/400G），快速存储，成熟的MLOps和"钢筋混凝土"SLO。

1）建筑地图

图层：

1.计算集群：GPU-nods（A/H类，AMD/ROCm，Intel Gaudi等），用于预处理的CPU-nods/fichs。

2.网络：100G+以太网/IB，RDMA（RoCEv2），NCCL拓扑，QoS。

3.存储：对象（S3连接），由本地NVMe scratch分布式POSIX（Ceph/grid）。

4.数据/fichi： fichestor （online/offline）、矢量DB （ANN）、缓存（Redis）、队列。

5.ML平台：工件和模型注册表，piplines（CI/CD），版本控制，fichi作为代码。

6.服务层：Triton/KServe/vLLM/text-generation-inference（TGI），A/B/金丝雀，自动荧光。

7.Howernance和安全：PII，保密，审计，出口政策，权重/日记许可证。

类型负载：

在线得分（p95 ≤ 50-150毫秒）是反性，推荐和排名。
LLM伺服器（p95 ≤ 200-800毫秒乘128-512令牌）-聊天/代理/提示。
批量分析/预培训-夜间窗口，离线度量。
Feintüning/适应-定期进行，优先级低于在线。

2） GPU池和规划

池模型

"Serving"池：短请求，高战斗，严格的SLO。
训练池/Feintüning：长期训练、分布式训练（DDP）。
"R＆D/实验"池：配额/限额，允许预付款。
"CPU/Pre-/后处理"池：标准化，令牌化，CPU上的排名。

规划师

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).

Slurm（通常用于HPC培训）-可以通过单独的操作员与K8s混合。
公平共享和配额：GPU，CPU，内存的命名空间配额；GPU时钟的"银行"；内通/项目限制。

GPU分工

MIG （Multi-Instance GPU）：将加速器切成绝缘切片（用于旋转/多影子）。
MPS：用于小型任务的Sharing SM（监控干扰）。
NVLink/PCIe：在定位pod时考虑拓扑（Topology Aware Scheduling）。

K8s注释示例（概念）：

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3）网络和节点间性能

NCCL的RDMA（RoCEv2）；ECN/PFC设置，流量类隔离。
本地化：在单个"工厂"（pod/host/Optics）内进行培训,更接近用户（边缘/区域）。
同步控制：调谐配置文件，巨型框架，pin-ning接口。

4）存储和数据

权重/工件存储：对象（转化，可变性）。
Datasets/fichi：Lakehouse（Delta/Iceberg/Hudi）+offline fichestor；在线fichestor（毫秒SLA）。
矢量DB（ANN）：Faiss/ScaNN/加速器或向量矢量引擎；硬化，HNSW/IVF，复制。
本地NVMe缓存：冷启动的加热/栓塞。

5）伺服模型

框架的

Triton Inference Server（多模式，多模式，动态战斗）。
KServe（K8s本地，自动计算HPA/KPA，金丝雀）。
vLLM/TGI用于LLM令牌化和高性能解码（paged attention，KV缓存离线）。
ONNX Runtime/TensorRT-LLM-用于编译和加速。

优化

量化：INT8/FP8/INT4 （percentils/校准, AWQ/GPTQ）-在网上小心,测量质量。
图的汇编：tensorRT，TorchInductor/XLA，融合的内核。

Batching/microbatching： 动态和静态；для LLM — continuous batching.

KV缓存：查询之间的圆圈，在长上下文下在CPU/NVMe上越位。
投机解码：选秀模型+验证器加速令牌发音。
令牌/上下文限制，提前停止，停止单词，每个请求的时间预算。

Deploy Policy

A/B，金丝雀，影子-潜伏期/质量/业务指标的比较。
蓝绿色-没有市区。
SLO/错误滚回。

6）培训/战斗机

DDP/FSDP/ZeRO：分布式内存/梯度，NVLink/拓扑计数。
检查点：增量/完整，vs I/O频率。
Mixed Precision: bf16/fp16 + loss scaling;分析稳定性。
Dataset sharding：统一迭代器,跨节点复制。
优先级：不连续的jobs（预emptible）有利于伺服。
独立管道：data → train → eval →注册表→按门标准升级到PROD。

7） MLOps和平台

模型注册表：版本、签名、依赖性、许可证/权重使用权。
CI/CD模型：兼容性测试，表演回归，质量门，安全门。
Fichestor：离线/在线一致性（特征伴侣）、TTL和backfill。
Data/Model Lineage：从dataset到报告/实验的跟踪。
LLM（转化）的prompts/模板目录。

8）可观察性和SLO

在线指标：

潜伏性p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy,记忆,错误。
LLM特点：输入/输出令牌，平均响应长度，限制故障比例，快取命中KV。
质量：自动回归测试（离线），在线遥测（内容标志，毒性，金色样本的精度）。
商务SLO：个性化转换，防冻精度，保留。

Alerts：p99/队列增长，tokens/s下降，batch-fill降解，VRAM/PCIe-throttle耗尽，rate-limit故障增加。

9）安全、合规和隐私

PII/融资：按区域划分计算和数据,静止/过境加密,令牌化。
秘密/密钥：KMS/Secrets Manager；排除在映像/代码中的存储。
LLM输出策略：安全过滤器，红色团队，prompts/响应日志（匿名）。
许可证：符合dataset/重量许可证；"no-redistribute"/商业限制。
Tenant隔离：namespace-RBAC，网络，MIG幻灯片，限制和配额。

10）成本和大麻

卡帕西蒂计划：负载配置文件（RPS，令牌/秒），锦标赛和活动的"尾巴"。
备份/备份：混合池（备份+备份/备份），并重新设置任务和支票。
Autoscale：RPS/queue depth/GPU-util的HPA/KPA；"温暖的开始"，体重变暖。
模型动物园：减少变种数量；使用适应（LoRA/PEFT）而不是完全复制。
缓存：embeddings/昂贵请求的结果，LLM的KV缓存谢林。
令牌优化：prompts压缩,retrieval-augmented generation （RAG）, rerank直到生成。

11）多区域，HA和DR

主动/主动旋转更接近用户，全局漫游（基于latency）。
通过完整性检查复制权重和拳头；在发布时加热缓存。
DR计划：AZ/地区的损失，备用池的疏散，对集中目录的依赖控制。
溷乱日：GPU-nod/网络域/存储故障测试。

12）配置模板（概念）

Triton-动态战斗：

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe是金丝雀：

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM-启动（想法）：


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13）LLM特点： RAG和搜索轮廓

索引：chanking, embeddings, ANN在"tenant/locale"上溷淆。
Rerank： CPU/GPU幻灯片上的轻型模型,以提高精度。
Prompts/上下文缓存：dedup，canonicalization。
敏感域的引用/责任策略（CUS/规则）。

14）实施支票

1.记录SLO （p95 latency/tokens/s,可用性）和负载配置文件。
2.将群集分解为池（serving/train/R&D）,输入配额/优先级。
3.启用RDMA/NCCL和拓扑意识调度。
4.配置存储：权重、dataset、fichestor （online/offline）、矢量DB。
5.选择一个伺服堆栈（Triton/KServe/vLLM）, 添加一个战斗/KV缓存/量化。
6.运行模型注册表，CI/CD，金丝雀/shadow-depla。
7.设定可观察性：系统+业务指标，质量，跟踪。
8.输入安全策略/PII、许可证、审核。
9.优化TCO： reserved+spot, autoscale,缓存,PEFT而不是完整的克隆。
10.准备HA/DR并度过游戏日。

15）反模式

"每个大型GPU都"，没有池和优先级。
LLM没有动态战斗和KV缓存，→ p99爆炸和成本。
在单个池上进行训练和旋转，而无需进行预处理→ SLO事件。
零质量/安全遥测→不可见的退化和风险。
没有模型/模型注册表的集中式整体→没有可重复性。
忽略权重/数据许可证。

结果

成功的AI基础架构是具有智能调度的GPU池，高网络和正确的存储，高效的伺服器（战斗，缓存，量化，编译），成熟的MLOps和严格的SLO。结合安全/PII、多区域HA/DR和深思熟虑的Phinops，该平台提供稳定的p99、可控的$/查询以及快速推出新车型--从防冻到个性化和LLM助手。

AI基础设施和GPU池

简短摘要

规划师

GPU分工

优化

Deploy Policy

结果

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目