AI基礎設施和GPU池

（部分： 技術和基礎設施）

簡短摘要

Production-AI不是「單個服務器上的單個模型」，而是由GPU節點，通用加速器池，統一伺服器，數據/接頭，可觀察性和成本控制組成的群集。對於iGaming來說，這是實時至關重要的：反欺詐、個性化、聊天機器人、LLM助手、遊戲/股票推薦。基礎磚：用於調度的Kubernetes/Slurm，工作負載隔離，高速網絡（與RDMA 100/200/400G），快速存儲，成熟的MLOps和「鋼筋混凝土」SLO。

1）建築地圖

圖層：

1.計算集群：GPU-nods（A/H類，AMD/ROCm，Intel Gaudi等），用於預處理的CPU-nods/fichs。

2.網絡：100G+以太網/IB，RDMA（RoCEv2），NCCL拓撲，QoS。

3.存儲：對象（S3連接），由本地NVMe scratch分布式POSIX（Ceph/grid）。

4.數據/fichi： fichestor （online/offline）、矢量DB （ANN）、緩存（Redis）、隊列。

5.ML平臺：工件和模型註冊表，piplines（CI/CD），版本控制，fichi作為代碼。

6.服務層：Triton/KServe/vLLM/text-generation-inference（TGI），A/B/金絲雀，自動熒光。

7.Howernance和安全：PII，保密，審計，出口政策，權重/日記許可證。

類型負載：

在線得分（p95 ≤ 50-150毫秒）是反性，推薦和排名。
LLM伺服器（p95 ≤ 200-800毫秒乘128-512令牌）-聊天/代理/提示。
批量分析/預培訓-夜間窗口，離線度量。
Feintüning/適應-定期進行，優先級低於在線。

2） GPU池和規劃

池模型

「Serving」池：短請求，高戰鬥，嚴格的SLO。
訓練池/Feintüning：長期訓練、分布式訓練（DDP）。
「R＆D/實驗」池：配額/限額，允許預付款。
「CPU/Pre-/後處理」池：標準化，令牌化，CPU上的排名。

規劃師

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).

Slurm（通常用於HPC培訓）-可以通過單獨的操作員與K8s混合。
公平共享和配額：GPU，CPU，內存的命名空間配額；GPU時鐘的「銀行」；內通/項目限制。

GPU分工

MIG （Multi-Instance GPU）：將加速器切成絕緣切片（用於旋轉/多影子）。
MPS：用於小型任務的Sharing SM（監控幹擾）。
NVLink/PCIe：在定位pod時考慮拓撲（Topology Aware Scheduling）。

K8s註釋示例（概念）：

yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3）網絡和節點間性能

NCCL的RDMA（RoCEv2）；ECN/PFC設置，流量類隔離。
本地化：在單個「工廠」（pod/host/Optics）內進行培訓,更接近用戶（邊緣/區域）。
同步控制：調諧配置文件，巨型框架，pin-ning接口。

4）存儲和數據

權重/工件存儲：對象（轉化，可變性）。
Datasets/fichi：Lakehouse（Delta/Iceberg/Hudi）+offline fichestor；在線fichestor（毫秒SLA）。
矢量DB（ANN）：Faiss/ScaNN/加速器或向量矢量引擎；硬化，HNSW/IVF，復制。
本地NVMe緩存：冷啟動的加熱/栓塞。

5）伺服模型

框架的

Triton Inference Server（多模式，多模式，動態戰鬥）。
KServe（K8s本地，自動計算HPA/KPA，金絲雀）。
vLLM/TGI用於LLM令牌化和高性能解碼（paged attention，KV緩存離線）。
ONNX Runtime/TensorRT-LLM-用於編譯和加速。

優化

量化：INT8/FP8/INT4 （percentils/校準, AWQ/GPTQ）-在網上小心,測量質量。
圖的匯編：tensorRT，TorchInductor/XLA，融合的內核。

Batching/microbatching： 動態和靜態；для LLM — continuous batching.

KV緩存：查詢之間的圓圈，在長上下文下在CPU/NVMe上越位。
投機解碼：選秀模型+驗證器加速令牌發音。
令牌/上下文限制，提前停止，停止單詞，每個請求的時間預算。

Deploy Policy

A/B，金絲雀，影子-潛伏期/質量/業務指標的比較。
藍綠色-沒有市區。
SLO/錯誤滾回。

6）培訓/戰鬥機

DDP/FSDP/ZeRO：分布式內存/梯度，NVLink/拓撲計數。
檢查點：增量/完整，vs I/O頻率。
Mixed Precision: bf16/fp16 + loss scaling;分析穩定性。
Dataset sharding：統一叠代器,跨節點復制。
優先級：不連續的jobs（預emptible）有利於伺服。
獨立管道：data → train → eval →註冊表→按門標準升級到PROD。

7） MLOps和平臺

模型註冊表：版本、簽名、依賴性、許可證/權重使用權。
CI/CD模型：兼容性測試，表演回歸，質量門，安全門。
Fichestor：離線/在線一致性（特征伴侶）、TTL和backfill。
Data/Model Lineage：從dataset到報告/實驗的跟蹤。
LLM（轉化）的prompts/模板目錄。

8）可觀察性和SLO

在線指標：

潛伏性p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy,記憶,錯誤。
LLM特點：輸入/輸出令牌，平均響應長度，限制故障比例，快取命中KV。
質量：自動回歸測試（離線），在線遙測（內容標誌，毒性，金色樣本的精度）。
商務SLO：個性化轉換，防凍精度，保留。

Alerts：p99/隊列增長，tokens/s下降，batch-fill降解，VRAM/PCIe-throttle耗盡，rate-limit故障增加。

9）安全、合規和隱私

PII/融資：按區域劃分計算和數據,靜止/過境加密,令牌化。
秘密/密鑰：KMS/Secrets Manager；排除在映像/代碼中的存儲。
LLM輸出策略：安全過濾器，紅色團隊，prompts/響應日誌（匿名）。
許可證：符合dataset/重量許可證；「no-redistribute「/商業限制。
Tenant隔離：namespace-RBAC，網絡，MIG幻燈片，限制和配額。

10）成本和大麻

卡帕西蒂計劃：負載配置文件（RPS，令牌/秒），錦標賽和活動的「尾巴」。
備份/備份：混合池（備份+備份/備份），並重新設置任務和支票。
Autoscale：RPS/queue depth/GPU-util的HPA/KPA；「溫暖的開始」，體重變暖。
模型動物園：減少變種數量；使用適應（LoRA/PEFT）而不是完全復制。
緩存：embeddings/昂貴請求的結果，LLM的KV緩存謝林。
令牌優化：prompts壓縮,retrieval-augmented generation （RAG）, rerank直到生成。

11）多區域，HA和DR

主動/主動旋轉更接近用戶，全局漫遊（基於latency）。
通過完整性檢查復制權重和拳頭；在發布時加熱緩存。
DR計劃：AZ/地區的損失，備用池的疏散，對集中目錄的依賴控制。
混亂日：GPU-nod/網絡域/存儲故障測試。

12）配置模板（概念）

Triton-動態戰鬥：

text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }

KServe是金絲雀：

yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }

vLLM-啟動（想法）：


--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13）LLM特點： RAG和搜索輪廓

索引：chanking, embeddings, ANN在「tenant/locale」上混淆。
Rerank： CPU/GPU幻燈片上的輕型模型,以提高精度。
Prompts/上下文緩存：dedup，canonicalization。
敏感域的引用/責任策略（CUS/規則）。

14）實施支票

1.記錄SLO （p95 latency/tokens/s,可用性）和負載配置文件。
2.將群集分解為池（serving/train/R&D）,輸入配額/優先級。
3.啟用RDMA/NCCL和拓撲意識調度。
4.配置存儲：權重、dataset、fichestor （online/offline）、矢量DB。
5.選擇一個伺服堆棧（Triton/KServe/vLLM）, 添加一個戰鬥/KV緩存/量化。
6.運行模型註冊表，CI/CD，金絲雀/shadow-depla。
7.設定可觀察性：系統+業務指標，質量，跟蹤。
8.輸入安全策略/PII、許可證、審核。
9.優化TCO： reserved+spot, autoscale,緩存,PEFT而不是完整的克隆。
10.準備HA/DR並度過遊戲日。

15）反模式

「每個大型GPU都」，沒有池和優先級。
LLM沒有動態戰鬥和KV緩存，→ p99爆炸和成本。
在單個池上進行訓練和旋轉，而無需進行預處理→ SLO事件。
零質量/安全遙測→不可見的退化和風險。
沒有模型/模型註冊表的集中式整體→沒有可重復性。
忽略權重/數據許可證。

結果

成功的AI基礎架構是具有智能調度的GPU池，高網絡和正確的存儲，高效的伺服器（戰鬥，緩存，量化，編譯），成熟的MLOps和嚴格的SLO。結合安全/PII、多區域HA/DR和深思熟慮的Phinops，該平臺提供穩定的p99、可控的$/查詢以及快速推出新車型--從防凍到個性化和LLM助手。

AI基礎設施和GPU池

簡短摘要

規劃師

GPU分工

優化

Deploy Policy

結果

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案