GH GambleHub

AI基礎設施和GPU池

(部分: 技術和基礎設施)

簡短摘要

Production-AI不是「單個服務器上的單個模型」,而是由GPU節點,通用加速器池,統一伺服器,數據/接頭,可觀察性和成本控制組成的群集。對於iGaming來說,這是實時至關重要的:反欺詐、個性化、聊天機器人、LLM助手、遊戲/股票推薦。基礎磚:用於調度的Kubernetes/Slurm,工作負載隔離,高速網絡(與RDMA 100/200/400G),快速存儲,成熟的MLOps和「鋼筋混凝土」SLO。

1)建築地圖

圖層:

1.計算集群:GPU-nods(A/H類,AMD/ROCm,Intel Gaudi等),用於預處理的CPU-nods/fichs。

2.網絡:100G+以太網/IB,RDMA(RoCEv2),NCCL拓撲,QoS。

3.存儲:對象(S3連接),由本地NVMe scratch分布式POSIX(Ceph/grid)。

4.數據/fichi: fichestor (online/offline)、矢量DB (ANN)、緩存(Redis)、隊列。

5.ML平臺:工件和模型註冊表,piplines(CI/CD),版本控制,fichi作為代碼。

6.服務層:Triton/KServe/vLLM/text-generation-inference(TGI),A/B/金絲雀,自動熒光。

7.Howernance和安全:PII,保密,審計,出口政策,權重/日記許可證。

類型負載:
  • 在線得分(p95 ≤ 50-150毫秒)是反性,推薦和排名。
  • LLM伺服器(p95 ≤ 200-800毫秒乘128-512令牌)-聊天/代理/提示。
  • 批量分析/預培訓-夜間窗口,離線度量。
  • Feintüning/適應-定期進行,優先級低於在線。

2) GPU池和規劃

池模型

「Serving」池:短請求,高戰鬥,嚴格的SLO。
訓練池/Feintüning:長期訓練、分布式訓練(DDP)。
「R&D/實驗」池:配額/限額,允許預付款。
「CPU/Pre-/後處理」池:標準化,令牌化,CPU上的排名。

規劃師

Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).

Slurm(通常用於HPC培訓)-可以通過單獨的操作員與K8s混合。
公平共享和配額:GPU,CPU,內存的命名空間配額;GPU時鐘的「銀行」;內通/項目限制。

GPU分工

MIG (Multi-Instance GPU):將加速器切成絕緣切片(用於旋轉/多影子)。
MPS:用於小型任務的Sharing SM(監控幹擾)。
NVLink/PCIe:在定位pod時考慮拓撲(Topology Aware Scheduling)。

K8s註釋示例(概念):
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical

3)網絡和節點間性能

NCCL的RDMA(RoCEv2);ECN/PFC設置,流量類隔離。
本地化:在單個「工廠」(pod/host/Optics)內進行培訓,更接近用戶(邊緣/區域)。
同步控制:調諧配置文件,巨型框架,pin-ning接口。

4)存儲和數據

權重/工件存儲:對象(轉化,可變性)。
Datasets/fichi:Lakehouse(Delta/Iceberg/Hudi)+offline fichestor;在線fichestor(毫秒SLA)。
矢量DB(ANN):Faiss/ScaNN/加速器或向量矢量引擎;硬化,HNSW/IVF,復制。
本地NVMe緩存:冷啟動的加熱/栓塞。

5)伺服模型

框架的

Triton Inference Server(多模式,多模式,動態戰鬥)。
KServe(K8s本地,自動計算HPA/KPA,金絲雀)。
vLLM/TGI用於LLM令牌化和高性能解碼(paged attention,KV緩存離線)。
ONNX Runtime/TensorRT-LLM-用於編譯和加速。

優化

量化:INT8/FP8/INT4 (percentils/校準, AWQ/GPTQ)-在網上小心,測量質量。
圖的匯編:tensorRT,TorchInductor/XLA,融合的內核。

Batching/microbatching: 動態和靜態;для LLM — continuous batching.

KV緩存:查詢之間的圓圈,在長上下文下在CPU/NVMe上越位。
投機解碼:選秀模型+驗證器加速令牌發音。
令牌/上下文限制,提前停止,停止單詞,每個請求的時間預算。

Deploy Policy

A/B,金絲雀,影子-潛伏期/質量/業務指標的比較。
藍綠色-沒有市區。
SLO/錯誤滾回。

6)培訓/戰鬥機

DDP/FSDP/ZeRO:分布式內存/梯度,NVLink/拓撲計數。
檢查點:增量/完整,vs I/O頻率。
Mixed Precision: bf16/fp16 + loss scaling;分析穩定性。
Dataset sharding:統一叠代器,跨節點復制。
優先級:不連續的jobs(預emptible)有利於伺服。
獨立管道:data → train → eval →註冊表→按門標準升級到PROD。

7) MLOps和平臺

模型註冊表:版本、簽名、依賴性、許可證/權重使用權。
CI/CD模型:兼容性測試,表演回歸,質量門,安全門。
Fichestor:離線/在線一致性(特征伴侶)、TTL和backfill。
Data/Model Lineage:從dataset到報告/實驗的跟蹤。
LLM(轉化)的prompts/模板目錄。

8)可觀察性和SLO

在線指標:
  • 潛伏性p50/p95/p99, tokens/s, batch occupancy, queue wait, GPU-util/SM occupancy,記憶,錯誤。
  • LLM特點:輸入/輸出令牌,平均響應長度,限制故障比例,快取命中KV。
  • 質量:自動回歸測試(離線),在線遙測(內容標誌,毒性,金色樣本的精度)。
  • 商務SLO:個性化轉換,防凍精度,保留。

Alerts:p99/隊列增長,tokens/s下降,batch-fill降解,VRAM/PCIe-throttle耗盡,rate-limit故障增加。

9)安全、合規和隱私

PII/融資:按區域劃分計算和數據,靜止/過境加密,令牌化。
秘密/密鑰:KMS/Secrets Manager;排除在映像/代碼中的存儲。
LLM輸出策略:安全過濾器,紅色團隊,prompts/響應日誌(匿名)。
許可證:符合dataset/重量許可證;「no-redistribute「/商業限制。
Tenant隔離:namespace-RBAC,網絡,MIG幻燈片,限制和配額。

10)成本和大麻

卡帕西蒂計劃:負載配置文件(RPS,令牌/秒),錦標賽和活動的「尾巴」。
備份/備份:混合池(備份+備份/備份),並重新設置任務和支票。
Autoscale:RPS/queue depth/GPU-util的HPA/KPA;「溫暖的開始」,體重變暖。
模型動物園:減少變種數量;使用適應(LoRA/PEFT)而不是完全復制。
緩存:embeddings/昂貴請求的結果,LLM的KV緩存謝林。
令牌優化:prompts壓縮,retrieval-augmented generation (RAG), rerank直到生成。

11)多區域,HA和DR

主動/主動旋轉更接近用戶,全局漫遊(基於latency)。
通過完整性檢查復制權重和拳頭;在發布時加熱緩存。
DR計劃:AZ/地區的損失,備用池的疏散,對集中目錄的依賴控制。
混亂日:GPU-nod/網絡域/存儲故障測試。

12)配置模板(概念)

Triton-動態戰鬥:
text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe是金絲雀:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM-啟動(想法):

--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager

13)LLM特點: RAG和搜索輪廓

索引:chanking, embeddings, ANN在「tenant/locale」上混淆。
Rerank: CPU/GPU幻燈片上的輕型模型,以提高精度。
Prompts/上下文緩存:dedup,canonicalization。
敏感域的引用/責任策略(CUS/規則)。

14)實施支票

1.記錄SLO (p95 latency/tokens/s,可用性)和負載配置文件。
2.將群集分解為池(serving/train/R&D),輸入配額/優先級。
3.啟用RDMA/NCCL和拓撲意識調度。
4.配置存儲:權重、dataset、fichestor (online/offline)、矢量DB。
5.選擇一個伺服堆棧(Triton/KServe/vLLM), 添加一個戰鬥/KV緩存/量化。
6.運行模型註冊表,CI/CD,金絲雀/shadow-depla。
7.設定可觀察性:系統+業務指標,質量,跟蹤。
8.輸入安全策略/PII、許可證、審核。
9.優化TCO: reserved+spot, autoscale,緩存,PEFT而不是完整的克隆。
10.準備HA/DR並度過遊戲日。

15)反模式

「每個大型GPU都」,沒有池和優先級。
LLM沒有動態戰鬥和KV緩存,→ p99爆炸和成本。
在單個池上進行訓練和旋轉,而無需進行預處理→ SLO事件。
零質量/安全遙測→不可見的退化和風險。
沒有模型/模型註冊表的集中式整體→沒有可重復性。
忽略權重/數據許可證。

結果

成功的AI基礎架構是具有智能調度的GPU池,高網絡和正確的存儲,高效的伺服器(戰鬥,緩存,量化,編譯),成熟的MLOps和嚴格的SLO。結合安全/PII、多區域HA/DR和深思熟慮的Phinops,該平臺提供穩定的p99、可控的$/查詢以及快速推出新車型--從防凍到個性化和LLM助手。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。