AI altyapısı ve GPU havuzları
(Bölüm: Teknoloji ve Altyapı)
Kısa Özet
Üretim-AI'bir sunucuda bir model'değil, GPU düğümleri, paylaşılan hızlandırıcı havuzları, birleşik hizmet, veri/özellik, gözlemlenebilirlik ve maliyet yönetimi kümesidir. Bu, iGaming için gerçek zamanlı olarak kritik öneme sahiptir: dolandırıcılıkla mücadele, kişiselleştirme, chatbotlar, LLM asistanları, oyun/stok önerileri. Temel tuğlalar: Planlama için Kubernetes/Slurm, iş yüklerinin izolasyonu, yüksek hızlı ağ (RDMA ile 100/200/400G), hızlı depolama, olgun MLOps ve "betonarme" SLO.
1) Mimari harita
Katmanlar:1. Bilgi işlem kümesi: GPU düğümleri (A/H sınıfları, AMD/ROCm, Intel Gaudi, vb.), Ön işleme/özellik için CPU düğümleri.
2. Ağ: 100G + Ethernet/IB, RDMA (RoCEv2), NCCL topolojileri, QoS.
3. Depolama: nesne (S3 paylaşımlı), dağıtılmış POSIX (Ceph/grid), yerel NVMe-scratch.
4. Veri/özellikler: fichester (çevrimiçi/çevrimdışı), vektör veritabanları (ANN), önbellek (Redis), kuyruklar.
5. ML-platform: artifaktların ve modellerin kaydı, boru hatları (CI/CD), sürüm kontrolü, kod olarak özellikler.
6. Servis katmanı: Triton/KServe/vLLM/text-generation-inference (TGI), A/V/canary-deploy, autoresize.
7. Yönetişim ve Güvenlik: PII, Sırlar, Denetim, İhracat Politikaları, Ağırlık/Datacet Lisansları.
Tipik yükler:- Çevrimiçi puanlama (p95 ≤ 50-150 ms) - dolandırıcılıkla mücadele, öneriler, sıralama.
- LLM hizmeti (128-512 belirteçleri için p95 ≤ 200-800 ms) - sohbet/temsilciler/istemler.
- Toplu analitik/ek eğitim - gece pencereleri, çevrimdışı metrikler.
- Mücadele/adaptasyon - periyodik olarak, çevrimiçi olandan daha düşük bir önceliğe sahip.
2) GPU havuzları ve zamanlama
Havuz modeli
Servis havuzu: kısa istekler, yüksek butching, sıkı SLO'lar.
Eğitim/Finetuning Havuzu: Uzun İşler, Dağıtılmış Eğitim (DDP).
Havuz "Ar-Ge/Deneyler": kotalar/limitler, önkoşul izin.
CPU/Pre-/Post-processing pool: normalization, tokenization, rerank on CPU.
Zamanlayıcılar
Kubernetes (+ device-plugin, NodeFeatureDiscovery, taints/tolerations, PriorityClass, PodPriority/Preemption).
Slurm (genellikle HPC eğitimi için) - ayrı işçiler aracılığıyla K8s ile karıştırılabilir.
Adil pay ve kotalar: GPU, CPU, bellek için ad alanı kotaları; "bankalar" GPU-saat; Ad alanı/proje sınırları.
GPU bölümleme
MIG (Multi-Instance GPU): Hızlandırıcıyı izole edilmiş dilimler halinde kesmek (sörf/çoklu kiracılık için).
MPS: Küçük görevler için SM paylaşımı (monitör paraziti).
NVLink/PCIe: Topology Aware Scheduling'i düşünün.
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) Ağ ve siteler arası performans
NCCL allrudges için RDMA (RoCEv2); ECN/PFC ayarları, trafik sınıflarının izolasyonu.
Yerelleştirme: bir "fabrika" içinde eğitim (pod/host/optics), hizmet - kullanıcıya daha yakın (kenar/bölge).
Congest kontrolü: ayarlanmış profiller, jumbo çerçeveler, pin-ning arayüzleri.
4) Depolama ve veriler
Ağırlık/nesne depolama: nesne (sürüm, değişmezlik).
Veri kümeleri/özellikleri: Lakehouse (Delta/Iceberg/Hudi) + çevrimdışı fichester; Online-fichestor (milisaniye SLA'lar).
Vektör veritabanları (ANN): Faiss/ScaNN/hızlandırıcılar veya satıcı vektör motorları; shardiness, HNSW/IVF, replikasyon.
Yerel NVMe önbelleği: Soğuk bir başlangıç için ölçekleri/gömmeleri ısıtmak.
5) Hizmet veren modeller
Frameworkler
Triton Çıkarım Sunucusu (multimodel, çok zamanlı, dinamik butching).
KServe (K8s-native, otomatik ölçeklendirme HPA/KPA, kanarya).
LLM tokenization ve yüksek performanslı kod çözme (paged-attention, KV cache offload) için vLLM/TGI.
ONNX Runtime/TensorRT-LLM - derleme ve hızlanma için.
Optimizasyonlar
Niceleme: INT8/FP8/INT4 (persentiller/kalibrasyon, AWQ/GPTQ) - çevrimiçi olarak dikkatli bir şekilde, kaliteyi ölçün.
Grafik derleme: TensorRT, TorchInductor/XLA, kaynaşmış çekirdekler.
Butching/mikrobatching: dinamik ve statik; для LLM - sürekli gruplama.
KV önbellek: istekler arasında paylaşım, uzun bağlamlarla CPU/NVMe'de çevrimdışı.
Spekülatif kod çözme: belirteç üretimini hızlandırmak için taslak model + doğrulayıcı.
Token/bağlam limitleri, erken durdurma, stopwords, istek başına zaman bütçesi.
Politikaları dağıtma
A/B, kanarya, gölge - gecikme/kalite/iş metriklerinin karşılaştırılması.
Mavi yeşil - kesinti yok.
SLO/hatalar üzerinde geri alma.
6) Eğitim/Mücadele
DDP/FSDP/ZeRO: dağıtılmış bellek/degradeler, NVLink/topoloji muhasebesi.
Kontrol noktaları: artımlı/tam, frekans vs I/O.
Karışık Hassasiyet: bf16/fp16 + kayıp ölçekleme; profil kararlılığı.
Veri Kümesi Sharding: tekdüze yineleyici, düğümler arasında çoğaltma.
Öncelikler: Sörf lehine kesilebilir işler (önlenebilir).
Tek başına boru hatları: veri - tren - eval - PROD'da kapı kriterlerine göre ilerleme kaydedin.
7) MLOps ve platform
Modellerin kaydı: sürümler, imzalar, bağımlılıklar, lisanslar/ölçek kullanma hakkı.
CI/CD modelleri: uyumluluk testleri, performans regresyonları, kalite kapıları, güvenli dağıtım.
Fichestor: çevrimdışı/çevrimiçi tutarlılık (özellik paritesi), TTL ve geri doldurma.
Veri/Model Lineage: rapor/deney için veri kümesinden iz.
LLM için istemler/şablonlar dizini (sürüm oluşturma).
8) Gözlemlenebilirlik ve SLO
Online metrikler:- Gecikme p50/p95/p99, belirteçler/s, toplu doluluk, kuyruk bekleme, GPU-util/SM doluluk, bellek, hatalar.
- LLM özellikleri: G/Ç belirteçleri, ortalama yanıt uzunluğu, sınırlara göre başarısızlık yüzdesi, KV önbellek isabeti.
- Kalite: Otomatik regresyon testleri (çevrimdışı), çevrimiçi telemetri (içerik bayrakları, toksisite, altın numunelerinde yayınlanma doğruluğu).
- Business SLO: kişiselleştirme dönüşümü, sahtekarlık önleme doğruluğu, saklama.
Uyarılar: p99/kuyruk büyümesi, belirteçler/s düşüşü, toplu doldurma bozulması, VRAM/PCIe-gaz tükenmesi, oran sınırı hatası büyümesi.
9) Güvenlik, uyumluluk ve gizlilik
PII/finansal veriler: hesaplamaların ve verilerin bölgelere göre bölümlendirilmesi, dinlenme/transit halinde şifreleme, tokenizasyon.
Sırlar/Anahtarlar: KMS/Secrets Manager; Görüntülerde/kodda depolamayı hariç tutun.
LLM çıktı politikaları: güvenlik filtreleri, kırmızı takım oluşturma, istemlerin/yanıtların günlüğü (anonimleştirme ile).
Lisanslar: veri kümeleri/ağırlıklar için lisanslara uygunluk; "yeniden dağıtma yok "/ticari kısıtlamalar.
Kiracı yalıtımı: ad alanı-RBAC, ağlar, MIG dilimleri, limitler ve kotalar.
10) Maliyet ve Finops
Kapasite planlama: yük profilleri (RPS, belirteçler/sn), turnuvaların ve kampanyaların "kuyrukları".
Reserve/Spot: Karışık havuzlar (ayrılmış + spot/preemptible), yeniden ayarlanmış görevler ve kontrol noktaları.
Autoscale: RPS/kuyruk derinliği/GPU-util tarafından HPA/KPA; Isınmış terazilerle "sıcak başlangıç".
Model Hayvanat Bahçesi: Seçenekleri azaltın; Tam çoğaltma yerine uyarlamayı (LoRA/PEFT) kullanın.
Önbellek: Pahalı isteklerin gömülmesi/sonuçları, LLM için KV önbellek paylaşımı.
Belirteçlerin optimizasyonu: istemlerin sıkıştırılması, retrieval-augmented generation (RAG), rerank before generation.
11) Çok bölgeli, HA ve DR
Active/Active sörf kullanıcıya daha yakın, global yönlendirme (gecikme tabanlı).
Ölçeklerin ve özelliklerin bütünlük kontrolü ile çoğaltılması; Salımlar sırasında önbellekleri ısıtmak.
DR planı: AZ/bölge kaybı, yedek havuza tahliye, merkezi dizine bağımlılığın kontrolü.
Kaos günleri: GPU düğümü/ağ etki alanı/depolama hatası testleri.
12) Yapılandırma şablonları (kavramlar)
Triton - dinamik butching:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe - Kanarya:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - Lansman (Fikirler):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM özgüllüğü: RAG ve arama döngüsü
Dizinleme: 'kiracı/yerel'olarak chanking, embedding, ANN-sharding.
Rerank: Doğruluğu artırmak için hafif CPU/GPU dilim modeli.
Komut istemleri/bağlam önbelleği: dedup, canonicalization.
Hassas alanlar için atıf/sorumluluk politikaları (CCP/kurallar).
14) Uygulama kontrol listesi
1. SLO'ları (p95 gecikme/belirteç/s, kullanılabilirlik) ve yük profillerini yakalayın.
2. Kümeyi havuzlara ayırın (hizmet/tren/Ar-Ge), kotalar/öncelikler girin.
3. RDMA/NCCL ve topolojik olarak duyarlı zamanlamayı etkinleştirin.
4. Depolar kurun: ölçekler, veri kümeleri, fichester (çevrimiçi/çevrimdışı), vektör veritabanları.
5. Servis yığınını seçin (Triton/KServe/vLLM), butching/KV önbellek/niceleme ekleyin.
6. Model kayıt, CI/CD, kanarya/gölge dağıtımını çalıştırın.
7. Gözlemlenebilirliği koyun: sistem + iş metrikleri, kalite, izleme.
8. Güvenlik/PII politikalarını, lisanslarını, denetimini girin.
9. Tam klonlar yerine TCO: ayrılmış + spot, otomatik ölçek, önbellek, PEFT'yi optimize edin.
10. HA/DR hazırlayın ve bir oyun günü geçirin.
15) Antipatterns
Havuzlar ve öncelikler olmadan'herkes için büyük bir GPU ".
Dinamik butching ve KV önbellek LLM için eksikliği p99 patlama ve maliyet.
Aynı havuzda ön hazırlık yapmadan eğitim ve hizmet - SLO olayları.
Sıfır kalite/güvenlik telemetrisi - ince bozulma ve riskler.
Phichester/model kaydı olmadan merkezi monolit - tekrarlanabilirlik yok.
Ölçek/veri lisansları yoksayılıyor.
Özet
Başarılı AI altyapısı, akıllı zamanlama GPU havuzları, yüksek ağ ve doğru depolama, verimli servis (butching, önbellek, nicemleme, derleme), olgun MLOps ve sıkı SLO'ları içerir. Güvenlik/PII, çok bölgeli HA/DR ve düşünceli Finops ile birlikte platform, dolandırıcılık önleme, kişiselleştirme ve LLM asistanlarına kadar istikrarlı bir p99, kontrollü $/istek ve yeni modellerin hızlı bir şekilde uygulanmasını sağlar.