AI 인프라 및 GPU 풀
(섹션: 기술 및 인프라)
간략한 요약
Production-AI는 "하나의 서버에서 하나의 모델" 이 아니라 GPU 노드, 공유 가속기 풀, 통합 서빙, 데이터/기능, 관찰 성 및 비용 관리 클러스터입니다. iGaming의 경우 사기 방지, 개인화, 핫봇, LLM 어시스턴트, 게임/스톡 권장 사항 등 실시간으로 중요합니다. 기본 벽돌: 계획, 워크로드 격리를위한 Kubernetes/Slurm, 고속 네트워크 (RDMA가있는 100/200/400G), 빠른 저장, 성숙한 MLop 및 "철근 콘크리트" SLO.
1) 건축지도
레이어:1. 컴퓨팅 클러스터: GPU 노드 (A/H 클래스, AMD/ROCm, Intel Gaudi 등), 사전 처리/기능을위한 CPU 노드.
2. 네트워크: 100G + 이더넷/IB, RDMA (RoCEV2), NCCL 토폴로지, QoS.
3. 스토리지: 객체 (S3 공유), 분산 POSIX (Ceph/grid), 로컬 NVMe 스크래치.
4. 데이터/기능: fichester (온라인/오프라인), 벡터 데이터베이스 (ANN), 캐시 (Redis), 대기열.
5. ML 플랫폼: 아티팩트 및 모델 등록, 파이프 라인 (CI/CD), 버전 제어, 코드 기능.
6. 서비스 계층: Triton/KServe/vLLM/텍스트 생성 추론 (TGI), A/V/카나리아 배치, 자동 크기 조정.
7. 거버넌스 및 보안: PII, 비밀, 감사, 수출 정책, 체중/데이터 셋 라이센스.
일반적인 부하:- 온라인 점수 (p95 λ50-150 ms) -사기 방지, 권장 사항, 순위.
- LLM- 서빙 (128-512 토큰의 경우 p95 λ200-800 ms) -채팅/에이전트/프롬프트.
- 배치 분석/추가 교육-야간 창, 오프라인 지표.
- 싸움/적응-주기적으로 온라인보다 우선 순위가 낮습니다.
2) GPU 수영장 및 일정
풀 모델
서빙 풀: 짧은 요청, 높은 버칭, 엄격한 SLO.
교육/Finetuning Pool: 긴 직업, 분산 교육 (DDP).
풀 "R & D/실험": 할당량/제한, 선점 허용.
CPU/사전/사후 처리 풀: CPU에서 정규화, 토큰 화, 재실행.
스케줄러
Kubernetes (+ 장치 플러그인, NodeFeatureDiscovery, 오염/공차, PriorityClass, PodPriority/Preemption).
슬럼 (종종 HPC 교육의 경우) -별도의 근로자를 통해 K8과 혼합 할 수 있습니다.
공정 점유율 및 할당량: GPU, CPU, 메모리에 대한 네임 스페이스 할당량; "은행" GPU 시간; 네임 스페이스/프로젝트 제한.
GPU 파티셔닝
MIG (멀티 인스턴스 GPU): 가속기를 분리 된 슬라이스 (서핑/멀티 테넌시 용) 로 자릅니다.
MPS: 작은 작업을위한 SM 공유 (모니터 간섭).
NVLink/PCIe: Topology Aware Scheduling을 고려하십시오.
yaml apiVersion: v1 kind: Pod metadata:
annotations:
scheduling. k8s. io/group-name: "ai-serving"
spec:
nodeSelector: { gpu-pool: serving }
tolerations: [{ key: "gpu", operator: "Exists", effect: "NoSchedule" }]
priorityClassName: ai-serving-critical
3) 네트워크 및 사이트 간 성능
NCCL 알루미지에 대한 RDMA (RoCEv2); ECN/PFC 설정, 트래픽 클래스 격리.
현지화: 사용자 (가장자리/지역) 에 더 가까운 하나의 "공장" (포드/호스트/광학) 내부 교육.
조합 제어: 튜닝 된 프로파일, 점보 프레임, 핀닝 인터페이스.
4) 저장 및 데이터
무게/아티팩트 스토리지: 객체 (버전, 불변성).
데이터 세트/기능: 레이크 하우스 (Delta/Iceberg/Hudi) + 오프라인 fichester; 온라인 소설 (밀리 초 SLA).
벡터 데이터베이스 (ANN): Faiss/ScaNN/가속기 또는 공급 업체 벡터 엔진; 예리함, HNSW/IVF, 복제.
로컬 NVMe 캐시: 콜드 스타트를위한 스케일/임베딩 예열.
5) 모델 제공
프레임 워크
Triton Inference Server (멀티 모델, 멀티 타임, 동적 버칭).
KServe (K8- 네이티브, HPA/KPA, 카나리아).
LLM 토큰 화 및 고성능 디코딩 용 vLLM/TGI (주의, KV 캐시 오프로드).
ONNX 런타임/TensorRT-LLM-컴파일 및 가속 용.
최적화
양자화: INT8/FP8/INT4 (백분위 수/보정, AWQ/GPTQ) -온라인에서 신중하게 품질을 측정하십시오.
그래프 편집: TensorRT, TorchInductor/XLA, 융합 커널.
버칭/마이크로 패칭: 동적 및 정적; 체조 LLM-연속 타격.
KV 캐시: 요청을 공유하고 CPU/NVMe에서 오프라인으로 긴 상황을 공유합니다.
투기 해독: 토큰 생산 속도를 높이기위한 초안 모델 + 검증 기.
토큰/컨텍스트 제한, 조기 정지, 스톱 워드, 요청 당 시간 예산.
배포 정책
A/B, 카나리아, 그림자-대기 시간/품질/비즈니스 지표 비교.
푸른 녹색-다운 타임 없음.
SLO/오류에 대한 롤백.
6) 훈련/싸움
DDP/FSDP/ZeRO: 분산 메모리/그라디언트, NVLink/토폴로지 회계.
체크 포인트: 증분/전체, 주파수 vs I/O.
혼합 정밀: bf16/fp16 + 손실 스케일링; 프로파일 안정성.
데이터 셋 샤딩: 균일 한 반복기, 노드 간 복제.
우선 순위: 서핑에 찬성하여 중단 가능한 작업 (선점 가능).
독립형 파이프 라인: 게이트 기준에 따라 PROD의 데이터 → 트레인 → eval → 레지스터 → 진행 상황.
7) MLops 및 플랫폼
모델 등록: 버전, 서명, 종속성, 라이센스/스케일 사용 권한.
CI/CD 모델: 호환성 테스트, 성능 회귀, 품질 게이트, 안전한 배치.
Fichestor: 오프라인/온라인 일관성 (기능 패리티), TTL 및 백필.
데이터/모델 계보: 데이터 세트에서보고/실험까지의 추적.
LLM (버전) 에 대한 프롬프트/템플릿 디렉토리.
8) 관찰 및 SLO
온라인 메트릭:- 대기 시간 p50/p95/p99, 토큰/s, 배치 점유, 대기열 대기, GPU-util/SM 점유, 메모리, 오류.
- LLM 세부 사항: I/O 토큰, 평균 응답 길이, 한계 별 장애 비율, KV 캐시 적중.
- 품질: 자동 회귀 테스트 (오프라인), 온라인 원격 측정 (컨텐츠 플래그, 독성, 금 샘플 발행 정확도).
- 비즈니스 SLO: 개인화 전환, 사기 방지 정확도, 유지.
경고: p99/큐 성장, 토큰/s 하락, 배치 충전 저하, VRAM/PCIe 스로틀 소진, 속도 제한 고장 성장.
9) 보안, 규정 준수 및 개인 정보 보호
PII/재무 데이터: 지역별 계산 및 데이터 세분화, 휴식/운송 중 암호화, 토큰 화.
비밀/키: KMS/비밀 관리자; 이미지/코드의 저장소는 제외합니다.
LLM 출력 정책: 보안 필터, 적색 팀, 프롬프트/응답 로깅 (익명화 포함).
라이센스: 데이터 세트/가중치에 대한 라이센스 준수; "재분배 없음 "/상업적 제한.
임차인 격리: 네임 스페이스 -RBAC, 네트워크, MIG 슬라이스, 한계 및 할당량.
10) 비용과 Finops
용량 계획: 토너먼트 및 캠페인의로드 프로필 (RPS, 토큰/초), "꼬리".
예약/스팟: 재설정 작업 및 체크 포인트가있는 혼합 풀 (예약 + 스팟/선점 가능).
오토 스케일: RPS/큐 깊이/GPU-util에 의하여 HPA/KPA; 따뜻한 비늘로 "따뜻한 시작".
모델 동물원: 옵션을 줄입니다. 전체 중복 대신 적응 (LoRA/PEFT) 을 사용하십시오.
캐시: 값 비싼 요청의 포함/결과, LLM에 대한 KV 캐시 공유.
토큰의 최적화: 프롬프트 압축, 검색 증강 생성 (RAG), 생성 전에 재실행.
11) 다중 지역, HA 및 DR
액티브/액티브 서핑은 사용자, 글로벌 라우팅 (대기 시간 기반) 에 더 가깝습니다.
무결성 검사를 통해 스케일 및 기능의 복제; 방출하는 동안 캐시를 예열하십시오.
DR 계획: AZ/지역 손실, 백업 풀로의 대피, 중앙 집중식 디렉토리에 대한 의존성 제어.
혼돈 일: GPU 노드/네트워크 도메인/스토리지 장애 테스트.
12) 설정 템플릿 (개념)
트리톤-다이나믹 버칭:text dynamic_batching {
preferred_batch_size: [4, 8, 16, 32]
max_queue_delay_microseconds: 2000
}
instance_group { count: 2 kind: KIND_GPU }
KServe-카나리아:
yaml spec:
predictor:
canaryTrafficPercent: 20 model:
modelFormat: { name: triton }
resources:
limits: { nvidia. com/gpu: "1" }
vLLM - 출시 (아이디어):
--tensor-parallel-size 2
--max-num-seqs 512
--gpu-memory-utilization 0. 9
--enforce-eager
13) LLM 특이성: RAG 및 검색 루프
인덱싱: 샹킹, 임베딩, '테넌트/로케일' 에 의한 ANN 샤딩.
순위: 정확도를 향상시키기 위해 경량 CPU/GPU 슬라이스 모델.
프롬프/컨텍스트 캐시: dedup, canonicalization.
민감한 도메인 (CCP/규칙) 에 대한 인용/책임 정책.
14) 구현 점검표
1. SLO 캡처 (p95 대기 시간/토큰/s, 가용성) 및로드 프로파일.
2. 클러스터를 풀 (서빙/트레인/R & D) 로 나누고 할당량/우선 순위를 입력하십시오.
3. RDMA/NCCL 및 위상 인식 일정을 사용하십시오.
4. 저장고 설정: 스케일, 데이터 세트, fichester (온라인/오프라인), 벡터 데이터베이스.
5. 서빙 스택 (Triton/KServe/vLLM) 을 선택하고 버칭/KV 캐시/양자화를 추가하십시오.
6. 모델 레지스터, CI/CD, 카나리아/그림자 배포를 실행하십시오.
7. 관찰 가능성: 시스템 + 비즈니스 지표, 품질, 추적.
8. 보안/PII 정책, 라이센스, 감사를 입력하십시오.
9. TCO 최적화: 전체 클론 대신 예약 + 스팟, 자동 스케일, 캐시, PEFT.
10. HA/DR을 준비하고 게임 데이를 보내십시오.
15) 안티 패턴
수영장과 우선 순위가없는 "모두를위한 하나의 큰 GPU".
P99 및 비용의 LLM → 폭발에 대한 동적 버칭 및 KV 캐시 부족.
선점없이 동일한 풀에서 훈련하고 봉사하는 → SLO 사건.
제로 품질/안전 원격 측정 → 미묘한 저하 및 위험.
피체스터/모델 레지스터가없는 중앙 집중식 모놀리스 → 재현성 없음.
스케일/데이터 라이센스를 무시합니다.
요약
성공적인 AI 인프라에는 스마트 스케줄링 GPU 풀, 높은 네트워크 및 올바른 스토리지, 효율적인 서빙 (버칭, 캐시, 양자화, 편집), 성숙한 MLop 및 엄격한 SLO가 포함됩니다. 보안/PII, 다중 지역 HA/DR 및 사려 깊은 Finops와 결합 된이 플랫폼은 사기 방지에서 개인화 및 LLM 보조에 이르기까지 안정적인 p99, 통제 된 $/요청 및 새로운 모델의 빠른 구현을 제공합니다.