공유 컴퓨팅 리소스
1) "공유 컴퓨팅 리소스" 란 무엇입니까
GPU (Shared Computing Resources) 는 표준화 된 인터페이스, 정책 및 인센티브 경제. 목표는 멀티리스 및 체인 간 시나리오에서 활용도를 높이고 비용을 절감하며 예측 가능한 성능을 제공하는 것입니다.
2) 자원 분류
계산: CPU (일반 목적), GPU (교육/추론), NPU/TPU (ML 가속기).
메모리 및 디스크: RAM, 로컬 NVMe, 개체/블록 스토리지, 캐시 (Redis/KeyDB).
네트워크: 대역폭, 탈출/진입, QoS 클래스, 개인 채널.
데이터 및 DA: 출판물, 복제, 스냅 샷 및 증거 저장에 대한 할당량.
서비스 제한: 포드/컨테이너 수, 오픈 파일, 디스크립터, GPU 마이크로 디비전 (MIG).
3) 워크로드 유형
온라인/낮은 대기 시간: API, 매치 메이킹, 게임/핀 테크 회로, 크로스 체인 메시징.
스트리밍/실시간: 이벤트 처리, 사기 방지, 원격 측정, 실시간 분석.
배치: ETL/ELT, 보고, 주기적 계산, 기능 준비.
ML/AI: 학습 (GPU 집약적), 추론 (낮은 대기 시간/높은 변환).
스토리지 및 캐시: OLTP/OLAP, 레이크 하우스, CDNA/에지 캐시.
각 클래스마다 SLO, 우선 순위, 격리 및 관세가 설정됩니다.
4) 오케스트레이션 및 계획
우선 순위 및 QoS 클래스 별 일정: "마감일", 우선 순위 대기열, "최소" 보장 된 EDF/LLF.
리소스 요청: CPU/메모리, GPU 할당량 및 주식에 대한 '요청/제한', 선점 가능한/스팟 풀 절약.
노이즈 방지: cgroup/보상 "시끄러운 이웃", NUMA 고정, 네트워크 정책.
토폴로지 및 지역: 데이터 및 계산 공동 위치, 친 화성/친 화성, 엣지 바인딩.
자동 검사: GPU/DA 배치를위한 수평 (HPA), 수직 (VPA), 클러스터 (CA), 자동 조종 장치.
5) 다중 임대 및 격리
차이나: 네임 스페이스 → 프로젝트 → org (예산/할당량/ACL).
격리: 컨테이너, VM, 샌드 박스 (gVisor/Firecracker), 네트워크 (VPC/NetworkPolicy), 스토리지 (CSI 정책).
소음 감소 정책: IOPS/출구 제한, 공정 공유 계획, 중요한 서비스 전용 계층.
오류/자원 예산: 자동 저하가있는 임차인 당 오류 예산 및 자원 예산.
6) QoS, 우선 순위 및 SLO/SLA
QoS 클래스: Q4 (임계 완화 시간), Q3 (순서), Q2 (정확히 한 번 유효), Q1 (적어도 한 번), Q0 (최선의 노력).
SLO 예제: p95 대기 시간 API 지연 200 ms (Q4), GPU 대기 대기열은 2 분 (Q3), 창 T에서 창으로 30 분 (Q1).
계약 QoS → 부활: 보장 된 할당량 및 비상 "정지 크레인" 이 각 클래스에 할당됩니다.
7) 경제 및 수익 창출 (청구/인센티브)
충전 장치: vCPU-sec, GiB- 시간 RAM, GPU 분, GB 스토리지 월, GB-egress, DA-byte/publication.
관세 계획: 종량제, 할당량 및 초과 지출 구독, 예약 (커밋), 현장/선점 가능 할인.
하드웨어 제공 업체/데이터 센터의 공유: 이직률, SLA 보너스/벌금.
전력 시장: 노드/클러스터 목록, 품질 등급, GPU 슬롯 경매.
- U- 토큰-할당량/한도 지불, 할인.
- S- 토큰-SLA 노드/풀에 대한 서약 (다운 타임/위반에 대한 슬래시).
- R- 토큰-공급자/테넌트의 명성 (가격/우선 순위 수정 자).
- RNFT 계약 - 개별 계약 "resurs 한계 obyazatelstvo" (한계, 가격, 기간, KPI, 출력).
8) 커널 계약 및 서비스
리소스 레지스트리: 리소스 유형, 머신/GPU 클래스, 액세스 가능한 영역/edge-POP.
쿼터 관리자: 임차인/프로젝트 당 할당량/제한, 예산 이탈/IOPS/DA.
스케줄러/배치: 포드/작업/풀, 우선 순위, 지역, 소음 방지.
청구 및 계량: 단위 미터, 관세, 과잉 지출, 예산 경고.
보상 라우터: 공급자에게 지불 분배, SLA 중단에 대한 처벌.
규정 준수 게이트: 지역, 개인 데이터/개인 데이터, 연령/CCM 제한, 수출 보고서.
관찰 허브: 메트릭/트레일/로그, 작업 용 DLQ, 재생.
9) 안전 및 준수
인증/인증: mSL/OIDC, ABAC/RBAC, "최소 권한".
네트워크 세분화: 교통 정책이있는 VPC, 개인 링크, 서비스 매쉬.
데이터: 휴식/운송 중 암호화, 키 회전, 마스킹/더미 데이터 테스트.
GPU/CPU 격리: 직접 액세스 비활성화, DMA/IOMMU 제어, 사이드 채널 보호.
준수: 감사 로그, 데이터의 지역 현지화, 보존/삭제 정책, 공개없이 감사를위한 ZK 격차.
10) 관찰 및 성능 관리
측정 항목: uCPU%, GPU-util, RAM/Cache 적중, IOPS/처리량 디스크, p95 RTT/탈출 네트워크, GPU/Batch-lag 큐.
SLO/SLA 대시 보드: QoS 클래스 및 세입자의 "건강", 오류 예산.
프로파일 링: 화염 그래프 스냅 샷, 핫 경로 분석, 자동 크기 권장 사항.
경고: 지연 초과, GPU 대기열의 과열, 탈출 폭발, "시끄러운 이웃" 깃발.
11) 사기 방지 및 학대
Sybil/bot로드: S- 서약, R- 평판, 행동 서명.
탈출 남용/네트워크 스캔: 요율 제한/IDS, 검역 세그먼트.
파밍 스팟 할인: 안티 아브 정치인, 냉각, 수영장 사이의 "점프" 제한.
부정확 한 공급자: 선언 된 사양, 합성 샘플, 슬래시 및 "블랙리스트" RNFT 제어.
12) 체인 간 시나리오 (멀티 체인/에지)
액세스 권한 이전: RNFT 권리 및 할당량은 인스턴트 메시징을 통해 전송되며 평판 (R) 은 트러스트 도메인에 남아 있습니다.
DA 할당량 및 출판물: 바이트/주파수 당 충전, 최종/임시 잠금 장치.
에지 컴퓨팅: 로컬 버퍼가있는 POP 노드로 추론을 사용자에게 더 가깝게 밀어 넣습니다.
X-domain dedup and demempotency: 글로벌 'x _ job _ id', 끝에서 볼 수있는 테이블, 챌린지 기간.
13) 용량 계획 및 지속 가능성
용량 계획: 소비 동향, 계절성, N 주 주식, "빨간 선" p95.
게임 일 및 스트레스 테스트: GPU/egress/DA 과부하, AZ/POP 종료, 열화 시나리오.
디자인에 의한 분해: 우아한 대체 (덜 정확한 모델/캐시), Q4/Q3 우선 순위.
녹색 효율: 재활용, 탄소 인식 전단, 냉각/에너지 비용, 배치를 녹색 창으로 전송.
14) OVR 생태계의 측정 및 KPI
처분: CPU/GPU 바쁜%, RAM/Cache 적중, IOPS/GB 스토리지 사용.
효율성: 서비스 비용/요청, 스팟 처리, 마진/분 GPU.
품질: 수업 별 p50/p95 대기 시간, SLA 휴식/1000 요청, 대기열/시작 시간 작업.
공정성: "시끄러운 이웃" 지수, 임차인 별 사건 비율, 할당량 할당.
경제: 소득/자원 단위, 계획에 따른 NRR/GRR, 반복 수익의 비율.
안전: 격리 빈도, 탈출 이상, 평판 슬래시 이벤트.
15) 리소스 (관리)
매개 변수 제안: 투표를 통한 관세/할당량/복도 변경.
R- 수정자: 평판은 민감한 변화에서 "원시 자본" 의 영향을 제한합니다.
일몰 조항: 자동 롤백을 통한 임시 프로모션/할인.
공개보고: OVR 재무부의 분기 별 보고서, SLA 감사.
16) 출시 플레이 북
1. 매핑 요구. 작업 클래스, SLO, 데이터 지역.
2. 수영장 디자인. 머신 클래스, GPU 계층, 스토리지/네트워크 수준, edge-POP.
3. 정책 및 할당량. QoS 클래스, 예산, 출구/IOPS/DA 제한.
4. 경제학. 관세, 현장/준비금, 공급자에게 인센티브, RNFT 계약.
5. 안전과 준수. mSL/OIDC, 암호화, 감사 로그, 지리 정책.
6. 관찰 가능성. KPI/SLO 대시 보드, 경고, 프로파일 링.
7. 파일럿 및 스케일링. 한 종류의 작업 (예: 추론) → 배치/스트리밍 확장.
8. 사건과 사후 사건. 게임 데이, 리플레이, 정책/관세 조정.
17) 배송 점검표
- 모든 작업 유형에 대해 정의 된 QoS/SLO
- 쿼타/제한 및 공정 공유 계획 포함
- 구체화 된 현장/선점 가능한 수영장 및 방어 정책
- RNFT 계약 구현, 청구 및 보상 라우터
- 격리, 암호화 및 규정 준수보고 제공
- 재활용/품질/경제 대시 보드 사용 가능
- 사고가 발생했습니다: 크레인 중지, 저하, 사후
- 권리 다중 사슬 전환, DA 할당량, 에지 분포 구성
18) 용어집
OVR (공유 컴퓨팅 리소스): 생태계를위한 단일 용량 풀.
RNFT: 자원/제한/마감일에 대한 권리에 대한 계약 "관계".
S- 토큰: SLA/제공자/노드 책임에 대한 담보.
R- 토큰: 품질/신뢰성에 대한 양도 할 수없는 평판.
DA: 데이터 가용성 계층 (증거 게시/저장).
스팟/선점 가능: 갱신 정책이있는 저렴하지만 중단 가능한 리소스.
결론: 공유 컴퓨팅 리소스는 생태계를 재활용이 높고 품질이 예측 가능하며 인센티브가 조정되며 보안 및 규정 준수가 프로토콜에 내장 된 자체 밸런싱 컴퓨팅 공장으로 전환합니다. 적절한 오케스트레이션, iLG이 있으면 생산성과 신뢰를 잃지 않고 멀티리스로드를 확장 할 수 있습니다.