저장 및 NAS
간략한 요약
스토리지는 성능, 성능, 신뢰성, 보안 및 경제성. 올바른 선택은 I/O 프로파일 (랜덤/순차, 블록/파일/객체), RPO/RTO 및 SLO 대기 시간/처리량 요구 사항에 따라 다릅니다.
저장 분류법
DAS (직접 첨부 스토리지) - 서버 근처의 디스크. "최소 대기 시간, 네트워크 병목 현상 없지만 리소스 공유가 더 어렵습니다.
SAN (Storage Area Network) -FC/iSCSI/NVMe-oF를 통한 블록 스토리지. 고성능, 공유 LUNs, 중앙 집중식 관리.
NAS (Network Attached Storage) -NFS/SMB를 통한 파일 볼. 공유 디렉토리, 로그, 아티팩트, 미디어 컨텐츠에 대한 편리함.
오브젝트 스토리지 - S3 호환 AP (Ceph RGW/MinIO/clouds). 백업, 로그, 아카이브, 미디어, 모델 아티팩트.
하이퍼 컨버전스 솔루션 (HCI) -수평 스케일을위한 컴바인 계산 및 스토리지 (Ceph, vSAN, StarWind 등).
액세스 프로토콜
파일:- NFSv3/v4-유닉스/포지스 환경, 주 전체 잠금 장치, Kerberos/KRB5i/KRB5p.
- SMB 3. x - Windows/AD 도메인, 암호화/서명, 멀티 채널, DFS.
- iSCSI-이더넷, LUN, 많은 경로 (MPIO) 를 통해 가상화/데이터베이스에 편리합니다.
- FC/NVMe-oF-낮은 대기 시간, 특수 공장/지도.
- S3 API-객체 버전, 라이프 사이클, WORM/컴플라이언스 모드, 멀티 파트 업로드.
- DB/가상 머신 → 블록 (iSCSI/NVMe-oF).
- 공유 폴더/CI 아티팩트 → NFS/SMB.
- 로그/백업/미디어/모델 → S3 호환 객체.
데이터 및 코딩: RAID, ZFS, Erasure Coding
RAID
RAID1/10-대기 시간이 짧고 IOPS/랜덤 읽기/쓰기가 높습니다.
RAID5/6-용량 절감이지만 쓰기 페널티.
ZFS-동기화 작업, 스냅 샷/복제 및 내장 무결성 (체크섬) 을위한 CoW (copy-to-writing), 풀 및 vdev, ARC/L2ARC 캐시, ZIL/SLOG.
Distributed Systems (Ceph/MinIO) 의 Erasure Coding (EC): Reed-Solomon 코드 'k + m' -허용 가능한 쓰기 성능 저하로 3 배 이상의 복제를 절약합니다.
- NVMe의 핫 랜덤로드 (메타 데이터, 작은 파일) → RAID10/ZFS 미러.
- EC 콜드/아카이브 →, 대형 HDD, 공격적인 캐시.
- 동기화 레코드 (NFS 내보내기) -신뢰할 수있는 저 특허 NVMe (PLP) 에 대한 전용 SLOG.
성능: IOPS, 처리량, 대기 시간
IOPS는 작은 랜덤 작업 (DB/메타 데이터) 에 중요합니다.
대역폭-큰 파일 (비디오, 백업) 의 경우.
대기 시간 p95/p99-데이터베이스, 대기열, 캐시 API에 중요합니다.
대기열 및 동시성: 클라이언트의 멀티 스레딩, NFS의 경우 'rsize/wsize', iSCSI의 경우 'rw, queu _ deep'.
네트워크: 25/40/100 GbE (또는 IB) + RSS/RPS, 데이터 센터 내부의 점보 MTU.
캐싱 및 틱
ARC/L2ARC (ZFS) -RAM 및 NVMe 읽기 캐시; SLOG-동기화 레코드의 히스토리.
쓰기/쓰기 컨트롤러 캐시-조심스럽고 배터리/슈퍼 커패시터 만 (BBU/PLP).
계층: NVMe (hot) → SSD (warm) → HDD (cold) → 객체 (archive). 마이그레이션 정책 및 수명주기.
스냅 샷, 클론, 복제, DR
스냅 샷 (CoW): 롤백/백업을위한 인스턴트 포인트; 하이퍼 바이저뿐만 아니라 스토리지 내부에 디렉토리를 저장합니다.
복제: 동기식 (대기 시간 이상 RPO 약 0), 비동기식 (RPO = N 분).
클론: 경제적 인 개발/테스트 환경.
DR 체계: 3-2-1 (3 개 사본, 2 개 유형의 캐리어, 1 개-오프 사이트), 정기적 인 DR 연습; RPO/RTO 목표.
안전, 규정 준수 및 다중 임대
인증/인증: SMB의 경우 TP/AD, Kerberos/NTLMv2, NFSv4의 경우 해당 _ SYS/KRB.
격리: VLAN/VRF, 수출 정책, 임차인 할당량/할당량.
암호화: 휴식 시간 (LUKS/ZFS 네이티브/SED) 및 비행 중 (S3 용 NFS-krb5p/SMB 암호화/SL).
법적으로 중요한 데이터에 대한 WORM/준수 (S3 Object Lock, SnapLock 유사체).
감사: 불변의 액세스 로그, SIEM과의 통합.
모니터링 및 SLO
메트릭:- 풀/볼륨 별: 사용량, 'p95/p99 대기 시간', IOPS, 처리량, 대기열 깊이, 캐시 적중, 쓰기 증폭.
- 네트워크를 통해: 방울, 재송신, PPS, MTU 불일치.
- 미디어 별: 미디어 오류, 마모 수준, 온도, SMART.
- 복제/스냅 샷: 지연/연령, 작업 성공, 지속 시간.
- CI를위한 NFS 공: p95 대기 시간 95%.
- 데이터베이스 LUN: p99 쓰기 5ms, 지역 내 동기 복제본; RPO 0, RTO
- 객체: p95 PUT 지정 50 ms, p95 GET 지정 30 ms, 11 × 9 내구성 (EU/복제를 통해).
- 풀 필링> 80/90/95%, 캐시 히트 드롭, 쓰기 앰프 성장, 디스크 저하, 네트워크 드로우 다운, 복제 로그> 임계 값.
백업 및 보관
Snapshots + 원격 복제본 + 개체/테이프에 대한 별도의 백업.
보존 정책: 일/주/월.
불변성: S3 Object Lock (Governance/Compliance), "air-gap" (피드/비활성 계정).
회복 테스트-정기적으로.
실제 템플릿 (최소)
NFS 수출 (예)
/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)
SMB 공유 (smb 단편. (PHP 3 = 3.0.6, PHP
[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required
ZFS: 풀과 데이터 세트 생성
bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects # большие файлы zfs set recordsize=16K tank/db # БД/мелкие I/O
iSCSI (아이디어)
클라이언트에서 ALUA/MPIO, 정확한 타임 아웃 및 대기열 깊이를 사용하십시오.
iSCSI 네트워크와 클라이언트 트래픽을 확산시키고 100 야드 공장 내에서 점보 MTU를 사용하십시오.
용량 및 성능 계획
작업 세트 및 성장률.
IOPS의 마진 및 피크 및 재조정의 경우 30-50% 의 처리량.
기록 증폭 (RAID/EC/CoW) 및 메타 데이터를 고려하십시오.
객체-요청 비용 및 발신 트래픽, 스토리지 클래스 (표준/IA/빙하 유사).
운영 및 업데이트
컨트롤러/OS/펌웨어의 롤링 업데이트.
스크럽/구조 창과 우선 순위.
Rebild 밸런싱: prod를 "죽이지" 않도록 복구시 I/O를 제한합니다.
노드/네트워크의 열화/손실에 관한 런북.
구현 체크리스트
- 파일/블록/객체 + RPO/RTO/SLO 액세스 프로파일이 선택되었습니다.
- 로드 및 가격 코딩 체계 (RAID/ZFS/EC).
- 네트워크: 개별 VLAN/VRFs, 직물 내 MTU 9000, MFIO/ALUA.
- 캐시/틱: ARC/L2ARC/SLOG 또는 이와 유사한 메커니즘.
- 스냅 샷/복제본/백업: 일정, 불변성, DR 연습.
- 모니터링: 수영장/미디어/네트워크/복제 메트릭, 경고.
- 액세스/보안: ACL, Kerberos/AD, 암호화, 감사.
- 임차인 및 SLA/SLO 디렉토리에 대한 쿼타/제한.
- 문서 및 런북, 테스트 복구.
공통 오류
ZFS/EC 시스템의 풀 오버플로> 80% → 대기 시간의 급격한 증가.
MFIO/보호가없는 하나의 컨트롤러/하나의 네트워크.
뜨겁고 차가운 작업 세트는 한 종류의 캐리어로 혼합됩니다.
NFS 동기화 하중에 대한 SLOG는 → 예측할 수없는 대기 시간이 없습니다.
사고/타협시 동일한 배열/계정 → 손실 만 "내부" 백업합니다.
정기적 인 스크럽 및 SMART 모니터링 부족.
작은 I/O 패턴 무시: DB의 큰 '레코드 크기'.
iGaming/fintech 특정
거래 데이터베이스 및 지갑: 개별 NVMe 풀, RAID10/ZFS 미러, 영역 B에 대한 동기 복제본, 독립적 인 밀봉.
로그/원시 이벤트 및 사기 방지 기능: SSD의 객체 + 수명주기 + 저렴한 클래스, 색인/쇼케이스.
콘텐츠 및 미디어 (제공 업체): NAS + CNC, 공격적인 캐시, 중복 제거.
보고 및 PII: WORM/불변성, 암호화, 액세스 감사, 데이터의 지리적 현지화.
피크 이벤트: 워밍업 캐시, I/O 제한, 수영장의 p99 대기 시간 제어.
합계
안정적인 스토리지는 올바른 클래스 분할 (파일/블록/객체), 적절한 코딩 방식 (RAID/ZFS/EC), 빠른 네트워크, 캐시/타이, 스냅 샷 + 복제 + 백업, 하드 SLO 및 자동화 된 작업입니다. 이러한 원칙을 따르면 보안 및 규제 고려 사항을 고려하여 예측 가능한 성능, 높은 복원력 및 투명한 저장 경제를 얻을 수 있습니다.