ストレージとNAS
概要
ストレージは、パフォーマンス、信頼性、セキュリティ、経済性を提供するメディア(SSD/NVMe/HDD)、ネットワーク(イーサネット/IB/FC)、プロトコル(NFS/SMB/iSCSI/S3)およびソフトウェア(ZFS、 Ceph、 NetApp、 TrueNASなど)の組み合わせです。正しい選択は、I/Oプロファイル(ランダム/シーケンシャル、ブロック/ファイル/オブジェクト)、RPO/RTO、 SLOレイテンシー/スループット要件に依存します。
ストレージタクソノミ
DAS (Direct Attached Storage)-サーバの近くにあるディスク。"最小限のレイテンシ、ネットワークボトルネックはありませんが、リソースを共有するのは困難です。
SAN(ストレージ・エリア・ネットワーク):FC/iSCSI/NVMe-oF経由でストレージをブロックします。ハイパフォーマンス、共有LUN、集中管理。
NAS (Network Attached Storage)-NFS/SMB上のファイルボール。共有ディレクトリ、ログ、アーティファクト、メディアコンテンツに便利です。
オブジェクトストレージ-S3-compatible API (Ceph RGW/MinIO/cloud)。バックアップ、ログ、アーカイブ、メディア、モデルアーティファクトの場合。
ハイパーコンバージドソリューション(HCI)-水平スケールの計算とストレージ(Ceph、 vSAN、 StarWindなど)を組み合わせます。
アクセスプロトコル
ファイル:- NFSv3/v4-Unix/Posix環境、statefullロック、Kerberos/KRB5i/KRB5p。
- SMB 3。x-Windows/ADドメイン、暗号化/署名、マルチチャンネル、DFS。
- iSCSI-イーサネット、LUN、多数のパス(MPIO)を介して、仮想化/データベースに便利です。
- FC/NVMe-oF-低遅延、特殊工場/マップ。
- S3 API-オブジェクトバージョン、ライフサイクル、WORM/コンプライアンスモード、マルチパートアップロード。
- DB/仮想マシン→ブロック(iSCSI/NVMe-oF)
- 共有フォルダ/CIアーティファクト→NFS/SMB。
- ログ/バックアップ/メディア/モデル→S3-compatibleオブジェクト。
データとコーディング: RAID、 ZFS、消去コーディング
RAID
RAID1/10-低遅延と高いIOPS/ランダム読み取り/書き込み。
RAID5/6-容量の節約が、ペナルティを書く。
ZFS-コピー・ツー・ライト(CoW)、プールおよびvdev、 ARC/L2ARC・キャッシュ、同期操作用のZIL/SLOG、スナップショット/レプリカ、組み込み整合性(チェックサム)。
Distributed Systems (Ceph/MinIO)における消去コーディング(EC): Reed-Solomonコード'k+m'-許容される書き込みパフォーマンスの低下により、3倍以上のレプリケーションを削減できます。
- Hot random loads(メタデータ、小さなファイル)→NVMe上のRAID10/ZFSミラー。
- ECコールド/アーカイブ→、大規模なHDD、攻撃的なキャッシュ。
- 同期レコード(NFSエクスポート)-信頼性の高い低特許NVMe (PLP)上の専用SLOG。
パフォーマンス: IOPS、スループット、レイテンシ
IOPSは、小さなランダム操作(DB/メタデータ)にとって重要です。
帯域幅-大きなファイル(ビデオ、バックアップ)の場合。
レイテンシp95/p99-データベース、キュー、キャッシュAPIに重要。
キューと並行性: クライアントでのマルチスレッド、NFSでは'rsize/wsize'、 iSCSIでは'rw、 queue_depth'
ネットワーク:25/40/100 GbE(またはIB)+RSS/RPS、データセンター内のジャンボMTU。
キャッシュとチェック
ARC/L2ARC (ZFS)-RAMおよびNVMeリードキャッシュ;SLOG-同期レコードの履歴。
ライトバック/ライトスルーコントローラキャッシュ-注意深く、バッテリー/スーパーキャパシタのみ(BBU/PLP)。
階層化:NVMe (hot)→SSD (warm)→HDD (cold)→object (archive)。移行ポリシーとライフサイクル。
スナップショット、クローン、レプリケーション、DR
スナップショット(CoW):ロールバック/バックアップのインスタントポイント。ハイパーバイザだけでなく、ストレージの「内部」ディレクトリを格納します。
レプリケーション:同期(RPO≈0、レイテンシ以上)、非同期(RPO=N分)。
クローン:経済的な開発/テスト環境。
DRスキーム:3-2-1(3つのコピー、2種類のキャリア、1つのオフサイト)、定期的なDR演習;RPO/RTOの目的。
安全性、コンプライアンス、マルチテナンシー
認証/承認:LDAP/AD、 SMB用Kerberos/NTLMv2、 NFSv4用AUTH_SYS/KRB。
分離:VLAN/VRFの輸出方針、テナント・クォータ/クォータ。
暗号化:安静時(LUKS/ZFS native/SED)および飛行中(S3のNFS-krb5p/SMB暗号化/TLS)。
法的に重要なデータ(S3オブジェクトロック、SnapLockアナログ)のWORM/コンプライアンス。
監査:不変アクセスログ、SIEMとの統合。
モニタリングとSLO
メトリクス:- プール/ボリューム別:使用率、'p95/p99レイテンシー'、IOPS、スループット、キューの深さ、キャッシュのヒット、書き込み増幅。
- ネットワークを介して:ドロップ、再送信、PPS、 MTUの不一致。
- メディアによって:メディアエラー、摩耗レベル、温度、スマート。
- replication/snapshots: lag/age、 task success、 duration。
- CI用のNFSボール:p95レイテンシ≤ 3ミリ秒、可用性≥ 99。95%.
- データベースLUN: p99 write ≤ 1。5msの地域内の同期レプリカ;RPO 0、 RTO ≤ 5分。
- オブジェクト:p95 PUT ≤ 50ミリ秒、p95 GET ≤ 30ミリ秒、11 × 9耐久性(EU/レプリケーション経由)。
- プール充填>80/90/95%、キャッシュヒットドロップ、書き込みアンプの増加、ディスクの劣化、ネットワークのドローダウン、レプリケーションログ>しきい値。
バックアップとアーカイブ
スナップショット+リモートレプリカ+オブジェクト/テープへの個別のバックアップ。
保持ポリシー:曜日/週/月。
不変性:S3オブジェクトロック(ガバナンス/コンプライアンス)、「エアギャップ」(フィード/無効アカウント)。
回復テスト-定期的に。
実用的なテンプレート(最小限)
NFSのエクスポート(例)
/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)
SMBシェア(smbフラグメント。conf)
[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required
ZFS: プールとデータセットの作成
bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects # большие файлы zfs set recordsize=16K tank/db # БД/мелкие I/O
iSCSI(アイデア)
クライアントでALUA/MPIO、正しいタイムアウト、およびキューの深さを有効にします。
iSCSIネットワークとクライアントトラフィックを広げ、100ヤードの工場内でジャンボMTUを使用します。
容量とパフォーマンス計画
働くセットおよび成長率。
IOPSのマージンと、ピークとリバランスの30〜50%のスループット。
書き込み増幅(RAID/EC/CoW)とメタデータを考慮してください。
オブジェクトの場合-要求と発信トラフィックのコスト、ストレージクラス(標準/IA/氷河のような)。
運用と更新
コントローラ/OS/ファームウェアのローリングアップデート。
スクラブ/レジルバーウィンドウと優先順位。
リバイルドバランシング:プロッドを「キル」しないように、リカバリ時のI/Oを制限します。
ノード/ネットワークの劣化/損失に関するランブック。
実装チェックリスト
- ファイル/ブロック/オブジェクト+RPO/RTO/SLOアクセスプロファイルが選択されています。
- ロードと価格コーディングスキーム(RAID/ZFS/EC)。
- ネットワーク:個々のVLAN/VRF、 intra-fabric MTU 9000、 MPIO/ALUA。
- キャッシュ/チェック:ARC/L2ARC/SLOGまたは類似のメカニズム。
- スナップショット/レプリカ/バックアップ:スケジュール、不変性、DR演習。
- 監視:プール/メディア/ネットワーク/レプリケーションのメトリック、アラート。
- アクセス/セキュリティ:ACL、 Kerberos/AD、暗号化、監査。
- テナントおよびSLA/SLOディレクトリのクォータ/制限。
- ドキュメントとランブック、テストの回復。
よくあるエラー
プールのオーバーフローはZFS/ECシステムで80%以上→レイテンシの急激な増加。
MPIO/保護のない1つのコントローラー/1ネットワーク。
熱く、冷たい働くセットはキャリアの1つのクラスで混合されます。
NFS同期負荷→予測不可能なレイテンシに対するSLOGはありません。
バックアップは、同じ配列/アカウント→事故/妥協の場合の損失のみを「内部」にバックアップします。
定期的なスクラブとスマートモニタリングの欠如。
小さいI/Oパターンを無視する:DBの大きな'調整サイズ'。
iGaming/fintech固有の
トランザクションデータベースとウォレット:個々のNVMeプール、RAID10/ZFSミラー、ゾーンBへの同期レプリカ、独立したシール。
ログ/rawイベントと不正防止機能:オブジェクト+ライフサイクル+安価なクラス、インデックス/ショーケース-SSD。
コンテンツとメディア(プロバイダ):NAS+CDN、積極的なキャッシュ、重複排除。
レポートとPII: WORM/不変性、暗号化、アクセス監査、データのジオローカライズ。
ピークイベント:ウォームアップキャッシュ、I/O制限、プールのp99レイテンシー制御。
合計
信頼できるストレージは、正しいクラスのパーティショニング(ファイル/ブロック/オブジェクト)、適切なコーディングスキーム(RAID/ZFS/EC)、高速ネットワーク、キャッシュ/結び付け、スナップショット+レプリカ+バックアップ、ハードSLO、自動化された操作です。これらの原則に従うことで、予測可能なパフォーマンス、高い回復力、透明性のあるストレージ・エコノミーが得られます。セキュリティと規制に関する考慮事項があります。