Massenspeicher und NAS

Kurze Zusammenfassung

Storage ist eine Kombination aus Medien (SSD/NVMe/HDD), Netzwerken (Ethernet/IB/FC), Protokollen (NFS/SMB/iSCSI/S3) und Software (ZFS, Ceph, NetApp, TrueNAS usw.), die Leistung, Zuverlässigkeit, Sicherheit und Wirtschaftlichkeit bietet. Die richtige Auswahl hängt vom I/O-Profil (Rand/sequentiell, Block/Datei/Objekt), den Anforderungen an RPO/RTO und SLO nach Latenz/Durchsatz ab.

Speicher-Taxonomie

DAS (Direct Attached Storage) - Laufwerke „in der Nähe des Servers“. Minimale Latenz, keine vernetzten Engpässe, aber es ist schwieriger, Ressourcen zu teilen.
SAN (Storage Area Network) - Blockspeicher über FC/iSCSI/NVMe-oF. Hohe Leistung, gemeinsame LUNs, zentrale Verwaltung.
NAS (Network Attached Storage) - Dateibälle über NFS/SMB. Praktisch für freigegebene Verzeichnisse, Protokolle, Artefakte, Medieninhalte.
Objektspeicher - S3-kompatible APIs (Ceph RGW/MinIO/Clouds). Für Backups, Logs, Archive, Medien, Modellartefakte.
Hyperkonvergente Lösungen (HCI) - Kombinieren Sie Berechnung und Speicherung (Ceph, vSAN, StarWind usw.) für eine horizontale Skalierung.

Zugriffsprotokolle

Datei:

NFSv3/v4 - Unix/Posix-Umgebung, steitful-sperren, Kerberos/KRB5i/KRB5p.
SMB 3. x - Windows/AD-Domänen, Verschlüsselung/Signaturen, Multichannel, DFS.

Blockweise:

iSCSI - über Ethernet, LUN, viele Pfade (MPIO), praktisch für Virtualisierung/DB.
FC/NVMe-oF - niedrige Latenz, spezialisierte Fabriken/Karten.

Objekt:

S3 API - Objektversionen, Lifecycle, WORM/Compliance Mode, multipart Upload.

Auswahl:

DB/Virtualki → Block (iSCSI/NVMe-oF).
Gemeinsame Ordner/CI-Artefakte → NFS/SMB.
Protokolle/Backups/Medien/Modelle → S3-kompatibles Objekt.

Daten und Codierung: RAID, ZFS, Erasure Coding

RAID

RAID1/10 - niedrige Latenz und hohe IOPS/random-read/write.
RAID5/6 - die Einsparung der Kapazität, aber die Strafe auf die Aufzeichnung (write penalty).
ZFS - Copy-on-Write (CoW), Pools und vdev, ARC/L2ARC Cache, ZIL/SLOG für Sync-Operationen, Snapshots/Replikate und integrierte Integrität (checksums).
Erasure Coding (EC) in Distributed Systems (Ceph/MinIO): Reed-Solomon-Code'k + m'- Einsparungen im Vergleich zur dreifachen Replikation bei akzeptabler Leistungsminderung pro Datensatz.

Empfehlungen:

Hot Random Loads (Metadaten, kleine Dateien) → RAID10/ZFS-Mirroras auf NVMe.
Kalte/archivierte EC- →, große HDDs, aggressive Caches.
Für Sync-Recordings (NFS-Export) - dediziertes SLOG auf vertrauenswürdigen, patentarmen NVMe (PLP).

Leistung: IOPS, Bandbreite, Latenz

IOPS sind wichtig für kleine Zufallsoperationen (DB/Metadaten).
Bandbreite - für große Dateien (Videos, Backups).
p95/p99 Latenz - kritisch für DB, Warteschlangen, Cache-API.
Warteschlangen und Parallelität: Multithreading auf dem Client, 'rsize/wsize' für NFS, 'rw, queue _ depth' für iSCSI.
Netzwerk: 25/40/100 GbE (oder IB) + RSS/RPS, MTU-Jumbo innerhalb des Rechenzentrums.

Zwischenspeichern und Ticken

ARC/L2ARC (ZFS) - RAM und NVMe-Lesecache; SLOG ist ein Sync Record Log.
Write-back/Write-through Controller Caches - Vorsicht, nur mit Batterie/Superkondensator (BBU/PLP).
Tiering: NVMe (heiß) → SSD (warm) → HDD (kalt) → Objekt (Archiv). Migrations- und Lifecycle-Richtlinien.

Snapshots, Clones, Replikation, DR

Snapshots (CoW): Sofortpunkte für Rollback/Backup; Speichern von Verzeichnissen „innerhalb“ des Speichers, nicht nur im Hypervisor.
Replikation: synchron (RPO≈0, höhere Latenz), asynchron (RPO = N min).
Klone: wirtschaftliche dev/test Umgebung.
DR-Schemata: 3-2-1 (drei Kopien, zwei Arten von Medien, eine außerhalb des Geländes), regelmäßige DR-Übungen; Ziele des RPO/RTO.

Sicherheit, Compliance und Multiargument

Authentifizierung/Autorisierung: LDAP/AD, Kerberos/NTLMv2 für SMB, AUTH_SYS/KRB für NFSv4.
Isolation: VLAN/VRF, Exportrichtlinien, Tenant-Quoten/Quotas.
Verschlüsselung: im Ruhezustand (LUKS/ZFS native/SED) und im Flug (NFS-krb5p/SMB encryption/TLS für S3).
WORM/Compliance für rechtlich relevante Daten (S3 Object Lock, SnapLock-Analoga).
Audit: unveränderliche Zugriffsprotokolle, Integration mit SIEM.

Überwachung und SLO

Metriken:

Nach Pools/Volumes: Verwendung, 'p95/p99 latency', IOPS, throughput, queue depth, cache hit, write amplification.
Im Netz: drops, retransmits, PPS, MTU mismatch.
Nach Medien: Medienerfolge, Wear-Level, Temperatur, SMART.
Nach Replikation/Snapshots: Lag/Alter, Erfolg der Aufgaben, Dauer.

SLO (Beispiele):

NFS Ball für CI: p95 Latenz ≤ 3 ms, Verfügbarkeit ≥ 99. 95%.
LUN für DB: p99 write ≤ 1. 5 ms, synchrone Replikation innerhalb der Region; RPO 0, RTO ≤ 5 Min.
Objekt: p95 PUT ≤ 50 ms, p95 GET ≤ 30 ms, 11 × 9 Haltbarkeit (über EU/Replikation).

Alerts:

Pool-Füllung> 80/90/95%, Cache-Hit-Drop, Write-Amp-Wachstum, Festplattendegradation, Netzwerk-Drawdown, Replikations-Lag> Schwellenwert.

Sicherung und Archivierung

Snapshots + Remote-Replikat + separates Backup im Objekt/Band.
Retention-Richtlinien: Tag/Woche/Monat.
Immutability: S3 Object Lock (Governance/Compliance), „air-gap“ (Feed/deaktivierte Accounts).
Recovery-Tests - regelmäßig.

Praktische Vorlagen (minimal)

NFS-Export (Beispiel)


/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)

SMB-Freigabe (SMB-Fragment. conf)


[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required

ZFS: Pool und Dataset erstellen

bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects     # большие файлы zfs set recordsize=16K tank/db        # БД/мелкие I/O

iSCSI (Ideen)

ALUA/MPIO, korrekte Timeouts und Queue Depth auf Clients aktivieren.
Verteilen Sie iSCSI-Netzwerke und Client-Datenverkehr und nutzen Sie Jumbo MTU in der Storaj-Fabrik.

Kapazitäts- und Leistungsplanung

Modell des Arbeitssatzes (heißes Volumen) und der Wachstumsrate (monatlicher Anstieg).
IOPS-Marge und 30-50% Durchsatz für Peaks und Rebalance.
Berücksichtigen Sie Write Amplification (RAID/EC/CoW) und Metadaten.
Für das Objekt - die Kosten für Anfragen und ausgehenden Datenverkehr, Speicherklassen (Standard/IA/glacier-like).

Vorgänge und Aktualisierungen

Rolling-Updates für Controller/OS/Firmware.
Scrubs/Resilver Fenster und Prioritäten.
Rebild Balancing: Einschränkung von I/O bei der Wiederherstellung, um Prod nicht zu „töten“.
Runbooks auf Abbau/Verlust von Knoten/Netzwerken.

Checkliste für die Implementierung

Das Zugriffsprofil ist ausgewählt: Datei/Block/Objekt + RPO/RTO/SLO.
Codierungsschema (RAID/ZFS/EC) für Last und Preis.
Netzwerke: separate VLANs/VRFs, MTU 9000 innerhalb der Fabrik, MPIO/ALUA.
Cache/Tipping: ARC/L2ARC/SLOG oder ähnliche Mechanismen.
Schnappschüsse/Replik/Backup: Zeitpläne, Immutabilität, DR-Übungen.
das Monitoring: puly/nossiteli/setewyje/replikazionnyje die Metriken, alerty.
Zugang/Sicherheit: ACL, Kerberos/AD, Verschlüsselung, Audit.
Quoten/Limits für Tenanten und SLA/SLO Kataloge.
Dokumentation und Runbooks, Testwiederherstellung.

Typische Fehler

Ein Pool-Overflow> 80% in ZFS/EC-Systemen → einen starken Anstieg der Latenz.
Ein Controller/ein Netzwerk ohne MPIO/Redundanz.
Mischen Sie heiße und kalte Arbeitssets in einer Klasse von Medien.
Kein SLOG für Sync-Lasten auf NFS → unvorhersehbare Verzögerungen.
Backups nur „innerhalb“ des gleichen Arrays/Kontos → Verlust bei Unfall/Kompromittierung.
Kein regelmäßiges Scrub- und SMART-Monitoring.
Kleine I/O-Muster ignorieren: großes' recordsize' für DB.

Spezifität für iGaming/Fintech

Transaktionale DBs und Wallets: separate NVMe-Pools, RAID10/ZFS-Mirroras, synchrone Replikation in Zone B, unabhängige Backups.
Logs/rohe Ereignisse und Anti-Fraud-Funktionen: Objekt + Lifecycle + billige Klassen, Indizes/Vitrinen - auf SSD.
Inhalte und Medien (Anbieter): NAS + CDN, aggressiver Cache, Deduplizierung.
Reporting und PII: WORM/immutability, Verschlüsselung, Access Audit, Geo-Lokalisierung von Daten.
Peak Events: Warm-Up Caches, I/O Limits, p99 Latency Control auf Pools.

Summe

Ein zuverlässiges Speichersystem ist die korrekte Aufteilung in Klassen (Datei/Block/Objekt), ein angemessenes Codierungsschema (RAID/ZFS/EC), schnelles Netzwerk, Cache/Tint, Snapshots + Replica + Backup, starre SLOs und automatisierte Vorgänge. Wenn Sie diese Prinzipien befolgen, erhalten Sie eine vorhersehbare Leistung, hohe Nachhaltigkeit und eine transparente Speicherwirtschaft - unter Berücksichtigung der Sicherheits- und Regulierungsanforderungen.