Storage e NAS
Breve riepilogo
Lo storage è una combinazione di media (SSD/NVMe/HDD), reti (Ethernet/IB/FC), protocolli (NFS/SMB/iSCSI/S3) e software (ZFS, Ceph, NetApp, TrueNAS, ecc.) che garantisce prestazioni, affidabilità, sicurezza ed economia. La scelta corretta dipende dal profilo I/O (rand/seriale, blocco/file/oggetto), dai requisiti RPO/RTO e SLO per la latenza/larghezza di banda.
Tassonomia dello storage
DAS - Unità vicino al server. Un minimo di latitanza, niente gole di bottiglia in rete, ma più difficile da condividere.
SAN (Storage Area Network) - Storage per blocchi. Prestazioni elevate, LUN condivisi, gestione centralizzata.
NAS (Network Attrached Storage) - Sfere NFS/SMB. Comodo per le direttrici generali, i reparti, gli artefatti, i media.
Archivio oggetti - API compatibili S3 (Ceph RGW/MinIO/cloud). Per Becap, Cassetti, Archivi, Media, Manufatti Modellistici.
Soluzioni HCI (HCI) - Unisce calcolo e storage (Ceph, vSAN, StarWind, ecc.) per la scala orizzontale.
Protocolli di accesso
File:- NAVAv3/v4 - Ambiente Unix/Posix, blocchi di statful, Kerberos/KRB5i/KRB5p.
- SMB 3. x - Windows/domini AD, crittografia/firma, multichannel, DFS.
- iSCSI - sopra Ethernet, LUN, molti percorsi (MPIO), facile da virtualizzare/database.
- FC/NVMe-oF - bassa latitanza, fabbriche/mappe specializzate.
- API S3 - versioni di oggetti, lifecycle, WORM/Compliance mode, multiplart upload.
- Database/virtuali → (iSCSI/NVMe-oF).
- Cartelle condivise/CI artefatti NFS/SMB.
- Logi/Becap/Media/Modelli di oggetto compatibile S3.
Dati e codifica: RAID, ZFS, Erasure Coding
RAID
RAID1/10 - Bassa latitanza e alta IOPS/rand-lettura/scrittura.
RAID5/6 - risparmio di capacità, ma multa di scrittura (write penalty).
ZFS - copia-in-scrittura (CoW), pool e vdev, ARC/L2ARC cache, ZIL/SLOG per le operazioni sync, snap/replica e integrità integrata (checksums).
Erasure Coding (CE) nei sistemi distribuiti (Ceph/MinIO): il codice Reed-Solomon «k + m» è un risparmio rispetto alla replica triplicata in caso di peggioramento delle prestazioni di scrittura accettabile.
- Carichi casuali caldi (metadati, piccoli file) → RAID10/ZFS mirror su NVMe.
- → EC freddo/archivio, HDD di grandi dimensioni, cache aggressiva.
- Per i record sync (NFS export) - SLOG dedicato su NVMe (PLP) affidabili.
Prestazioni: IOPS, larghezza di banda, latitanza
Gli IOPS sono importanti per le piccole operazioni casuali (DB/metadati).
Larghezza di banda per file di grandi dimensioni (video, bacap).
La latenza p95/p99 è critica per database, code, API della cache.
Code e parallelismo: multitasking sul client, «rsize/wsize» su NFS, «rw, queue _ depth» su iSCSI.
Rete: 25/40/100 GbE (o IB) + RSS/RPS, jumbo MTU all'interno del centro.
Cache e taglia
ARC/L2ARC (ZFS) - RAM e cache NVMe SLOG è il registro dei record sync.
Write-back/Write-through cache controller - Attenzione, solo con batteria/supercondensore (BBU/PLP).
Tiering: NVMe (caldo) SSD (caldo) HDD (freddo) oggetto (archivio). Criteri di migrazione e lifecycle.
Snapshot, cloni, replica, DR
Snapshot (CoW): punti istantanei per il rientro/backup; memorizzare le cartelle «all'interno» dell'archivio, non solo nell'ipervisor.
Replica sincrona (RPO≈0, latency superiore), asincrona (RPO = N min).
Cloni: un ambiente a basso costo.
Diagrammi DR: 3-2-1 (tre copie, due tipi di supporti, uno fuori sede), esercitazioni DR regolari; obiettivi RPO/RTO.
Sicurezza, compliance e multiaridabilità
Autenticazione/autorizzazione: LDAP/AD, Kerberos/NTLMv2 per SMB, AUTH _ SYS/KRB per NAVAv4.
Isolamento: VLAN/VRF, policy export, quote tenant/quote.
Crittografia a riposo (LUKS/ZFS native/SED) e in volo (NFS-krb5p/SMB encryption/TLS per S3).
WORM/Compliance per dati legalmente rilevanti (S3 Object Lock, analoghi).
Controllo: loghi di accesso invariati, integrazione con SIEM.
Monitoraggio e SLO
Metriche:- Per pool/volume: utilizzo, 'p95/p99 latency', IOPS, throughput, queue depth, cache hit, write amplificazione.
- In rete: drops, retransmits, PPS, MTU mismatch.
- Media errors, wear-level, temperatura, SMART.
- Replica/snapshot: lifestyle/età, successo delle attività, durata.
- Sfera NFS per CI: p95 latency 3 ms, disponibilità 99. 95%.
- LUN per database: p99 write ≤ 1. 5 ms, replica sincrona all'interno della regione RPO 0, RTO 5 minuti
- Oggetto: p95 PUT da 50 ms, p95 GET da 30 ms, 11 x 9 durata (tramite l'UE/replica).
- Riempimento del pool> 80/90/95%, calo della cache hit, crescita del write-amp, degrado del disco, interruzione della rete, blend di replica> soglia.
Backup e archiviazione
Snapshot + replica remota + cassetto separato nell'oggetto/nastro.
Regole di ritenzione: diurni/settimanali/mensili.
Immutabilità: S3 Object Lock (Governance/Compliance), air-gap (nastro/account disattivati).
I test di recupero sono regolari.
Modelli pratici (minimi)
Esporta NFS (esempio)
/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)
SMB share (sezione smb. conf)
[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required
ZFS - Crea pool e dataset
bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects # большие файлы zfs set recordsize=16K tank/db # БД/мелкие I/O
iSCSI (idee)
Abilita ALUA/MPIO, timeout corretto e queue depth sui clienti.
Spargere le reti di iSCSI e il traffico dei clienti, attivare Jumbo MTU all'interno della fabbrica di stoccaggio.
Pianificazione della capacità e delle prestazioni
Modello di working set (volume caldo) e growth rate (incremento mensile).
Riserva per IOPS e larghezza di banda del 30-50% per picchi e ricalance.
Tenere conto di write amplificazione (RAID/EC/CoW) e metadati.
Per l'oggetto: costo delle richieste e del traffico in uscita, classi di storage (standard/IA/glacier-simili).
Operazioni e aggiornamenti
Aggiornamenti rolling dei controller/sistema operativo/firmware.
Scrubs/Resilver finestre e priorità.
Bilanciamento Rebyld: vincolo I/O durante il ripristino per non «uccidere» il prato.
Runbooks sul degrado/perdita di nodi/reti.
Assegno foglio di implementazione
- Il profilo di accesso selezionato è il file/blocco/oggetto + RPO/RTO/SLO.
- Schema di codifica (RAID/ZFS/CE) sotto carico e prezzo.
- Reti: VLAN/VRF separati, MTU 9000 all'interno della fabbrica, MPIO/ALUA.
- Cache/contratto: ARC/L2ARC/SLOG o meccanismi simili.
- Snapshot/replica/backap: pianificazione, immutabilità, esercitazioni DR.
- Monitoraggio: pool/supporti/metriche di rete/replica, alert.
- Accesso/protezione: ACL, Kerberos/AD, crittografia, controllo.
- Quote/limiti per i tenenti e cartelle SLA/SLO.
- Documentazione e runbooks, test di ripristino.
Errori tipici
Il sovraccarico del pool> 80% nei sistemi ZFS/CE ha determinato un forte aumento della latitanza.
Un controller/una rete senza MPIO/ridondanza.
Mescolano set di lavoro caldi e freddi in una classe di supporti.
Nessun SLOG per i carichi sync su NFS per ritardi imprevedibili.
I Becap sono solo «all'interno» della stessa matrice/account per la perdita in caso di incidente/compromissione.
Nessun monitoraggio regolare e SMART.
Ignora piccoli pattern I/O: grande «recordsize» per il database.
Specifico per iGaming/Fintech
Database e portafogli transazionali: singoli pool NVME, RAID10/ZFS-mirror, replica sincrona alla zona B, pile indipendente.
Loghi/eventi crudi e antifrode-fici: oggetto + lifecycle + classi economiche, indici/vetrine su SSD.
Contenuti e media (provider): NAS + CDN, cache aggressiva, deduplicazione.
Report e PII: WORM/immutabilità, crittografia, controllo dell'accesso, geo-localizzazione dei dati.
Eventi di punta: cache warm-up, limiti di IOP, controllo p99 latency nei pool.
Totale
Un sistema di storage affidabile è una corretta suddivisione in classi (file/blocco/oggetto), un adeguato diagramma di codifica (RAID/ZFS/CE), una rete veloce, cache/allineamento, snap + replica + backup, SLO rigidi e operazioni automatizzate. In base a questi principi, otterrete prestazioni prevedibili, elevata sostenibilità e un'economia di storage trasparente, tenendo conto dei requisiti di sicurezza e regolatori.