მონაცემთა შენახვის სისტემები და NAS

მოკლე რეზიუმე

საცავი არის მედიის (SSD/NVMe/HDD), ქსელების (Ethernet/IB/FC), პროტოკოლების (NFS/SMB/iSCSI/S3) და პროგრამული უზრუნველყოფის (ZFS, Ceph, neTeTAAAP P P P P EEP P P P P P P., TROURROOOOOOROOOUOUOOOOOOOუზრუნველყოფს პროდუქტიულობას, საიმედოობას, უსაფრთხოებას და ეკონომიკას. სწორი არჩევანი დამოკიდებულია პროფილის I/O (რანგი/თანმიმდევრული, ბლოკი/ფაილი/ობიექტი), მოთხოვნები RPO/RTO და SLO ლატენტობის/გამტარუნარიანობის შესახებ.

შენახვის ტაქსონომია

DAS (პირდაპირი Attached Storage) - დისკები „სერვერის გვერდით“. მინიმალური ლატენტობა, არ არსებობს ქსელის ბოთლის ყელი, მაგრამ რესურსების გაზიარება უფრო რთულია.
SAN (Storage Area Network) - ბლოკის საცავი FC/iSCSI/NVMe-oF. მაღალი პროდუქტიულობა, ზოგადი LUN, ცენტრალიზებული მენეჯმენტი.
NAS (ქსელი Attached Storage) - ფაილური ბურთები NFS/SMB- ზე. მოსახერხებელია ზოგადი დირექტორიებისთვის, ლოგოების, არტეფაქტებისთვის, მედია შინაარსისთვის.
ობიექტის საცავი - S3 თავსებადი API (Ceph RGW/MinIO/ღრუბლები). ზურგჩანთების, ლოგოების, არქივების, მედიის, სამოდელო არტეფაქტებისთვის.
ჰიპერკონვერგენტური გადაწყვეტილებები (HCI) - ჰორიზონტალური მასშტაბით აერთიანებს გამოთვლასა და შენახვას (Ceph, vSAN, StarWind და სხვ.).

წვდომის პროტოკოლები

ფაილური:

NSPSv3/v4 - Unix/Posix გარემო, stateful ბლოკირება, Kerberos/KRB5i/KRB5p.
SMB 3. x - Windows/AD დომენები, დაშიფვრა/ხელმოწერა, multichannel, DFS.

ბლოკი:

iSCSI - Ethernet, LUN, მრავალი ბილიკი (MPIO), მოსახერხებელია ვირტუალიზაციისთვის/BD.
FC/NVMe-oF - დაბალი ლატენტობა, სპეციალიზირებული ქარხნები/ბარათები.

ობიექტები:

S3 API - ობიექტების ვერსიები, lifecycle, WORM/Compliance mode, multipart upload.

არჩევანი:

BD/ვირტუალური ბლოკი (iSCSI/NVMe-oF).
ერთობლივი საქაღალდეები/CI არტეფაქტები - NFS/SMB.
Logs/bacaps/media/მოდელები - S3 თავსებადი ობიექტი.

მონაცემები და კოდირება: RAY, ZFS, Erasure Coding

RAID

RAID1/10 არის დაბალი ლატენტობა და მაღალი IOPS/კითხვის/ჩანაწერის რანგი.
RAID5/6 არის კონტეინერის დაზოგვა, მაგრამ ჩაწერის ჯარიმა (write penalty).
ZFS - ასლის ასლი (CoW), აუზები და vdev, ARC/L2ARC ქეში, ZIL/SLOG სინთეზის ოპერაციებისთვის, სნაიპშოტები/რეპლიკები და ჩაშენებული მთლიანობა (checksums).
Erasure Coding (EC) განაწილებულ სისტემებში (Ceph/MinIO): Ride-Solomon 'k + m' კოდი არის დაზოგვა სამჯერ რეპლიკაციასთან შედარებით, ჩანაწერის შესრულების მისაღები დეგრადაციის დროს.

რეკომენდაციები:

ცხელი შემთხვევითი დატვირთვები (მეტამონაცემები, მცირე ფაილები) - RAID10/ZFS სამყაროები NVMe- ზე.
ცივი/საარქივო EC, დიდი HDD, აგრესიული ქეში.
Sync ჩანაწერებისთვის (NFS export) - გამოყოფილი SLOG საიმედო დაბალი დონის NVMe (PLP).

პროდუქტიულობა: IOPS, გამოტოვება, ლატენტობა

IOPS მნიშვნელოვანია მცირე შემთხვევითი ოპერაციებისთვის (DB/მეტამონაცემები).
გამტარუნარიანობა - დიდი ფაილებისთვის (ვიდეო, ზურგჩანთები).
ლატენტობა p95/p99 - კრიტიკულია BD, რიგები, API ქეში.
რიგები და პარალელიზმი: მულტიპლიკაცია კლიენტზე, 'rsize/wsize' NFS, 'rw, queue _ depth' iSCSI- სთვის.
ქსელი: 25/40/100 GbE (ან IB) + RSS/RPS, jumbo MTU მონაცემთა ცენტრის შიგნით.

კეშირება და ჭამა

ARC/L2ARC (ZFS) - RAM და NVMe კითხვის ქეში; SLOG არის sync ჩანაწერების ჟურნალი.
კონტროლერების Write-back/Write-through ქეში - ფრთხილად, მხოლოდ ბატარეის/სუპერკომპენსატორთან (BBU/PLP).
Tiering: NVMe (ცხელი) - SSD (თბილი) - HDD (ცივი) - ობიექტი (არქივი). მიგრაციისა და ცხოვრების პოლიტიკოსები.

Snaphots, კლონები, რეპლიკაცია, DR

Snaphots (CoW): მყისიერი გამოტოვების/ზურგჩანთების წერტილები; შეინახეთ კატალოგები „შიგნით“ საცავებში და არა მხოლოდ ჰიპერვიზორში.
რეპლიკაცია: სინქრონული (RPO-0, ლატენტობის ზემოთ), ასინქრონული (RPO = N წთ).
კლონები: ეკონომიური dev/test გარემო.
DR სქემები: 3-2-1 (სამი ეგზემპლარი, ორი ტიპის გადამზიდავი, ერთი - საიტის გარეთ), რეგულარული DR სავარჯიშოები; RPO/RTO მიზნები.

უსაფრთხოება, შესაბამისობა და მრავალფეროვნება

ავთენტიფიკაცია/ავტორიზაცია: LDAP/AD, Kerberos/NTLMv2 for SMB, AUTH _ SYS/KRB NSCAMv4.
იზოლაცია: VLAN/VRF, export პოლიტიკა, tenant კვოტები/ítas.
დაშიფვრა: მარტო (LUKS/ZFS native/SED) და ფრენის დროს (NFS-krb5p/SMB encryption/TLS for S3).
WORM/კომპლექსი იურიდიულად მნიშვნელოვანი მონაცემებისთვის (S3 Object Lock, SnapLock ანალოგები).
აუდიტი: დაშვების უცვლელი ლოგოები, ინტეგრაცია SIEM- სთან.

მონიტორინგი და SLO

მეტრიკა:

ტყვიები/ტომები: გამოყენება, 'p95/99 ლატენტობა', IOPS, throughput, queue depth, cache hit, write amplification.
ქსელში: drops, retransmits, PPS, MTU mismatch.
მატარებლების მიხედვით: media errors, wear-level, ტემპერატურა, SMART.
რეპლიკაციის/სნაიპშოტების მიხედვით: ლაგი/ასაკი, დავალებების წარმატება, ხანგრძლივობა.

SLO (მაგალითები):

NFS ბურთი CI- სთვის: p95 ლატენტობა - 3 ms, წვდომა 99. 95%.
LUN BD- სთვის: p99 write 1. 5 ms, სინქრონული რეპლიკა რეგიონში; RPO 0, RTO - 5 წთ
ობიექტი: p95 PUT - 50 ms, p95 GET - 30 ms, 11 × 9 გამძლეობა (ევროკავშირის/რეპლიკაციის საშუალებით).

ალერტა:

აუზის შევსება> 80/90/95%, cache hit- ის ვარდნა, write-amp ზრდა, დისკის დეგრადაცია, ქსელში ჩამოსხმა, რეპლიკაციის ლაგი> ბარიერი.

სარეზერვო და არქივი

სურათები + წაშლილი რეპლიკა + ცალკეული ზურგჩანთა ობიექტში/ფირზე.
Retention პოლიტიკოსები: დღე/ყოველკვირეული/თვე.
Imputablity: S3 Obernance Lock (მთავრობა/კომპლექსი), „air-gap“ (ფირზე/გამორთული ანგარიშები).
აღდგენის ტესტები რეგულარულია.

პრაქტიკული შაბლონები (მინიმალური)

NFS ექსპორტი (მაგალითი)


/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)

SMB share (smb ფრაგმენტი). conf)


[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required

ZFS: აუზისა და მონაცემთა ბაზის შექმნა

bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects     # большие файлы zfs set recordsize=16K tank/db        # БД/мелкие I/O

iSCSI (იდეები)

ჩართეთ ALUA/MPIO, სწორი ტაიმაუტები და queue depth კლიენტებზე.
დაარბიეთ iSCSI ქსელები და მომხმარებელთა ტრაფიკი, გამოიყენეთ Jumbo MTU Storaj ქარხნის შიგნით.

ტევადობის და შესრულების დაგეგმვა

სამუშაო ნაკრები (ცხელი მოცულობა) და პირველი ზრდა (ყოველთვიური ზრდა).
რეზერვი IOPS- ისთვის და გამტარუნარიანობა 30-50% მწვერვალებისა და რელსებისთვის.
გაითვალისწინეთ write amplification (RAIR/EC/CoW) და მეტამონაცემები.
ობიექტისთვის - მოთხოვნის ღირებულება და გამავალი ტრაფიკი, შენახვის კლასები (სტანდარტული/IA/glacier მსგავსი).

ოპერაციები და განახლებები

კონტროლერების/OS/firmwares განახლებები.
Scrubs/Resilver ფანჯრები და პრიორიტეტები.
რბოლების დაბალანსება: შეზღუდვა I/O აღდგენის დროს, ისე რომ არ „მოკვლა“ პროდ.
Runbooks კვანძების/ქსელების დეგრადაციაზე/დაკარგვაზე.

ჩეკის განხორციელების სია

შეირჩა წვდომის პროფილი: ფაილი/ბლოკი/ობიექტი + RPO/RTO/SLO.
კოდირების სქემა (RIA/ZFS/EC) დატვირთვისა და ფასისთვის.
ქსელები: ცალკეული VLAN/VRF, MTU 9000 ქარხნის შიგნით, MPIO/ALUA.
კეში/გამანადგურებელი: ARC/L2ARC/SLOG ან მსგავსი მექანიზმები.
Snapshots/რეპლიკა/becap: გრაფიკები, იმუნიტეტი, DR სწავლებები.
მონიტორინგი: აუზები/მატარებლები/ქსელის/რეპლიკაციის მეტრიკა, ალერტები.
წვდომა/უსაფრთხოება: ACL, Kerberos/AD, დაშიფვრა, აუდიტი.
კვოტები/ლიმიტები ტენანტებისა და დირექტორიების SLA/SLO.
დოკუმენტაცია და runbooks, ტესტის აღდგენა.

ტიპიური შეცდომები

აუზის გადინება> 80% ZFS/EC სისტემებში - ლატენტობის მკვეთრი ზრდა.
ერთი კონტროლერი/ერთი ქსელი MPIO/სარეზერვო გარეშე.
ცხელი და ცივი სამუშაო ნაკრები შერეულია ერთ გადამზიდავ კლასში.
არ არსებობს SLOG sync დატვირთვისთვის NFS - არაპროგნოზირებადი შეფერხებები.
Bacaps მხოლოდ იგივე მასივის/ანგარიშის „შიგნით“ არის უბედური შემთხვევის/კომპრომისის დაკარგვა.
რეგულარული სკრუბების არარსებობა და SMART მონიტორინგი.
მცირე I/O შაბლონების უგულებელყოფა: დიდი „ჩანაწერები“ BD- სთვის.

სპეციფიკა iGaming/fintech

გარიგების დიაპაზონი და საფულეები: ინდივიდუალური NVMe აუზები, RAID10/ZFS mirors, სინქრონული რეპლიკა B ზონაში, დამოუკიდებელი დალევა.
ლოგოები/ნედლეული მოვლენები და ანტიფროდიული ფიჩები: ობიექტი + lifecycle + იაფი კლასები, ინდექსები/ფანჯრები - SSD- ზე.
შინაარსი და მედია (პროვაიდერები): NAS + CDN, აგრესიული ქეში, დედუპლიკაცია.
ანგარიშები და PII: WORM/immutability, დაშიფვრა, წვდომის აუდიტი, მონაცემების გეო-ლოკალიზაცია.
პიკის მოვლენები: warm-up ქეში, შეყვანის/გამოსვლის ლიმიტები, ტყვიებზე p99 ლატენტობის კონტროლი.

შედეგი

საიმედო შენახვის სისტემა არის სწორი დაყოფა კლასებში (ფაილი/ბლოკი/ობიექტი), ადეკვატური კოდირების სქემა (RAIA/ZFS/EC), სწრაფი ქსელი, ქეში/განტვირთვის, სნაიპშოტების + რეპლიკა + ზურგჩანთა, მძიმე SLO და ავტომატური ოპერაციები. ამ პრინციპების გათვალისწინებით, თქვენ მიიღებთ პროგნოზირებულ პროდუქტიულობას, მაღალი სტაბილურობისა და გამჭვირვალე შენახვის ეკონომიკას - უსაფრთხოების მოთხოვნებისა და რეგულატორების გათვალისწინებით.