ذخیره سازی و NAS

خلاصه ای کوتاه

ذخیره سازی ترکیبی از رسانه ها (SSD/NVMe/HDD)، شبکه ها (اترنت/IB/FC)، پروتکل ها (NFS/SMB/iSCSI/S3) و نرم افزار (ZFS، Ceph، NetApp، TrueNAS و غیره) است که عملکرد، قابلیت اطمینان، امنیت و اقتصاد را فراهم می کند. انتخاب صحیح بستگی به مشخصات I/O (تصادفی/متوالی، بلوک/فایل/شی)، RPO/RTO و الزامات تاخیر/توان SLO دارد.

طبقه بندی ذخیره سازی

DAS (Direct Attached Storage) - دیسک های نزدیک سرور. تاخیر حداقل، بدون تنگنای شبکه، اما سخت تر برای به اشتراک گذاشتن منابع.
SAN (Storage Area Network) - ذخیره سازی بلوک از طریق FC/iSCSI/NVMe-oF. عملکرد بالا، LUN های مشترک، مدیریت متمرکز.
NAS (Network Attached Storage) - توپ های فایل بر روی NFS/SMB. مناسب برای دایرکتوری های مشترک، سیاهههای مربوط، مصنوعات، محتوای رسانه ها.
ذخیره سازی شی - API های S3-compatible (Ceph RGW/MinIO/ابرها). برای پشتیبان گیری، سیاهههای مربوط، آرشیو، رسانه ها، مصنوعات مدل.
راه حل های Hyperconverged (HCI) - ترکیب محاسبات و ذخیره سازی (Ceph، vSAN، StarWind، و غیره) برای مقیاس افقی.

پروتکل های دسترسی

پرونده:

NFSv3/v4 - محیط یونیکس/Posix، قفل های حالت، Kerberos/KRB5i/KRB5p.
SMB 3 x - دامنه های ویندوز/AD، رمزگذاری/امضا، چند کاناله، DFS.

مسدود کردن:

iSCSI - بیش از اترنت، LUN، بسیاری از مسیرها (MPIO)، مناسب برای مجازی سازی/پایگاه داده.
FC/NVMe-oF - تاخیر کم، کارخانه های تخصصی/نقشه ها.

شیء:

S3 API - نسخه های شی، چرخه عمر، حالت WORM/Compliance، آپلود چند بخشی.

انتخاب:

DB/ماشین های مجازی → بلوک (iSCSI/NVMe-oF).
پوشه های به اشتراک گذاشته شده/مصنوعات CI → NFS/SMB.
Logs/backups/media/models → شیء S3-compatible.

داده ها و برنامه نویسی: RAID، ZFS، برنامه نویسی پاک کردن

حمله

RAID1/10 - تاخیر کم و IOPS بالا/تصادفی خواندن/نوشتن.
RAID5/6 - صرفه جویی در ظرفیت، اما مجازات را بنویسید.
ZFS - کپی برای نوشتن (COW)، استخر و VDEV، کش ARC/L2ARC، ZIL/SLOG برای عملیات همگام سازی، عکس های فوری/ماکت و ساخته شده در یکپارچگی (checksums).
برنامه نویسی پاک کردن (EC) در سیستم های توزیع شده (Ceph/MinIO): کد Reed-Solomon 'k + m' - صرفه جویی بیش از 3 برابر تکرار با کاهش قابل قبول عملکرد نوشتن.

توصیه ها:

بارهای تصادفی داغ (فراداده، فایلهای کوچک) → آینههای RAID10/ZFS در NVMe.
EC سرد/بایگانی →، HDD های بزرگ، انبارهای تهاجمی.
برای همگام سازی سوابق (صادرات NFS) - SLOG اختصاصی در NVMe کم ثبت اختراع قابل اعتماد (PLP).

عملکرد: IOPS، توان، تاخیر

IOPS برای عملیات تصادفی کوچک (DB/metadata) مهم است.
پهنای باند - برای فایل های بزرگ (فیلم ها، پشتیبان گیری).
Latency p95/p99 - برای پایگاه داده ها، صف ها، API های حافظه پنهان بسیار مهم است.
صف ها و همزمانی: چند رشته در مشتری، 'rsize/wsize' برای NFS، 'rw، queue _ depth' برای iSCSI.
شبکه: 25/40/100 GbE (یا IB) + RSS/RPS، جامبو MTU در داخل مرکز داده.

ذخیره و تیک زدن

ARC/L2ARC (ZFS) - RAM و NVMe خواندن حافظه پنهان ؛ SLOG - تاریخچه سوابق همگام سازی.
Write-back/Write-through controller caches - فقط مراقب باشید، باتری/ابرخازن (BBU/PLP).

Tiering: NVMe → SSD (گرم) → HDD (سرد) → شی (بایگانی). سیاست های مهاجرت و چرخه زندگی

عکس های فوری، کلون ها، تکرار، DR

عکس های فوری (CoW): نقاط فوری برای بازگشت/پشتیبان گیری ؛ دایرکتوری های فروشگاه «داخل» ذخیره سازی، نه فقط در hypervisor.
تکرار: همزمان (RPO≈0، بالاتر از تاخیر)، ناهمزمان (RPO = N دقیقه).
کلون ها: محیط های اقتصادی/تست اقتصادی.

DR-schemes: 3-2-1 (سه نسخه، دو نوع حامل، یک - خارج از سایت)، تمرینات منظم DR ؛ اهداف RPO/RTO

ایمنی، انطباق و چند اجاره

احراز هویت/مجوز: LDAP/AD، Kerberos/NTLMv2 برای SMB، AUTH_SYS/KRB برای NFSv4.
جداسازی: VLAN/VRF، سیاست های صادرات، سهمیه مستاجر/سهمیه.
رمزگذاری: در حالت استراحت (LUKS/ZFS بومی/SED) و در پرواز (رمزگذاری NFS-krb5p/SMB/TLS برای S3).
WORM/انطباق برای داده های قانونی قابل توجه (S3 Object Lock، آنالوگ SnapLock).
حسابرسی: سیاهههای مربوط به دسترسی غیر قابل تغییر، ادغام با SIEM.

💡 > نظارت و SLO

معیارها:

توسط استخر/حجم: استفاده، 'p95/p99 تاخیر، IOPS، توان، عمق صف، ضربه کش، نوشتن تقویت.
بیش از شبکه: قطره، انتقال مجدد، PPS، عدم تطابق MTU.
توسط رسانه ها: خطاهای رسانه ای، سطح سایش، درجه حرارت، SMART.
با تکرار/عکس های فوری: تاخیر/سن، موفقیت کار، مدت زمان.

SLO (نمونه):

توپ NFS برای CI: تاخیر p95 ≤ 3 میلی ثانیه، در دسترس بودن ≥ 99. 95%.
پایگاه داده LUN: p99 نوشتن ≤ 1. 5 میلی ثانیه، ماکت همزمان در منطقه ؛ RPO 0، RTO ≤ 5 دقیقه.
شیء: p95 PUT ≤ 50 میلی ثانیه، p95 GET ≤ 30 میلی ثانیه، دوام 11 × 9 (از طریق اتحادیه اروپا/تکرار).

هشدارها:

پر کردن استخر> 80/90/95٪، افت کش ضربه، رشد نوشتن آمپر، تخریب دیسک، افت شبکه، تکرار ورود به سیستم> آستانه.

پشتیبان گیری و بایگانی

عکس های فوری + کپی از راه دور + پشتیبان جداگانه به شی/نوار.
سیاست های نگهداری: روز/هفته/ماه.
غیر قابل تغییر: S3 Object Lock (Governance/Compliance)، «air-gap» (حساب های تغذیه/غیرفعال).
تست های بازیابی - به طور منظم.

قالب های عملی (حداقل)

صادرات NFS (مثال)


/pool/projects 10. 0. 0. 0/16(rw,async,no_root_squash,sec=krb5p)

سهم SMB (قطعه SMB. مخالف)


[media]
path = /pool/media read only = no vfs objects = acl_xattr, recycle ea support = yes kernel oplocks = no smb encrypt = required

ZFS: ایجاد استخر و مجموعه داده

bash zpool create tank mirror nvme0n1 nvme1n1 zfs set atime=off compression=lz4 tank zfs create tank/projects zfs set recordsize=1M tank/projects     # большие файлы zfs set recordsize=16K tank/db        # БД/мелкие I/O

iSCSI (ایده ها)

فعال کردن ALUA/MPIO، زمانبندی صحیح و عمق صف در مشتریان.
گسترش شبکه های iSCSI و ترافیک مشتری، استفاده از جامبو MTU در داخل کارخانه صد حیاط.

ظرفیت و برنامه ریزی عملکرد

مجموعه کار و نرخ رشد.
حاشیه برای IOPS و توان 30-50٪ برای قله و تعادل مجدد.
تقویت نوشتن (RAID/EC/CoW) و ابرداده را در نظر بگیرید.
برای شیء - هزینه درخواست ها و ترافیک خروجی، کلاس های ذخیره سازی (استاندارد/IA/یخچال).

عملیات و به روز رسانی

به روز رسانی نورد از کنترل/OS/سیستم عامل.
Scrubs/Resilver پنجره ها و اولویت ها.
تعادل Rebild: محدود کردن I/O در بازیابی به طوری که برای «کشتن» تحریک.
Runbooks در تخریب/از دست دادن گره/شبکه.

چک لیست پیاده سازی

فایل/بلوک/شی + RPO/RTO/SLO مشخصات دسترسی انتخاب شده است.
طرح کدگذاری بار و قیمت (RAID/ZFS/EC).
شبکه ها: VLAN ها/VRF های فردی، MTU 9000 درون پارچه، MPIO/ALUA.
کش/تیک تاک: مکانیسم های ARC/L2ARC/SLOG یا مشابه.
عکس های فوری/ماکت/پشتیبان گیری: برنامه، غیر قابل تغییر، تمرینات DR.
نظارت: استخر/رسانه/شبکه/معیارهای تکرار، هشدار.
دسترسی/امنیت: ACL، Kerberos/AD، رمزگذاری، حسابرسی.
سهمیه/محدودیت برای مستاجران و دایرکتوری SLA/SLO.
مستندات و runbooks، بازیابی آزمون.

خطاهای رایج

سرریز استخر> 80٪ در سیستم های ZFS/EC → افزایش شدید تاخیر.
یک کنترل کننده/یک شبکه بدون MPIO/حفاظت.
مجموعه های کاری گرم و سرد در یک کلاس از حامل ها مخلوط می شوند.
بدون SLOG برای بارهای همگامسازی NFS → تأخیر غیرقابل پیشبینی.
پشتیبان گیری فقط «در داخل» همان آرایه/حساب → از دست دادن در صورت تصادف/سازش.
عدم وجود اسکراب منظم و نظارت SMART.
نادیده گرفتن الگوهای ورودی/خروجی کوچک: «مرتب سازی» بزرگ برای DB.

iGaming/fintech خاص

پایگاه داده ها و کیف پول های معاملاتی: استخرهای NVMe فردی، آینه های RAID10/ZFS، ماکت همزمان به منطقه B، مستقل مهر و موم شده است.
سیاهههای مربوط/حوادث خام و ویژگی های ضد تقلب: شی + چرخه عمر + کلاس های ارزان, شاخص/ویترین - در SSD.
محتوا و رسانه (ارائه دهندگان): NAS + CDN، کش تهاجمی، deduplication.
گزارش و PII: WORM/غیر قابل تغییر، رمزگذاری، حسابرسی دسترسی، جغرافیایی محلی سازی داده ها.
رویدادهای اوج: انبارهای گرم کردن، محدودیت های I/O، کنترل تأخیر p99 در استخرها.

مجموع

ذخیره سازی قابل اعتماد، پارتیشن بندی صحیح کلاس (فایل/بلوک/شی)، طرح برنامه نویسی مناسب (RAID/ZFS/EC)، شبکه سریع، کش/اتصال، عکس های فوری + کپی پشتیبان، SLO های سخت و عملیات خودکار است. با پیروی از این اصول، شما می توانید عملکرد قابل پیش بینی، انعطاف پذیری بالا و یک اقتصاد ذخیره سازی شفاف - با ملاحظات امنیتی و نظارتی.