GH GambleHub

كتلة التخزين والأداء

موجز موجز

يمنح التخزين الكتلي الأجهزة الخام (LUN/volume) التي تقوم ببناء FS و LVM/ZFS فوقها، إلخ. يتم تحديد الأداء حسب نوع الوسائط، وبروتوكول الوصول، وقوائم الانتظار والعمق، وحجم الكتلة، ومخطط الترميز (RAID/EC)، والمخابئ والحواجز، ونسيج الشبكة، ونمط I/O الخاص بالتطبيق (عشوائي/متسلسل، قراءة/كتابة، مزامنة/async). والهدف من ذلك هو توفير الوقت الزمني المطلوب لـ p95/p99 وعرض النطاق الترددي لـ IOPS/مع متانة وإمكانية التنبؤ.

تصنيف الوصول إلى الحظر

محلي: NVMe (PCIe)، SAS/SATA SSD/HDD. الحد الأدنى من زمن الوصول، لا توجد اختناقات في الشبكة.

الشبكة:
  • iSCSI (Ethernet، LUN، MPIO، ALUA).
  • قناة الألياف (FC) (16-64G، زمن انتقال منخفض، تقسيم المناطق).
  • NVMe-oF: NVMe/TCP، NVMe/RoCE، NVMe/FC - NVMe «الأصلي» عبر الشبكة، أقل من النفقات العلوية.
  • HCI/الموزعة (Ceph RBD، vSAN): قابلية التوسع المريحة، ولكن زمن الوصول أعلى، والشبكة/الترميز أمر بالغ الأهمية.
الاختيار (الإشارات):
  • p99 ≤ 1-2 ms، IOPS عالية جدا → NVMe المحلية/NVMe-oF.
  • زمن انتقال ثابت «متوسط» 2-5 مللي ثانية، ناضج → مصنع FC أو NVMe/FC.
  • موحد على Ethernet، أسهل في التشغيل → iSCSI أو NVMe/TCP.

البروتوكولات وسماتها

iSCSI: التنوع، MPIO/ALUA، تكوين TCP حساس (MTU، التفريغ، qdepth).
FC: العزلة، التدفقات الخالية من الخسائر، تقسيم WWPN، قوائم انتظار HBA والائتمانات.
NVMe-oF: التوازي من خلال طوابير تقديم/إكمال متعددة، حمل منخفض لوحدة المعالجة المركزية، TLS ممكن لـ NVMe/TCP (إذا لزم الأمر).

RAID/EC و Media

RAID10 - الحد الأدنى من زمن الانتقال الذي يمكن التنبؤ به ؛ الأمثل لقواعد البيانات/المحافظ.
RAID5/6 - بشكل أفضل في السعة، اكتب عقوبة، يسقط IOPS للكتابة المتزامنة.
محو الترميز في المصفوفات الموزعة مفيد من حيث السعة، ولكن التسجيل «أكثر تكلفة».
NVMe SSD - p99 أعلى ؛ SAS SSD - حل وسط ؛ HDD هو عرض نطاق ترددي متسلسل، لكنه عشوائي سيء.

أنظمة الملفات والمحاذاة

XFS هو اختيار ممتاز لملفات/سجلات قواعد البيانات الكبيرة ؛ قابلة للتخصيص "agcount'،" الوقت الحقيقي "لسجلات الأشجار.
ext4 - متعدد الاستخدامات، بعناية إلى «الخطوط/الخطوط _ العرض» لـ RAID.
ZFS - CoW، فحص النزاهة، لقطات/نسخة طبق الأصل، ARC/ZIL/SLOG ؛ للأحمال المتزامنة - SLOG على NVMe مع PLP.
المحاذاة: أقسام 1MiB-aligned، «حجم التسجيل» الصحيح/« الحجم الحاجز »تحت الحمل.

قوائم الانتظار والعمق وحجم الكتلة

IOPS آخذ في الارتفاع مع Queue Depth، وكذلك زمن الوصول ؛ الهدف - QD، الذي يعطي التحكم المطلوب IOPS خلال p95/p99.
حجم الكتلة: صغير (4-16K) - المزيد من IOPS، أسوأ عرض النطاق الترددي ؛ (128K-1M كبيرة) - سرعة أفضل من طرف إلى طرف.
NVMe qpairs: مخصص حسب النوى/NUMA ؛ iSCSI/FC: qdepth HBA/المبادرون، سياسات MPIO.
الحواجز وحواجز عدم الانحياز: تشمل الحواجز الكتابية التي تزيد من الموثوقية ولكنها تزيد في عام 1999 ؛ تعويض SLOG/PLP.

المسارات المتعددة والتوافر

MPIO/DM-Multipath: تجميع المسار، تحمل الخطأ.

السياسيون: «round-robin» (الميزانية العمومية)، «طابور الطول» (أكثر ذكاءً)، «فشل» (الأصول والخصوم).
فضلت ALUA المسارات إلى وحدة التحكم النشطة.
مهم: «لا _ مسار _ إعادة تجربة»، «قائمة انتظار _ إذا _ لا _ مسار» - بعناية حتى لا «تجمد» I/O لدقائق طويلة.
تقسيم مناطق FC: «منطقة بدء واحدة - هدف واحد» (يقلل من نصف قطر الانفجار).
NVMe-oF: ANA (الوصول إلى Namespace غير المتماثل) - аналог ALUA.

TRIM/Discard and Caching

TRIM/Discard يحرر كتل SSD (يخفض الكتابة، ويثبت زمن الوصول). قم بتشغيل (cron) بانتظام أو التخلص عبر الإنترنت عند الاقتضاء.
القراءة للأمام مفيدة للقراءات المتتالية ؛ ضارة بشكل عشوائي.
مخابئ وحدة التحكم في الكتابة - مع BBU/PLP فقط ؛ وإلا فإن خطر فقدان البيانات.

Network Stack (لـ iSCSI/NVMe-TCP)

VLAN/VRF منفصل لمصنع SRF ؛ العزل عن حركة الزبائن.
MTU 9000 من البداية إلى النهاية ؛ ربط RSS/RPS و IRQ بـ NUMA.
QoS/أولوية RoCE (إذا لم تفقد)، ECN/RED لذروة TCP.
شجرتان مستقلتان للدهون تصل إلى storaj (TORs مزدوجة، مغذيات طاقة مختلفة).

لينكس/ضبط المضيف (عينة)

bash
Scheduler for NVMe echo none     sudo tee /sys/block/nvme0n1/queue/scheduler echo 1024      sudo tee /sys/block/nvme0n1/queue/nr_requests echo 0        sudo tee /sys/block/nvme0n1/queue/add_random echo 0        sudo tee /sys/block/nvme0n1/queue/iostats

Read-ahead (sequential loads)
blockdev --setra 4096 /dev/nvme0n1

iSCSI: example of aggressive timeouts and retries iscsiadm -m node --op update -n node. session. timeo. replacement_timeout -v 10 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_interval -v 5 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_timeout -v 5
مسارات متعددة (جزء 'مسارات متعددة. conf '):
conf defaults {
find_multipaths yes polling_interval 5 no_path_retry 12
}
devices {
device {
vendor "PURE    DELL    NETAPP    HITACHI"
path_checker tur features "1 queue_if_no_path"
path_grouping_policy group_by_prio prio alua
}
}

المقارنة والتنميط

fio - الحد الأدنى من مجموعة الملفات الشخصية:
bash
Random read 4K, queue 32, 4 threads fio --name = randread --filename =/dev/nvme0n1 --direct = 1 --rw = randread\
--bs=4k --iodepth=32 --numjobs=4 --time_based --runtime=60

Random 4K entry (sync), log loads fio --name = randwrite --rw = randwrite --bs = 4k --iodepth = 16 --numjobs = 4\
--fsync=1 --direct=1 --runtime=60

Large block sequential recording (backups/dumps)
fio --name=seqwrite --rw=write --bs=1M --iodepth=64 --numjobs=2 --runtime=60

نصائح

تسخين وقياس منفصلان، وسجل درجة الحرارة/الاختناق الحراري.
اختبار على LUN/حجم، وليس FS (إذا كان الهدف هو الأجهزة الخام).
القياس p95/p99 زمن الوصول و 99. 9٪ ذيل - هم الذين «يقتلون» قاعدة البيانات.

الرصد و SLO

المقاييس:
  • Latency p50/p95/p99 (اقرأ/اكتب)، IOPS، الإنتاجية، عمق قائمة الانتظار، مشغول الجهاز٪، يندمج، يتم التخلص منه.
  • على مستوى الشبكة: قطرات، إعادة إرسال، علامات ECN، أخطاء واجهة.
  • على مستوى المصفوفة: تأخر النسخ، وإعادة البناء/حل التقدم، والكتابة، والإهمال SSD.
SLO (أمثلة):
  • LUN БД (OLTP): p99 اكتب ≤ 1. 5 مللي ثانية، ص 99 يقرأ ≤ 1. 0 ms, available ≥ 99. 95%.
  • Logs: p95 apple ≤ 2. 5 مللي ثانية، عرض النطاق الترددي ≥ 400 ميغابايت/ثانية لكل مجلد.
  • النسخ الاحتياطية: seq write ≥ 1 GB/s (مجمعة)، recovery RTO ≤ 15 دقيقة.
تنبيهات:
  • p99 زمن الوصول> عتبة N دقائق، تحلل IOPS بنفس QD، نمو القراءة-تعديل-الكتابة في RAID5/6، التسخين الزائد/الخانق الحراري SSD، الضلوع التي بدأت/عالقة.

Kubernetes и CSI

PVC/StorageClass: المعلمات «reclaimPolicy»، «VolumeBindingMode = WaitForFirstConsumer» (الموقع الصحيح)، «السماح بتوسيع الحجم».
ملحقات البائع CSI: لقطات/استنساخ، QoS/سياسات الأداء، طوبولوجيا الحجم.
AccessModes: RWO لقاعدة البيانات/الحالة، RWX - بعناية (عادة عبر ملف/شبكة).
Topology/Affinity: pin pads to nodes neight to storage (low latency).
مهم: HPA/VPA لن «يعالج» الدافع السيئ ؛ خطط أحجام SLO، استخدم PodDistructionBudget للشبكات الحكومية.

لقطات، استنساخ، مجموعات الاتساق

اللقطات المتسقة مع الأعطال سريعة، لكن التناقضات في قواعد البيانات ممكنة.
متسق مع التطبيق - عبر نصوص quiesce (fsfreeze، pre/post hooks DB).
مجموعة الاتساق (CG) - للعديد من LUNs (أنظمة المعاملات) في نفس الوقت.
الاستنساخ عبارة عن بيئات سريعة للتطوير/الاختبار دون نسخ.

السلامة والامتثال

iSCSI CHAP/Mutual CHAP، VLAN/VRF عزلة.
NVMe/TCP مع TLS - لسيناريوهات عبر الوسط/متعددة الإيجارات.
التشفير «في الراحة»: LUKS/dm-crypt، محركات الأقراص ذاتية التشفير (TCG Opal)، المفاتيح في KMS.
التدقيق: من رسم خريطة LUN، تغيير منطقة FC، تغييرات متعددة المسارات.

DR والعمليات

نسخة طبق الأصل متزامنة (RPO≈0) - تزيد من زمن الكمون والمسافات القصيرة.
غير متزامن (RPO = N min) - مسافة جغرافية، مقبولة لمعظم قواعد البيانات ذات السجلات.
كتب التشغيل: فقدان مسار MPIO، فقدان وحدة التحكم، إعادة بناء القرص، تدهور حمام السباحة، تبديل الموقع.
نوافذ الخدمة: وحدات تحكم «متدحرجة»، حدود إعادة التشغيل حتى لا تأكل الحث.

FinOps (التكلفة لكل أداء)

/ IOPS و $/ms p99 هما أكثر فائدة «$/TB» لـ OLTP.
الترتيب: OLTP الساخن - NVMe/RAID10 ؛ التقارير/المحفوظات - HDD/EC.
المخصصات والاستهلاك: خطة لنمو IOPS بنسبة 30-50٪ ؛ احتفظ بالمخزون تحت البياضات/الدعك.
الخروج/المصنع: ميزانية منفصلة لشبكة التخزين وتحديثات HBA/NIC.

قائمة التنفيذ المرجعية

  • بروتوكول (NVMe-oF/FC/iSCSI) ونسيج معزول مختار.
  • تم تصميم RAID/EC ومجمعات التحميل (OLTP/log/backup).
  • MPIO/ALUA/ANA وتم تشكيل المهلات ؛ تم التحقق من الفشل/الاستعادة.
  • FS/alimment for RAID، TRIM/Discard تم تمكينه وفقًا للائحة.
  • ضبط قائمة الانتظار/qdepth/القراءة للأمام ؛ تم التحقق من صحتها من خلال ملفات تعريف fio (randread/write 4k، seq 1M).
  • Disk/path/latency monitoring p95/p99, alerts to rebilds and distle.
  • لقطات (متسقة مع التطبيق) و CG ؛ اختبار DR/الاسترداد.
  • التشفير و CHAP/TLS ؛ مفاتيح في مراجعة عمليات دائرة إدارة كوسوفو.
  • بارامترات Kubernetes/CSI والطوبولوجيا و QoS لكل مجلد.

أخطاء شائعة

مسار واحد بدون MPIO → نقطة فشل واحدة.
RAID5/6 تحت مزامنة كتابة OLTP → كتابة عالية p99.
لا يوجد TRIM → نمو الكتابة وتدهور SSD.
QD كبير جدًا → IOPS «الجميل» وذيل رهيب لقاعدة البيانات.
التخلص عبر الإنترنت من الأحجام «الساخنة» مع قفزات زمن انتقال → OLTP.
«queue _ if _ no _ path» بدون مهلة → خدمات «مجمدة» في كارثة.
خلط NVMe و HDD في نفس المجموعة → زمن انتقال لا يمكن التنبؤ به.

iGaming/fintech specific

المحفظة/قواعد بيانات المعاملات: NVMe + RAID10، سجل متزامن على SLOG/NVMe منفصل، p99 كتابة ≤ 1. 5 مللي ثانية، لقطات CG.
قوائم انتظار الدفع/مكافحة الاحتيال: سجلات تسلسلية → كتل كبيرة، وعرض نطاق ترددي مرتفع، وشبكات LUN منفصلة للسجل والبيانات.
ذروة TPS (البطولات/المباريات): مخابئ قاعدة البيانات قبل الدفء، مساحة الرأس ≥ 30٪، التحكم في دواسة الوقود الحرارية، SLO معدل الحرق.
التنظيم: تشفير LUN، سجل تدقيق رسم الخرائط، تمارين DR، تقارير RPO/RTO.

المجموع

تخزين الكتلة الإنتاجية هو البروتوكول الصحيح + قوائم الانتظار المكونة بشكل صحيح و qdepth + RAID/EC + cache/barrier sidgine + القماش المعزول. قم بتثبيت كل شيء في كتب التشغيل، وقياس p95/p99، والتحقق من صحته باستخدام ملفات تعريف fio، وأتمتة اللقطات و DR - واحصل على زمن انتقال يمكن التنبؤ به ومسارات IOPS اللازمة لمنتجات مهمة ومسارات التدفق النقدي.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.