GH GambleHub

ब्लॉक भंडारण और प्रदर्शन

संक्षिप्त सारांश

ब्लॉक भंडारण कच्चे उपकरण (LUN/आयतन) देता है जिसके शीर्ष पर आप FS, LVM/ZFS आदि का निर्माण करते हैं। प्रदर्शन मीडिया प्रकार, एक्सेस प्रोटोकॉल, कतार और गहराई, ब्लॉक आकार, कोडिंग योजना (RAID/EC), कैश और बाधाओं, नेटवर्क कपड़े, और एप्लिकेशन-विशिष्ट I/O पैटर्न (यादृच/अनुक्य, सिंक/async) द्य) द्य। लक्ष्य आवश्यक p95/p99 विलंबता और IOPS/बैंडविड्थ को मजबूती और पूर्वानुमेयता के साथ प्रदान करना है।

ब्लॉक एक्सेस टैक्सोनॉमी

स्थानीय: एनवीएमई (पीसीआईई), एसएएस/एसएटीए एसएसडी/एचडीडी। न्यूनतम विलंबता, कोई नेटवर्क अड़ चन नहीं।

नेटवर्क:
  • iSCSI (ईथरनेट, LUN, MPIO, ALUA)।
  • फाइबर चैनल (एफसी) (16-64G, कम विलंबता, ज़ोनिंग)।
  • NVMe-oF: NVMe/TCP, NVMe/RoCE, NVMe/FC - नेटवर्क पर "देशी" NVMe, कम ओवरहेड।
  • HCI/वितरित (Ceph RBD, vSAN): सुविधाजनक स्केलेबिलिटी, लेकिन विलंबता अधिक है, नेटवर्क/कोडिंग महत्वपूर्ण है।
चयन (संकेत):
  • p99 विलंबता ≤ 1-2 ms, बहुत उच्च IOPS → स्थानीय NVMe/NVMe-oF।
  • स्थिर "माध्य" विलंबता 2-5 एमएस, परिपक्व → एफसी या एनवीएमई/एफसी कारखाना।
  • ईथरनेट पर एकीकृत, iSCSI या NVMe/TCP को संचालित करना आसान है।

प्रोटोकॉल और उनकी विशेषताएँ

iSCSI: बहुमुखी प्रतिभा, MPIO/ALUA, TCP कॉन्फ़िगरेशन सेंसिटिव (MTU, ऑफलोड, qdepth)।

एफसी: अलगाव, दोषरहित प्रवाह, डब्ल्यूडब्ल्यूपीएन ज़ोनिंग, एचबीए कतारें और क्रेडिट।

NVMe-oF: कई सबमिशन/पूर्णता कतारों के माध्यम से समानतावाद, कम सीपीयू लोड, टीएलएस एनवीएमई/टीसीपी (यदि आवश्यक हो) के लिए संभव है।

RAID/EC और मीडिया

RAID10 - न्यूनतम विलंबता और अनुमानित IOPS; डेटाबेस/वॉलेट के लिए इष्टतम।

RAID5/6 - क्षमता में बेहतर, दंड लिखना, IOPS सिंक-राइट के लिए गिरता है।

वितरित सरणियों में इरेज़र कोडिंग क्षमता के मामले में फायदेमंद है, लेकिन रिकॉर्डिंग "अधिक महंगी" है।

NVMe SSD - p99 शीर्ष; एसएएस एसएसडी - समझौता; एचडीडी एक अनुक्रमिक बैंडविड्थ है, लेकिन एक बुरा यादृच्छिक है।

फ़ाइल सिस्टम और संरेखण

XFS बड़े डेटाबेस फ़ाइलों/लॉग के लिए एक उत्कृष्ट विकल्प है; अनुकूलन योग्य 'एगकाउंट', लॉग के लिए 'रियलटाइम'।

ext4 - बहुमुखी, सावधानी से RAID के लिए 'स्ट्राइड/स्ट्राइप _ चौड़ाई'।

ZFS - CoW, इंटीग्रिटी चेक, स्नैपशॉट/प्रतिकृति, ARC/ZIL/SLOG; सिंक लोड के लिए - PLP के साथ NVMe पर SLOG।

संरेखण: 1MiB-aligned पार्टीशन, सही 'रिकार्डसाइज़ '/' ब्लॉकसाइज़' लोड के तहत.

कतारें, गहराई और ब्लॉक आकार

IOPS कतार गहराई के साथ बढ़ रहे हैं, लेकिन ऐसा विलंबता है; लक्ष्य - QD, जो p95/p99 नियंत्रण के दौरान आवश्यक IOPS देता है।

ब्लॉक आकार: छोटा (4-16K) - अधिक IOPS, बदतर बैंडविड्थ; बड़े (128K-1M) - बेहतर एंड-टू-एंड गति।

NVMe qpairs: कोर/NUMA द्वारा आवंटित; iSCSI/FC: qdepth HBA/सर्जक, MPIO नीतियां।

बाधाएं और FUA: शामिल राइट-बैरियर विश्वसनीयता बढ़ाते हैं लेकिन p99 को बढ़ाते हैं; SLOG/PLP ऑफसेट।

मल्टीपाथ और उपलब्धता

MPIO/DM-Multipath: पथ एकत्रीकरण, दोष सहिष्णुता।

राजनेता: 'राउंड-रॉबिन' (बैलेंस शीट), 'कतार-लंबाई' (होशियार), 'फेलओवर' (संपत्ति-दायित्व)।

ALUA सक्रिय नियंत्रक के लिए "पसंदीदा" पथ।

महत्वपूर्ण: 'no _ path _ retry', 'कतार _ if _ no _ path' - सावधानीपूर्वक ताकि लंबे समय तक I/O को "फ्रीज" न करें।

एफसी ज़ोनिंग: "एक सर्जक क्षेत्र - एक लक्ष्य" (विस्फोट त्रिज्या को कम करता है)।

NVMe-oF: ANA (असममित नेमस्पेस एक्सेस) - аналог ALUA।

TRIM/डिस्कार्ड और कैचिंग

TRIM/डिस्कार्ड SSD ब्लॉकों को मुक्त करता है (लिखता है-amp, विलंबता को स्थिर करता है)। जहां उपयुक्त हो, नियमित रूप से (क्रॉन) या ऑनलाइन त्याग करें।

रीड-फॉरवर्ड लगातार पढ़ ने के लिए उपयोगी है; यादृच्छिक में हानिकारक है।

राइट-बैक कंट्रोलर कैश - केवल BBU/PLP के साथ; अन्यथा, डेटा हानि का जोखिम।

नेटवर्क स्टैक (iSCSI/NVMe-TCP के लिए)

SRF कारखाने के लिए अलग VLAN/VRF; ग्राहक यातायात से अलगाव।

एमटीयू 9000 एंड-टू-एंड; RSS/RPS और IRQ NUMA को पिनिंग।

RoCE के लिए QoS/प्राथमिकता (यदि दोषरहित है), TCP चोटियों के लिए ECN/RED।

Storaj तक दो स्वतंत्र वसा वाले पेड़ (दोहरे TORs, विभिन्न बिजली फीडर)।

लिनक्स/होस्ट ट्यूनिंग (नमूना)

bash
Scheduler for NVMe echo none     sudo tee /sys/block/nvme0n1/queue/scheduler echo 1024      sudo tee /sys/block/nvme0n1/queue/nr_requests echo 0        sudo tee /sys/block/nvme0n1/queue/add_random echo 0        sudo tee /sys/block/nvme0n1/queue/iostats

Read-ahead (sequential loads)
blockdev --setra 4096 /dev/nvme0n1

iSCSI: example of aggressive timeouts and retries iscsiadm -m node --op update -n node. session. timeo. replacement_timeout -v 10 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_interval -v 5 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_timeout -v 5
मल्टीपाथ (टुकड़ा 'मल्टीपाथ। conf '):
conf defaults {
find_multipaths yes polling_interval 5 no_path_retry 12
}
devices {
device {
vendor "PURE    DELL    NETAPP    HITACHI"
path_checker tur features "1 queue_if_no_path"
path_grouping_policy group_by_prio prio alua
}
}

बेंचमार्किंग और प्रोफाइलिंग

fio - प्रोफाइल का न्यूनतम सेट:
bash
Random read 4K, queue 32, 4 threads fio --name = randread --filename =/dev/nvme0n1 --direct = 1 --rw = randread\
--bs=4k --iodepth=32 --numjobs=4 --time_based --runtime=60

Random 4K entry (sync), log loads fio --name = randwrite --rw = randwrite --bs = 4k --iodepth = 16 --numjobs = 4\
--fsync=1 --direct=1 --runtime=60

Large block sequential recording (backups/dumps)
fio --name=seqwrite --rw=write --bs=1M --iodepth=64 --numjobs=2 --runtime=60
युक्तियाँ:
  • अलग हीटिंग और माप, तापमान/थर्मल थ्रॉटलिंग रिकॉर्ड करें।
  • LUN/आयतन पर जाँच करें, FS नहीं (यदि लक्ष्य कच्चा हार्डवेयर है)।
  • उपाय p95/p99 विलंबता और 99। 9% पूंछ - वे डेटाबेस को "मारने" वाले हैं।

निगरानी और एसएलओ

मेट्रिक्स:
  • लेटेंसी p50/p95/p99 (पढ़ें/लिखें), IOPS, थ्रूपुट, कतार-गहराई, डिवाइस व्यस्त%, मर्ज, त्याग।
  • नेटवर्क स्तर पर: ड्रॉप्स, रिट्रांसमिट्स, ईसीएन मार्क्स, इंटरफ़ेस त्रुटियाँ।
  • सरणी स्तर पर: प्रतिकृति अंतराल, पुनर्निर्माण/समाधान प्रगति, लिखने-amp, पहनने के स्तर SSD।
एसएलओ (उदाहरण):
  • LUN БД (OLTP): p99 लिखें ≤ 1। 5ms, p99 पढ़ें ≤ 1। 0 एमएस, उपलब्धता ≥ 99। 95%.
  • लॉग: p95 जोड़ें ≤ 2। 5 ms, बैंडविड्थ ≥ 400 MB/s प्रति वॉल्यूम।
  • बैकअप: seq light 1 GB/s (एकत्र), वसूली RTO 15 मिनट।
अलर्ट:
  • p99 लेटेंसी> थ्रेशोल्ड एन मिनट, एक ही क्यूडी के साथ आईओपीएस का क्षरण, RAID5/6 में रीड-संशोधित-राइट की वृद्धि, ओवरहीटिंग/थर्मल थ्रॉटल एसएसडी, शुरू/अटक पसलियों।

Kubernetes и CSI

पीवीसी/स्टोरेज क्लास: पैरामीटर 'रिक्लाइमपॉलिसी', ' BinaleMode = ForFirstComment' (सही स्थान), ' Expression'।

विक्रेता सीएसआई प्लगइन: स्नैपशॉट/क्लोन, QoS/प्रदर्शन नीतियां, वॉल्यूम-टोपोलॉजी।

एक्सेस मोड: डेटाबेस/स्टेट के लिए RWO, RWX - सावधानीपूर्वक (आमतौर पर फ़ाइल/नेटवर्क के माध्यम से)।

टोपोलॉजी/आत्मीयता: भंडारण के बगल में नोड्स के लिए पिन पैड (कम विलंबता)।

महत्वपूर्ण: एचपीए/वीपीए एक खराब ड्राइव को "ठीक" नहीं करेगा; प्लान SLO वॉल्यूम, स्टेटफुल नेटवर्क के लिए PodDisionSumper बजट का उपयोग

स्नैपशॉट, क्लोन, स्थिरता समूह

क्रैश-सुसंगत स्नैपशॉट तेज हैं, लेकिन डेटाबेस विसंगतियां संभव हैं।

ऐप-सुसंगत - quiesce स्क्रिप्ट (fsfreeze, pree/post hooks DB) के माध्यम से।

संगति समूह (सीजी) - एक ही समय में कई एलयूएन (लेन-देन प्रणालियों) के लिए।

क्लोन बिना नक़ल के त्वरित देव/परीक्षण वातावरण हैं।

सुरक्षा और अनुपालन

iSCSI CHAP/म्यूचुअल CHAP, VLAN/VRF अलगाव।

टीएलएस के साथ एनवीएमई/टीसीपी - क्रॉस-सेंटर/मल्टी-लीज परिदृश्यों के लिए।

एन्क्रिप्शन "आराम पर": LUKS/dm-crypt, सेल्फ-एन्क्रिप्टिंग ड्राइव (TCG ओपल), KMS में कुंजियाँ।

ऑडिट: जिसने LUN, FC ज़ोन परिवर्तन, मल्टीपाथ परिवर्तन की मैपिंग की।

डीआर और संचालन

तुल्यकालिक प्रतिकृति (RPO≈0) - विलंबता, छोटी दूरी को बढ़ाती है।

अतुल्यकालिक (RPO = N मिनट) - भू-दूरी, लॉग के साथ अधिकांश डेटाबेस के लिए स्वीकार्य।

रनबुक: MPIO पथ हानि, नियंत्रक हानि, डिस्क पुनर्निर्माण, पूल गिरावट, साइट स्विच।

सेवा खिड़कियां: "रोलिंग" नियंत्रक, विद्रोह सीमा ताकि प्रोड न खाएं।

FinOps (प्रति निष्पादन लागत)

$/IOPS और $/ms p99 OLTP के लिए अधिक उपयोगी "$/TB" हैं।

Tiering: गर्म OLTP - NVMe/RAID10; रिपोर्ट/अभिलेख - एचडीडी/ईसी।

प्रावधान और मूल्यह्रास: 30-50% आईओपीएस विकास के लिए योजना; विद्रोह/स्क्रब के तहत स्टॉक रखें।

एग्रेस/फैक्ट्री: भंडारण नेटवर्क और एचबीए/एनआईसी अद्यतन के लिए अलग बजट।

कार्यान्वयन जाँच सूची

  • प्रोटोकॉल (NVMe-oF/FC/iSCSI) और पृथक कपड़े चयनित।
  • RAID/EC और लोड टाइप पूल (OLTP/log/bacup) डिज़ाइन किए गए हैं।
  • MPIO/ALUA/ANA और टाइमआउट कॉन्फ़िगर; चेक किया गया असफलता/पुनर्स्थापित।
  • RAID, TRIM/Discard के लिए FS/संरेखण विनियमन के अनुसार सक्षम।
  • कतार ट्यूनिंग/qdepth/read-ford; फियो प्रोफाइल (रैंड्रेड/राइट 4k, seq 1M) द्वारा मान्य।
  • डिस्क/पथ/विलंबता निगरानी p95/p99, विद्रोह और थ्रॉटल के लिए अलर्ट।
  • स्नैपशॉट (ऐप-सुसंगत) और सीजी; डीआर/वसूली परीक्षण।
  • एन्क्रिप्शन और CHAP/TLS; संचालन के KMS ऑडिट में कुंजी।
  • Kubernetes/CSI मापदंड, टोपोलॉजी और QoS प्रति वॉल्यूम।

सामान्य त्रुटियाँ

MPIO के बिना एक रास्ता → विफलता का एकल बिंदु।

RAID5/6 सिंक-राइट OLTP → हाई पी 99 राइट के तहत।

कोई TRIM → राइट-एम्प ग्रोथ और SSD क्षरण।

QD बहुत बड़ा है - "सुंदर" IOPS और डेटाबेस के लिए भयानक पूंछ।

OLTP → विलंबता कूदता के साथ "हॉट" वॉल्यूम पर ऑनलाइन त्याग।

'queue _ if _ no _ path' without टाइमआउट → "जमे हुए" सेवाएं एक आपदा में।

एक ही पूल में एनवीएमई और एचडीडी का मिश्रण - अप्रत्याशित विलंबता।

iGaming/fintech विशिष्ट

वॉलेट/ट्रांजेक्शनल डेटाबेस: NVMe + RAID10, एक अलग SLOG/NVMe पर सिंक्रोनस लॉग, p99 लिखें ≤ 1। 5 एमएस, सीजी स्नैपशॉट।

भुगतान कतारें/विरोधी धोखाधड़ी: धारावाहिक लॉग - बड़े ब्लॉक, उच्च बैंडविड्थ, लॉग और डेटा के लिए अलग LUN।

पीक टीपीएस (टूर्नामेंट/मैच): प्री-वार्म डेटाबेस कैश, हेडरूम ≥ 30%, थर्मल थ्रॉटल कंट्रोल, बर्न-रेट एसएलओ।

नियामक: LUN एन्क्रिप्शन, मैपिंग ऑडिट लॉग, DR अभ्यास, RPO/RTO रिपोर्टिंग।

कुल

उत्पादक ब्लॉक भंडारण सही प्रोटोकॉल + सही ढंग से कॉन्फ़िगर की गई कतारें और qdepth + पर्याप्त RAID/EC + कैश/बैरियर अनुशासन + पृथक कपड़े हैं। रनबुक में सब कुछ पिन करें, p95/p99 मापें, फियो प्रोफाइल के साथ मान्य करें, स्नैपशॉट और डीआर स्वचालित करें - और महत्वपूर्ण उत्पाद और नकदी प्रवाह पथ के लिए आवश्यक अनुमानित विलंबता और आईओपीएस प्रास्ट लें।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।