Block Storage და შესრულება

მოკლე რეზიუმე

ბლოკის საცავი იძლევა ნედლეულ მოწყობილობებს (LUN/ტომი), რომელზედაც აშენებთ FS, LVM/ZFS და ა.შ. პროდუქტიულობა განისაზღვრება: გადამზიდავის ტიპი, წვდომის პროტოკოლი, რიგები და სიღრმე, ბლოკის ზომა, კოდირების სქემა (RAY/EC), ქეშები და ბარიერები, ქსელის ქარხანა, აგრეთვე კონკრეტული პროგრამის I/O ნიმუში (რენდი/თანმიმდევრული, კითხვა/წერა, sync/async). მიზანია უზრუნველყოს აუცილებელი p95/p99 შეფერხება და IOPS/გამშვები სტაბილურობა და პროგნოზირება.

ბლოკის დაშვების ტაქსონომია

ადგილობრივი: NVMe (PCIe), SAS/SATA SSD/HDD. მინიმალური ლატენტობა, ქსელის ვიწრო ადგილების არარსებობა.

ქსელი:

iSCSI (Ethernet, LUN, MPIO, ALUA).
Fibre Channel (FC) (16-64G, დაბალი შეფერხებები, ზონინგი).
NVMe-oF: NVMe/TCP, NVMe/RoCE, NVMe/FC - ქსელში „მშობლიური“ NVMe, უფრო ნაკლებია, ვიდრე ყალბი.
HCI/განაწილებული (Ceph RBD, vSAN): მოსახერხებელი მასშტაბურობა, მაგრამ ლატენტობა უფრო მაღალია, ქსელის/კოდირების კრიტიკული.

არჩევანი (სიგნალები):

p99 latency - 1-2 ms, ძალიან მაღალი IOPS - ადგილობრივი NVMe/NVMe-oF.
სტაბილური „საშუალო“ ლატენტობა 2-5 ms, სექსუალური ქარხანა - FC ან NVMe/FC.
გაერთიანება Ethernet- ზე, უფრო ადვილია ექსპლუატაცია iSCSI ან NVMe/TCP.

ოქმები და მათი მახასიათებლები

iSCSI: უნივერსალურობა, MPIO/ALUA, მგრძნობიარეა TCP (MTU, offload, qdepth) დაყენების მიმართ.
FC: იზოლაცია, ზარალის გარეშე ნაკადები, WWPN ზონირება, HBA ხაზები და სესხები.
NVMe-oF: პარალელურობა მრავალი Submission/Completion Queues, დაბალი CPU დატვირთვა, TLS შესაძლებელია NVMe/TCP (საჭიროების შემთხვევაში).

RIA/EC და მატარებლები

RAID10 - მინიმალური ლატენტობა და პროგნოზირებადი IOPS; ოპტიმალურია BD/საფულეებისთვის.
RAID5/6 უკეთესია კონტეინერებში, ჩაწერის ჯარიმა (write penalty), IOPS ეცემა sync-write- ისთვის.
Erasure Coding განაწილებულ მასივებში სასარგებლოა კონტეინერში, მაგრამ ჩანაწერი „უფრო ძვირია“.
NVMe SSD - p99 ტოპ; SAS SSD - კომპრომისი; HDD არის თანმიმდევრული გამშვები, მაგრამ ცუდი რანგი.

ფაილური სისტემები და განლაგება

XFS - შესანიშნავი არჩევანი BD დიდი ფაილებისთვის/ჟურნალებისთვის; მორგებული 'agcount', 'realtime' ლოგებისთვის.
ext4 არის უნივერსალური, ფრთხილად „stride/stripe _ width“ RAI- ს ქვეშ.
ZFS - COW, მთლიანობის შემოწმება, სნაიპშოტები/რეპლიკა, ARC/ZIL/SLOG; Sync დატვირთვისთვის - SLOG NVMe- ზე PLP- ით.
განლაგება: 1MiB-aligned მონაკვეთები, სწორი 'recordsize '/' blocksize' დატვირთვის ქვეშ.

რიგები, სიღრმე და ბლოკის ზომა

IOPS იზრდება Queue Depth- ით, მაგრამ ასევე იზრდება ლატენტობა; მიზანი არის QD, რომელიც იძლევა სასურველ IOPS- ს p95/p99 კონტროლის ქვეშ.
ბლოკის ზომა: მცირე (4-16K) - უფრო დიდი, ვიდრე IOPS, უარესი; დიდი (128K-1M) - უკეთესი სიჩქარე.
NVMe qpairs: განასხვავეთ ბირთვები/NUMA; iSCSI/FC: qdepth NVA/ინიციატორები, MPIO პოლიტიკა.
ბარიერები და FUA: შედარების ბარიერები ზრდის საიმედოობას, მაგრამ ზრდის p99; SLOG/PLP ანაზღაურდება.

Multipath და წვდომა

MPIO/DM-Multipath: ბილიკების აგრეგაცია, უკმარისობა.

პოლიტიკოსები: 'round-robin' (ბალანსი), 'queue-length' (უფრო ჭკვიანი), 'failover' (აქტივი).
ALUA: „სასურველი“ მარშრუტები აქტიური კონტროლერისკენ.
მნიშვნელოვანია: 'no _ path _ retry', 'queue _ if _ no _ path' - ფრთხილად, რომ არ „გაყინოთ“ I/O მრავალი წუთის განმავლობაში.
FC ზონირება: „ერთი ინიციატორის ზონა - ერთი ტარგეტი“ (reduces blast radius).
NVMe-oF: ANA (Asymmetric Namespace Access) — аналог ALUA.

TRIM/Discard და ქეშირება

TRIM/Discard ათავისუფლებს SSD ბლოკებს (ამცირებს write-amp, სტაბილიზაციას უწევს ლატენტობას). ჩართეთ რეგულარულად (cron) ან ონლაინ დისკი, სადაც დასაშვებია.
Read-ahead სასარგებლოა თანმიმდევრული კითხვებისთვის; საზიანოა რენომით.
Write-back კონტროლერის ქეში - მხოლოდ BBU/PLP- ით; წინააღმდეგ შემთხვევაში, მონაცემთა დაკარგვის რისკი.

ქსელის დასტის (iSCSI/NVMe-TCP)

ცალკეული VLAN/VRF სადგურის ქარხნისთვის; იზოლაცია კლიენტის ტრაფიკიდან.
MTU 9000 end-to-end; RSS/RPS და pinining IRQ NUMA- სთვის.
QoS/Priority for RoCE (თუ lossless), ECN/RED TCP მწვერვალებისთვის.
Storaj- მდე ორი დამოუკიდებელი ხის ხე (ორმაგი TOR, სხვადასხვა ელექტრომომარაგების ფიტერები).

Linux Tuning/hosta (ნიმუში)

bash
Scheduler for NVMe echo none     sudo tee /sys/block/nvme0n1/queue/scheduler echo 1024      sudo tee /sys/block/nvme0n1/queue/nr_requests echo 0        sudo tee /sys/block/nvme0n1/queue/add_random echo 0        sudo tee /sys/block/nvme0n1/queue/iostats

Read-ahead (sequential loads)
blockdev --setra 4096 /dev/nvme0n1

iSCSI: example of aggressive timeouts and retries iscsiadm -m node --op update -n node. session. timeo. replacement_timeout -v 10 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_interval -v 5 iscsiadm -m node --op update -n node. conn[0].timeo. noop_out_timeout -v 5

მრავალფუნქციური (ფრაგმენტი 'მრავალფუნქციური. conf`):

conf defaults {
find_multipaths yes polling_interval 5 no_path_retry 12
}
devices {
device {
vendor "PURE    DELL    NETAPP    HITACHI"
path_checker tur features "1 queue_if_no_path"
path_grouping_policy group_by_prio prio alua
}
}

Benchmarking და პროფილირება

fio - პროფილების მინიმალური ნაკრები:

bash
Random read 4K, queue 32, 4 threads fio --name = randread --filename =/dev/nvme0n1 --direct = 1 --rw = randread\
--bs=4k --iodepth=32 --numjobs=4 --time_based --runtime=60

Random 4K entry (sync), log loads fio --name = randwrite --rw = randwrite --bs = 4k --iodepth = 16 --numjobs = 4\
--fsync=1 --direct=1 --runtime=60

Large block sequential recording (backups/dumps)
fio --name=seqwrite --rw=write --bs=1M --iodepth=64 --numjobs=2 --runtime=60

რჩევები:

გამოყავით დათბობა და გაზომეთ ტემპერატურა/thermal throttling.
ტესტირება LUN/ტომზე, და არა FS- ზე (თუ მიზანი არის „ნედლეული“ რკინა).
გაზომეთ p95/p99 ლიტერატურა და 99. 9% tail - სწორედ ისინი არიან, ვინც BD- ს „კლავს“.

მონიტორინგი და SLO

მეტრიკა:

ლატენტობა p50/p95/p99 (read/write), IOPS, throughput, queue-depth, მოწყობილობა busy%, merges, discard.
ქსელის დონეზე: drops, retransmits, ECN მარკირება, ინტერფეისის შეცდომები.
მასივის დონეზე: რეპლიკაციის ლაქი, რეპლიკაციის/პროგრესი, write-amp, wear-level SSD.

SLO (მაგალითები):

LUN БД (OLTP): p99 write ≤ 1. 5 ms, p99 read - 1. 0 ms, წვდომა 99. 95%.
ლოგოები/ჟურნალები: p95 append-2. 5 ms, საგუშაგო 400 MB/წმ.
Bacaps: seq write, 1 GB/s (საერთო), RTO აღდგენა 15 წუთზე

ალერტა:

P99 latency> N წუთის ზღურბლები, IOPS- ის დეგრადაცია იმავე QD- ზე, RAID5/6 - ში read-modify-write- ის ზრდა, გადახურვა/thermal throttle SSD, დაიწყო/გაყინვა.

Kubernetes и CSI

PVC/StorageClass: პარამეტრები 'reclaimPolicy', 'volumeBindingMode = WaitForFirstConsumer' (სწორი განთავსება), 'allowVolumeeeeXxpansssionsion'.
მოვაჭრე CSI მოდულები: სნაიპშოტები/კლონები, QoS/შესრულების პოლიტიკა, volume-topology.
Modes: RWO BD/State, RWX - ფრთხილად (ჩვეულებრივ ფაილური/ქსელის საშუალებით).
Topology/Affinity: pin nods storaj- ის გვერდით (დაბალი ლატენტობა).
მნიშვნელოვანი: HPA/VPA არ „განკურნავს“ ცუდი დისკი; დაგეგმეთ SLO ტომი, გამოიყენეთ PodDisrupition Budget სახელმწიფო ქსელებისთვის.

Snaphots, Clones, Consistence Groups

Crash-consistent Snaphots - სწრაფად, მაგრამ BD- ს შეუსაბამობები შესაძლებელია.
App-consistent - quiesce სკრიპტების საშუალებით (fsfreeze, pre/post hooks BD).
Consistence Group (CG) - ერთდროულად რამდენიმე LUN (გარიგების სისტემები).
კლონები - სწრაფი dev/test საშუალო კოპირების გარეშე.

უსაფრთხოება და შესაბამისობა

iSCSI CHAP/Mutual CHAP, VLAN/VRF იზოლაცია.
NVMe/TCP TLS- ით - შუალედური/მრავალფუნქციური სცენარისთვის.
დაშიფვრა „დასვენებაში“: LUKS/dm-crypt, self-encrypting drives (TCG Opal), გასაღებები KMS- ში.
აუდიტი: ვინ არის LUN მაპილი, FC ზონების შეცვლა, მრავალჯერადი ცვლილებები.

DR და ოპერაციები

სინქრონული რეპლიკა (RPO-0) - ზრდის ლატენტობას, მოკლე დისტანციებს.
Asinhronnaya (RPO = N წთ) არის გეოგრაფიული საზოგადოება, რომელიც მისაღებია BD- ს უმეტესობისთვის ჟურნალებთან.
Runbooks: MPIO ბილიკის დაკარგვა, კონტროლერის დაკარგვა, ხელახალი დისკი, აუზის დეგრადაცია, საიტის შეცვლა.
მომსახურების ფანჯრები: „rolling“ კონტროლერები, ნეკნების ლიმიტები ისე, რომ არ ჭამოთ პროდი.

FinOps (პროდუქტიულობის ღირებულება)

$/IOPS და/ms p99 - უფრო სასარგებლოა „$/TB“ OLTP- სთვის.
Tiering: ცხელი OLTP - NVMe/RAID10; მოხსენებები/არქივი - HDD/EC.
რეზერვები და ამორტიზაცია: დაგეგმეთ ზრდა 30-50% IOPS; შეინახეთ მარაგი ნეკნების/სკრაბების ქვეშ.
Egress/ქარხანა: ცალკეული ბიუჯეტი სადგურის ქსელისთვის და HBA/NIC განახლებებისთვის.

ჩეკის განხორციელების სია

შეირჩა პროტოკოლი (NVMe-oF/FC/iSCSI) და იზოლაციის ქარხანა.
შექმნილია RAIA/EC და აუზები დატვირთვის ტიპების მიხედვით (OLTP/log/becap).
MPIO/ALUA/ANA და Timauts; შემოწმებულია failover/restore.
FS/RAI- ს განლაგება, შედის TRIM/Discard რეგლამენტის შესაბამისად.
რიგების tuning/qdepth/read-ahead; სავალდებულოა fio პროფილები (randread/write 4k, seq 1M).
დისკების/ბილიკების/ლატენტობის მონიტორინგი p95/p99, ალერტები ნეკნებზე და throttle.
Snapshots (app-consistent) და CG; DR/აღდგენის ტესტი.
დაშიფვრა და CHAP/TLS; გასაღებები KMS- ში; ოპერაციების აუდიტი.
Kubernetes/CSI პარამეტრები, ტოპოლოგია და QoS ტომი.

ტიპიური შეცდომები

MPIO- ს გარეშე ერთი გზა არის მომავლის სინგლი.
RAID5/6 sync-write OLTP - მაღალი p99 write.
არ არსებობს TRIM - write-amp ზრდა და SSD დეგრადაცია.
QD არის ძალიან დიდი, „ლამაზი“ IOPS და საშინელი tail BD- სთვის.
OLTP- ის „ცხელი“ ტომების ონლაინ დისკი არის ლატენტობის ნახტომი.
'queue _ if _ no _ path' ტაიმუტის გარეშე არის „ჩამოკიდებული“ სერვისები უბედური შემთხვევის დროს.
NVMe და HDD ნაზავი ერთ აუზში არის არაპროგნოზირებადი ლატენტობა.

სპეციფიკა iGaming/fintech

საფულე/გარიგების მონაცემთა ბაზა: NVMe + RAID10, სინქრონული ჟურნალი ცალკეულ SLOG/NVMe, p99 write 1. 5 ms, CG Snaphots.
გადახდის ხაზები/ანტიფროდია: თანმიმდევრული ლოგოები - დიდი ბლოკები, მაღალი გამშვები, ცალკეული LUN ჟურნალისთვის და მონაცემები.
პიკის TPS (ტურნირები/მატჩები): pre-warm kesh BD, headroom - 30%, thermal throttle კონტროლი, burn-rate SLO.
მარეგულირებელი: LUN დაშიფვრა, მაპინგის აუდიტის ლოგო, DR სავარჯიშოები, RPO/RTO ანგარიშები.

შედეგი

პროდუქტიული ბლოკის საცავი არის სწორი პროტოკოლი + სწორი მოწესრიგებული ხაზები და qdepth + ადეკვატური RAID/EC + ქეში/ბარიერების დისციპლინა + იზოლირებული ქარხანა. ყველაფერი დაფიქსირდა runbook-ax- ში, გაზომეთ p95/p99, გადაუგრიხეთ fio პროფილებით, ავტომატიზირდით sneaphots და DR - და მიიღეთ პროგნოზირებადი ლატენტობა და IOPS, რომელიც აუცილებელია პროდუქტის კრიტიკული გზებისა და ფულადი ნაკადისთვის.