विश्लेषणात्मक डाटा संपीड़ित करें

1) विश्लेषणात्मक डेटा क्यों संपीड़ित करें

संपीड़न भंडारण और यातायात को कम करता है, कम आईओ और बेहतर कैशिंग के साथ गति स्कैन करता है। कीमत सीपीयू और (कभी-कभी) अपडेट की जटिलता है। लक्ष्य आपके एसएलओ के लिए इष्टतम "IO↔CPU↔tochnost↔stoimost" है।

आधार मेट्रिक्स:

संपीड़न अनुपात (सीआर) = 'raw _ size/ compressed_size'।
स्कैन कॉस्ट ≈ bytes_scanned/ throughput_storage + cpu_decode_time'।
कुल लागत = 'भंडारण _ लागत + compute_cost + egress_cost'।

2) परतें जहां संपीड़न रहता है

1. प्रारूप स्तर पर: Parquet/ORC/Avro (पृष्ठ/पट्टियाँ/स्तंभ)।

2. स्तंभ के एन्कोडिंग स्तर पर: शब्दकोश, आरएलई, डेल्टा, एफओआर/बिट-पैकिंग, गोरिल्ला/एक्सओआर।

3. कोडेक स्तर पर: ZSTD, स्नैपी, LZ4, Gzip।

4. क्वेरी/इंजन स्तर पर: वेक्टोराइजेशन, पेज स्किपिंग (मिनट/मैक्स), ब्लूम/ज़ोन-मैप।

5. भंडारण स्तर पर: टियर स्टोरेज (गर्म/गर्म/ठंडा), संपीड़न, पृष्ठ कैश।

3) स्तंभ प्रारूप और उनके फायदे

Parquet: स्तंभ पृष्ठ; शब्दकोश समर्थन, RLE/बिट-पैकिंग, न्यूनतम/अधिकतम आँकड़े और शून्य-गणना।

ORC: धाराओं, खिलने वाले फिल्टर पर सूचकांक के साथ स्ट्रिप्स; लंबे स्कैन के लिए प्रभावी।

एवरो (पंक्ति): स्ट्रीम/लॉग के लिए सुविधाजनक, विश्लेषणात्मक स्कैन के लिए बदतर।

अभ्यास: डिफ़ॉल्ट एनालिटिक्स के लिए, Parquet/ORC का उपयोग करें, कॉलम आँकड़े और शब्दकोश शामिल करें जहां कार्डिनैलिटी कम/मध्यम है।

4) स्तंभ एन्कोडिंग (दोषरहित)

शब्दकोश-प्रतिस्थापन मान सूचकांक के साथ (कम कार्डिनैलिटी के लिए आदर्श)।

RLE (रन-लेंथ एनकोडिंग) - डुप्लिकेट → मान (मान, रन). सॉर्टेड/क्लस्टर्ड कॉलम के लिए अच्छा है।

डेल्टा/डेल्टा-ऑफ-डेल्टा: अंतर (संख्या/समय) संग्रहीत करता है।

एफओआर (फ्रेम-ऑफ-रेफरेंस) + बिट-पैकिंग: मूल्य = आधार + ऑफसेट; ऑफसेट एन बिट्स के साथ पैक किया गया है।

गोरिल्ला/XOR (समय-श्रृंखला): परिवर्तनीय लंबाई के साथ पड़ोसी मूल्यों के XOR को संग्रहीत करता है; मेट्रिक्स के लिए अच्छा है।

Nullable bitmasks: nulls की एक अलग धारा CR को बढ़ाती है।

टिप: प्री-क्लस्टरिंग/फ़िल्टरिंग कुंजी छंटाई नाटकीय रूप से RLE/ज़ोन-मैप और CR में सुधार करती है।

5) सामान्य प्रयोजन कोडेक

ZSTD: मध्यम सीपीयू मूल्य पर सर्वश्रेष्ठ सीआर; स्तर 1-22 का समर्थन करता है। सार्वभौमिक विकल्प।

स्नैपी: तेज, कम सीआर; उच्च पढ़ ने की आवृत्ति के साथ गर्म डेटा के लिए उप

LZ4: स्नैपी और भी तेज, समान सीआर; अक्सर स्ट्रीम/लॉग/कैश के लिए।

Gzip/Deflate: उच्च CR, उच्च CPU मूल्य; इंटरैक्टिव एनालिटिक्स में शायद ही कभी उचित हो।

नियम: गर्म परत - Snappy/LZ4, गर्म/ठंडा - ZSTD (स्तर 3-7)।

6) समय श्रृंखला और लॉग

TSDB/कॉलम डेटाबेस: गोरिल्ला/XOR, डेल्टा-RLE-Bitmap, दुर्लभ संकेतों के लिए स्पार्स-रन।

लॉग: JSON→Parquet + ZSTD; कुंजियों और प्रकारों को सामान्य करें ("स्ट्रिंग इंट" को संग्रहीत न करें)।

डाउनसैम्पलिंग और रोल-अप (हानि): एक गर्म परत में खिड़कियों (1m/5m/1h) द्वारा इकाइयों को स्टोर करें; कच्ची - ठंड में।

स्केच संरचनाएं: HLL (कार्डिनैलिटी), TDigest/KLL (मात्रा), CMS (आवृत्तियाँ) - कॉम्पैक्ट, लेकिन अनुमानित।

7) दोषरहित बनाम लॉसी (जब आप सटीकता खो सकते हैं)

दोषरहित - रिपोर्टिंग, वित्त, लेखा परीक्षा।

लॉसी - मॉनिटरिंग, बड़ी खिड़कियों पर ए/बी एनालिटिक्स, टेलीमेट्री (स्पष्ट अंकन के साथ!)।

गुणवत्ता नियंत्रण: सहिष्णुता निर्धारित करें (जैसे। P99 OF 0। 5 पीपी) और सीआई में इसकी जांच करें।

8) विभाजन, पृष्ठ और संघनन

पार्टियां: तिथि/क्षेत्र/किरायेदार - कम स्कैन, बेहतर सीआर।

पृष्ठ आकार/पट्टी: 64-256 KB प्रति पृष्ठ, 64-512 MB प्रति फ़ाइल - खोज और सीपीयू के बीच संतुलन।

संपीड़न: छोटी फ़ाइलों की समस्या - सीआर और गति के ऊपर जोड़ें।

ज़ोन-मैप्स/ब्लूम: स्पीड अप पेज स्किप्स; फिल्टर द्वारा छंटाई में प्रभावी।

9) संपीड़न और एन्क्रिप्शन/गोपनीयता

संचालन का क्रम: पहले संपीड़न, फिर एन्क्रिप्शन। अन्यथा, सीआर ≈ 1।

TDE/at-rest CR के साथ हस्तक्षेप नहीं करता है (पहले से ही संपीड़ित ब्लॉक एन्क्रिप्टेड है)।

इन-ट्रांजिट (TLS) प्रारूप को प्रभावित नहीं करता है।

संपीड़न से पहले पीआईआई मास्किंग/टोकनाइजेशन एन्ट्रापी प्रबंधनीय रखता है।

OPE/DET एन्क्रिप्शन के साथ सावधानी: CR और/या जोखिम गोपनीयता को नीचा दिखा सकता है।

10) लागत और एसएलओ (अर्थशास्त्र)

भंडारण: कम बाइट्स - $/टीबी-मो से कम।

गणना: कम IO → तेज स्कैन; लेकिन अपघटन अपशिष्ट CPU।

Egress: कम बाइट्स → कम ट्रैफिक/कॉपी समय।

SLO समझौता: कोडेक/स्तर से मेल खाता है ताकि लक्ष्य विंडो में 'p95 _ लेटेंसी' बनी रहे।

उदाहरण नीति (छद्म-YAML):

yaml hot:
format: parquet codec: snappy target_p95_ms: 1000 max_scan_mb: 2048 warm:
format: parquet codec: zstd:4 target_p95_ms: 2500 compaction: daily cold:
format: parquet codec: zstd:7 glacier: true retention: 365d

11) इंजन के लिए अभ्यास (क्लिकहाउस/स्नोफ्लेक/बिगक्वेरी/रेडशिफ्ट/प्रेस्टो)

क्लिकहाउस: CODEC 'और वक्ताओं पर (LZ4/ZSTD/DoubDelta), RLE/स्कैन, TTL/संपीड़न के लिए ऑर्डर बाय।

स्नोफ्लेक/बिगक्वेरी: प्रारूप/क्लस्टरिंग स्वचालन; सहायता क्लस्टर (तिथि, किरायेदार, फिल्टर कुंजी)।

Redshift/Presto/Trino: Parquet/ORC ZSTD के साथ, सेटिंग 'hive। निष्पादन। संपीड़ित करें। आउटपुट ', आंकड़े और फ़ाइल विभाजन।

12) पाइपलाइन: संपीड़न को कहां शामिल करना है

झील पर लिखते समय इनगेस्ट: संपीड़ित बैच (ZSTD/LZ4)।

ट्रांसफॉर्म/डीबीटी: वांछित कोडेक और सॉर्टिंग के साथ स्तंभ लक्ष्य बनाएँ।

परोसें/OLAP: एक उपयुक्त कोडेक के साथ भौतिक विचार; गर्म डैशबोर्ड के लिए पूर्व-समुच्चय।

निर्यात: для CSV/JSON - gzip/zstd; Parquet को देने के लिए बेहतर।

13) परीक्षण और सत्यापन

एबी प्रोफाइलिंग: अनुरोधों का एक सेट - p50/p95 की तुलना करें, बाइट्स स्कैन, सीपीयू समय, सीआर।

गोल्डन सेट: पुनरावृत्ति/संपीड़न के बाद शुद्धता की जांच करें।

क्षेत्र परीक्षण: अलर्ट यदि कोडेक/स्तर परिवर्तन के बाद p95 ↑> X% है।

DQ नियम: प्रकार/रेंज/NULL-दर को पुनः लोड करते समय नहीं बदलना चाहिए।

14) प्रतिधारण और टीटीएल नीतियां

Tiered: गर्म (7-14 दिन), गर्म (30-90 दिन), ठंड (≥180 दिन)।

डाउनसैम्पलिंग: जैसा कि आप "कूल डाउन" करते हैं, कच्चे के बजाय इकाइयों/रेखाचित्रों को स्टोर करते हैं।

प्रतिधारण/कानूनी पकड़: विनियमों के साथ संघर्ष को न हटाएं; स्टोर निर्देशिका और संस्करण।

15) एंटीपैटर्न

"हर जगह Gzip स्तर 9 ": महंगा CPU, कोई लाभ नहीं।

कोई छंटाई/क्लस्टरिंग नहीं: खराब RLE/ज़ोन-मैप्स - महंगे स्कैन।

भंडारण प्रारूप के रूप में JSON: निगलने के लिए सुविधाजनक, एनालिटिक्स के लिए बुरा।

बहुत छोटी फाइलें: फुलाना मेटाडेटा/खोज; सीआर गिर जाता है।

पूर्व-संपीड़न एन्क्रिप्शन: नियर-जीरो सीआर।

लॉसी अचिह्नित: विश्वास और जवाबदेही का उल्लंघन।

16) कार्यान्वयन रोडमैप

1. डिस्कवरी: क्वेरी/डेटा प्रोफाइल, एसएलओ और बजट।

2. MVP: Parquet + ZSTD/Snappy, बेसिक सॉर्टिंग/क्लस्टरिंग, कॉम्पैक्ट।

3. ट्यूनिंग: ZSTD स्तर, पृष्ठ आकार, क्लस्टर बाय, ब्लूम/ज़ोन-मैप्स।

4. वार्म/कोल्ड: टियर स्टोरेज, डाउनसैम्पलिंग/स्केच, एग्रेस पॉलिसी।

5. सख्त: प्रतिगमन पर्फ परीक्षण, डीक्यू, ट्रांसकोडिंग रनबुक।

17) प्री-रिलीज़चेकलिस्ट

प्रारूप: पर्केट/ओआरसी; आंकड़े/शब्दकोश शामिल हैं।
कुंजियों को छानकर क्लस्टरिंग; पार्टियां तिथि/किरायेदार द्वा
कोडेक्स: हॉट = Snappy/LZ4, वार्म/कोल्ड = ZSTD (3-7); p95 सामान्य है।
संपीड़न की स्थापना की जाती है; कोई छोटी फ़ाइलें नहीं; लक्ष्य फ़ाइल/पृष्ठ आकार।
डीक्यू और सुनहरा सेट हरे रंग के होते हैं; प्रकार/रेंज सहेजे गए।
संपीड़न के बाद एन्क्रिप्शन; पीआईआई नकाबपोश; प्रतिधारण/कानूनी-पकड़का अनुपालन किया।
पर्फ रीग्रेशन की निगरानी की जाती है; P95/बाइट्स स्कैन/सीआर द्वारा अलर्ट।
भंडारण नीति और पारगमन निर्देश प्रलेखन तैयार है।

18) मिनी टेम्पलेट्स

DBT (ZSTD और क्लस्टरिंग के साथ पार्क तालिका):

sql create table if not exists analytics. sales_daily cluster by (event_date, tenant_id)
as select from {{ ref('sales_daily_view') }};
-- in model config: materialized = table, file_format=parquet, compression = zstd

संपीडित नीति (छद्म):

yaml compaction:
target_file_mb: 256 small_file_threshold_mb: 32 schedule: "hourly"

कॉन्फिग डाउनसैम्पलिंग (छद्म):

yaml timeseries:
raw:  keep: 14d rollup_1m: keep: 90d rollup_1h: keep: 365d rollup_1d: keep: 1825d

नीचे की रेखा: विश्लेषणात्मक डेटा संपीड़न न केवल "कोडेक चालू करें", बल्कि एक समग्र रणनीति है: सही प्रारूप, स्तंभ एन्कोडिंग, छंटाई और विभाजन, संपीड़न और भंडारण स्तर, एन्क्रिप्शन और एसएलओ के लिए सम्मान। स्मार्ट डिजाइन डेटा में विश्वास से समझौता किए बिना तेजी से स्कैन, कम गिनती और अनुमानित प्रदर्शन प्रदान करता है

विश्लेषणात्मक डाटा संपीड़ित करें

हमसे संपर्क करें

त्वरित संपर्क

वीडियो जल्द ही अपडेट किया जाएगा

हम इस समय परियोजनाओं में बहुत व्यस्त हैं