Συμπίεση αναλυτικών δεδομένων

1) Γιατί συμπιέζονται τα αναλυτικά δεδομένα

Η συμπίεση μειώνει την αποθήκευση και την κυκλοφορία, τις σαρώσεις ταχύτητας με λιγότερη IO και καλύτερη αποθήκευση. Η τιμή είναι η ΚΜΕ και (μερικές φορές) η πολυπλοκότητα των επικαιροποιήσεων. Ο στόχος είναι η βέλτιστη «IO↔CPU↔tochnost↔stoimost» για τους SLO σας.

Βασικές μετρήσεις:

Λόγος συμπίεσης (CR) = 'raw _ size/ compressed_size'.
Κόστος σάρωσης ≈ bytes_scanned/ throughput_storage + cpu_decode_time'.
Συνολικό κόστος = "αποθήκευση _ κόστος + compute_cost + egress_cost'.

2) Στρώματα όπου ζει η συμπίεση

1. Σε επίπεδο μορφοτύπου: Parquet/ORC/Avro (σελίδες/ρίγες/στήλες).
2. Στο επίπεδο κωδικοποίησης της στήλης: Λεξικό, RLE, Δέλτα, FoR/Bit-packing, Gorilla/XOR.
3. Σε επίπεδο κωδικοποιητή: ZSTD, Snappy, LZ4, Gzip.
4. Στο επίπεδο ερωτήματος/κινητήρα: διανυσματικοποίηση, παραλείψιμο σελίδας (min/max), άνθηση/χάρτης ζώνης.
5. Στο επίπεδο αποθήκευσης: κλιμακωτή αποθήκευση (ζεστή/ζεστή/ψυχρή), συμπίεση, μνήμη σελίδας.

3) Μορφότυποι στήλης και τα πλεονεκτήματά τους

Παρκέτα: σελίδες στήλης. υποστήριξη λεξικού, RLE/Bit-packing, min/max στατιστικές και μηδενικός αριθμός.
ORC: ταινίες με δείκτες σε ρεύματα, φίλτρα άνθησης· αποτελεσματική για μακροχρόνιες σαρώσεις.
Avro (σειρά): βολικό για ροή/κορμούς, χειρότερο για αναλυτικές σαρώσεις.

Πρακτική: Για προεπιλεγμένη ανάλυση, χρησιμοποιήστε Parquet/ORC, συμπεριλάβετε στατιστικά στήλης και λεξικό όπου η πληθικότητα είναι χαμηλή/μέτρια.

4) Κωδικοποιήσεις στήλης (χωρίς απώλεια)

Το λεξικό αντικαθιστά τις τιμές με δείκτες (ιδανικό για χαμηλή πληθικότητα).
RLE (κωδικοποίηση μήκους λειτουργίας) - διπλές τιμές → (τιμή, εκτέλεση). Καλό για τις ταξινομημένες/ομαδοποιημένες στήλες.
Delta/Delta-of-Delta: αποθηκεύει διαφορές (αριθμοί/φορές).
FoR (πλαίσιο αναφοράς) + συσκευασία bit: τιμή = βάση + όφσετ· η όφσετ είναι συσκευασμένη με N bits.
Γορίλα/XOR (Χρονολογικές σειρές): αποθηκεύει XOR γειτονικών τιμών με μεταβλητό μήκος. καλό για τις μετρήσεις.
Εκμηδενιζόμενο bitmasks: μια ξεχωριστή ροή μηδενικών αυξάνει το CR.

Συμβουλή: Η προ-ομαδοποίηση/διήθηση βασικής διαλογής βελτιώνει δραματικά τους χάρτες RLE/ζώνης και CR.

5) Κώδικες γενικού σκοπού

ZSTD: καλύτερη CR σε μέτρια τιμή CPU· υποστηρίζει τα επίπεδα 1-22. Καθολική επιλογή.
Γρήγορη, χαμηλή CR. κατάλληλη για θερμά δεδομένα με υψηλή συχνότητα ανάγνωσης.
: Snappy ακόμη γρηγορότερα, παρόμοια CR? συχνά - για ροή/κούτσουρα/κρύπτες.
Gzip/Deflate: υψηλή CR, υψηλή τιμή CPU· σπάνια αιτιολογείται στη διαδραστική ανάλυση.

Κανόνας: θερμό στρώμα - Snappy/LZ4, ζεστό/κρύο - ZSTD (επίπεδο 3-7).

6) Χρονολογικές σειρές και αρχεία καταγραφής

Βάσεις δεδομένων TSDB/στήλης: Gorilla/XOR, Delta-RLE-Bitmap, Sparse-run για σπάνια σήματα.
Αρχεία καταγραφής: JSON→Parquet + ZSTD· κανονικοποιούν τα κλειδιά και τους τύπους (δεν αποθηκεύουν «string int»).
downsampling and roll-ups (lossy): μονάδες αποθήκευσης με παράθυρα (1m/5m/1h) σε θερμό στρώμα· ακατέργαστο - σε κρύο.
Δομές σχεδίασης: HLL (πληθικότητα), TDiest/KLL (ποσοτικά στοιχεία), CMS (συχνότητες) - συμπαγείς, αλλά κατά προσέγγιση.

7) Lossless vs Lossy (όταν μπορείτε να χάσετε την ακρίβεια)

Άνευ ζημίας - υποβολή εκθέσεων, χρηματοδότηση, λογιστικός έλεγχος.
Lossy - παρακολούθηση, A/B analytics σε μεγάλα παράθυρα, τηλεμετρία (με ρητή σήμανση!).
Έλεγχος ποιότητας: καθορισμός της ανοχής (π.χ. P99 ± 0. 5 εκατοστιαίες μονάδες) και ελέγξτε το σε CI.

8) Κατάτμηση, σελίδες και συμπίεση

Μέρη: κατά ημερομηνία/περιφέρεια/ενοικιαστή → λιγότερες σαρώσεις, καλύτερη CR.
Μέγεθος σελίδας/λωρίδα: 64-256 KB ανά σελίδα, 64-512 MB ανά αρχείο - ισορροπία μεταξύ αναζήτησης και ΚΜΕ.
Συμπίεση: συνδυάστε το πρόβλημα των μικρών αρχείων - πάνω από το ΣΣ και την ταχύτητα.
Χάρτες ζώνης/Bloom: επιτάχυνση σελίδων skips. αποτελεσματικό στη διαλογή με φίλτρα.

9) Συμπίεση και κρυπτογράφηση/ιδιωτικότητα

Σειρά λειτουργιών: πρώτη συμπίεση και μετά κρυπτογράφηση. Διαφορετικά, ΣΣ ≈ 1.
Το TDE/σε ηρεμία δεν παρεμβαίνει στο CR (ένα ήδη συμπιεσμένο μπλοκ είναι κρυπτογραφημένο).
Η διαμετακόμιση (TLS) δεν επηρεάζει το μορφότυπο.
Η συγκάλυψη PII/μαρκινοποίηση πριν από τη συμπίεση διατηρεί την εντροπία διαχειρίσιμη.
Προσοχή στην κρυπτογράφηση ΔΔΚ/DET: μπορεί να υποβαθμίσει τον κίνδυνο ΣΣ ή/και την προστασία της ιδιωτικής ζωής.

10) Κόστος και SLO (οικονομικά)

Αποθήκευση: λιγότερες ψηφιολέξεις → λιγότερες από $/TB-mo.
Υπολογισμός: λιγότερες IO → ταχύτερες σαρώσεις. αλλά η αποσυμπίεση σπαταλά ΚΜΕ.
Έξοδος: λιγότερες ψηφιολέξεις → χαμηλότερο χρόνο κυκλοφορίας/αντιγραφής.
Συμβιβασμός SLO: αντιστοιχεί στον κωδικοποιητή/επίπεδο έτσι ώστε το 'p95 _ latency' να παραμένει στο παράθυρο-στόχο.

Παράδειγμα πολιτικής (ψευδο-YAML):

yaml hot:
format: parquet codec: snappy target_p95_ms: 1000 max_scan_mb: 2048 warm:
format: parquet codec: zstd:4 target_p95_ms: 2500 compaction: daily cold:
format: parquet codec: zstd:7 glacier: true retention: 365d

11) Πρακτικές για κινητήρες (ClickHouse/Snowflake/BigQuery/Redshift/Presto)

ClickHouse: CODEC 'and on speakers (LZ4/ZSTD/DoubleDelta), ORDER BY for RLE/scans, TTL/συμπίεση.
Snowflake/BigQuery: αυτοματοποίηση μορφής/συσπείρωσης. διασπορά βοήθειας έως (ημερομηνία, ενοικιαστής, κλειδιά φίλτρου).
Redshift/Presto/Trino: Parquet/ORC με ZSTD, setting 'hive. compress. έξοδος ', στατιστικές και διαχωρισμός αρχείων.

12) Αγωγοί: πού να συμπεριληφθεί η συμπίεση

Κατάποση: συμπιεσμένες παρτίδες (ZSTD/LZ4) όταν γράφεται στη λίμνη.
Μετασχηματισμός/DBT: δημιουργία στόχων στήλης με τον επιθυμητό κωδικοποιητή και διαλογή.
Σερβίρετε/OLAP: υλοποιημένες απόψεις με κατάλληλο κωδικοποιητή. προ-συγκεντρωτικά στοιχεία για θερμό ταμπλό.
Εξαγωγή: для CSV/JSON - gzip/zstd. καλύτερα να δώσεις στον Παρκέ.

13) Δοκιμή και επικύρωση

AB profiling: ένα σύνολο αιτημάτων → σύγκριση p50/p95, bytes scanned, CPU time, CR.
Χρυσά σύνολα: έλεγχος ορθότητας μετά την επανακωδικοποίηση/συμπίεση.
Δοκιμές περιοχής perf: προειδοποιήσεις εάν p95 ↑> X% μετά την αλλαγή επιπέδου κωδικοποιητή.
Κανόνες DQ: οι τύποι/κλίμακες/ρυθμός NULL δεν πρέπει να μεταβάλλονται κατά την επαναφόρτωση.

14) Πολιτικές διατήρησης και ΤΤΛ

Βαθμίδα: ζεστό (7- 14 ημέρες), ζεστό (30- 90 ημέρες), κρύο (≥180 ημέρες).
Μείωση της δειγματοληψίας: Καθώς «ψύχετε», αποθηκεύετε μονάδες/σκίτσα αντί για ωμά.
Διατήρηση/Νομικό καθεστώς: μην εξαλείφετε τις συγκρούσεις με τους κανονισμούς. αποθηκεύουν καταλόγους και εκδόσεις.

15) Αντιπατερίδια

«Παντού Gzip επίπεδο 9 «: ακριβή ΚΜΕ, κανένα όφελος.
Καμία διαλογή/ομαδοποίηση: κακή RLE/χάρτες ζώνης → ακριβές σαρώσεις.
JSON ως μορφή αποθήκευσης: βολικό για κατάποση, κακό για την αναλυτική.
Πολύ μικρά αρχεία: φουσκωτά μεταδεδομένα/αναζήτηση; Το CR πέφτει.
Κρυπτογράφηση πριν από τη συμπίεση: Σχεδόν μηδέν CR.
Lossy unmarked: παραβίαση της εμπιστοσύνης και λογοδοσία.

16) Χάρτης πορείας για την εφαρμογή

1. Ανακάλυψη: ερωτήματα/προφίλ δεδομένων, SLO και προϋπολογισμοί.
2. MVP: Parquet + ZSTD/Snappy, βασική διαλογή/ομαδοποίηση, συμπίεση.
3. Ρύθμιση: επίπεδα ZSTD, μεγέθη σελίδων, δέσμη από, ανθοφορία/χάρτες ζώνης.
4. Θερμή/ψυχρή: κλιμακωτή αποθήκευση, κατολίσθηση/σκίτσα, πολιτικές εξόδου.
5. Σκλήρυνση: δοκιμές παλινδρόμησης perf, DQ, transcoding runbooks.

17) Κατάλογος ελέγχου πριν από την αποδέσμευση

Μορφή: Parquet/ORC. περιλαμβανομένων στατιστικών/λεξικών.
Ομαδοποίηση με φιλτράρισμα κλειδιών. τα μέρη κατά ημερομηνία/μισθωτή.
Κωδικοποιητές: ζεστό = Snappy/LZ4, ζεστό/κρύο = ZSTD (3-7). Το p95 είναι φυσιολογικό.
Δημιουργείται συμπίεση. δεν υπάρχουν μικρά αρχεία· μεγέθη αρχείων/σελίδων-στόχων.
Τα DQ και τα χρυσά σύνολα είναι πράσινα. εξοικονόμηση τύπων/εύρους.
Κρυπτογράφηση μετά τη συμπίεση. Μάσκα PII; διατήρηση/νομικό καθεστώς.
Οι αναγωγές Perf παρακολουθούνται. ειδοποιήσεις με σάρωση p95/bytes/CR.
Είναι έτοιμη η τεκμηρίωση της πολιτικής αποθήκευσης και των οδηγιών κωδικοποίησης.

) Μίνι πρότυπα

DBT (Πίνακας Parquet με ZSTD και ομαδοποίηση):

sql create table if not exists analytics. sales_daily cluster by (event_date, tenant_id)
as select from {{ ref('sales_daily_view') }};
-- in model config: materialized = table, file_format=parquet, compression = zstd

Συμπαγής πολιτική (ψευδο):

yaml compaction:
target_file_mb: 256 small_file_threshold_mb: 32 schedule: "hourly"

Ρύθμιση κατολίσθησης (ψευδοδειγματοληψία):

yaml timeseries:
raw:  keep: 14d rollup_1m: keep: 90d rollup_1h: keep: 365d rollup_1d: keep: 1825d

Κάτω γραμμή: η συμπίεση αναλυτικών δεδομένων δεν είναι μόνο «ενεργοποιήστε τον κώδικα», αλλά και μια ολιστική στρατηγική: σωστή μορφή, κωδικοποίηση στηλών, διαλογή και κατάτμηση, επίπεδα συμπίεσης και αποθήκευσης, σεβασμός για κρυπτογράφηση και SLO. Ο έξυπνος σχεδιασμός παρέχει ταχύτερες σαρώσεις, χαμηλότερες μετρήσεις και προβλέψιμες επιδόσεις - χωρίς να διακυβεύεται η εμπιστοσύνη στα δεδομένα.

Συμπίεση αναλυτικών δεδομένων

Επικοινωνήστε μαζί μας

Γρήγορη επικοινωνία

Το βίντεο θα ενημερωθεί σύντομα

Αυτή τη στιγμή είμαστε πολύ απασχολημένοι με έργα