Κατανομή σημάτων και μετρήσεων
(Τμήμα: Οικοσύστημα και Δίκτυο)
1) Σκοπός και περιοχή
Η διανομή σημάτων και μετρικών είναι ένας συνεπής τρόπος συλλογής, ομαλοποίησης και παράδοσης τηλεμετρίας (γεγονότα, μετρήσεις, αρχεία καταγραφής, ίχνη, κατάσταση υγείας) σε όλους τους ενδιαφερόμενους συμμετέχοντες: φορείς εκμετάλλευσης, πάροχοι περιεχομένου, υπηρεσίες πληρωμών/CCM, γέφυρες, κόμβους δικτύου, θυγατρικές και ομάδες SRE/BI/Συμμόρφωση. Στόχοι:- Ενοποιημένη γλώσσα τηλεμετρίας και συμβάσεις δεδομένων.
- Διαχείριση καναλιών QoS: προτεραιότητα κρίσιμων σημάτων.
- Διαφανής προειδοποίηση SLI/SLO και προβλέψιμη προειδοποίηση.
- Μετρήσεις της ιδιωτικής ζωής, της απομόνωσης και της εξοικονόμησης πόρων.
2) Ταξινόμηση σημάτων
1. Επιχειρηματικές εκδηλώσεις: επί του σκάφους, καταθέσεις/πληρωμές, εκδηλώσεις τυχερών παιχνιδιών, απόδοση.
2. Τεχνολογικές μετρήσεις: κωδικός καθυστέρησης/απόδοσης/σφάλματος, σειρά αναμονής, CPU/RAM/IO χρήση.
3. Καταχωρίσεις: δομημένες καταχωρήσεις σχετικά με λειτουργίες και σφάλματα.
4. Ίχνη: ερωτήματα/θεματικά πεδία, συσχέτιση λυκίσκου-λυκίσκου.
5. Κατάσταση υγείας: συνθετικοί καθετήρες, ετοιμότητα/ζωντάνια, καρδιακοί παλμοί.
6. Σήματα κινδύνου/συμμόρφωσης: επιτυχίες KYC/KYB/AML, γεγονότα κυρώσεων.
Κάθε κατηγορία έχει το δικό της επίπεδο κρισιμότητας και πολιτική αποθήκευσης/παράδοσης.
3) Αρχιτεκτονική διανομής (παραπομπή)
Συλλέκτες ακμών (SDK/πράκτορες) Εισερχόμενοι (HTTP/OTLP/gRPC/QUIC) Επεξεργαστές λεωφορείων (Kafka/Pulsar) Αποθήκευση (TSDB για μετρήσεις, αντικείμενο/στήλη - για logs/events, tracer) Showcases/ταμπλό/ειδοποιήσεις.
Πολυπλοκότητα: χώρος ονομάτων/αριθμός μίσθωσης σε κλειδιά, ατομική ποσόστωση/όρια/ACL.
Κατάτμηση QoS: κρίσιμη (P0), σημαντική (P1), υποβάθρου (P2).
Έξοδος: συνδρομητές (Ops/BI/τρίτο μέρος) μέσω συνδρομών σε θέματα και πραγματικών απόψεων.
4) Συμβάσεις και συστήματα (γεγονότα/μετρήσεις/μονοπάτια)
4. 1 Γεγονότα (απλοποιημένα, YAML)
yaml event:
id: uuid kind: business ops risk ts: timestamp # ISO8601 tenant: string # org_id/namespace source: string # service/peer-id trace_id: string type: string # deposit. created payout. failed probe. ok...
attrs: object # semantic fields (no PII)
severity: info warn error critical qos: P0 P1 P2
4. 2 Μετρήσεις (OpenMetrics/OTLP)
Gauge/Counter/Histogram με σταθερές ετικέτες (περιορισμένη πληθικότητα).
Αναγνωριστικά: 'metric _ name {service, region, rentant, version, route}'.
Ιστόγραμμα για την καθυστέρηση/διαστάσεις αντί του p99 στον κωδικό.
4. 3 Μονοπάτια
Τα απαιτούμενα πεδία είναι «trace _ i ,» span _ i , «parent _ id», «service», «peer», «route», «qos».
Σύνδεσμοι μεταξύ τομέων (καταναλωτής/παραγωγός) και λυκίσκου δικτύου (αναμεταδότης/γέφυρα).
5) QoS και ιεράρχηση προτεραιοτήτων
P0 (κρίσιμη): πληρωμές/πληρωμές SLI, κατάσταση γέφυρας/κόμβου, SLO επιτοκίου καύσης → αυστηρή παράδοση (acks, retribes, idempotency), ελάχιστα χρονοδιαγράμματα.
P1 (σημαντικό): εκδηλώσεις προϊόντων/βασικές μετρήσεις → εγγυημένη παράδοση εντός της SLO.
P2 (φόντο): λεπτομερή αρχεία καταγραφής, αποσφαλμάτωση → βέλτιστη προσπάθεια, μπορείτε να πέσετε όταν υπερφορτωθείτε.
Πολιτικοί: διαφορετικές ουρές, ποσόστωση για τους παραγωγούς, οπισθοδρόμηση, όρια επιτοκίων, παππούς «idempotency _ key».
6) Προϋπολογισμός για την καρδινότητα και τις μετρήσεις
6 ετικέτες: όχι περισσότερα από 6 πλήκτρα ανά μέτρηση, σταθερά λεξικά τιμών.
Καρδινότητα ≤ 10k χρονολογικές σειρές/μετρικός/ενοικιαστής.
Δειγματοληψία: με κεφαλή/ουρά για ίχνη. μείωση της δειγματοληψίας 10s→1m→5m→1h μετρήσεις.
Ποσοστώσεις: όρια σημείων/sec και bytes/sec ανά σκηνή και ανά κατηγορία QoS.
Συστήματα Linter: απορρίπτει μετρήσεις με ετικέτες «έκρηξης» (id, email, ip κ.λπ.).
7) Συλλογή και παράδοση: ώθηση εναντίον έλξης
Push (OTLP/StatsD/HTTP): ευελιξία, κινητοί/ακροδεξιοί πελάτες, κανάλια P0.
Έλξη (Προμηθέας): εσωτερική υποδομή, προβλέψιμοι στόχοι.
Υβριδικό: exporters→gateway→TSDB, Ομόσπονδα δένδρα για περιοχές.
Μεταφορές: QUIC/HTTP/2, συμπίεση, butching, TLS/mTLS, retrai with jitter.
8) SLI/SLO και προειδοποίηση
8. 1 Βασικά SLI
Διαθεσιμότητα% τελικών σημείων/πύλες,
Latency p50/p95/p99 σε κρίσιμες διαδρομές,
ποσοστό σφάλματος (5xx/timeout/ματαίωση),
υστέρηση παράδοσης ανά λεωφορείο, βάθος αναμονής,
Φρεσκάδα των παραθύρων των καταστημάτων (ingest→serve καθυστέρηση).
8. 2 παραδείγματα SLO
P0 αγωγοί: Διαθεσιμότητα ≥ 99. 95%, p99 καθυστέρηση ≤ 400 мс, καθυστέρηση παράδοσης p95 ≤ 2 с.
Δ1: Διαθεσιμότητα 99 ευρώ. 9%, φρεσκάδα p95 ≤ 3 λεπτά.
P2: Φρεσκάδα p95 ≤ 15 мин, χωρίς σελίδα.
8. 3 Προειδοποιήσεις επιτοκίου καύσης (παράδειγμα)
παράθυρο 2 ωρών: 'erry _ budget _ burn ≥ 2 ×' → page.
παράθυρο 6 ωρών: 'erry _ budget _ burn ≥ 1 ×' → σελίδα/κλιμάκωση.
Συνδυασμός με 'queue _ lag' και 'drop _ rate' P0.
9) Θησαυροφυλάκια και συγκρατήσεις
Μετρήσεις TSDB: υψηλή συχνότητα - 7-14 ημέρες. συγκεντρωτικά μεγέθη - 6-12 μήνες
Εκδηλώσεις/κούτσουρα: αποθήκευση εν θερμώ 7-30 ημέρες, κρύο (αντικείμενο) 6-24 μήνες.
Διαδρομές: δειγματοληψία 1-10%. εξοικονόμηση «αργής/εσφαλμένης» κλίμακας (με βάση την ουρά).
Πολιτικές διαγραφής/αναθεώρησης για τις PII και τα αιτήματα των υποκειμένων των δεδομένων.
10) Προστασία της ιδιωτικής ζωής, ασφάλεια και απομόνωση
ελαχιστοποίηση PII: μαρκινοποίηση/ψευδωνυμοποίηση πεδίων, απαγόρευση «ακατέργαστων» αναγνωριστικών στις μετρήσεις.
mTLS/υπογραφές εκδηλώσεων, πλήκτρο παραγωγής.
ACL/ABAC για θέματα/υπηρεσίες/ενοικιαστές, ξεχωριστά κλειδιά για εγγραφή/ανάγνωση.
Sandboxing: λογικός/φυσικός διαχωρισμός, όρια και όριο επιτοκίου ανά ενοικιαστή.
Διαδρομή ελέγχου: αμετάβλητα αρχεία καταγραφής πρόσβασης/αλλαγών στις ρυθμίσεις.
11) Ροές επεξεργασίας (εργασίες ροής)
Εμπλουτισμός: ομαλοποίηση, γεω/έκδοση/κλάση κυκλοφορίας.
Συνολικά: παράθυρα 10s/1m/5m, ιστογράμματα, κβαντικά σχέδια.
Εντοπισμός: ανωμαλίες (EWMA/ESD), μετατόπιση κατανομών, εκρήξεις ουρών αναμονής.
Διαδρομή: fan-out to showcase/alert/webhooks partners.
Φρουρά: «κόκκινο κουμπί» - στραγγαλισμός/διακόπτης θανάτωσης ανά πηγή/θέμα.
12) Ταμπλό (διατάξεις αναφοράς)
Ops Core (ώρα/πραγματικό χρόνο): p95 καθυστέρηση, ρυθμός σφάλματος, καθυστέρηση παράδοσης, βάθος αναμονής, κατάποση ποσοστού επιτυχίας.
Αγωγοί Υγεία: φρεσκάδα ανά αγωγό, ταχύτητα πτώσης, αντίθλιψη, ρυθμός καύσης SLO.
Χρήση ενοικιαστή: σειρές/sec, bytes/sec, πληθικότητα, κορυφαία ετικέτα.
Ασφάλεια/συμμόρφωση: κατάσταση mTLS, κλείδες λήξης, προσβάσεις, αναθεωρήσεις PII.
Επιχειρηματικός φακός: μετατροπή/πληρωμή/γέφυρα SLI δίπλα σε τεχνολογικές μετρήσεις.
13) Παραδείγματα διαμόρφωσης
Κλάσεις και όρια QoS (YAML)
yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5
Μετρικές ετικέτες (Πολιτική)
yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000
Ποσοστό καύσης καταχωρίσεων
yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]
14) Σχήματα δεδομένων και ερωτήματα
Μετρικό μητρώο (κατάλογος)
sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);
Ουρές αναμονής και υστέρηση
sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;
Καρδινότητα σκηνής
sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;
15) Διαδικασίες και ρόλοι
Ιδιοκτήτης τηλεμετρίας - συστήματα/πολιτικές/ποσοστώσεις, έλεγχος της πληθικότητας.
SRE/Ops - SLO, ειδοποιήσεις, περιστατικά, κλιμάκωση.
Ασφάλεια/συμμόρφωση - κλειδιά, πρόσβαση, PII, έλεγχοι.
Product/BI - KPI showcases, analytics, A/B metrics.
Ενοικιαστές (εταίροι) - ορθή ενσωμάτωση της SDK, συμμόρφωση με τις συμβάσεις.
16) Περιστατικά του βιβλίου παιχνιδιών
Α. Έκρηξη πληθικότητας
1. Auto-block production/metrics, 2) cut off «κακές» ετικέτες, 3) retro-agregation, 4) post-mortem and linter rules.
B. Αύξηση της καθυστέρησης στη σειρά αναμονής P0
1. Συμπερίληψη προτεραιότητας, 2) επέκταση των μερών/καταναλωτών, 3) προσωρινή μείωση της δειγματοληψίας Ρ2, 4) ανάλυση σημείων συμφόρησης.
Γ. Η πτώση των καταστημάτων φρεσκάδας
1. Μετάβαση στον εφεδρικό συνδετήρα, 2) ενεργοποιήστε τη λειτουργία υποβάθμισης («τελευταία οριστικοποιημένη»), 3) ειδοποιήστε τους ιδιοκτήτες πηγής.
Διαρροή D. PII σε μετρήσεις
1. Άμεση απόφραξη ροής, 2) αναδιατύπωση σε θερμό στρώμα, 3) κοινοποίηση DPO/συμμόρφωσης, 4) ενημέρωση φακού/SDK.
E. Μαζικά σφάλματα 5xx/ιχνοστοιχεία
1. Σελίδα, 2) δειγματοληψία με βάση την ουρά ↑ για σφάλματα, 3) κρίσιμα διαγνωστικά ίχνη διαδρομής, 4) ελευθέρωση rollback/σημαία χαρακτηριστικών.
17) Κατάλογος ελέγχου εφαρμογής
1. Έγκριση συμβάσεων συμβάντων/μετρικών/ιχνοστοιχείων και κατάλογος αποδεκτών σημάτων.
2. Δημιουργία τάξεων QoS, θεμάτων/ουρών αναμονής, ποσοστώσεων και προϋπολογισμού μετρήσεων.
3. Ρυθμίστε την κατανάλωση (ώθηση/έλξη), TLS/mTLS, retrai και idempotency.
4. Συμπερίληψη καταλόγων μετρήσεων/γεγονότων και γραμμών σχήματος.
5. Ορισμός καταχωρίσεων και κλιμακώσεων SLI/SLO.
6. Κατασκευή πινάκων ταμπλό Ops/αγωγών/ενοικιαζόμενων/ασφαλειών.
7. Εκτελούνται δοκιμές χάους τηλεμετρίας (απώλεια/νευρικότητα/πρόσφυση).
8. Τακτική επανεξέταση του κόστους της πληθικότητας, της διατήρησης και της αποθήκευσης.
18) Γλωσσάριο
QoS - ποιότητα παράδοσης/κατηγορία προτεραιότητας.
Φρεσκάδα - καθυστέρηση στην εμφάνιση των δεδομένων στην έκθεση.
Ποσοστό καύσης - ποσοστό κατανάλωσης του προϋπολογισμού σφάλματος σε σχέση με την SLO.
Πληθικότητα - ο αριθμός των μοναδικών σειρών μετρήσεων (συνδυασμοί ετικετών).
Δειγματοληψία με βάση την ουρά - επιλογή «αργών/εσφαλμένων» ιχνών.
Πλήκτρο idempotency - κλειδί για την απεμπλοκή επανάληψης γεγονότων.
Κάτω γραμμή: η διανομή σημάτων και μετρήσεων δεν είναι απλώς «συλλογή και προβολή γραφημάτων», αλλά η πειθαρχία των συμβάσεων, των διαύλων QoS και των προϋπολογισμών. Ακολουθώντας αυτό το πλαίσιο, το οικοσύστημα αποκτά προβλέψιμη παρατηρησιμότητα, ανθεκτικότητα στην απότομη αύξηση των δεδομένων, ιδιωτική και χρήσιμη για τη λήψη αποφάσεων τόσο σε επιχειρησιακό όσο και σε επιχειρηματικό επίπεδο.