GH GambleHub

Λειτουργίες και Μετρήσεις Ελέγχου Διαχείρισης και ΣΔΠ

Μετρήσεις ελέγχου και SLA

1) Γιατί το χρειάζεστε

Εάν οι μετρήσεις είναι εσφαλμένες - οι αποφάσεις θα είναι εσφαλμένες, οι SLA θα παραβιάζονται «σε χαρτί» ή αντίστροφα για να αποκρύψουν προβλήματα. Οι μετρήσεις ελέγχου και οι SLA εξασφαλίζουν ότι οι υποσχέσεις προς τους χρήστες και τους εταίρους είναι συγκρίσιμες, αξιόπιστες και νομικά ασφαλείς.

Στόχοι:
  • Παρέχεται μια ενιαία «πηγή αλήθειας» (SSOT) και αναπαραγώγιμοι υπολογισμοί.
  • Μείωση των διαφορών μεταξύ ταμπλό/εκθέσεων/τιμολόγησης.
  • Να καταστούν οι SLA τεκμηριωμένες.
  • Ανίχνευση αποικοδόμησης στις μετρήσεις ήδη από τις υπηρεσίες.

2) Βασικές έννοιες και όρια ευθύνης

Μετρημένη ποσότητα (RPS, p95, CR, GGR, ποσοστό επιτυχίας).
KPI/OKR: στόχοι με τους οποίους συνδέονται οι μετρήσεις.
SLO: στοχευόμενη ποιότητα εξυπηρέτησης (π.χ. "p99 ≤ 400 ms 99. 9% του χρόνου").
SLA: εξωτερική υπόσχεση· νομικά σημαντική, με βάση την SLO.
OLA: εσωτερική συμφωνία μεταξύ ομάδων/πωλητών, υποστηρίζει την SLA.
SSOT: σύστημα/αποθήκευση των οποίων τα δεδομένα θεωρούνται στοιχεία αναφοράς για την υποβολή εκθέσεων.

3) Ταξινόμηση των μετρήσεων (στρώματα)

1. Υποδομή: CPU/Μνήμη/IO/Net, λοβός/κόμβοι, HPA/VPA.
2. Πλατφόρμα: ουρές/ρεύματα (lag, throughput), DB/caches (συνδέσεις, hit), API (p95/p99, 5xx).
3. Επιχειρηματικές ροές: καταθέσεις/αναλήψεις, στοιχήματα, εγκαίνια παιχνιδιών, εγκρίσεις, KYC.
4. Προϊόν/μάρκετινγκ: μετατροπές, ARPPU/LTV, εκστρατείες.
5. Ποιότητα των διαδικασιών: MTTA/MTTR, ρυθμός αστοχίας αλλαγής, κάλυψη λίστας ελέγχου.

Κανόνας: Κάθε μέτρηση πρέπει να έχει στρώμα, ιδιοκτήτη και τύπο.

4) Πηγές δεδομένων και «αληθή»

Ηλεκτρονική τηλεμετρία: Prometheus/Otel, logs (ELK/ClickHouse), ίχνη.
Εκδηλώσεις και λογιστική: Kafka/Outbox, DWH/data marts (BigQuery/ClickHouse).
Χειροκίνητα τεχνουργήματα: νεκροψίες, εισιτήρια, μητρώα συμβάντων.
Εξωτερικά μητρώα: εκθέσεις παρόχων (PSP/KYC/studios), τιμολόγηση.

Επίλυση συγκρούσεων: σε περίπτωση διαφορών «online έναντι DWH», εφαρμόζεται ο κανονισμός προτεραιότητας (για παράδειγμα, για SLA - συγκεντρωτικά στοιχεία από DWH με ανιχνευσιμότητα πηγής).

5) Διαδικασία ελέγχου μετρικών στοιχείων (βρόχος ελέγχου)

1. Απογραφή: κατάλογος μετρήσεων/SLO/SLA (όνομα, ιδιοκτήτης, στρώμα, τύπος, πηγή, συχνότητα υπολογισμού).
2. Επαλήθευση τύπου: αντιπαραβολή των ερωτημάτων SQL/promo με τον ορισμό (δοκιμές μονάδας υπολογισμών).
3. Δειγματοληψία και επανέλεγχος: δειγματοληψία συμβάντων/γραμμών καταγραφής και χειροκίνητη αντιπαραβολή.
4. Χαρτογράφηση περιγράμματος: σύγκριση επιγραμμικών ταμπλό και εκθέσεων DWH.
5. Έλεγχος αλλαγής: αναθεώρηση τύπου για τις εκδόσεις σχήματος/λογικής.
6. Έλεγχος SLA: επαλήθευση της ορθότητας των συγκροτημάτων και εξαιρέσεων (προγραμματισμένη συντήρηση, ανωτέρα βία).
7. Έκθεση και βελτιώσεις: κατάλογος των διαπιστωθεισών αποκλίσεων και καθορισμών με προθεσμίες.

6) Ορισμοί και τύποι (δείγματα)

Ποσοστό επιτυχίας (API):
  • 'success = αιτήσεις - (5xx + timeouts + circuit_open)'
  • 'success _ rate = επιτυχία/αιτήματα'
Καθυστέρηση p95/p99:
  • Το SSOT καταγράφει έναν ενιαίο ορισμό του παραθύρου (κύλιση 5m/1h) και της συγκέντρωσης (HDR/TDigest).
SLO (παράδειγμα):
  • «SLO _ διαθεσιμότητα _ μήνα = (uptime - επιτρεπόμενες _ εξαιρέσεις )/total _ time»
SLA (παράδειγμα παρόχου):
  • "SLA _ μήνας = 99. 90% ανά παράθυρο UTC, εξαιρουμένων των προγραμματισμένων παραθύρων (κοινοποίηση T-48), των αποδεδειγμένων ατυχημάτων στις επιχειρήσεις διαμετακόμισης (έγγραφα) "

7) Ποιότητα δεδομένων: έλεγχοι και προειδοποιήσεις

Έλεγχοι ποιότητας:
  • (πληρότητα): 'παραλήφθηκε _ εκδηλώσεις/ 0. 99`.
  • Επικαιρότητα: καθυστέρηση φόρτωσης ≤ N λεπτά.
  • Μοναδικότητα: χωρίς διπλά κλειδιά (idempotency-key).
  • Συνέπεια - Ποσά/νόμισμα/χαρακτήρες.
  • Γραμμικότητα - Οι μετρητές δεν «γυρίζουν πίσω».
Προειδοποιήσεις σχετικά με την ποιότητα των μετρήσεων (ιδέες):

ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8) Έλεγχος SLA/OLA: Μεθοδολογία

1. Συλλέξτε ένα ημερολόγιο εξαιρέσεων: προγραμματισμένα παράθυρα, συμφωνημένη υποβάθμιση, πράξεις πωλητών.
2. Υπολογισμός του χρόνου ανόδου: σύμφωνα με ενιαία χρονική ζώνη, με βάση το SSOT.
3. Συμφιλίωση με περιστατικά: χρονοδιάγραμμα, εισιτήρια, νεκροψίες.
4. Απόδοση: αστοχίες, πάροχος, διαμετακόμιση, DDoS, συντήρηση ρουτίνας.
5. Περίμετρο SLA: εμπειρία χρήστη (E2E) έναντι ενός συγκεκριμένου API.
6. Παροχή στοιχείων: μηνιαία/τριμηνιαία έκθεση: πραγματικές, αποκλίσεις, αντισταθμίσεις (κατά περίπτωση), διορθωτικά μέτρα.

9) Έλεγχος της αναπαραγωγιμότητας υπολογισμού

Έκδοση τύπου: αποθετήριο Git με προδιαγραφές SQL/PromQL/δεξαμενή.
Δοκιμές μονάδας μετρήσεων: σε συνθετικά δεδομένα (περιπτώσεις ακμών: κενά, επαναλήψεις, όρια ημερομηνίας).
Γραμμή δεδομένων: από το ταμπλό πίσω στους πίνακες πηγής και τα γεγονότα.
Στιγμιότυπα: δεδομένα κατάψυξης για αποκοπή, έτσι ώστε οι επανακαθορισμοί να είναι συγκρίσιμοι.

10) Δειγματοληψία

Ημερήσια: 10-20 γεγονότα ανά ροή κλειδιών (κατάθεση/επιτόκιο/CCL) - χειροκίνητη επαλήθευση ιχνηλάτησης ↔ DWH.
Εβδομαδιαία: δείγμα 1% για σύγκριση «online έναντι DWH» σε όλα τα συγκεντρωτικά μεγέθη.
Μηνιαία: σειρά συμβάντων με φαινόμενο SLA - λεπτομερής ανακατασκευή.

Υπόδειγμα έκθεσης δείγματος (σύντομη):

Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11) Έλεγχος πινάκων και προειδοποιήσεων

Ενοποιημένο λεξικό των μετρικών: γλωσσάριο δεξιά στο ταμπλό.
Σχολιασμοί των κυκλοφοριών/γεγονότων: για να δούμε την αιτία των αποκλίσεων.
Σύγκριση πριν/μετά την απελευθέρωση: πίνακες αυτόματης παλινδρόμησης.
Διπλά/ασυμφωνίες: προσδιορισμός «δύο διαφορετικών p99s» - τύπων επεξεργασίας/παραθύρων.
Διαθεσιμότητα πάνελ: δικαιώματα, αποθεματικό, έλεγχος σύνδεσης/έκδοσης.

12) Διαχείριση μετρικών αλλαγών

Διαδικασία RFC - Τύπος αλλαγής/παράθυρο/πηγή - μέσω RFC με αξιολόγηση επιπτώσεων SLA/υποβολή εκθέσεων

Μετανάστευση «επέκταση → μετάβαση → συμβόλαιο»: προσωρινή διατήρηση και των δύο εκδόσεων, σύγκριση, στη συνέχεια απενεργοποίηση της παλαιάς.
Ανακοινώσεις: γνωστοποίηση του προϊόντος/της επιχείρησης πριν από τις μεταβολές των τιμών «σύμφωνα με τη νέα μέθοδο».

13) Προδιαγραφές iGaming/fintech

Κορυφές ζήτησης: οι μετρήσεις πρέπει να αντέχουν εκρηκτικά φορτία (οι συγκεντρώσεις δεν «κολλούν»).
Πάροχοι: Η SLA εξαρτάται από τους πωλητές της OLA → αποθηκεύουν τις αναφορές, τις καταστάσεις συμβάντων και τις ποσοστώσεις τους.
Κόστος: «κόστος _ ανά _ 1k _ κλήσεις» και «κόστος επιτυχίας» είναι υποχρεωτικές ομάδες.
Καταπολέμηση της απάτης/κίνδυνος: ευαισθησία σε καθυστερήσεις και «ψευδώς θετικά» των μετρήσεων.

14) Πίνακες ελέγχου (ελάχιστο σύνολο)

Μέτρηση υγείας: πληρότητα/επικαιρότητα/αντίγραφα, κατάποση-υστέρηση, ошибки ETL.
SLO/SLA Στοιχεία: υπολογιζόμενη SLO, πραγματική SLA, εξαιρέσεις, αναφορές σε περιστατικά/πράξεις.
Online vs DWH Σύγκριση: Ποσοστό p95/p99/Success, αποκλίσεις και τάσεις.
Πωλητής SLA: uptime/ποσοστώσεις/χρονοδιαγράμματα/κόστος ανά πάροχο.
Επίδραση απελευθέρωσης: παλινδρόμηση μετρήσεων μετά από υπολογισμούς/συμπερίληψη χαρακτηριστικών.

15) Κατάλογος ελέγχου (λειτουργικός)

  • Ο κατάλογος μετρήσεων/SLO/SLA με ιδιοκτήτες και τύπους είναι ενημερωμένος.
  • Το SSOT ορίζεται για κάθε έκθεση/ομάδα.
  • Οι δοκιμές μονάδας των τύπων είναι πράσινες, οι αγωγοί υπολογισμού τεκμηριώνονται.
  • Οι προειδοποιήσεις ποιότητας δεδομένων είναι ενεργές (πληρότητα/χρονοδιάγραμμα/αντίγραφα).
  • Απόκλιση «Online έναντι DWH» ≤ αποδεκτό όριο (π.χ. ≤2%).
  • Οι εγκεκριμένες εξαιρέσεις SLA τεκμηριώνονται και επισυνάπτονται στην έκθεση.
  • Ελήφθησαν δείγματα ελέγχου και συντάχθηκαν πιστοποιητικά.
  • Όλες οι αλλαγές φόρμουλα έχουν περάσει από RFC και μετανάστευση.

16) Παραδείγματα (θραύσματα)

PromQL - σύγκριση πριν/μετά την απελευθέρωση p99:

api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL - Έλεγχος πληρότητας γεγονότων:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Κανόνας συναγερμού - απόκλιση περιγράμματος:

ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17) Αντι-μοτίβα

Δύο διαφορετικοί «ίδιοι» μετρικοί τύποι σε διαφορετικά πάνελ.
Αλλαγή της μέτρησης χωρίς μετάβαση και κοινοποίηση - «άλματα» σε OKR/SLA.
Αναφορές στο τοπικό Excel ως «αληθές» (μη αναπαραγώγιμο).
Ανάμειξη χρονικών ζωνών και ημερολογίων στους υπολογισμούς SLA.
Οι εξαιρέσεις SLA δεν τεκμηριώνονται.
Δεν υπάρχουν προειδοποιήσεις σχετικά με την ποιότητα των μετρήσεων.

18) Διάρκεια μέτρησης KPI

Ρυθμός μετατόπισης Online↔DWH (στόχος ≤2%).
Metrics Health Uptime.
Τύπος time-to-Fix.
Ποσοστό διαφορών SLA.
Κάλυψη SLO/SLA (αναλογία κρίσιμων διαδρομών με επίσημα περιγραφόμενες SLO/SLA).

19) Ρόλοι και αρμοδιότητες

Ιδιοκτήτης της μέτρησης/υπηρεσίας: τύπος, πηγή, ταμπλό, προειδοποιήσεις.
Παρατηρησιμότητα/SRE: SSOT/πλατφόρμα, δοκιμές τύπου, προειδοποιήσεις ποιότητας δεδομένων.
Data/BI: DWH, αναφορά αναπαραγωγιμότητας, γενεαλογίας.
Δικηγόροι/διαχειριστές εταίρων: συμφωνίες και εξαιρέσεις SLA.
Διαχειριστής συμβάντων: Απόδοση και σύνδεση συμβάντων SLA.

20) Ταχεία έναρξη (30 ημέρες)

Εβδομάδα 1: Μέτρηση αποθεμάτων/SLO/SLA και ιδιοκτήτες· εκχώρηση SSOT.
Εβδομάδα 2: Συμπεριλαμβάνονται οι ειδοποιήσεις για την ποιότητα των δεδομένων και η ομάδα «Online vs DWH».
Εβδομάδα 3: διεξαγωγή δειγμάτων ελέγχου, ευθυγράμμιση p95/p99 παράθυρο.
Εβδομάδα 4: επισημοποίηση της διαδικασίας RFC για τύπους, προετοιμασία μηνιαίας έκθεσης SLA με συνημμένα.

21) ΣΥΧΝΈΣ ΕΡΩΤΉΣΕΙΣ

Ε: Τι είναι το SSOT για το SLA

A: Αποθήκευση με αναπαραγώγιμους υπολογισμούς (DWH) και πλήρη γενεαλογία. διαδικτυακές επιτροπές - για επιχειρησιακό έλεγχο και όχι για νομικές πράξεις.

Ε: Πώς θα αντιμετωπίσουμε τα «δύο p99»

Α: Διορθώστε τη μέθοδο παραθύρου/συνάθροισης στον κατάλογο μετρήσεων, μετακινήστε πίνακες, προσθέστε συναγερμό στη μετατόπιση.

Ε: Πώς να εξετάσετε τις προγραμματισμένες εργασίες

Α: Διατήρηση χρονοδιαγράμματος εξαιρέσεων και αυτόματη αφαίρεσή τους από τον SLA σύμφωνα με τους κανόνες της σύμβασης. αποθηκεύουν επιβεβαιωτικά αντικείμενα.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Telegram
@Gamble_GC
Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.