GH GambleHub

SLA, SLO και αξιοπιστία KPI

1) Όροι και διαφορές

SLI (δείκτης επιπέδου υπηρεσίας) - ένας μετρήσιμος δείκτης ποιότητας (για παράδειγμα, το ποσοστό των επιτυχών αιτήσεων, p95 καθυστέρηση).
SLO (Στόχος επιπέδου υπηρεσίας) - στόχος τιμή SLI ανά χρονική περίοδο (για παράδειγμα, "επιτυχία ≥ 99. 9% σε 28 ημέρες).
Σφάλμα προϋπολογισμού - Το επιτρεπόμενο ποσοστό αποτυχίας SLO είναι '1 − SLO'.
SLA (συμφωνία επιπέδου υπηρεσιών) - συμβατικές υποχρεώσεις με πρόστιμα/πιστώσεις (εξωτερικές).
KPI αξιοπιστίας - μετρήσεις επιχειρησιακής διεργασίας (MTTD/MTTA/MTTR/MTBF,% αυτόματος μετριασμός, κάλυψη συναγερμού κ.λπ.).

💡 Κανόνας: SLA ≤ SLO η εξωτερική σύμβαση δεν πρέπει να είναι αυστηρότερη από τον εσωτερικό σκοπό της υπηρεσίας.

2) Πώς να επιλέξετε SLI (βάσει Χρυσών Σημάτων)

1. Καθυστέρηση - p95/p99 για βασικά τελικά σημεία.
2. Κυκλοφορία - ροή RPS/RPM/μηνύματος.
3. Σφάλματα - το μερίδιο των σφαλμάτων 5xx/επιχειρήσεων (για παράδειγμα, αποκλείεται η μείωση της πληρωμής λόγω βλάβης των παρόχων ΥΠ).
4. Κορεσμός - κορεσμός πόρων (CPU/RAM/IO/lag).

Καλά κριτήρια SLI:
  • Συσχετίζεται με την εμπειρία του χρήστη.
  • Τεχνικώς διαθέσιμη και σταθερή μέτρηση.
  • Ελέγχουμε (είναι δυνατές οι ενέργειες βελτίωσης).
  • Χαμηλό κόστος είσπραξης.

3) Τύποι και παραδείγματα

3. 1 Διαθεσιμότητα


Availability = Успешные запросы / Все запросы
Error Budget (за период) = 1 − SLO

Παράδειγμα: SLO 99. 9% σε 30 ημέρες → προϋπολογισμός σφάλματος = 0. 1%, που ισοδυναμεί με 43 λεπτά 12 δευτερόλεπτα μη διαθεσιμότητας.

3. 2 Καθυστέρηση

Το SLO ανά καθυστέρηση διατυπώνεται ως το ποσοστό των αιτήσεων που εντάσσονται στο κατώφλι:

Latency SLI = доля запросов с duration ≤ T
SLO пример: 99% запросов ≤ 300 мс (rolling 28d)

3. 3 Πληρωμές (Επιχειρηματικό επίπεδο)


Payment Success SLI = (успешные проводки — внешние отказы PSP) / все попытки
💡 Εξαιρούνται οι «μειώσεις με κάρτα πελάτη» από τις αστοχίες εξυπηρέτησης. περιλαμβάνουν μόνο ενοχές στην πλατφόρμα.

4) Εσφαλμένος προϋπολογισμός και ποσοστό καύσης

Δημοσιονομικό σφάλμα - η «δεξαμενή καυσίμου» σας για καινοτομία (ελευθερώσεις, πειράματα).

Συντελεστής καύσης - ταχύτητα κατανάλωσης του προϋπολογισμού:
  • γρήγορο κανάλι (ανίχνευση σε ~ 1 ώρα),
  • αργό κανάλι (τάση πάνω από το ~ 6-12 h/24 h).
Ιδέες κατωφλίου:
  • Εάν ο ρυθμός καύσης είναι> 14. 4 σε 1 ώρα - SEV-1 (θα τρώμε τον ημερήσιο προϋπολογισμό σε ~ 100 λεπτά).
  • Εάν ο ρυθμός καύσης είναι> 6 σε 6 ώρες - SEV-2 (ταχεία αποικοδόμηση).

5) Προειδοποίηση SLO (πολλαπλών παραθύρων, πολλαπλών εγκαυμάτων)

Δείκτης σφάλματος: αναλογία 5xx ή παραβάσεις καθυστέρησης.

Παραδείγματα PromQL (γενικευμένα):
promql
Доля ошибок за 5 минут sum(rate(http_requests_total{status=~"5.."}[5m]))
/
sum(rate(http_requests_total[5m]))

Быстрый burn (1m окно)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14.4

Медленный burn (30m окно)
(
sum(rate(http_requests_total{status=~"5.."}[30m])) /
sum(rate(http_requests_total[30m]))
) / (1 - SLO) > 2
Για SLO κατά καθυστέρηση, χρησιμοποιήστε εκατοστημόριο ιστογράμματα:
promql p95 latency histogram_quantile(0.95, sum by (le) (rate(http_request_duration_seconds_bucket[5m])))

6) SLI/SLO Παραδείγματα ανά τομέα

6. 1 Πύλη API/Άκρο

SLI - Σφάλματα: 5xx ποσοστό απόκρισης <0. 1% (28d).
SLI-Latency: p95 ≤ 250 ms (ημέρα).
SLO: Διαθεσιμότητα ≥ 99. 95% (τρίμηνο).

6. 2 Πληρωμές

SLI-Επιτυχία: πληρωμή για επιτυχή (εξαιρουμένων των αποτυχιών πελατών) ≥ 99. 8% (28δ).
SLI-Latency: έγκριση ≤ 2 δευτερόλεπτα για 99% (ημέρα).
SLO: Time-to-Wallet p95 ≤ 3 мин (24h).

6. 3 βάσεις δεδομένων (PostgreSQL)

SLI-Lag: lag p95 ≤ 1 sec (ημέρα).
Σφάλματα SLI: Ποσοστό σφάλματος αναζήτησης ≤ 0. 05% (28δ).
Διαθεσιμότητα συστάδων SLO ≥ 99. 95%.

6. 4 Ουρές/Streaming (Κάφκα)

SLI-Lag: καταναλωτική υστέρηση p95 ≤ N μηνύματα (ώρα).
SLI-Ανθεκτικότητα - Επιβεβαιώστε ≥ 99 καταχώριση. 99% (28δ).
SLO: διαθεσιμότητα μεσιτών ≥ 99. 9%.


7) Διαδικασία αξιοπιστίας KPI

MTTD (Μέσος χρόνος ανίχνευσης)

MTTA (... Για να αναγνωρίσετε)

MTTR (... Για αποκατάσταση)

MTBF (... Μεταξύ αστοχιών)

% περιστατικών με αυτόματο μετριασμό

SLO/κάλυψη συναγερμού των κορυφαίων διαδρομών κυκλοφορίας (στόχος ≥ 95%)

Μερίδιο των εκλύσεων με καναρίνι

Κατανάλωση λανθασμένου προϋπολογισμού από ομάδες/χαρακτηριστικά


8) Πώς θα καταστεί ρεαλιστική η SLO

1. Μετρήστε την τρέχουσα βασική αξιοπιστία (3- 4 εβδομάδες).
2. Ορισμός «ευαίσθητων» διαδρομών χρήστη (σύνδεση, κατάθεση, παιχνίδι).
3. Εξετάστε το κόστος κάθε απόκλισης (χρόνος, χρήμα, φήμη).
4. Επιλογή ενός φιλόδοξου αλλά εφικτού στόχου (βελτίωση κατά 10-30% σε σχέση με τη γραμμή βάσης).
5. Επανεξέταση ανά τρίμηνο.

Αντι-μοτίβα:
  • Αμέσως «πέντε εννιάρια» χωρίς αιτιολόγηση.
  • SLO με μετρήσεις που δεν είναι ορατές από τον χρήστη (για παράδειγμα, ΚΜΕ χωρίς επικοινωνία με UX).
  • Πολύ SLO → εστίαση σπρέι.

9) SLO και υποβολή εκθέσεων προϋπολογισμού

Τυποποιημένη έκθεση (εβδομαδιαία/μηνιαία):
  • Ολοκλήρωση ανά SLO: πραγματικός στόχος έναντι στόχου, τάσεις, εμπιστοσύνη.
  • Περίληψη της κατανάλωσης σφαλμάτων: πόσος προϋπολογισμός «καίγεται» από ποιον (αποδέσμευση/συμβάν).
  • Πέντε κορυφαίες αιτίες υποβάθμισης, σχέδιο CAPA και κατάσταση εργασίας.
  • Επιχειρηματικός αντίκτυπος: μετατροπή, ND, διατήρηση, LTV.

10) Επικοινωνία με την πολιτική ελευθέρωσης

Σφάλμα προϋπολογισμού <50% → δωρεάν αποδεσμεύσεις.
50-80% → «προσεκτικός τρόπος»: μόνο υπολογισμοί χαμηλού κινδύνου/καναρινιών.

💡 80% → πάγωμα της απελευθέρωσης, εστίαση στη σταθεροποίηση και το χρέος.

) SLA (συμβατικά) - υποδείγματα στοιχείων

Υποχρέωση διαθεσιμότητας: για παράδειγμα, 99. 9 %/μήνα.
Ανωτέρα βία: το DDoS πέρα από τον εύλογο έλεγχο, τρίτοι πάροχοι.
Παράθυρο μέτρησης και πεδίο ευθύνης: πηγές μετρήσεων, μέθοδος υπολογισμού.
Πιστώσεις/κυρώσεις: πίνακας επιπέδων (π.χ. μη διαθεσιμότητα 60-120 λεπτών → πίστωση X%).
Διαδικασίες κλιμάκωσης και κοινοποίησης: προθεσμίες, δίαυλοι.
Δεδομένα και προστασία της ιδιωτικής ζωής: κάλυψη, αποθήκευση, νόμιμη λαβή.
Σχέδιο πρόληψης επαναλήψεων (CAPA) σε περίπτωση παραβίασης.

💡 Ο εξωτερικός SLA θα πρέπει να αναφέρεται σε ειδικά, επαληθεύσιμα SLI και μεθοδολογία υπολογισμού.

12) Εργαλεία μέτρησης

Παθητικές μετρήσεις: Προμηθέας/Μιμίρ/Θάνος, εξαγωγείς.
Καταγραφές: Loki/ELK για τη μέτρηση των επιτυχιών/σφαλμάτων σε επιχειρηματικό επίπεδο.
Συνθετικά: ενεργά δείγματα (login/deposit/game) ανά cron.
Εντοπισμός: Tempo/Jaeger για σημεία συμφόρησης p99.
Πληρωμή/Χρηματοδότηση: πηγές αλήθειας εδάφους για την πληρωμή SLI.


13) Παραδείγματα ερωτημάτων (υποδείγματα)

Ποσοστό επιτυχών αιτήσεων API (εξαιρουμένου του 4xx ως πελάτη):
promql
1 - (
sum(rate(http_requests_total{status=~"5.."}[5m]))
/ sum(rate(http_requests_total[5m]))
)
Κάρτα SLO:
yaml slo:
name: "API Availability"
window: "28d"
target: 0.999 sli: "1 - 5xx%"
owner: "Platform SRE"
alerting:
fast_burn: {window: "1h", factor: 14.4}
slow_burn: {window: "6h", factor: 6}
Επιτυχία πληρωμών (για επιχειρηματικές εκδηλώσεις σε κορμούς/ροές):

success_rate = (count_over_time({app="payments"}     = "status=success"[5m]))
/ (count_over_time({app="payments"}     ~ "status=(success    fail)"[5m]))

Κλειδιά> Φίλτρα διύλισης για τον αποκλεισμό της «μείωσης ανά πελάτη».


14) FinOps και αξιοπιστία

Κόστος ανά 9: Το κόστος της προσθήκης ενός εννέα αυξάνεται εκθετικά.
Καμπύλη παροχών: βέλτιστη περίπτωση κατά την οποία η αύξηση των εσόδων/μείωση των ζημιών ≥ το κόστος του πρόσθετου «9».
Χαρτοφυλάκιο SLO: διαφορετικά επίπεδα για διαφορετικές διαδρομές (οι κρίσιμες πληρωμές είναι «ακριβότερες», η υποβολή εκθέσεων είναι «φθηνότερη»).


15) SLO/Alert Quality - Κατάλογος ελέγχου

  • Η SLI συσχετίζεται με UX και επιχειρηματικές μετρήσεις.
  • Το παράθυρο και η συγκέντρωση είναι συνεπείς (κυλιόμενο 28δ/τρίμηνο).
  • Ειδοποιήσεις πολλαπλών παραθύρων, χωρίς πτερύγια, δρομολόγηση με βάση ρόλους.
  • Τεκμηρίωση: ιδιοκτήτης, τύπος, πηγές, εγχειρίδιο.
  • Πίνακας επίδειξης SLO με εσφαλμένο προϋπολογισμό και δείκτες καύσης.
  • Τακτική επανεξέταση των στόχων (τριμηνιαία).
  • Συνθετικές δοκιμές σε βασικά σενάρια.

16) Σχέδιο εφαρμογής (4 επαναλήψεις)

1. Εβδομάδα 1: απογραφή των διαδρομών των χρηστών, σχέδια SLI, βασικά ταμπλό.
2. Εβδομάδα 2: επισημοποίηση SLO, κατάρτιση προϋπολογισμού, ειδοποιήσεις (γρήγορη/αργή καύση).
3. Εβδομάδα 3: ενσωμάτωση στη διαδικασία περιστατικού/απελευθέρωσης, πάγωμα των κανόνων.

4. Εβδομάδα 4 +: Συμβατικές SLA, τριμηνιαίες επισκοπήσεις, «κόστος ανά 9» Finops Μοντέλο


17) Mini-FAQ

Χρειάζεται να έχω ένα SLO ανά υπηρεσία

Καλύτερα 2-3 βασικά (επιτυχία + καθυστέρηση) αντί για δεκάδες δευτερεύοντα.

Τι θα γίνει αν εξαντληθεί ο προϋπολογισμός

Εκλύσεις κατάψυξης, εστιάζοντας στη σταθεροποίηση και το CAPA, αφαιρώντας πειραματικά χαρακτηριστικά.

Πώς να αποφευχθεί η σύγκρουση μεταξύ ταχύτητας απελευθέρωσης και αξιοπιστίας

Το σχέδιο αποδεσμεύει «επί του προϋπολογισμού», εφαρμόζει υπολογισμούς καναρινιών και σημαίες.


Αποτέλεσμα

Η αξιοπιστία δεν ελέγχεται από ένα σύνολο διαφορετικών μετρήσεων, αλλά από το σύστημα: SLI → SLO → σφάλμα προϋπολογισμού → έγκαυση συναγερμού → διαδικασία συμβάντων → CAPA → SLA. Τυποποίηση των ορισμών, των πηγών δεδομένων και της υποβολής εκθέσεων, σύνδεση των στόχων με την εμπειρία των χρηστών και τα οικονομικά, και τακτική επανεξέταση των εννοιών με βάση τις αποδόσεις στον πραγματικό κόσμο.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.