GH GambleHub

Περιστατικά και βιβλία SRE

1) Ποιο είναι το συμβάν και πώς σχετίζεται με την SLO

Ένα περιστατικό είναι ένα γεγονός που παραβιάζει μια λειτουργία SLO/υπηρεσίας ή δημιουργεί κίνδυνο παραβίασης (ένας εσφαλμένος προϋπολογισμός καίγεται απαράδεκτα γρήγορα).
Κλασικές μετρήσεις: MTTD, MTTA, MTTR, MTBF.
Το σφάλμα του προϋπολογισμού και ο ρυθμός καύσης καθορίζουν τα παράθυρα προτεραιότητας και κλιμάκωσης.


2) Επίπεδα σοβαρότητας (SEV) και κριτήρια

SEVΥπογραφήΕπιρροήΣτόχος MTTR
SEV-1Σπασμένη κρίσιμη SLO/σύνολο κάτω για την κυκλοφορία κλειδώνΌλοι οι χρήστες/πληρωμές60 λεπτά
SEV-2Αποικοδόμηση (p95 καθυστέρηση, 5xx/σφάλματα πληρωμής ↑)Σημαντικό μέρος4 ώρες
SEV-3Τοπικά θέματα/γραμμές βάσης που απορρίφθηκανΜεμονωμένη υπηρεσία/περιφέρεια1 εργάσιμη ημέρα
SEV-4Δυνητικός κίνδυνος/ελάττωμα χωρίς τρέχουσα επίπτωσηΠροετοιμασία των στερεώσεωνσύμφωνα με το σχέδιο

Σκανδάλες SEV: άνω του 5xx%, κατώφλι p95>, αύξηση πληρωμών, κατώφλι Kafka-lag>, κατώφλι NodeNotReady> X min, TLS λήγει <7 ημέρες, σήματα DDoS/διαρροή.


3) Ρόλοι και αρμοδιότητες (RACI)

Διοικητής συμβάντων (IC) - αποκλειστική λήψη αποφάσεων, διαχείριση ροής καθηκόντων, αλλαγή καθεστώτος SEV.
Ops Lead (Tech Lead) - τεχνική στρατηγική, υποθέσεις, συντονισμός των διορθώσεων.
Επικεφαλής επικοινωνιών (Communications) - επικαιροποιήσεις κατάστασης (εσωτερικές/εξωτερικές), StatusPage/chat/mail.
Γραφέας (Chronicler) - χρονοδιάγραμμα, λύσεις, αντικείμενα, σύνδεσμοι με γραφήματα/κούτσουρα.
Μηχανικοί εφημερίας/ΜΜΕ - εκτέλεση των δράσεων του playbook.
Ασφάλεια/Προστασία της ιδιωτικής ζωής - Ενεργοποιημένη για συμβάντα που αφορούν την ασφάλεια ή το PII.
FinOps/Πληρωμές - όταν επηρεάζουν τη χρέωση/ΠΥΠ/κόστος.


4) Κύκλος ζωής των περιστατικών

1. Ανίχνευση (συναγερμός/αναφορά/συνθετικό) → αυτόματη δημιουργία κάρτας συμβάντος.
2. Triage (αποδίδεται IC, αποδίδεται SEV, ελάχιστη συλλογή πλαισίου).
3. Σταθεροποίηση (μετριασμός: απενεργοποίηση του χαρακτηριστικού/ανατροπή/όριο ταχύτητας/αστοχία).
4. Έρευνα (υποθέσεις RCA, συλλογή πραγματικών περιστατικών).
5. Ανάκτηση υπηρεσίας (επικύρωση SLO, παρατήρηση).
6. Επικοινωνία (εντός/εκτός, τελική έκθεση).
7. Μεταθανάτια (χωρίς επιβαρύνσεις, σχέδιο CAPA, ιδιοκτήτες, προθεσμίες).
8. Πρόληψη (δοκιμές/προειδοποιήσεις/βιβλία παιχνιδιού/σημαίες, πρόσθετη εκπαίδευση της ομάδας).


5) Επικοινωνίες και αίθουσα πολέμου

Unified Incident Channel («# inc-sev1-YYYYMMDD-hhmm»), μόνο γεγονότα και ενέργειες.

Radio protocol style orders: "IC: Εγώ εκχωρώ rollback έκδοση 1. 24 → ETA 10 λεπτά"

Ενημερώσεις κατάστασης: SEV-1 κάθε 15 λεπτά, SEV-2 κάθε 30-60 λεπτά.
Σελίδα κατάστασης/εξωτερική επικοινωνία - μέσω Comms Lead βάσει προτύπου.
Απαγορεύεται: παράλληλα «ήσυχα» δωμάτια, μη δοκιμασμένες υποθέσεις σε ένα κοινό κανάλι.


6) Ειδοποίηση και καύση SLO (παράδειγμα κανόνων)

Γρήγορο κανάλι (1-5 λεπτά) και αργός ρυθμός καύσης καναλιού (1-2 ώρες).
Πολλαπλά σήματα: σφάλμα προϋπολογισμού, 5xx%, p95, Kafka-lag, ποσοστό μείωσης πληρωμών, συνθετικά.
Αναζήτηση της αιτίας της ρίζας - μόνο μετά τη σταθεροποίηση των συμπτωμάτων.

Παραδείγματα (γενικευμένα):
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01

Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4

7) Playbooks vs ranbooks

Playbook - σενάριο ενεργειών ανά είδος συμβάντος (διακλάδωση, συνθήκες, κίνδυνοι).
Runbook - ειδικός «χάρτης» βημάτων/εντολών (έλεγχοι, διορθώσεις, επαλήθευση).
Κανόνας: το playbook αναφέρεται σε διάφορα runbooks (rollbacks, feature-flags, failover, scaling, blocking traffic κ.λπ.).


8) Υπόδειγμα κάρτας περιστατικού

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"

9) Πρότυπο βιβλίου SRE (Markdown)

markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.

Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)

Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез

Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства

Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам

Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука

10) Τυπικά βιβλία αναπαραγωγής

10. 1 API 5xx Spike

Σταθεροποίηση: απενεργοποίηση του προβληματικού ficheflag. Ενισχύστε τα αντίγραφα API Ενεργοποιήστε την επαναφορά της απελευθέρωσης.
Διαγνωστικά: απελευθέρωση diff, σφάλματα σε κούτσουρα (κορυφαίες εξαιρέσεις), ανάπτυξη p95, πίεση DB/κρύπτη.
Κίνδυνοι: καταρράκτης στις πληρωμές/ενισχύσεις.

10. 2 БД: υστέρηση αντιγραφής/καταιγίδα κλειδώματος

Σταθεροποίηση: αναστολή των βαρέων θέσεων εργασίας/εκθέσεων· ανάγνωσης διαβάζει στον μάγο αύξηση wal_buffers/replika-sloty.
Διαγνωστική: μακρές συναλλαγές, αποκλεισμός αιτήσεων, αλλαγές στο σχέδιο.
Προσδιορισμός: δείκτες/υποδείξεις, ανακατασκευή θέσεων εργασίας, αποσπασματικές ερωτήσεις.

10. 3 Κάφκα καταναλωτική υστέρηση

Σταθεροποίηση: προσωρινή κλίμακα καταναλωτών· μείωση της παραγωγής από μη κρίσιμες υπηρεσίες· αύξηση των μερών/ποσοστώσεων.
Διαγνωστικά: επανεξισορρόπηση, αργή απερήμωση, παύση GC.
Επαλήθευση: υστέρηση της τιμής στόχου, χωρίς σταγόνες.

10. 4 K8s Καταιγίδα NodeNotReady/πόρων

Σταθεροποίηση: κλοιός + αποστράγγιση. ανακατανομή φορτίων· Ελέγξτε CNI/υπέρθεση απενεργοποίησης θορυβωδών DaemonSets.
Διαγνωστικά: πίεση δίσκου, OOM, στραγγαλισμός, σταγόνες δικτύου.
Πρόληψη: προϋπολογισμοί διατάραξης των πόρων, όρια πόρων/αιτήματα.

10. 5 TLS/πιστοποιητικά λήγουν

Σταθεροποίηση: αναγκαστική ενημέρωση του μυστικού/εισερχόμενου. προσωρινή παράκαμψη.
Διαγνωστικά: αλυσίδα εμπιστοσύνης, ρολόι-ρολόι.
Πρόληψη: T-30/T-7/T-1 ειδοποιήσεων, αυτόματη επανεκκίνηση.

10. 6 DDoS/μη φυσιολογική κυκλοφορία

Σταθεροποίηση: κανόνες WAF/bot, όριο ταχύτητας/γεωγραφικά φίλτρα, φορτίο ανάντη.
Διαγνωστικά: προφίλ επίθεσης (L3/4/7), πηγές, ομπρέλες.
Πρόληψη: οποιαδήποτε μετάδοση, αυτόματη κλιμάκωση, αποθήκευση, διασκέδαση με τους παρόχους.

10. 7 Πληρωμή ΠΑΥ-διακοπή

Σταθεροποίηση: έξυπνη διαδρομή προς εναλλακτικές μεθόδους PSP. αύξηση της επανάληψης με νευρικότητα· «απαλή» υποβάθμιση του UI.
Διαγνωστικά: αστοχίες αιχμής με κωδικούς, καταστάσεις API/σελίδες κατάστασης PSP.
Ανακοινώσεις: διαφανείς επικαιροποιήσεις για τις επιχειρήσεις και την υποστήριξη, ορθές στατιστικές ΒΔ/μετατροπής.

10. Περιστατικό ασφάλειας/Διαρροή PII

Σταθεροποίηση: απομόνωση κόμβου/μυστική περιστροφή, αποκλεισμός διήθησης, νόμιμη λαβή.
Διαγνωστικά: χρονοδιαγράμματα πρόσβασης, θιγόμενα άτομα/πεδία.
Ανακοινώσεις: Ρυθμιστικές αρχές/εταίροι/χρήστες σύμφωνα με τις απαιτήσεις δικαιοδοσίας.
Πρόληψη: βελτίωση DLP/κατάτμησης, «ελάχιστο προνόμιο».


11) Αυτοματοποίηση βιβλίων αναπαραγωγής

Εντολές ChatOps: '/ic set sev 1 ', '/deploy rollback api 1. 23. 4 ', '/χαρακτηριστικό εκτός Χ'.
Runbook-bots: ημιαυτόματα βήματα (κόμβος αποστράγγισης, κίνηση αναποδογυρισμού, κρύπτη καθαρισμού).
Άγκιστρα αυτοθεραπείας: ανιχνευτής → τυπικός μετριασμός (όριο ταχύτητας, επανεκκίνηση, κλίμακα).
Αυτόματη δημιουργία καρτών/χρονοδιαγραμμάτων από ειδοποιήσεις και εντολές.


12) Ποιότητα βιβλίου παιχνιδιού: λίστα ελέγχου

  • Σαφή συμπτώματα και ανιχνευτές (μετρήσεις/κούτσουρα/ίχνη).
  • Ταχεία βήματα σταθεροποίησης με εκτίμηση επικινδυνότητας.
  • Οι εντολές/τα σενάρια είναι ενημερωμένα, ελέγχονται στη σκηνή.
  • Επαλήθευση της ανάκτησης SLO.
  • Υποδείγματα επικοινωνίας και εξωτερικά κριτήρια επικαιροποίησης.
  • Νεκροψία και CAPA μετά το κλείσιμο.

13) Μεταθανάτια (άμεμπτη) και CAPA

Ο στόχος: να μάθεις, όχι να βρεις τον ένοχο.
Περιεχόμενο: τι συνέβη, τι διαπιστώθηκε ότι ήταν καλό/κακό, συμβολή παραγόντων (αυτές οι + διαδικασίες), ενέργειες για την πρόληψη.
Όρος: SEV-1 - εντός 48 ωρών. - 3 εργάσιμες ημέρες.
CAPA: συγκεκριμένοι ιδιοκτήτες, χρονοδιάγραμμα, μετρήσιμα αποτελέσματα (μειωμένη MTTR/αυξημένη MTTD).


14) Νομικές πτυχές και βάση αποδεικτικών στοιχείων

Κατακράτηση: κατάψυξη κορμών/κομματιών/καταχωρίσεων, αποθήκευση μετά την εγγραφή.
Αλυσίδα αποθήκευσης αντικειμένων: πρόσβαση ανά ρόλο, έλεγχος ακεραιότητας.
Κανονιστικές ανακοινώσεις: χρονοδιαγράμματα/υποδείγματα για τις δικαιοδοσίες (ιδίως με τις επηρεαζόμενες πληρωμές/PII).
Προστασία της ιδιωτικής ζωής: ελαχιστοποίηση PII και κάλυψη κατά την ανάλυση.


15) Μετρήσεις επιδόσεων της διαδικασίας συμβάντων

MTTD/MTTA/MTTR ανά τρίμηνο και τομέα.
Ακρίβεια SEV (υποτίμηση/υπέρβαση).
Ποσοστό περιστατικών αυτόματου μετριασμού.
Κάλυψη των κορυφαίων σεναρίων N (> 90%).
Εκτέλεση CAPA εγκαίρως.


16) Εφαρμογή ανά φάση

1. Εβδομάδα 1: Πίνακας SEV, ρόλοι εφημερίας, γενικό πρότυπο κάρτας, κανονισμοί αίθουσας πολέμου.
2. Εβδομάδα 2: Playbooks για τα 5 κορυφαία συμπτώματα (5xx, DB lag, Kafka-lag, NodeNotReady, TLS).
3. Εβδομάδα 3: ChatOps/bots, κάρτες αυτόματης δημιουργίας, πρότυπα επικοινωνίας/StatusPage.

4. Εβδομάδα 4 +: Safety Playbooks, PSP Outages, Legal Hold, Regular Drills/Chaos Games


17) Παραδείγματα «γρήγορων» βιβλίων (θραύσματα)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api

Κόμβος αποστράγγισης

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Χαρακτηριστικό σημαίας OFF (παράδειγμα)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Mini-FAQ

Πότε να αυξήσει το SEV-1

Όταν η βασική λειτουργία SLO/επιχείρηση (πληρωμές, σύνδεση, παιχνίδι) υποφέρει, και το ποσοστό καύσης «τρώει» τον προϋπολογισμό για ώρες.

Τι είναι πιο σημαντικό - RCA ή ανάκτηση

Πάντα σταθεροποίηση, μετά RCA. Ο χρόνος σταθεροποίησης είναι ο κύριος δείκτης.

Πρέπει να αυτοματοποιήσω τα πάντα

Αυτοματοποιημένα συχνά και ασφαλή βήματα. σπάνιες/επικίνδυνες - μέσω ημιαυτόματης και IC επιβεβαίωσης.


Αποτέλεσμα

Η ισχυρή διαδικασία συμβάντων βασίζεται σε τρεις πυλώνες: σαφείς ρόλους και κανόνες SEV, ποιοτικά βιβλία/βιβλία με αυτοματοποίηση, και μια μεταθανάτια κουλτούρα χωρίς ευθύνη. Μοτίβα καταγραφής, εφημερία αμαξοστοιχίας, μέτρηση MTTR/εσφαλμένος προϋπολογισμός και συνεχής βελτίωση των ανιχνευτών και των βιβλίων παιχνιδιών - αυτό μειώνει άμεσα τον κίνδυνο και το κόστος του χρόνου διακοπής.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.