Διαχείριση συμβάντων
(Τμήμα: Τεχνολογία και Υποδομές)
Σύντομη Περίληψη
Η διαχείριση συμβάντων είναι μια επαναλαμβανόμενη διαδικασία για την ταχεία αποκατάσταση της αξίας του χρήστη και την ελαχιστοποίηση των επιχειρηματικών ζημιών. Υποστήριξη - σαφείς ρόλοι (Incident Manager, Tech Lead, Comms), πύλες SLO, κλιμακώσεις, διαδικασίες ChatOps, έτοιμα runabooks και «αθώα» μετά το συμβάν ανάλυση με μετρήσιμα αντικείμενα δράσης.
1) Στόχοι και αρχές
Ταχύτητα και ασφάλεια: ταχεία διάγνωση → ασφαλής σταθεροποίηση → διαρκής αποκατάσταση.
Μοναδικός ιδιοκτήτης - Ο εντεταλμένος διαχειριστής συμβάντων (ΔΥ) λαμβάνει αποφάσεις διαδικασίας.
Ανακοινώσεις ως προϊόν: προβλέψιμες επικαιροποιήσεις για τα ενδιαφερόμενα μέρη και τους χρήστες.
Δεδομένα> γνώμες: SLO/μετρήσεις/μονοπάτια/αρχεία καταγραφής είναι η πηγή της αλήθειας.
Άμεμπτη: ανάλυση των λόγων χωρίς προσωπικές κατηγορίες. εστίαση στις βελτιώσεις του συστήματος.
2) Ταξινόμηση συμβάντων (σοβαρότητα/αντίκτυπος/επείγον)
Σοβαρότητα (παράδειγμα):- (κρίσιμη): σοβαρή ζημία στα έσοδα/TTW/πληρωμές,> 20% των χρηστών ή ολόκληρων περιφερειών· Μειωμένη SLA/απειλή PII.
- (υψηλό): μερική υποβάθμιση των βασικών ροών (κατάθεση/στοίχημα/έναρξη των παιχνιδιών), επίδραση 5-20%.
- (medium): αξιοσημείωτη υποβάθμιση των δευτερευουσών υπηρεσιών, υπάρχει παράκαμψη.
- (χαμηλή): μικρή, περιορισμένη επίδραση, καμία επίδραση στην SLO/SLA.
Αντίκτυπος: ποιος επηρεάζεται (όλοι/περιφέρεια/ενοικιαστής/δίαυλος). Επείγουσα ανάγκη: ρυθμός υποβάθμισης (ταχεία καύση/αργή καύση στον προϋπολογισμό σφάλματος).
3) Κύκλος ζωής των περιστατικών
1. Ανίχνευση - σήμα από καταχωρίσεις/SLO/συνθετικά/αναφορές.
2. Αναγνώριση - η εφημερία επιβεβαιώνει την υποδοχή, αναθέτει το ΔΥ.
3. Triage - SEV/Impact score, συλλογή υποθέσεων, ανακάλυψη War-Room.
4. Μετριασμός - σταθεροποίηση (rollback/routing switching/phicheflags/scaling).
5. Επικοινωνία - τακτικές επικαιροποιήσεις κατάστασης (εντός/εκτός).
6. Ανάκτηση - Πλήρης ανάκτηση στοιχείων SLO/επιχειρήσεων.
7. Στενή καταγραφή της χρονολογίας, συλλογή αντικειμένων, PIR (RCA + αντικείμενα δράσης).
4) Ρόλοι και αρμοδιότητες (RACI)
Διαχειριστής συμβάντων (ΔΥ) - ιδιοκτήτης διαδικασίας, εκχωρεί ρόλους, παρακολουθεί το χρόνο, λαμβάνει αποφάσεις διαδικασίας (R).
Τεχνικός μόλυβδος (TL) - διεξάγει διαγνωστική/υποθέσεις/διορθώσεις, μηχανικοί συντεταγμένων (A/R).
Ανακοινώσεις (Comms) - επικαιροποιήσεις κατάστασης, σύνδεση με υποστήριξη/επιχειρήσεις/δημόσιες σχέσεις, σελίδα κατάστασης (R).
Γραφή - πρωτόκολλο (χρονοδιάγραμμα, αποφάσεις, σύνδεσμοι, αντικείμενα) (R).
Ενδιαφερόμενοι - Προϊόντα/Πληρωμές/Πάροχοι τυχερών παιχνιδιών/Ασφάλεια (C/I).
Ελάχιστο ανά SEV1: IM + TL + Comms + Scribe. Επιτρέπεται να συνδυάζει ρόλους στο SEV2.
5) Αίθουσα πολέμου и Chatops
Ατομικά κανάλια: '# incident-warroom - <id>' (εργασία), '# incident-status' (ενημερώσεις μόνο).
Εντολές προτύπων: '/έναρξη συμβάντος ', '/ενημέρωση κατάστασης', '/κλήση <ιδιοκτήτη> ', '/rollback', '/πάγωμα ', '/κλίμακα + N'.
Το bot αναβαθμίζει το πλαίσιο: πρόσφατες κυκλοφορίες, ταμπλό, σχετικές ειδοποιήσεις, υποδειγματικά ιχνοστοιχεία, συστήματα εξάρτησης.
Κανόνες επικοινωνίας: εν συντομία, σχετικά με τα γεγονότα, ένας ομιλητής (TL), μετριοπαθείς του ΔΥ.
6) Ενεργοποιήσεις και πύλες
Πύλες SLO: γρήγορη/αργή καύση, πτώση μετατροπής πληρωμών, κατώφλι TTW p95>, p99 API ↑, ουρές πληρωμής καίγονται.
Αυτόματες ενέργειες: διακοπή λειτουργίας καναρινιού, ανατροπή, δυνατότητα υποβάθμισης (συναρτήσεις περιορισμού), επιτρέποντας συνθετικά υψηλής συχνότητας.
Πάγωμα: όλες οι εκλύσεις/μεταναστεύσεις ποδιών πριν από τη σταθεροποίηση και τον PIR.
7) Τυπικά σενάρια (μοτίβα runabook)
Α) Πληρωμές: αύξηση των χρονοδιαγραμμάτων/αστοχιών σε ΠΥΠ
1. Σταματήστε να προάγετε και να παγώνετε τις ελευθερώσεις του βρόχου πληρωμής.
2. Μετάβαση της διαδρομής PSP στην εφεδρική γραμμή, αύξηση του χρονοδιαγράμματος/επαναπροσδιορισμού με πολιτική.
3. Συμφωνία ημιτελών συναλλαγών, επανάληψη με idempotent κλειδιά.
4. Comms επικοινωνία → υποστήριξη: εργάζεστε ως αποθεματικό ΠΩΑ.
B) API p99↑ και 5xx μετά την απελευθέρωση
1. Rollback (γαλάζιο-πράσινο/καναρίνι → σταθερό).
2. Ελέγξτε το hit, το βάθος αναμονής, τα hotspots βάσης δεδομένων/παρόχου παιχνιδιών.
3. Προσωρινή κλιμάκωση, περιορισμός βαρέων χαρακτηριστικών μέσω σημαιών χαρακτηριστικών.
Γ) Μη διαθέσιμος πάροχος παιχνιδιών
1. Αλλάξτε την κίνηση στα διαθέσιμα στούντιο/παιχνίδια, δείξτε ένα πανό κατάστασης.
2. Ενεργοποιήστε συνθετικούς ελέγχους κάθε 30-60 δευτερόλεπτα.
3. Συμφωνία για την αντιστάθμιση/πριμοδότηση (ανά πολιτική) - προσθήκη στον PIR.
Δ) Διαρροή/ύποπτη PII
1. απομόνωση κατασκευαστικού στοιχείου, ανάκληση κλειδιού/μάρκας, συλλογή καταγραφής (WORM).
2. Νομική επικοινωνία/κανονιστική ευθυγράμμιση.
3. Ενέργειες μετά το συμβάν: μυστική εναλλαγή, απόκρυψη, πρόσβαση.
8) Ανακοινώσεις (εσωτερικές/εξωτερικές)
Συχνότητα ενημέρωσης: SEV1 - κάθε 15-30 λεπτά, SEV2 - 30-60 λεπτά.
Υπόδειγμα εσωτερικής κατάστασης:- Τι έσπασε: «Καταθέσεις μέσω PSP-X: The Rise of Timeouts».
- Επηρεάζεται: «TR/BR, ~ 18% των χρηστών ρεύματος».
- Όταν ξεκίνησε: «12:07 ΕΕΤ», SEV1.
- Τι κάνουμε: «Μετάβαση διαδρομής προς PSP-Y, αναδρομές/ανώτατο όριο επιτοκίου ενεργοποιημένο».
- Επόμενη ενημέρωση: «σε 20 λεπτά».
- Επικοινωνία: «IM @ duty-im, TL @ oncall-pay».
Δημόσια κατάσταση (σελίδα/κοινωνικά δίκτυα) - συντομογραφία, χωρίς PII και περιττές λεπτομέρειες, με την ΕΤΑ και σύνδεση με περαιτέρω επικαιροποιήσεις.
9) Συλλογή και λογιστικός έλεγχος τεχνουργημάτων
Χρονοδιάγραμμα γεγονότων (ακρίβεια λεπτού), εκδόσεις υπηρεσιών, σημαίες χαρακτηριστικών, αλλαγές ρύθμισης.
Εικόνες ταμπλό, κατά προσέγγιση διαδρομές (trace_id), αρχεία καταγραφής «πριν/κατά τη διάρκεια/μετά».
Σύνδεσμοι προς εισιτήρια, δημόσιες σχέσεις, κυκλοφορίες, runabooks.
Έκθεση επικοινωνίας (πότε/σε/τι).
Όλα καταλήγουν σε μια κάρτα συμβάντος.
10) Κλείσιμο και PIR (επανεξέταση μετά το συμβάν)
Μορφότυπος PIR (σύντομη):- Περίληψη: τι συνέβη, κλίμακα, διάρκεια, SEV.
- Αντίκτυπος: χρήστες/περιφέρειες, SLO/SLA, Fin.
- Χρονοδιάγραμμα: λεπτομερώς, με το λεπτό.
- Αιτία ρίζας: τεχνική + οργανωτική (γιατί απαρατήρητη νωρίτερα).
- Ανιχνεύσεις & άμυνες: αυτό που βοήθησε/απέτυχε (ειδοποιήσεις, συνθετικά, phicheflags).
- Στοιχεία δράσης: συγκεκριμένα καθήκοντα, ιδιοκτήτες, προθεσμίες (και τρόπος ελέγχου των αποτελεσμάτων).
- Διδάγματα: Τι αλλάζουμε στη διαδικασία/αρχιτεκτονική/παρατηρησιμότητα.
Κανόνες: καμία επιβάρυνση, μέγιστα πραγματικά περιστατικά, υποχρεωτική παρακολούθηση μετά από 2-4 εβδομάδες ελέγχου ολοκληρωμένων αντικειμένων.
11) Μετρήσεις αξιοπιστίας διεργασιών
MTTD - Μέσος χρόνος ανίχνευσης
MTTA (... Αναγνώριση) - πριν από την επιβεβαίωση εφημερίας.
MTTR (... Αποκατάσταση) - έως ότου αποκατασταθεί η SLO.
Ποσοστό αστοχίας αλλαγής -% των απελευθερώσεων που οδήγησαν σε περιστατικά.
Ποσοστό περιστατικών ανά SEV, κατανομή ανά τομέα (πληρωμές/παιχνίδια/infra).
Ποιότητα συναγερμού: Αναλογία θορυβώδους/ψευδούς, χρόνος για δράση μετά την προειδοποίηση.
Comm-SLA: συμμόρφωση με τη συχνότητα επικαιροποιήσεων της κατάστασης.
12) Ενσωμάτωση στην SLO και ελευθερώσεις
Πύλες σε CD: προώθηση καναρινιών μόνο με πράσινα πληρεξούσια SLO (διαθεσιμότητα, p95, conv, TTW).
Διαδικασίες κατάψυξης: όταν fast-burn/SEV1 - σταματήστε να απελευθερώνετε πριν από τον PIR.
Αυτόματες σημειώσεις σε γραφήματα: οι κυκλοφορίες/σημαίες/μεταναστεύσεις είναι ορατές στα ταμπλό.
13) Κανονιστική ρύθμιση και συμμόρφωση
PII: συγκάλυψη/ψευδαίσθηση σε κούτσουρα/κομμάτια, καταστήματα ελέγχου WORM, έλεγχος πρόσβασης.
Περιφερειακότητα: Μην λαμβάνετε δεδομένα χρηστών εκτός των επιτρεπόμενων περιοχών δικαιοδοσίας.
Αναφορά: τυποποιημένες επιστολές/κοινοποιήσεις προς τις ρυθμιστικές αρχές - υποδείγματα και διαδικασία κλιμάκωσης.
14) Μάθηση και ετοιμότητα (Ημέρα παιχνιδιού)
Τριμηνιαίες ασκήσεις: «PSP drop», «game provider not available», «p99 surge», «key leak».
Χρονοδιακόπτες στο MTTA/MTTR, ρετρό κατά την άσκηση.
Ενημέρωση runabooks και επαφών, έλεγχος εντολών ChatOps.
15) Κατάλογος ετοιμότητας (πριν από το συμβάν)
1. Συμφωνήθηκαν κανόνες SEV και πίνακας κλιμάκωσης.
2. Εκχωρήθηκαν περιστροφές εφημερίας, IM/TL/Comms/Scribe.
3. Runabooks για βασικά σενάρια (πληρωμές, παιχνίδια, βάσεις δεδομένων, κρύπτες, ουρές αναμονής).
4. Ειδοποιήσεις SLO και ταχύτητας καύσης, status page.
5. ChatOps bot: εντολές, αυτόματο πλαίσιο, πρότυπα κατάστασης.
6. Υποδείγματα PIR και κάρτες συμβάντων.
7. Τακτικές αναθεωρήσεις ημερών παιχνιδιού και επαφών/δικαιωμάτων.
8. Πολιτική παγώματος και «κόκκινο κουμπί» (rollback/kill-switch).
16) Αντιπατερίδια
Δεν υπάρχει ενιαίος ΔΥ, το «πλήθος οδηγεί» → χάος και καθυστερήσεις.
Έλλειψη πυλών SLO → καθυστερημένη ανίχνευση, θορυβώδεις προειδοποιήσεις.
Απελευθέρωση κατά τη διάρκεια συμβάντος χωρίς πάγωμα → καταρράκτες.
Τα αρχεία καταγραφής και τα μονοπάτια δεν είναι αρκετά, δεν υπάρχουν αντικείμενα → αδύναμο PIR.
Κατηγορητική κουλτούρα → κρυμμένα λάθη, φόβος κλιμάκωσης.
Εμπνευσμένες επικοινωνίες → απώλεια εμπιστοσύνης επιχειρήσεων/χρηστών.
17) Πρότυπα (αντίγραφο στο wiki σας)
A) Κάρτα περιστατικού (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
B) Επικαιροποίηση κατάστασης (εσωτερική)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
C) PIR (καπάκι)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
Περίληψη
Ισχυρή διαχείριση συμβάντων είναι η δομή + πειθαρχία: προσυμφωνημένοι ρόλοι, πύλες SLO, εργαστηριακά βιβλία, διαφανείς επικοινωνίες και «αβλαβείς» PIR. Αυτός ο βρόχος μειώνει το MTTA/MTTR, μειώνει το κόστος του downtime, χτίζει την εμπιστοσύνη του χρήστη και σας επιτρέπει να απελευθερώσετε πιο τολμηρά - αλλά με ασφάλεια.