GH GambleHub

Σύστημα συναγερμού και κοινοποίησης

1) Ρόλος και στόχοι

Το σύστημα σημάτων δεν είναι «αποστολή μηνυμάτων», αλλά ένα κύκλωμα λήψης αποφάσεων: επισημαίνει τις αποκλίσεις στο χρόνο, προσφέρει δράσεις και διατηρεί ισορροπία μεταξύ επικαιρότητας και σιωπής.

Στόχοι:
  • Μείωση MTTD/MTTR μέσω προτεραιότητας και σαφών βιβλίων αναπαραγωγής.
  • Μείωση της κόπωσης συναγερμού μέσω ακύρωσης θορύβου.
  • Προβείτε σε ενέργειες απευθείας από την κοινοποίηση (ack, snooze, runbook, auto-action).
  • Παρατήρηση της ιδιωτικής ζωής και της συγκατάθεσης (opt-in/opt-out, log storage).

2) Ταξινόμηση γεγονότων και επιπέδων

2. 1 Τύποι γεγονότων

Μετρήσεις/ανωμαλίες (SRE, προϊόν, χρηματοδότηση).
Επιχειρηματικοί κανόνες (όρια, απάτη, KYC, πληρωμές).
Σύστημα (εγκατάσταση, υποβάθμιση, άδειες).
Χρήστης (ενεργοποίηση συμπεριφοράς, RG/υπεύθυνο παιχνίδι).

2. Επίπεδα σοβαρότητας

Κρίσιμη - άμεση αντίδραση, κίνδυνος απώλειας/ασφάλειας.
Υψηλή - σημαντική επιδείνωση του KPI/SLO.
Μέσο - Απαιτούμενη δράση κατά τις εργάσιμες ώρες.
Χαμηλή/Info - παρατήρηση/πλαίσιο, αυτόματη σύγκλιση σε χωνεύσεις.

2. 3 Προτεραιότητα

"Impact × Επείγον 'matrix → P1..P4. Σύνδεση με κανάλια και αντιδράσεις SLA.

3) Αρχιτεκτονική και νήματα

Παραγωγοί σημάτων → Sheena of events → Normalization (εμπλουτισμός, dedup) → the Correlation → Corrected (κινητήρας πολιτικής) → Routing → Canala παραδόσεις → το Κέντρο Προτιμήσεων → Logs/analytics.

Βασικά στοιχεία:
  • Εμπλουτιστής: προσθέτει ενοικιαστές, ρόλο, περιοχή, συνδέσμους playbook.
  • Επαναλαμβανόμενα γεγονότα της ομάδας deduper ανά κλειδί.
  • Συσχετιστής: Σήματα που σχετίζονται με την κόλλα σε ένα περιστατικό.
  • Κινητήρας πολιτικής: κανόνες YAML/DSL, ήσυχες ώρες, κλιμακώσεις.
  • Παράδοση: in-app, email, push, SMS, webhook, chat integration.

4) Κανόνες και πολιτικές (παράδειγμα YAML)

yaml policies:
- id: p_sre_critical match: { domain: "infra", severity: "critical" }
route:
primary: { channel: "pager", targets: ["oncall_sre"] }
fallback: { channel: "sms", delay: "2m" }
suppress:
flapping: {window: "10m," threshold: 5} # suppressing frequent twitching duplicates: {key: ["service, ""cluster,"" error _ code"], ttl: "15m"}
escalate:
after: "10m"
to: ["sre_manager"]
auto_assign: true
- id: p_product_medium match: { domain: "product", severity: "medium", kpi: "conversion" }
route:
primary: { channel: "inapp", audience: "product_owners" }
digest:
window: "1h"
max_items: 10 quiet_hours:
tz: "Europe/Kyiv"
ranges: ["22: 00-07: 00"] # only P1 digests/pager at this time

5) Αποπάγωση, συσχέτιση, καταστολή του πτερυγισμού

Dedup: ομάδα ID 'dedup _ key = hash (υπηρεσία' metric 'dim)', Παράθυρο TTL ≥ Flapping.
Συσχέτιση: συνδυασμός συναφών σημάτων με τοπολογία (servis→zavisimost), χρόνο (± N min) και πλαίσιο (απελευθέρωση, περιστατικό).
Flapping: κατώτατα όρια «N events per M minutes» → ένα σήμα «flapping indicated» με πρόταση αύξησης της υστέρησης ή καταστολής.

6) Δρομολόγηση και RACI

Υπεύθυνος: ποιος λαμβάνει την πρώτη ειδοποίηση/έλξη.
Υπόλογος: ποιος κλιμακώνεται μετά την SLA.
Ζητήθηκε η γνώμη του: με ποιον να αναφερθεί το νήμα/κανάλι συνομιλίας.
Ενημερώθηκε: ποιος θα αφήσει την πέψη/αποτελέσματα.
Ανάθεση ανά ρόλο και πλαίσιο (ενοικιαστής, περιφέρεια, ροή προϊόντων).

7) Δίαυλοι και αποχρώσεις παράδοσης

ΚανάλιΠότε να χρησιμοποιήσετε τοΧαρακτηριστικά/Περιορισμοί
In-appΛειτουργικά, αλλά μη κρίσιμα· δράσειςΠλούσιος UI, CTA, πλαίσιο
Ηλεκτρονικό ταχυδρομείοΧωνεύσεις, εκθέσεις, μη κρίσιμεςΜπορεί να χαθεί/φιλτραριστεί
ΏθησηΓια κινητή ομάδα καθηκόντωνΌριο μήκους, ήσυχες ώρες
SMS/PagerκριτικήΚαταβληθείσες, συνοπτικές, χωρίς επενδύσεις
WebhookΟλοκλήρωση (Jira, Slack, Ops)Υπογραφές HMAC, υποχωρήσεις, ταυτότητα
Συνομιλία (Slack)Νήμα του συμβάντος, συνεργασίαΕντολή κειμένου (ack, εκχώρηση)

Retrai: 5xx/429/timeout → backoff + jitter; 'Retry-After' σεβασμός. Ταυτότητα: 'X-Notice-Id' σε webhooks.

8) Κέντρο Προτιμήσεων

Opt-in/Opt-out ανά τύπο γεγονότος, επίπεδο, κανάλι.
Ήσυχες ώρες, χειροκίνητη υπνηλία για 15/30/60 λεπτά.
Κατώτατο όριο/ευαισθησία (π.χ. ανωμαλία ≥ 3 σ).
Γλώσσα/τόπος, χρόνος/μορφή νομίσματος.
Δεσμευτικό ρόλο: προκαθορισμένα για SRE/Προϊόν/Χρηματοδότηση.
Διαφάνεια: δείξτε γιατί ο χρήστης έλαβε το σήμα (σύνδεσμος με τον κανόνα).

9) Σχεδιασμός περιεχομένου: δομή μηνυμάτων

Πρότυπο κρίσιμου σήματος (P1):
  • Τίτλος: Σύντομη, με σκανδάλη: «[P1] [PSP _ TR] Απότομη αύξηση σε αστοχίες 3DS (+ 12%)».
  • Πλαίσιο: περίοδος, επηρεαζόμενα τμήματα/περιφέρεια, πηγή δεδομένων.
  • Λόγος/υπόθεση: «Σχετίζεται με την απελευθέρωση του PSP_X 18:20 UTC».
  • SLA/προθεσμία: «Κλιμάκωση σε 10 λεπτά».
  • CTA: «Open playbook», «Enable fallback», «Ack (30 λεπτά)».
  • Σύνδεσμοι: γράφημα, νήμα συμβάντων, μετρήσεις, runbook.
  • Μεταδεδομένα: 'trace _ id', 'incident _ id', 'dedup _ key'.

Τόνος: γεγονότα, χωρίς δραματοποίηση. Οι αριθμοί και οι μονάδες αποφεύγουν τις συντομογραφίες χωρίς αποκωδικοποίηση.
Τοπικοποίηση: μεταβλητές → τοποθετητές, οι μεταφράσεις αποθηκεύονται σε πόρους. αριθμοί/ημερομηνίες - ανά τόπο.

10) Ενέργειες από κοινοποιήσεις (ενεργοποιήσιμες)

Ack/Snooze με χρονικές παραμέτρους.
Ανάθεση/Πρόσκληση στο νήμα του συμβάντος.
Βήματα λύσης Runbook-Open με αυτόματη συμπλήρωση πλαισίου.
Αποκατάσταση με ένα κλικ (όπου είναι ασφαλές): διαδρομή μεταγωγής, αύξηση του ορίου, επανεκκίνηση εργασίας (με επιβεβαίωση και έλεγχο).
Δημιουργία εισιτηρίου (Jira/GitHub) με αυτόματη συμπλήρωση πεδίων.

11) Ποιότητα σημάτων: μετρήσεις και στόχοι

Ακρίβεια ≥ 80% για το P1/P2.
Ανάκληση (το ποσοστό των περιστατικών που εντοπίστηκαν μεταξύ όλων των περιστατικών) ≥ 70%.
Θόρυβος: μέσος όρος σημάτων/ώρας ανά χρήστη (οροφή στόχος).
Ack-time p50/p95, ρυθμός απόκλισης, ρυθμός Snooze (ως δείκτης θορύβου).
MTTD/MTTA/MTTR (από άποψη τομέων και καναλιών).
Η σιωπηλή προειδοποίηση (κενά λόγω κανόνων) αποτελεί ξεχωριστό ταμπλό.

12) Έλεγχος θορύβου: τεχνικές

Υστερία και συρόμενα παράθυρα για κατώφλια.
Αντιψυχωσικό (EWMA) πριν από την ανίχνευση.
Άθροιση: αντί για 30 μικρά - μία παρτίδα/χώνευση με κορυφαίους συνεισφέροντες.
Όρια πλαισίου: μέγιστες κοινοποιήσεις N/ώρα/κανάλι/χρήστης.
Αυτόματη ανάδραση: αν ο χρήστης κάνει κλικ στο Snooze για 3 × στη σειρά → προτείνετε αύξηση του κατωφλίου/αλλαγή καναλιού.

13) Ασφάλεια, ιδιωτικότητα, συμμόρφωση

Υπογραφή HMAC για webhooks, περιστροφή μυστικών, 'X-Key-Id'.
RBAC/ABAC: ορατότητα σήματος ανά ρόλο/ενοικιαστή.
ελαχιστοποίηση PII, μάσκες σε αρχεία καταγραφής, ελεγκτικές δράσεις (ack/assign/runbook).
Συγκατάθεση και λόγοι κοινοποίησης (κανόνας/πολιτική) - σε ωφέλιμο φορτίο.
Αρχεία ειδοποίησης διατήρησης/TTL, νόμιμη κράτηση για περιστατικά.

14) Συστήματα και ωφέλιμα φορτία

Συμβάν (εσωτερικό)

json
{
"id": "sig_01HX",
"domain": "payments",
"severity": "high",
"priority": "P2",
"title": "The 3DS failure graph has grown to 8. 2% (+3. 1 pp), "
"occurred_at": "2025-11-03T17:55:00Z",
"context": { "psp": "PSP_X", "country": "TR", "release_id": "rel_241103_1820" },
"metrics": { "baseline": 5. 1, "current": 8. 2, "delta_pp": 3. 1 },
"dedup_key": "payments    PSP_X    TR    3DS_FAILURE",
"runbook": "rbk_psp_3ds_spike",
"slo": { "ack_deadline_sec": 600 }
}

Κοινοποίηση (αγνωστικιστικό κανάλι)

json
{
"notification_id": "ntf_91ab",
"signal_id": "sig_01HX",
"targets": ["oncall_payments"],
"channels": ["inapp","slack","webhook"],
"cta": [
{"id": "ack," "label": "Confirm (30 min)," "payload": {"ttl ":" 30m"}},
{"id": "runbook," "label": "Open playbook," "payload": {"id ": "rbk _ psp _ 3ds _ spike"}},
{"id": "fallback," "label": "Enable fallback, PSP_Y" "confirm": true}
],
"hmac": "sha256=AbCd..."
}

15) Πρότυπα UX στο προϊόν

Εισερχόμενα: Κρίσιμες/υψηλές/άλλες καρτέλες, σήματα ποσότητας.
Τροφοδότηση περιστατικών: συσχετιζόμενα σήματα, χρονοδιάγραμμα δράσεων, «τι έγινε».
Φίλτρα: ρόλος, τομέας, περιοχή, χρόνος, «μόνο αναπάντητα».
Γρήγορες ενέργειες στον κατάλογο (ack/snooze/assign).
Εξηγήστε: «γιατί το βλέπετε» (κανόνας, κατώτατα όρια, δεδομένα).
Digests: πρωινό/βράδυ, εντοπισμένο από την TZ.

16) Σχέδιο δοκιμών

Μονάδα: dedup πλήκτρα, υστερία, flapping, serialization των ωφέλιμων φορτίων.
Ενσωμάτωση: δρομολόγηση, ήσυχες ώρες, κλιμακώσεις, αναδρομές καναλιών.
: σενάριο P1 από ανωμαλία έως κλείσιμο εισιτηρίων· P2 σε ήσυχες ώρες.
Χάος: απώλεια σύνδεσης (SMTP/SMS), καθυστερήσεις, χιονοστιβάδα σήματος, ρολόι-skew.
: screen-readers, πληκτρολόγιο ack/snooze, εντοπισμός των αριθμών/ημερομηνίες.

17) Πίνακες ποιότητας

Ακρίβεια/Ανάκληση ανά τομέα.
Ack time p50/p95 και μερίδιο έγκαιρης επιβεβαίωσης.
Κανόνες θορύβου ανά χρήστη/ώρα και ανώτατου θορύβου.
Ρυθμός κλιμάκωσης και «ψευδείς κλιμακώσεις».
Καταπιεσμένο εναντίον Παραδοθέν (πόσο καταστέλλεται/χωνεύεται).
Ανάδραση χρήστη :/μηνύματα, σχόλια για το θόρυβο.

18) Κατάλογοι ελέγχου

Σχεδιασμός

  • Η ταξινόμηση γεγονότων και τα επίπεδα είναι συνεπή

Περιγράφονται οι σιωπηλές ώρες/πολιτικές κλιμάκωσης

  • Ρυθμισμένη απόσβεση/συσχέτιση/flapping
  • Κανάλια, Retras, Webhook Idempotency
  • Κέντρο προτίμησης (opt-in/out, snooze)
  • Υποδείγματα περιεχομένου και εντοπισμός
  • Βιβλία παιχνιδιών και δράσεις ενός κλικ (ελεγχόμενα)
  • Μετρήσεις ποιότητας και πίνακες ταμπλό

Πράξη

  • Τριμηνιαία βελτιστοποίηση κατωφλίου
  • Κανόνες A/B (κατώφλι, παράθυρα, πέψη)
  • Τακτικές κριτικές του «ανώτατου θορύβου» και του CAPA
  • Μυστική περιστροφή καναλιού (HMAC, SMTP, SMS)

Δοκιμή προγραμματισμένων ημερών παιχνιδιού

19) Σχέδιο εφαρμογής (3 επαναλήψεις)

Επανάληψη 1 - Έναρξη (2- 3 εβδομάδες)

Ταξινόμηση, σοβαρότητα/προτεραιότητα, κέντρο προτίμησης (in-app + email).
Dedup, απλή συσχέτιση κλειδιού/χρόνου, ήσυχες ώρες.
Πρότυπα μηνυμάτων, βιβλία παιχνιδιών, ack/snooze/assign.

Iteration 2 - Αξιοπιστία και μείωση θορύβου (3- 4 εβδομάδες)

Flapping/hysteresis, digests, chat integrations, and webhooks (HMAC, retrays).
Κλιμάκωση σύμφωνα με το SLA, πίνακες με ταμπλό ποιότητας (ακρίβεια/ανάκληση, θόρυβος).
Αποκατάσταση με ένα κλικ (με επιβεβαίωση και έλεγχο).

Iteration 3 - Βελτιστοποίηση και Κλίμακα (Συνεχής)

Συσχέτιση με τοπολογία/κυκλοφορίες, αυτόματες προτάσεις κατωφλίων.
Κανόνες Α/Β, πρόβλεψη «πότε θα λειτουργήσει το κατώτατο όριο».
Κριτικές θορύβου και κανονικές ημέρες παιχνιδιού.

20) Mini-FAQ

Πώς να αντιμετωπίσετε την κόπωση του συναγερμού

Dedup, συσχέτιση, υστερία, χωνεύσεις και κέντρα προτίμησης + κανονικός θόρυβος και A/B κριτικές κατωφλίου.

Η ML είναι απαραίτητη για τις ανωμαλίες

Χρήσιμο, αλλά ξεκινήστε με καθοριστικούς κανόνες και εξηγήσιμα κατώτατα όρια. Το ML είναι σαν πρόσθετο, πάντα με εξηγήσεις.

Γιατί οι χρήστες λαμβάνουν «έξτρα» μηνύματα ηλεκτρονικού ταχυδρομείου

Οι κανόνες ελέγχου ταιριάζουν, οι ήσυχες ώρες, οι έλεγχοι «γιατί παραδόθηκαν», τα όρια καναλιού/ώρας και οι χωνεύσεις.

Σύνολο

Ένα ισχυρό σύστημα σήματος είναι το έξυπνο φιλτράρισμα και η σωστή ιεράρχηση προτεραιοτήτων + δράσεις ενός κλικ. Επισημοποιήστε την ταξινόμηση και τις πολιτικές, εφαρμόστε dedup/συσχέτιση/υστερία, δώστε στους χρήστες τον έλεγχο (προτιμήσεις, υπνηλία), παρέχετε αξιόπιστη παράδοση και διαφάνεια "γιατί το πήρα. "Τότε τα σήματα θα γίνουν εργαλείο ελέγχου, όχι πηγή θορύβου.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.