GH GambleHub

Σχέδιο αποκατάστασης καταστροφών

1) Σκοπός, πεδίο εφαρμογής και αρχές

Στόχος: να εξασφαλιστεί η έγκαιρη αποκατάσταση της πλατφόρμας ΤΠ μετά από καταστροφές (αυτές, ο κυβερνοχώρος, ο πωλητής, ο γεωπολιτικός) χωρίς να παραβιάζονται οι κανονιστικές απαιτήσεις, οι συμβάσεις και οι προσδοκίες των παραγόντων.
Πεδίο: παραγωγικά περιβάλλοντα (κύκλωμα τυχερών παιχνιδιών, πληρωμές, KYC/AML, καταπολέμηση της απάτης, καταστήματα DWH/BI), ενοποιήσεις (PSP, KYC, CDN, στούντιο/aggregators), υποδομές (cloud/K8s, δίκτυα, μυστικά/κλειδιά), δεδομένα (βάσεις δεδομένων, αρχεία, αρχεία καταγραφής)).
Αρχές: πρώτη ασφάλεια, ελαχιστοποίηση RTO/RPO, αυτοματοποίηση και αναπαραγωγιμότητα (IaC), «δυνατότητα απόδειξης εξ ορισμού», τακτικές ασκήσεις.


2) Στόχοι ταξινόμησης και ανάκτησης του συστήματος

2. 1 Επίπεδα κρίσιμης σημασίας

Βαθμίδα 1 (ζωτικής σημασίας): πληρωμές/ταμεία, βασικά παιχνίδια, σύνδεση/εξακρίβωση ταυτότητας, ΔΠΔ/κυρώσεις.
: real-time analytics, marketing/CRM, DWH reporting.
: εσωτερικές πύλες, βοηθητικές υπηρεσίες.

2. 2 Στόχοι

RTO - Στόχος του χρόνου ανάκτησης

Στόχος σημείου ανάκτησης (RPO) - επιτρεπόμενη χρονική απώλεια δεδομένων.
RTA (πραγματικός χρόνος ανάκτησης )/RPA (πραγματικό σημείο ανάκτησης) - οι πραγματικές τιμές καταγράφονται στις εκθέσεις.
MTO/MBCO: μέγιστος ανεκτός χρόνος διακοπής/ελάχιστο αποδεκτό επίπεδο υπηρεσίας (κατάσταση υποβάθμισης).

Παράδειγμα στόχων (για αναφορά):
  • Βαθμίδα 1 - RTO ≤ 30-60 λεπτά, RPO ≤ 15 λεπτά, - RTO 4 , RPO 1 , - RTO 24 , RPO 24 .

3) Στρατηγικές και αρχιτεκτονική του DR

3. 1 Τοπολογίες

Ενεργός (πολυπεριφέρεια): ο ελάχιστος RTO/RPO απαιτεί συνέπεια και επίλυση συγκρούσεων.
Ενεργό σύστημα αναμονής (ζεστό/ζεστό/κρύο): ισορροπία κόστους/ταχύτητας.
Γεωγραφικός διαχωρισμός δεδομένων και κλειδιών: KMS/HSM ανά περιφέρεια, BYOK, ανεξάρτητες διαδρομές αντιγραφής.

3. 2 Δεδομένα και αντίγραφα ασφαλείας

PITR (ανάκτηση από σημείο σε χρόνο): αρχεία καταγραφής συναλλαγών, διαστήματα αρχειοθέτησης ≤ 5-15 λεπτά για τη βαθμίδα 1.
Στιγμιότυπα/πλήρη αντίγραφα ασφαλείας: ημερήσια/ωριαία, αποθήκευση σύμφωνα με το σύστημα 3-2-1 (3 αντίγραφα, 2 μέσα, 1 offline/offsite).
Αμετάβλητη: κλειδαριές WORM/αντικειμένου, αλυσίδες υπογραφής/χασίς αντικειμένων.
Κατάλογος ανάκτησης: εφεδρική απογραφή, ακεραιότητα, ημερομηνία λήξης, αποκρυπτογραφήσεις δοκιμών.

3. 3 Εφαρμογές και ολοκλήρωση

Statles Services - Ταχεία ανάπτυξη μέσω IaC/CI

Στοιχεία Statefull: συνεπή στιγμιότυπα, ενορχήστρωση της ακολουθίας εκτόξευσης.
Ενσωμάτωση (PSP/KYC/aggregators): διπλές πιστώσεις, εφεδρικά τελικά σημεία, υπογεγραμμένα webhooks, έλεγχος επαναπροώθησης (idempotency).


4) Εντολή ανάκτησης (γενικό εγχειρίδιο)

1. Διακηρύσσοντας ένα σενάριο DR → αναθέτοντας στο DR Incident Commander (DR-IC), εγκαινιάζοντας μια αίθουσα πολέμου.
2. Εκτίμηση ζημιών: πληγείσες περιοχές/υποσυστήματα, τρέχουσα RTA/RPA, απόφαση ενεργοποίησης του feilover.
3. Απομόνωση/περιορισμός: παρεμπόδιση των αρχικών αιτιών (ACL δικτύου, μυστικά, αποσύνδεση του παρόχου).

4. Αρχικοποίηση DR:
  • δίκτυο/μυστικά/KMS →
  • DB/Θησαυροφυλάκιο/ →
  • API/υπηρεσίες → εμπρός/CDN → εξωτερικές ενοποιήσεις.
  • 5. Έλεγχος ακεραιότητας: μετρητής. ποσότητες, «ξηρά» αιτήματα, δείγματα υγείας.
  • 6. Συμφιλίωση χρηματοδότησης/παιχνιδιών: συμφιλίωση πληρωμών, στοιχημάτων, υπολοίπων, επακόλουθη επανάληψη συναλλαγών.
  • 7. Ανακοινώσεις: status page, players/partners/regulators· επικαιροποίηση του χρονοδιαγράμματος.
  • 8. Παρατήρηση και σταθεροποίηση: απενεργοποίηση της αποικοδόμησης καθώς η κανονικοποίηση προχωρεί.
  • 9. Μεταθανάτια: RCA, CAPA, επικαιροποίηση DRP.

5) Βιβλία ειδίκευσης (snippets)

5. Ενεργός ετοιμότητα σε κατάσταση αναμονής

yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"

5. 2 ΔΒ διαφθοράς/Ανάκτηση από το PITR

yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]

5. 3 αποικοδόμηση PSP σε κατάσταση λειτουργίας DR

yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation

6) Ακεραιότητα και συμβατότητα των δεδομένων

Χρηματοδότηση: συμφωνίες καταθέσεων/πληρωμών/προμηθειών, επαναποστολών κοινοποιήσεων και webhooks με αποπληρωμή (idempotency-keys).
Περίγραμμα παιχνιδιού: ανάκτηση των στρογγυλών κρατών, επανάληψη των οικισμών, εάν είναι απαραίτητο, προστασία από διπλές χρεώσεις/χρεώσεις.
Καταγραφές/έλεγχοι: πριν/μετά τη χαρτογράφηση του ημερολογίου WORM, υπογραφές/hashes, εκθέσεις συνέπειας.
DPO/Έκθεση συμμόρφωσης: Στην περίπτωση επιπτώσεων PII, η κλίμακα αποτύπωσης, το χρονοδιάγραμμα και οι κοινοποιήσεις.


7) DR για βασικές τεχνολογίες (παραδείγματα)

DBMS (σχεσιακή): συγχρονισμένη/ασύγχρονη αναπαραγωγή, χρονοθυρίδες WAL, ταχεία προώθηση, θερμές αναμονές.
NoSQL/caches: multicluster, TTL-αναπηρία, πλήρωση εν ψυχρώ, απόρριψη διασυνοριακής εγγραφής χωρίς επίλυση συγκρούσεων.
Σειρά αναμονής/ροές: τοπικά κατόπτρα/συμπλέγματα, έλεγχος όφσετ, αποσύνδεση των καταναλωτών.
Αποθήκευση αντικειμένου: έκδοση, αντιγραφή δεξαμενών, απογραφή αντικειμένων και πολιτικές διατήρησης.
CI/CD/τεχνουργήματα: αντίγραφα μητρώων, υπογραφή αντικειμένων, αντίγραφα εμπορευματοκιβωτίων κρίσιμης σημασίας.
Μυστικά/κλειδιά: KMS ανά περιοχή, ανεξάρτητα κλειδιά ρίζας, κλειδιά θραύσης με καταγραφή και TTL.


8) Ασφάλεια και ιδιωτικότητα στη ΔΚ

Η αρχή των ελάχιστων δικαιωμάτων: πρόσβαση σε DR με ατομικούς ρόλους/προφίλ (JIT/PAM).
Αμετάβλητα αντίγραφα ασφαλείας: offline/offsite, δοκιμή ανάκτησης και αποκρυπτογράφησης.
Ρυθμιστικές θυρίδες: απόφαση συλλογής και κοινοποίησης γεγονότων (ρυθμιστική αρχή/τράπεζα/πάροχος υπηρεσιών πληρωμών/χρήστες) μαζί με τη νομική/ΥΠΔ.
Ιχνηλασιμότητα: πλήρης καταγραφή δραστηριοτήτων εντολών DR, υπογραφή χρονοδιαγράμματος.


9) Ασκήσεις και είδη δοκιμών

Walkthrough/Review: Έγγραφο/ρόλος/επισκόπηση επαφής (τριμηνιαία).
Tabletop: εκτέλεση σεναρίων σε «ξηρό» με επίλυση συγκρούσεων.
Τεχνικό μέρος: ανάκτηση μιας ενιαίας υπηρεσίας/βάσης δεδομένων.
Πλήρης αποτυχία/μετάβαση - μεταφορά κίνησης και δεδομένων στην εφεδρική περιοχή.
Ηµέρες χάους (ελεγχόµενες): ένεση αστοχιών/αποτυχιών στον έλεγχο των αυτοµατοποιηµένων.

Κάθε δοκιμή → έκθεση με RTA/RPA, κατάλογο αποκλίσεων, CAPA και επικαιροποίηση DRP.


10) Μετρική (KPI/KRI)

RTA/RPA έναντι RTO/RPO (Tier-1): 95% αντιστοιχεί ≥.
DR Test Coverage: ≥ 2 πλήρεις δοκιμές DR/έτος + τακτική μερική.
Time-to-First-Status: ≤ 15 λεπτά μετά την ανακοίνωση της DR.
Συμφιλίωση Zero-Diff: όλες οι συμφωνίες μετρητών και παιχνιδιών χωρίς ασυμφωνίες.
Εφεδρική ακεραιότητα: το 100% των spot restores είναι επιτυχής σε ένα τέταρτο.
Config Drift: 0 μετατόπιση μεταξύ πρωτογενούς/δευτερογενούς (σύγκριση IaC).
Ασφάλεια σε DR: 100% δραστηριότητες DR με καταγραφή και επιβεβαίωση.


11) RACI (διευρυμένη)

ΔραστηριότηταDR-ICΠλατφόρμα/SREΔεδομένα/DBAΑσφάλεια/ΥΠΔΠληρωμέςΚίνδυνος/KYCΠροϊόν/EngΚοινότητες/Δημόσιες σχέσειςΝομική/συμμόρφωση
Ανακοίνωση DRA/RCCCCCCCC
Feilover/ΑνελκυστήραςCA/RRCCCRII
Επικύρωση/ΥγείαCRA/RCCCRII
ΣυμφιλίωσηIRA/RIRRRII
ΕπικοινωνίεςIIICCCIA/RC
Ρυθμιστικές αρχές/ΠΥΠIIIA/RRRICR
Μεταθανάτια/CAPAA/RRRRRRRCC

12) Κατάλογοι ελέγχου

12. 1 ετοιμότητα για DR

  • Επικαιροποιημένες επαφές DR Team/Vendor/Ρυθμιστικής Αρχής
  • Αναπαραγωγή πράσινου, ενεργοποιημένου PITR, αποκρυπτογράφηση αντιγράφων ασφαλείας
  • Πρόσβαση JIT/PAM, επαληθευμένο γυαλί θραύσης
  • Τα πλαστά βιβλία αναπαραγωγής και οι περιβαλλοντικές μεταβλητές είναι έγκυρες
  • PSP/KYC Dual Credits/Webhooks, Εναλλακτικές διαδρομές
  • Έτοιμα υποδείγματα Status Page/Message

12. 2 Κατά τη διάρκεια της DR

  • Ορισμός DR-IC, ανοικτή αίθουσα πολέμου, χρονοδιάγραμμα εκδηλώσεων
  • Αιτία απομόνωσης, scripting, τρέξιμο runbooks
  • Έλεγχοι ακεραιότητας, υγειονομικοί έλεγχοι, δοκιμές καπνού
  • Πρώτη ενημέρωση του κοινού ≤ 15 λεπτά. κοινοποιήσεις σε εταίρους/ρυθμιστικές αρχές σχετικά με τις ΣΕΔ
  • Σύλληψη αντικειμένων για έρευνα

12. 3 Μετά την DR

  • Πλήρης συμφιλίωση χρημάτων/παιχνιδιών και περιοδικών
  • Νεκροψία, RCA, CAPA με ημερομηνίες και ιδιοκτήτες
  • Επικαιροποίηση DRP/BIA/Επικοινωνία/IaC
  • Καθορίζει σχέδιο επανεξέτασης

13) Υποδείγματα (θραύσματα)

13. 1 Κάρτα εξυπηρέτησης (διαβατήριο DR)

yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]

13. 2 έκθεση δοκιμής DR (έκθεση)

yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"

13. Πρότυπο μηνύματος κατάστασης 3


[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.

14) Χάρτης πορείας για την εφαρμογή (6-8 εβδομάδες)

Εβδομάδες 1-2: απογραφή υπηρεσιών και εξαρτήσεων, ταξινόμηση βαθμίδας, στόχοι RTO/RPO, επιλογή τοπολογίας, διαβατήρια DR.
Εβδομάδες 3-4: εφαρμογή backups/PITR/αμετάβλητη, μυστική αντιγραφή/KMS, προετοιμασία runbooks και κατάστασης.
Εβδομάδες 5-6: μερικές τεχνικές δοκιμές (βάση δεδομένων/κρύπτη/ουρές αναμονής), ταμπλέτα σύμφωνα με τα σενάρια PSP/KYC/περιφέρειας.
Εβδομάδες 7-8: πλήρης μετάβαση (εάν είναι δυνατόν), αναφορά με RTA/RPA, CAPA, DRP ενημέρωση και τακτικό σχέδιο δοκιμών.


15) Ολοκλήρωση με άλλα τμήματα wiki

Σύνδεσμος προς: BCP, Μητρώο Κινδύνων, Διαχείριση Συμβάντων, Πολιτική Καταγραφής (WORM), TPRM και SLA, ISO 27001/27701, SOC 2, PCI DSS, RBAC/Λιγότερο προνόμιο, Πολιτική κωδικού πρόσβασης και ΜΠΑ, Αλλαγή/Διαχείριση ελευθέρωσης.


TL· DR

Λειτουργώντας DRP = σαφής RTO/RPO από Tier → Active-Active/Standby αρχιτεκτονική + αμετάβλητα backups/PITR → playable runbooks και feilover → συμφιλίωση χρημάτων/παιχνιδιών → τακτικές ασκήσεις και CAPAs. Στη συνέχεια, κάθε σημαντική αποτυχία μετατρέπεται σε μια διαχειρίσιμη διαδικασία με προβλέψιμους χρόνους αποκατάστασης και μηδενικές εκπλήξεις για τις ρυθμιστικές αρχές και τους παίκτες.

Contact

Επικοινωνήστε μαζί μας

Επικοινωνήστε για οποιαδήποτε βοήθεια ή πληροφορία.Είμαστε πάντα στη διάθεσή σας.

Έναρξη ολοκλήρωσης

Το Email είναι υποχρεωτικό. Telegram ή WhatsApp — προαιρετικά.

Το όνομά σας προαιρετικό
Email προαιρετικό
Θέμα προαιρετικό
Μήνυμα προαιρετικό
Telegram προαιρετικό
@
Αν εισαγάγετε Telegram — θα απαντήσουμε και εκεί.
WhatsApp προαιρετικό
Μορφή: κωδικός χώρας + αριθμός (π.χ. +30XXXXXXXXX).

Πατώντας «Αποστολή» συμφωνείτε με την επεξεργασία δεδομένων.