Σχέδιο αποκατάστασης καταστροφών
1) Σκοπός, πεδίο εφαρμογής και αρχές
Στόχος: να εξασφαλιστεί η έγκαιρη αποκατάσταση της πλατφόρμας ΤΠ μετά από καταστροφές (αυτές, ο κυβερνοχώρος, ο πωλητής, ο γεωπολιτικός) χωρίς να παραβιάζονται οι κανονιστικές απαιτήσεις, οι συμβάσεις και οι προσδοκίες των παραγόντων.
Πεδίο: παραγωγικά περιβάλλοντα (κύκλωμα τυχερών παιχνιδιών, πληρωμές, KYC/AML, καταπολέμηση της απάτης, καταστήματα DWH/BI), ενοποιήσεις (PSP, KYC, CDN, στούντιο/aggregators), υποδομές (cloud/K8s, δίκτυα, μυστικά/κλειδιά), δεδομένα (βάσεις δεδομένων, αρχεία, αρχεία καταγραφής)).
Αρχές: πρώτη ασφάλεια, ελαχιστοποίηση RTO/RPO, αυτοματοποίηση και αναπαραγωγιμότητα (IaC), «δυνατότητα απόδειξης εξ ορισμού», τακτικές ασκήσεις.
2) Στόχοι ταξινόμησης και ανάκτησης του συστήματος
2. 1 Επίπεδα κρίσιμης σημασίας
Βαθμίδα 1 (ζωτικής σημασίας): πληρωμές/ταμεία, βασικά παιχνίδια, σύνδεση/εξακρίβωση ταυτότητας, ΔΠΔ/κυρώσεις.
: real-time analytics, marketing/CRM, DWH reporting.
: εσωτερικές πύλες, βοηθητικές υπηρεσίες.
2. 2 Στόχοι
RTO - Στόχος του χρόνου ανάκτησης
Στόχος σημείου ανάκτησης (RPO) - επιτρεπόμενη χρονική απώλεια δεδομένων.
RTA (πραγματικός χρόνος ανάκτησης )/RPA (πραγματικό σημείο ανάκτησης) - οι πραγματικές τιμές καταγράφονται στις εκθέσεις.
MTO/MBCO: μέγιστος ανεκτός χρόνος διακοπής/ελάχιστο αποδεκτό επίπεδο υπηρεσίας (κατάσταση υποβάθμισης).
- Βαθμίδα 1 - RTO ≤ 30-60 λεπτά, RPO ≤ 15 λεπτά, - RTO 4 , RPO 1 , - RTO 24 , RPO 24 .
3) Στρατηγικές και αρχιτεκτονική του DR
3. 1 Τοπολογίες
Ενεργός (πολυπεριφέρεια): ο ελάχιστος RTO/RPO απαιτεί συνέπεια και επίλυση συγκρούσεων.
Ενεργό σύστημα αναμονής (ζεστό/ζεστό/κρύο): ισορροπία κόστους/ταχύτητας.
Γεωγραφικός διαχωρισμός δεδομένων και κλειδιών: KMS/HSM ανά περιφέρεια, BYOK, ανεξάρτητες διαδρομές αντιγραφής.
3. 2 Δεδομένα και αντίγραφα ασφαλείας
PITR (ανάκτηση από σημείο σε χρόνο): αρχεία καταγραφής συναλλαγών, διαστήματα αρχειοθέτησης ≤ 5-15 λεπτά για τη βαθμίδα 1.
Στιγμιότυπα/πλήρη αντίγραφα ασφαλείας: ημερήσια/ωριαία, αποθήκευση σύμφωνα με το σύστημα 3-2-1 (3 αντίγραφα, 2 μέσα, 1 offline/offsite).
Αμετάβλητη: κλειδαριές WORM/αντικειμένου, αλυσίδες υπογραφής/χασίς αντικειμένων.
Κατάλογος ανάκτησης: εφεδρική απογραφή, ακεραιότητα, ημερομηνία λήξης, αποκρυπτογραφήσεις δοκιμών.
3. 3 Εφαρμογές και ολοκλήρωση
Statles Services - Ταχεία ανάπτυξη μέσω IaC/CI
Στοιχεία Statefull: συνεπή στιγμιότυπα, ενορχήστρωση της ακολουθίας εκτόξευσης.
Ενσωμάτωση (PSP/KYC/aggregators): διπλές πιστώσεις, εφεδρικά τελικά σημεία, υπογεγραμμένα webhooks, έλεγχος επαναπροώθησης (idempotency).
4) Εντολή ανάκτησης (γενικό εγχειρίδιο)
1. Διακηρύσσοντας ένα σενάριο DR → αναθέτοντας στο DR Incident Commander (DR-IC), εγκαινιάζοντας μια αίθουσα πολέμου.
2. Εκτίμηση ζημιών: πληγείσες περιοχές/υποσυστήματα, τρέχουσα RTA/RPA, απόφαση ενεργοποίησης του feilover.
3. Απομόνωση/περιορισμός: παρεμπόδιση των αρχικών αιτιών (ACL δικτύου, μυστικά, αποσύνδεση του παρόχου).
- δίκτυο/μυστικά/KMS →
- DB/Θησαυροφυλάκιο/ →
- API/υπηρεσίες → εμπρός/CDN → εξωτερικές ενοποιήσεις.
- 5. Έλεγχος ακεραιότητας: μετρητής. ποσότητες, «ξηρά» αιτήματα, δείγματα υγείας.
- 6. Συμφιλίωση χρηματοδότησης/παιχνιδιών: συμφιλίωση πληρωμών, στοιχημάτων, υπολοίπων, επακόλουθη επανάληψη συναλλαγών.
- 7. Ανακοινώσεις: status page, players/partners/regulators· επικαιροποίηση του χρονοδιαγράμματος.
- 8. Παρατήρηση και σταθεροποίηση: απενεργοποίηση της αποικοδόμησης καθώς η κανονικοποίηση προχωρεί.
- 9. Μεταθανάτια: RCA, CAPA, επικαιροποίηση DRP.
5) Βιβλία ειδίκευσης (snippets)
5. Ενεργός ετοιμότητα σε κατάσταση αναμονής
yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"
5. 2 ΔΒ διαφθοράς/Ανάκτηση από το PITR
yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]
5. 3 αποικοδόμηση PSP σε κατάσταση λειτουργίας DR
yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation
6) Ακεραιότητα και συμβατότητα των δεδομένων
Χρηματοδότηση: συμφωνίες καταθέσεων/πληρωμών/προμηθειών, επαναποστολών κοινοποιήσεων και webhooks με αποπληρωμή (idempotency-keys).
Περίγραμμα παιχνιδιού: ανάκτηση των στρογγυλών κρατών, επανάληψη των οικισμών, εάν είναι απαραίτητο, προστασία από διπλές χρεώσεις/χρεώσεις.
Καταγραφές/έλεγχοι: πριν/μετά τη χαρτογράφηση του ημερολογίου WORM, υπογραφές/hashes, εκθέσεις συνέπειας.
DPO/Έκθεση συμμόρφωσης: Στην περίπτωση επιπτώσεων PII, η κλίμακα αποτύπωσης, το χρονοδιάγραμμα και οι κοινοποιήσεις.
7) DR για βασικές τεχνολογίες (παραδείγματα)
DBMS (σχεσιακή): συγχρονισμένη/ασύγχρονη αναπαραγωγή, χρονοθυρίδες WAL, ταχεία προώθηση, θερμές αναμονές.
NoSQL/caches: multicluster, TTL-αναπηρία, πλήρωση εν ψυχρώ, απόρριψη διασυνοριακής εγγραφής χωρίς επίλυση συγκρούσεων.
Σειρά αναμονής/ροές: τοπικά κατόπτρα/συμπλέγματα, έλεγχος όφσετ, αποσύνδεση των καταναλωτών.
Αποθήκευση αντικειμένου: έκδοση, αντιγραφή δεξαμενών, απογραφή αντικειμένων και πολιτικές διατήρησης.
CI/CD/τεχνουργήματα: αντίγραφα μητρώων, υπογραφή αντικειμένων, αντίγραφα εμπορευματοκιβωτίων κρίσιμης σημασίας.
Μυστικά/κλειδιά: KMS ανά περιοχή, ανεξάρτητα κλειδιά ρίζας, κλειδιά θραύσης με καταγραφή και TTL.
8) Ασφάλεια και ιδιωτικότητα στη ΔΚ
Η αρχή των ελάχιστων δικαιωμάτων: πρόσβαση σε DR με ατομικούς ρόλους/προφίλ (JIT/PAM).
Αμετάβλητα αντίγραφα ασφαλείας: offline/offsite, δοκιμή ανάκτησης και αποκρυπτογράφησης.
Ρυθμιστικές θυρίδες: απόφαση συλλογής και κοινοποίησης γεγονότων (ρυθμιστική αρχή/τράπεζα/πάροχος υπηρεσιών πληρωμών/χρήστες) μαζί με τη νομική/ΥΠΔ.
Ιχνηλασιμότητα: πλήρης καταγραφή δραστηριοτήτων εντολών DR, υπογραφή χρονοδιαγράμματος.
9) Ασκήσεις και είδη δοκιμών
Walkthrough/Review: Έγγραφο/ρόλος/επισκόπηση επαφής (τριμηνιαία).
Tabletop: εκτέλεση σεναρίων σε «ξηρό» με επίλυση συγκρούσεων.
Τεχνικό μέρος: ανάκτηση μιας ενιαίας υπηρεσίας/βάσης δεδομένων.
Πλήρης αποτυχία/μετάβαση - μεταφορά κίνησης και δεδομένων στην εφεδρική περιοχή.
Ηµέρες χάους (ελεγχόµενες): ένεση αστοχιών/αποτυχιών στον έλεγχο των αυτοµατοποιηµένων.
Κάθε δοκιμή → έκθεση με RTA/RPA, κατάλογο αποκλίσεων, CAPA και επικαιροποίηση DRP.
10) Μετρική (KPI/KRI)
RTA/RPA έναντι RTO/RPO (Tier-1): 95% αντιστοιχεί ≥.
DR Test Coverage: ≥ 2 πλήρεις δοκιμές DR/έτος + τακτική μερική.
Time-to-First-Status: ≤ 15 λεπτά μετά την ανακοίνωση της DR.
Συμφιλίωση Zero-Diff: όλες οι συμφωνίες μετρητών και παιχνιδιών χωρίς ασυμφωνίες.
Εφεδρική ακεραιότητα: το 100% των spot restores είναι επιτυχής σε ένα τέταρτο.
Config Drift: 0 μετατόπιση μεταξύ πρωτογενούς/δευτερογενούς (σύγκριση IaC).
Ασφάλεια σε DR: 100% δραστηριότητες DR με καταγραφή και επιβεβαίωση.
11) RACI (διευρυμένη)
12) Κατάλογοι ελέγχου
12. 1 ετοιμότητα για DR
- Επικαιροποιημένες επαφές DR Team/Vendor/Ρυθμιστικής Αρχής
- Αναπαραγωγή πράσινου, ενεργοποιημένου PITR, αποκρυπτογράφηση αντιγράφων ασφαλείας
- Πρόσβαση JIT/PAM, επαληθευμένο γυαλί θραύσης
- Τα πλαστά βιβλία αναπαραγωγής και οι περιβαλλοντικές μεταβλητές είναι έγκυρες
- PSP/KYC Dual Credits/Webhooks, Εναλλακτικές διαδρομές
- Έτοιμα υποδείγματα Status Page/Message
12. 2 Κατά τη διάρκεια της DR
- Ορισμός DR-IC, ανοικτή αίθουσα πολέμου, χρονοδιάγραμμα εκδηλώσεων
- Αιτία απομόνωσης, scripting, τρέξιμο runbooks
- Έλεγχοι ακεραιότητας, υγειονομικοί έλεγχοι, δοκιμές καπνού
- Πρώτη ενημέρωση του κοινού ≤ 15 λεπτά. κοινοποιήσεις σε εταίρους/ρυθμιστικές αρχές σχετικά με τις ΣΕΔ
- Σύλληψη αντικειμένων για έρευνα
12. 3 Μετά την DR
- Πλήρης συμφιλίωση χρημάτων/παιχνιδιών και περιοδικών
- Νεκροψία, RCA, CAPA με ημερομηνίες και ιδιοκτήτες
- Επικαιροποίηση DRP/BIA/Επικοινωνία/IaC
- Καθορίζει σχέδιο επανεξέτασης
13) Υποδείγματα (θραύσματα)
13. 1 Κάρτα εξυπηρέτησης (διαβατήριο DR)
yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]
13. 2 έκθεση δοκιμής DR (έκθεση)
yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"
13. Πρότυπο μηνύματος κατάστασης 3
[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.
14) Χάρτης πορείας για την εφαρμογή (6-8 εβδομάδες)
Εβδομάδες 1-2: απογραφή υπηρεσιών και εξαρτήσεων, ταξινόμηση βαθμίδας, στόχοι RTO/RPO, επιλογή τοπολογίας, διαβατήρια DR.
Εβδομάδες 3-4: εφαρμογή backups/PITR/αμετάβλητη, μυστική αντιγραφή/KMS, προετοιμασία runbooks και κατάστασης.
Εβδομάδες 5-6: μερικές τεχνικές δοκιμές (βάση δεδομένων/κρύπτη/ουρές αναμονής), ταμπλέτα σύμφωνα με τα σενάρια PSP/KYC/περιφέρειας.
Εβδομάδες 7-8: πλήρης μετάβαση (εάν είναι δυνατόν), αναφορά με RTA/RPA, CAPA, DRP ενημέρωση και τακτικό σχέδιο δοκιμών.
15) Ολοκλήρωση με άλλα τμήματα wiki
Σύνδεσμος προς: BCP, Μητρώο Κινδύνων, Διαχείριση Συμβάντων, Πολιτική Καταγραφής (WORM), TPRM και SLA, ISO 27001/27701, SOC 2, PCI DSS, RBAC/Λιγότερο προνόμιο, Πολιτική κωδικού πρόσβασης και ΜΠΑ, Αλλαγή/Διαχείριση ελευθέρωσης.
TL· DR
Λειτουργώντας DRP = σαφής RTO/RPO από Tier → Active-Active/Standby αρχιτεκτονική + αμετάβλητα backups/PITR → playable runbooks και feilover → συμφιλίωση χρημάτων/παιχνιδιών → τακτικές ασκήσεις και CAPAs. Στη συνέχεια, κάθε σημαντική αποτυχία μετατρέπεται σε μια διαχειρίσιμη διαδικασία με προβλέψιμους χρόνους αποκατάστασης και μηδενικές εκπλήξεις για τις ρυθμιστικές αρχές και τους παίκτες.