Σενάρια αποκατάστασης καταστροφών

1) Για ποιο λόγο είναι αναγκαίο το DR και ποιος είναι ο σκοπός

Η αποκατάσταση καταστροφών (DR) είναι ένα σύνολο αρχιτεκτονικών, διαδικασιών και κατάρτισης για την ανάκτηση υπηρεσιών μετά από καταστροφές (αστοχία κέντρου δεδομένων/περιοχής, απώλεια δεδομένων, σφάλματα στη διαμόρφωση μάζας). Στόχος της DR είναι να επιτύχει στόχους RTO/RPO με ελεγχόμενο κόστος και κίνδυνο, διατηρώντας παράλληλα την εμπιστοσύνη των πελατών και την κανονιστική συμμόρφωση.

Στόχος του χρόνου ανάκαμψης (RTO) - Καθορισμένος χρόνος διακοπής.
Στόχος σημείου ανάκτησης (RPO) - επιτρεπόμενη απώλεια δεδομένων (χρόνος από το τελευταίο σταθερό σημείο).
RLO (Στόχος επιπέδου ανάκτησης): επίπεδο λειτουργικότητας που πρέπει να επιστρέφει πρώτα (ελάχιστη βιώσιμη υπηρεσία).

2) Ταξινόμηση των συστημάτων ανά κρισιμότητα

Βαθμίδα 0 (ζωτικής σημασίας): πληρωμές, σύνδεση, KYC, βασικές συναλλαγές - RTO ≤ 15 λεπτά, RPO ≤ 1-5 λεπτά.
Βαθμίδα 1 (υψηλό): πίνακες λειτουργίας, αναφορές D-1 - RTO ≤ 1 h, RPO ≤ 15-60 λεπτά.
Βαθμίδα 2 (μέσος όρος): back office, σχεδόν σε πραγματικό χρόνο analytics - RTO ≤ 4-8 ώρες, RPO ≤ 4-8 ώρες.
Βαθμίδα 3 (χαμηλή): μη κρίσιμης σημασίας βοηθητικό - RTO ≤ 24-72 h, RPO ≤ 24 h.

Εκχώρηση RTO/RPO-στόχου κατηγορίας + σε κάθε υπηρεσία του καταλόγου υπηρεσιών. οι αποφάσεις και οι προϋπολογισμοί πρέπει να ελέγχονται από αυτές.

3) Μοντέλο και σενάρια απειλής

Τεχνητή βλάβη AZ/περιφέρεια/πάροχος, υποβάθμιση δικτύου/DNS, βλάβη βάσης δεδομένων/αποθήκευσης, σφάλμα απελευθέρωσης μάζας.
Ανθρώπινος παράγοντας: εσφαλμένες διαμορφώσεις/IaC, διαγραφή δεδομένων, βασικός συμβιβασμός.
Φυσικό/εξωτερικό: πυρκαγιά/πλημμύρα, διακοπές ρεύματος, νομικά εμπόδια.
Για καθένα - αξιολογήστε την πιθανότητα/επίπτωση, συνδεθείτε με το σενάριο DR και το playbook.

4) μοτίβα αρχιτεκτονικής DR

1. Ενεργός (Πολυπεριφέρεια): Και οι δύο περιοχές εξυπηρετούν την κυκλοφορία.

Pros: ελάχιστη RTO/RPO, υψηλή σταθερότητα.
Μειονεκτήματα: πολυπλοκότητα/συνέπεια των δεδομένων, υψηλή τιμή.
Όπου: διαβαζόμενα βαρέα, αποθηκευμένα φορτία, απάτριδες υπηρεσίες, πολυπρόσωπη DB (αυστηροί κανόνες σύγκρουσης νόμων).

2. Ενεργό-παθητικό (Hot Standby): Ένα θερμό παθητικό περιέχει ένα πλήρως θερμαινόμενο αντίγραφο.

RTO: λεπτά· RPO: Πρακτικά. Απαιτεί αυτόματη αποτυχία και αντιγραφή.

3. Θερμή αναμονή: μέρος των πόρων θερμαίνεται, κλιμακώνεται σε περίπτωση ατυχήματος.

RTO: δεκάδες λεπτά, RPO: 15-60 λεπτά. Πιο οικονομικός, αλλά μακρύτερος.

4. Πιλοτικό φως: ελάχιστη «σπίθα» (μεταδεδομένα/εικόνες/σενάρια) + γρήγορη εξάπλωση.

RTO: ώρες· RPO: ώρες. Φτηνές, κατάλληλες για τη βαθμίδα 2-3.

5. Αντίγραφο ασφαλείας & Αποκατάσταση: offline backups + χειροκίνητη προθέρμανση.

RTO/RPO: ώρες/ημέρα. Μόνο για χαμηλή κριτική και αρχεία.

5) Δεδομένα και συνέπεια

Αντιγραφή βάσης δεδομένων:

Συγχρονισμένη - σχεδόν μηδενική RPO, αλλά ↑latentnost/stoimost.
Ασύγχρονη - καλύτερη απόδοση, RPO> 0 (ουρά κορμών).
Συνέπεια: Επιλέξτε ένα μοντέλο (ισχυρό/ενδεχόμενο/αιτιώδες). Για τις πληρωμές - αυστηρά, για την αναλυτική - ενδεχομένως.
Στιγμιότυπα: Δημιουργία σταθερών σημείων τακτικά + αποθήκευση αρχείων καταγραφής (WAL/redo).
διαπεριφερειακές συναλλαγές: αποφυγή 2PC· να χρησιμοποιούν idempotent λειτουργίες, deli-and-repeat (επανάληψη με αφαίρεση), προμήθεια γεγονότων.
Ουρές/λεωφορεία: αντιγραφή/αντικατοπτρισμός, DLQ, παραγγελία και ιδιοτέλεια των καταναλωτών.

6) Δίκτυο, κυκλοφορία και DNS

GSLB/Anycast/DNS: αποτυχημένες/αποτυχημένες πολιτικές, χαμηλή TTL (αλλά όχι υπερβολική), υγειονομικοί έλεγχοι από διάφορες περιφέρειες.
L7 δρομολόγηση: περιφερειακοί χάρτες, σημαίες υποβάθμισης (περιορισμός λειτουργίας).
Ιδιωτικοί σύνδεσμοι/VPN: εφεδρικά κανάλια σε παρόχους (PSP/KYC/CDN).
Περιορισμός του ρυθμού: προστασία από καταιγίδες κατά την ανάκτηση.

7) Stateful vs Stateless

Το ανιθαγενές μεταφέρεται με αλφάβητο/αυτόματη κλίμακα. Το stateful απαιτεί μια συνεπή στρατηγική δεδομένων (αντιγραφή, στιγμιότυπα, προώθηση αντιγράφων, απαρτία).
Cache/sessions: εξωτερικές (Redis/Memcached) με διαπεριφερειακή αναπαραγωγή ή εκ νέου σπορά από κορμούς. συγκράτηση συνεδριών σε μάρκες (JWT) ή κοινή αποθήκευση.

8) Ενεργοποίηση και αυτοματοποίηση DR

Gardrails και ανιχνευτές απαρτίας SLO → αυτόματο εγχειρίδιο εκτέλεσης πτήσεων περιοχής.
Πάγωμα αλλαγών σε περίπτωση ατυχήματος: αποκλεισμός άσχετων εκλύσεων/μεταναστεύσεων.
Υποδομή ως κώδικας: εγκατάσταση εφεδρικών δηλωτικών, παρασυρόμενος έλεγχος.
Προώθηση ρόλων: αυτόματη προώθηση αντιγράφων DB + συγγραφέων/μυστικών.

9) Επικοινωνίες και συμμόρφωση

Αίθουσα πολέμου: IC/TL/Comms/Scribe; διαστήματα επικαιροποίησης SEV.
Σελίδα κατάστασης: γεωγραφία επιρροής, ΠΩΑ, εργασίες.
Κανονιστική ρύθμιση: προθεσμίες κοινοποίησης, ασφάλεια δεδομένων, αμετάβλητη αποθήκευση αποδεικτικών στοιχείων.
Εταίροι/πάροχοι: επιβεβαιωμένες επαφές, ειδικός δίαυλος.

10) Δοκιμασίες και ασκήσεις DR

Tabletop: Συζήτηση σεναρίου και λύσεων.
Ημέρα παιχνιδιού (στάδιο/prod-light): προσομοίωση αστοχίας AZ/περιοχών, διακοπή παροχής, επαναφορά DNS.
Επαναφορά των δοκιμών: περιοδική αποκατάσταση των εφεδρειών σε απομόνωση και επικύρωση της ακεραιότητας.
Έγχυση χάους/αστοχίας: ελεγχόμενο δίκτυο/κόμβος/αστοχίες εξάρτησης.
Άσκηση KPI: επιτεύχθηκε RTO/RPO, ελαττώματα playbook, CAPA.

11) Επιλογή χρηματοδότησης και στρατηγικής (Finops)

Μετρήστε $ για μειωμένη RPO/RTO: όσο χαμηλότεροι είναι οι στόχοι, τόσο πιο ακριβά είναι τα κανάλια, οι άδειες, τα αποθέματα.
Υβριδικό: Βαθμίδα 0 - ενεργό/θερμό· Βαθμίδα 1 - θερμή· Βαθμίδα 2-3 - χειριστής/εφεδρικό.
Ακριβά δεδομένα: χρήση ψυχρών στρωμάτων (αρχείο/S3/GLACIER), στοιχειώδη στιγμιότυπα, αφαίρεση.
Περιοδική επανεξέταση του κόστους και των πιστοποιητικών/αδειών DR-infra.

12) Μετρήσεις διάρκειας DR

RTO (πραγματικό) και RPO (πραγματικό) για κάθε βαθμίδα.
DR Coverage:% των υπηρεσιών με σχεδιασμένο σενάριο/playbook/test.
Εφεδρική επιτυχία και αποκατάσταση της επιτυχίας: Η καθημερινή επιτυχία των εφεδρειών και των αποδεδειγμένων αποκαταστάσεων.
Time-to-Declare Disaster: Ταχύτητα αποτυχίας.
Αποτυχία Ο Χρόνος επιστρέφει στην κανονική τοπολογία.
Ασκήσεις βαθμού ελαττώματος: βρέθηκαν κενά/διδασκαλίες.
Πληρότητα των αποδεικτικών στοιχείων συμμόρφωσης.

13) Κατάλογοι ελέγχου

Πριν από την εφαρμογή της DR

Ο κατάλογος υπηρεσιών περιλαμβάνει βαθμίδες, RTO/RPO, εξαρτήσεις και ιδιοκτήτες.
Επιλεγμένο πρότυπο (AA/AP/WS/PL/BR) ανά βαθμίδα και προϋπολογισμό.
Τεκμηριώνονται οι συμφωνίες συνοχής και αναπαραγωγής.
GSLB/DNS/δρομολόγηση και υγειονομικοί έλεγχοι διαμορφωμένοι και δοκιμασμένοι.
Αντίγραφα ασφαλείας, στιγμιότυπα, κούτσουρα αλλαγής - ενεργοποιημένα, ελεγμένα για αποκατάσταση.
Τα βιβλία DR και οι επαφές με τον πάροχο είναι επικαιροποιημένα.

Κατά τη διάρκεια του ατυχήματος (εν συντομία)

Δηλώστε ένα SEV και συναρμολογήστε μια αίθουσα πολέμου? ελευθερώσεις κατάψυξης.
Ελέγξτε την απαρτία των καθετήρων. καταγράφει την επίπτωση/γεωγραφία.
Εκτελέστε Failover Runbook: Traffic, Promotion DB, Queues, Cache.
Ενεργοποίηση ορίων υποβάθμισης-UX/. δημοσιεύει επικαιροποιήσεις στο SLA.

Συλλογή αποδεικτικών στοιχείων (χρονοδιάγραμμα, γραφήματα, αρχεία καταγραφής, εντολές).

Μετά το ατύχημα

Παρατήρηση διαστημάτων SLO N. να εκτελέσει την αποτυχία όπως έχει προγραμματιστεί.
Διεξαγωγή ΕΣΕ/RCA· έκδοση CAPA.
Ενημέρωση των βιβλίων παιχνιδιού, των καταλυτών συναγερμού, των περιπτώσεων δοκιμής DR.
Αναφορά στα ενδιαφερόμενα μέρη/ρυθμιστικές αρχές (εάν είναι απαραίτητο).

14) Υποδείγματα

14. 1 κάρτα σεναρίου DR (παράδειγμα)


ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support

14. 2 Runbook «Provide replica database» (θραύσμα)


1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m

14. Σχέδιο άσκησης DR (σύντομη)


Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output

15) Αντι-μοτίβα

«Υπάρχουν αντίγραφα ασφαλείας» χωρίς τακτικές δοκιμές αποκατάστασης.
Τα μυστικά/τελικά σημεία δεν αλλάζουν αυτόματα.
Καμία ιδιαιτερότητα → διπλή/χαμένη συναλλαγή λόγω ανακατανομής.
Πανομοιότυπες ρυθμίσεις για περιοχές χωρίς σημαίες χαρακτηριστικών υποβάθμισης.
Μακροχρόνιος χρόνος για να κηρύξεις τον φόβο του «ψεύτικου συναγερμού».
Μονοπεριφερειακοί πάροχοι (PSP/KYC) χωρίς εναλλακτική λύση.
Δεν υπάρχει σχέδιο αποτυχίας - ζούμε σε μια τοπολογία έκτακτης ανάγκης «για πάντα».

16) Χάρτης πορείας για την εφαρμογή (6-10 εβδομάδες)

1. Νεντ. 1-2: ταξινόμηση των υπηρεσιών ανά βαθμίδα, καθορισμός του στόχου RTO/RPO, επιλογή προτύπων DR.
2. Νεντ. 3-4: δημιουργία αντιγραφής/αντιγράφων ασφαλείας, GSLB/DNS, διαδικασίες προώθησης· playbooks και runbooks 'και.
3. Νεντ. 5-6: πρώτες ασκήσεις DR (tabletop→stage), καθορισμός μετρήσεων και CAPA.
4. Νεντ. 7-8: Οδική άσκηση περιορισμένης κυκλοφορίας Prod-Light· αυτοματοποίηση failover.
5. Νεντ. 9-10: βελτιστοποίηση του κόστους (FinOps), μεταφορά της κατηγορίας 0 σε hot/AA, τριμηνιαίοι κανονισμοί άσκησης και υποβολής εκθέσεων.

17) Η τελική γραμμή

Η αποτελεσματική DR δεν αφορά μόνο τα αντίγραφα ασφαλείας. Πρόκειται για συνεπή αρχιτεκτονική, αυτοματοποίηση failover/failback, πειθαρχία δεδομένων (idempotency/replication), εκπαίδευση και διαφανείς επικοινωνίες. Όταν τα RTO/RPO είναι αληθινά, τα playbooks επεξεργάζονται, και οι ασκήσεις είναι τακτικές, η καταστροφή μετατρέπεται σε ελεγχόμενο γεγονός, μετά το οποίο οι υπηρεσίες επιστρέφουν γρήγορα και προβλέψιμα στο φυσιολογικό.

Σενάρια αποκατάστασης καταστροφών

Κατά τη διάρκεια του ατυχήματος (εν συντομία)

Μετά το ατύχημα

Επικοινωνήστε μαζί μας

Γρήγορη επικοινωνία

Το βίντεο θα ενημερωθεί σύντομα

Αυτή τη στιγμή είμαστε πολύ απασχολημένοι με έργα