GH GambleHub

Disaster Recovery и cold-backups

簡短摘要

DR是在發生重大事故後恢復業務功能的能力。冷回程是「最後的防禦線」:不變/孤立的副本,適合在完全斷電或破壞現場時進行恢復。該策略圍繞RTO/RPO,系統優先級,年度DR演習和嚴格的操作紀律(目錄,密鑰,驗證)構建。

術語和目標

RPO(恢復點目標)-最大允許數據丟失(例如,≤ 15分鐘)。
RTO(恢復時間目標)-允許的最大恢復時間(例如,≤ 2小時)。
Black start-從頭開始恢復:鐵/群集/秘密/數據/DNS。
Air-gap-物理/邏輯拷貝隔離(磁帶/禁用帳戶/離線介質)。
Immutability (WORM)-不可變存儲(帶有Lock/Retention的磁帶/對象)。

DR就緒水平

冷站-缺少/凍結的基礎設施;RTO:時日;最便宜的CAPEX/OPEX。
Warm站點-模板/圖像/部分完成的服務;RTO:幾十分鐘。
Hot Site-主動復制品;RTO:分鐘;更昂貴、更復雜。
混合動力車:內核→ hot/warm,其他一切都→冷(啟動時優先級)。

冷回落是必不可少的

大規模密碼沈默/域損害。
數據腐敗,走向所有復制品。
區域/數據中心損失,不可抗力(火災,洪水)。
故意從特權帳戶中刪除/破壞。

cold-backups拓撲

1.媒體/存儲類

磁帶(LTO-8/9):便宜、默認空隙、高容量、串行訪問。
離線驅動器/NAS:「保險箱案例」,僅連接到備份/恢復窗口。
歸檔對象類(類似於冰川):存儲價格低,提取時間長。

2.住宿

另一個地點/地區;其他供應商/帳戶;單個密鑰/管理員。

3.不朽性

WORM/對象鎖(Compliance/Governance)磁帶,帶有還原和法律保留。

政策3-2-1-1-0(以冷為重點)

3個數據拷貝(prod+local備份+offsite)。
2個不同的介質(驅動器/磁帶/對象)。
1個離線(其他站點/雲)。
1不變(WORM/air-gap)。
0個檢查錯誤(checksum/定期測試恢復)。

目錄、元數據和完整性控制

備用目錄:什麼,何時,版本,密鑰,支票和金額,期限是再生的。
資產目錄:服務→ →卷/垃圾箱→優先級。
Checksums和manifest文件:寫入和恢復對賬。
金絲雀文件:用於早期媒體問題檢測的常規恢復。

加密和密鑰

靜止加密(磁帶/對象)和飛行加密(復制)。

KMS/Vault帶雙控制,主鍵離線保險箱,輪換.

Prod/Back/Archives的分離密鑰(最大程度地減少爆炸半徑)。
記錄在DR(需求、角色、日誌)下訪問密鑰的過程。

DR計劃: 優先次序和順序

優先級圖(示例):

1.識別和訪問:IdP(最小區域),Vault/KMS,網絡內核。

2.數據和控制平面:etcd K8s,configs,secrets,圖像註冊表,depload工件。

3.交易DB/錢包:日誌+最新完整/積壓。

4.支付/集成網關:密鑰、證書、IP/DNS。

5.Web/api fronts:金絲雀啟動,來自對象的靜態內容。

6.分析/報告:內核完成後。

恢復序列(black-start):

1.基礎架構:網絡,DNS/Anycast,內核IAM,基本映像/群集。

2.秘密/證書:從冷備份中恢復Vault/KMS,分發引導秘密。

3.控制平面:etcd/Control Plane/寄存器/存儲庫。

4.數據:部署來自cold-backup+PITR的數據庫(通過RPO)。

5.應用:通過加熱緩存/CDN在樹上運行依賴項。

6.測試和驗證:健康樣本,一致性,校驗和。

7.流量切換:DNS/路由/平衡器(分階段/金絲雀)。

8.後檢查:無泄漏/債務,邏輯和DR行為。

冷還原程序(範例)

磁帶:清單,下載,並行流,map文件→目錄→ task進行恢復;考慮搜索和倒帶時間。
歸檔類:提取請求(minutes→hours),堆叠到熱存儲,恢復清單。
離線驅動器:只讀連接、檢查→復制。
練習:隔離的「沙箱」進行修復,然後轉移到原生環境。

通信和組織。DR的結構

Роли: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.

頻道:備份(企業域之外),語音/聊天,SecureDocs。
消息模板:客戶/合作夥伴/監管機構;更新頻率;一個單一的「真相來源」。
統一事件日誌:時間線,解決方案,所有者。

DNS、網絡和流量

分裂腦保護:配置中的「DR模式」標誌;功能限制功能的特征標誌。
DNS策略:提前TTL低,獨立DNS提供商;分階段更換A/AAAA/CNAME,加熱CDN。
路由:Anycast/Geo,來自DR站點的BGP公告;ACL/Firewall從IaC重新定位。

DR的SLO

RPO ≥達到99%的時間(目標範圍內的日誌/鑲嵌物)。
每季度一次測試RTO黑色開始(完整腳本)≤目標(例如4小時)。
DR演習成功-100%的關鍵任務在窗口中完成。
Immutability是Retention/Lock=100%的後備份額。
完整性檢查-按計劃進行100%;介質故障→ ticket遷移。

測試和練習

Table top:腳本、角色、支票單、聯系人單。
技術:選擇性地將DB/文件/秘密還原為「沙箱」,並檢查校驗和一致性。
Black-start-drill:一次/季度(或一次/半年)-在DR站點上完全啟動內核。
Mortem後:事實、瓶頸、改進計劃(SLO/進程/自動化)。

自動化和人工制品

IaC:集群,網絡,堆棧-在代碼中;DR分支/參數。
Runbooks:分組(Vault/KMS、etcd、DB、Gateway、Fronts)。
DR軟件包:關鍵碼頭的離線副本(聯系人、電路、安全短語密碼),fizdap說明。
金絲雀還原:每日小型還原和checksum鉆孔。
標簽/標簽:服務/卷的「DR-critical」,「Warm-only」,「Cold-only」。

實施支票

  • 數據類及其RPO/RTO與業務一致;確定了恢復的優先事項。
  • 實現了cold-backups:介質,immutability (WORM/Object Lock), offsyte/air-gap。
  • 目錄:資產,備份,鑰匙;支票金額和版本控制。
  • Black start過程:網絡/DNS、IdP/Vault/KMS、控制平面、數據、app圖層。
  • 演習:每季度一次表;每日金絲雀恢復;黑色開始時間/季度-六個月。
  • 通信和監管模式;各個通信渠道。
  • DR的SLO/度量/異同;向管理層報告。
  • 與提供商(磁帶/存檔類/DNS/CDN)的安排,SLA已得到確認。
  • 財務:媒體預算/存檔、物流、按時更換媒體。

典型錯誤

「有一個復制品-不需要備份」→邏輯錯誤/勒索軟件將隨處可見。
沒有immutability/air-gap →所有副本的單一損害矢量。
缺少目錄/支票金額→恢復了「某些東西」,但沒有恢復。
TTL DNS太大→多日流量遷移。
同一域/帳戶中的密鑰/KMS →在事件發生時阻止訪問。
RTO/RPO →僅在紙上進行的練習尚未得到確認。

iGaming/fintech的細節

錢包/支付核心:嚴格的RPO(≤ 1-5分鐘)和RTO(≤ 15-60分鐘);使用WORM的對象日誌;用於透明通信的「只讀平衡」DR功能。
PSP/內容提供商:預先同意的DR-IP/域, whitelists,證書,HMAC/mTLS密鑰是DR軟件包中的副本。
報告/監管機構:通知模板、不可更改的檔案、可證明的完整性、活動日誌。
高峰和高峰:在重大錦標賽/促銷之前檢查DR準備情況;金絲雀還原和CDN加熱。

迷你運行手冊模板

1) Vault/KMS black start(概念):

1.初始化DR群集,加載非seal(雙控制)密鑰。

2.恢復存儲備份(冷復制)。

3.檢查策略,為CI/CD/K8s發布引導程序秘密。

2) PostgreSQL DR (PITR из cold-backup):

1.展開空的實例,從冷中完全恢復。
2.將WAL日誌放到目標時刻。
3.檢查一致性,啟用復制,僅打開讀取,然後讀寫。

3) DNS/流量:

1.將TTL降低24-72小時至計劃風險(或始終保持低位)。

2.通過支票單切換A/AAAA/CNAME,監視錯誤/潛伏期。

3.流量逐漸增加(金絲雀為5% → 25% → 100%)。

結果

強大的基於冷備份的DR是:固定的隔離副本,正式化的黑啟動程序,明確的RPO/RTO,定期演習,深思熟慮的DNS/網絡策略和密鑰紀律。在IaC和runbook中記錄所有內容,自動執行完整性檢查和金絲雀恢復-即使在最壞的情況發生後,您也始終可以控制恢復路徑。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

Telegram
@Gamble_GC
開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。