GH GambleHub

재난 복구! 콜드 백업

간략한 요약

DR은 중대한 재난 후 비즈니스 기능을 복원 할 수있는 기능입니다. 콜드 백업- "마지막 방어선": 사이트의 완전한 비 에너지 화 또는 타협시 복구에 적합한 변경 불가능한/격리 된 사본. 이 전략은 RTO/RPO, 시스템 우선 순위 지정, 연례 DR 연습 및 엄격한 운영 규율 (카탈로그, 키, 점검) 을 중심으로 구축됩니다.

용어 및 목표

RPO (Recovery Point Objective) -최대 허용 데이터 손실 (예:
  • RTO (Recovery Time Objective) -최대 허용 복구 시간 (예: 소 2 시간).
  • 블랙 스타트-베어 메탈 복구: 하드웨어/클러스터/비밀/데이터/DNA.
  • 에어 갭 - 사본의 물리적/논리적 격리 (테이프/비활성화 된 계정/오프라인 미디어).
  • 불변성 (WORM) - 불변성 스토리지 (잠금/유지가있는 테이프/객체).

DR 가용성 수준

콜드 사이트-인프라가 누락/동결되었습니다. RTO: 시간 일; 가장 저렴한 CAPEX/OPEX.
따뜻한 장소-템플릿/이미지/부분적으로 완료된 서비스; RTO: 수십 분의 시간.
핫 사이트 - 활성 복제품; RTO: 분; 더 비싸고 복잡합니다.
하이브리드: 커널 → 핫/워름, 다른 모든 것 → 차가움 (시작시 우선 순위).

콜드 백업이 필수 불가결 한 곳

대규모 암호화 침입/도메인 타협.
모든 복제품에 대한 데이터 손상.
지역/데이터 센터의 상실, 힘 전공 (화재, 홍수).
특권 계정에서 의도적 인 제거/방해 행위.

콜드 백업 토폴로지

1. 미디어/스토리지 클래스

테이프 (LTO-8/9): 저렴한 비용, 기본 에어 갭, 고용량, 순차적 액세스.
오프라인 디스크/NAS: "안전한 케이스", 백업/복원 창에만 연결하십시오.

보관 된 객체 클래스 (Glacier와 유사): 저장 가격, 추출 시간 증가

2. 배치

다른 사이트/지역; 다른 공급자/계정; 개별 키/관리자.

3. 불변성

보존 및 법적 보류가있는 WORM/Object Lock (Compliance/Governance) 테이프.

정책 3-2-1-1-0 (감기에 중점을 둔)

3 개의 데이터 사본 (prod + 로컬 백업 + 오프 사이트).
2 개의 다른 미디어 (디스크/테이프/객체).
오프 사이트 1 개 (기타 사이트/클라우드).
1 불변성 (WORM/에어 갭).
0 확인 오류 (체크섬/주기적 테스트 복구).

디렉토리, 메타 데이터 및 무결성 제어

백업 카탈로그: 언제, 언제, 버전, 키, 금액, 보존 기간.
자산 카탈로그 - 서비스 → 종속성 → 볼륨/버킷 → 우선 순위.

체크섬 및 매니페스트 파일: 조정을 작성하고 복원합니다

카나리아 파일: 미디어 문제를 조기에 탐지하기위한 정기적 인 복원

암호화 및 키

휴식 시간 (테이프/객체) 및 비행 중 (복사) 암호화

마스터 키를위한 듀얼 컨트롤, 오프라인 금고, 회전이있는 KMS/Vault.
판매/백업/아카이브 (폭발 반경 최소화) 를위한 별도의 키.
DR 중 문서화 된 주요 액세스 프로세스 (요구 사항, 역할, 로그).

DR 계획 우선 순위 및 일관성

우선 순위 맵 (예):

1. 식별 및 액세스: IdP (최소 영역), Vault/KMS, 네트워크 코어.

2. 데이터 및 제어 평면: etcd K8, 구성 요소, 비밀, 이미지 레지스터, 아티팩트 배치.

3. 거래 데이터베이스/지갑: 로그 + 최신 전체/증분.

4. 결제/통합 게이트웨이: 키, 인증서, IP/DNS.

5. 웹/애피 전선: 카나리아 발사, 객체의 정적 콘텐츠.

6. 분석/보고: 핵심 완료.

시퀀스 복원 (블랙 스타트):

1. 인프라: 네트워크, DNA/Anycast, 커널 IAM, 기본 이미지/클러스터.

2. 비밀/인증서: 콜드 백업에서 Vault/KMS를 복원하고 부트 스트랩 비밀을 배포하십시오.

3. 제어 평면: etcd/Control Plane/registers/repositories.

4. 데이터: 콜드 백업 + PITR의 데이터베이스를 로그 (RPO) 에서 배포합니다.

5. 응용 프로그램: 트리 종속성을 시작하고 캐시/CDN을 예열합니다.

6. 테스트 및 검증: 건강 테스트, 일관성, 체크섬.

7. 트래픽 전환: DNA/라우팅/밸런서 (위상/카나리아).

8. 사후 점검: 누출/부채, 로깅 및 DR 행위 없음.

냉간 복원 절차 (일반적인)

테이프: 재고, 다운로드, 병렬 스트림, 파일 맵 → 디렉토리 → 복구 작업; 검색 및 되감기 시간을 설명합니다.
보관 클래스: 추출 요청 (분 → 시간), 핫 스토리지 준비, 매니페스트 복원.
오프라인 디스크: 읽기 전용 연결, 체크섬 확인 → 복사.
연습: 복원을위한 격리 된 샌드 박스는 생산 환경으로 이동합니다.

커뮤니케이션 및 조직. DR의 구조

가수: Incident Commander, Tech Lead (Infra), DB Lead, App Lead, Comms, Security.
채널: 백업 (회사 도메인 외부), 음성/채팅, SecureDocs.
메시지 템플릿: 클라이언트/파트너/레귤레이터에게; 업데이트 빈도; 하나의 "진리의 원천".
통합 이벤트 로그: 타임 라인, 솔루션, 소유자.

DNA, 네트워크 및 트래픽

분할 뇌 보호: 구성에서 "DR 모드" 플래그; 제한된 기능을위한 기능 플래그.
DNA 전략: 사전에 낮은 TTL, 독립적 인 DNA 제공 업체; 단계 변경 A/AAAA/CNAME, CDN을 예열하십시오.
라우팅: DR 사이트의 Anycast/Geo, BGP 발표; ACL/방화벽은 IaC에서 재 조립됩니다.

DR을위한 <> SLO

RPO는 시간의 99% 이상을 충족했습니다 (대상 내 로그/증분 지연).

RTO 블랙 스타트 (전체 시나리오)

DR 연습의 성공-중요한 작업의 100% 가 창에서 완료됩니다.
불변성-Retention/Lock = 100% 의 백업 점유율.
무결성 점검-일정에 따라 100%; 미디어 실패 → 마이그레이션 티켓.

테스트 및 연습

테이블 탑: 스크립트, 역할, 체크리스트, 연락처 목록.
기술: 체크섬 및 일관성을 검증하여 데이터베이스/파일/비밀을 샌드 박스로 선택적으로 복구합니다.
블랙 스타트 드릴: 1/4/4 (또는 1/6 개월) -DR 사이트에서 전체 커널 출시.
사후: 사실, 병목 현상, 개선 계획 (SLO/프로세스/자동화).

자동화 및 인공물

IaC: 클러스터, 네트워크, 스택-코드; DR 분기/매개 변수.
런북: 구성 요소 별 구성 요소 (Vault/KMS, etcd, DB, 게이트웨이, 전면).
DR 패키지: 키 도크의 오프라인 사본 (연락처, 체계, 안전한 구문 암호), 물리적 액세스 명령.
카나리아 복원: 매일 작은 복원 및 체크섬 조정.
태그/태그: 서비스/볼륨에 대한 "DR 크리티컬", "따뜻한 전용", "콜드 전용".

구현 체크리스트

  • 데이터 클래스 및 해당 RPO/RTO는 비즈니스와 일치합니다. 복구 우선 순위가 정의됩니다
  • 콜드 백업 구현: 미디어, 불변성 (WORM/Object Lock), 오프 사이트/에어 갭.
  • 카탈로그: 자산, 백업, 키; 양과 버전 제어를 확인하십시오.
  • 블랙 스타트 절차: 네트워크/DNA, IdP/Vault/KMS, 제어 평면, 데이터, applayer.
  • 운동: 분기 별 탁상; 카나리아는 매일 복원합니다 블랙 스타트 1/4/6 개월.
  • 통신 및 규제 템플릿; 별도의 통신 채널.
  • DR에 대한 SLO/metrics/경고; 경영진에보고합니다.
  • SLA는 공급자 (테이프/아카이브 클래스/DNA/CDN과의 계약) 를 확인했습니다.
  • 재무: 미디어/아카이브 예산, 물류, 미디어 교체.

공통 오류

"복제본이 있습니다-백업이 필요하지 않습니다 →" 논리적 오류/랜섬웨어는 어디에나 남습니다.
모든 사본을 손상시키기위한 단일 벡터 인 불변성/에어 갭 → 는 없습니다.
카탈로그/확인 금액이 없기 때문에 "무언가" 가 복원되었지만 그렇지 않았습니다.
DNA TTL이 너무 큽니다 → 며칠 간의 트래픽 마이그레이션.
동일한 도메인/계정의 키/KMS → 사고시 액세스를 차단합니다.
운동은 "종이에" → RTO/RPO 만 확인되지 않습니다.

iGaming/fintech 특정

지갑/결제 코어: 엄격한 RPO (보통 1-5 분) 및 RTO (보통 15-60 분); WORM이있는 객체에 로그; 투명한 통신을위한 DR 기능 "읽기 전용 균형".
PSP/컨텐츠 제공 업체: 사전 합의 된 DR-IP/도메인, 화이트리스트, 인증서, HMAC/mTLS 키-DR 패킷의 사본.
보고/규제 기관: 알림 템플릿, 변경되지 않은 아카이브, 입증 가능한 무결성, 활동 로그.
피크 및 이벤트: 주요 토너먼트/프로모션 전에 DR 준비 상태를 확인합니다. 카나리아 복원 및 CNC 온난화.

미니 런북 템플릿

1) Vault/KMS 블랙 스타트 (개념):

1. DR 클러스터를 초기화하고 밀봉 해제 (이중 제어) 키를로드합니다.

2. 스토리지 백업 복원 (콜드 카피).

3. CI/CD/K8에 대한 정책 확인, 부트 스트랩 비밀 발행.

2) PostgreSQL DR (PITR и) 콜드 백업:

1. 빈 인스턴스를 확장하고 감기에서 전체를 복원하십시오.

2. WAL 로그 (증분) 를 대상 순간으로 업로드하십시오.

3. 일관성 검사, 복제 가능, 읽기 전용 열기 및 읽기 기록.

3) DNA/트래픽:

1. 24-72 시간 내에 TTL을 계획된 위험으로 줄이거 나 지속적으로 낮게 유지하십시오.

2. 체크리스트, 오류/대기 시간 모니터링으로 A/AAAA/CNAME 전환.

3. 점진적인 트래픽 증가 (카나리아 5% → 25% → 100%).

결과

콜드 백업을 기반으로하는 신뢰할 수있는 DR은 불변의 격리 된 사본, 공식화 된 블랙 스타트 절차, 명확한 RPO/RTO, 정기적 인 운동, 잘 생각 된 DNA/네트워크 전략 및 주요 분야입니다. IaC 및 런북에 모든 것을 전달하고 무결성 점검 및 카나리아 복원을 자동화하십시오. 최악의 시나리오 후에도 항상 복구 경로가 제어됩니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.