롤백 시나리오
(섹션: 운영 및 관리)
1) 롤백 시나리오가 필요한 이유
완벽한 테스트를 통해서도 일부 변경 사항이 저하됩니다. 롤백은 데이터 손실이나 규정 준수없이 사전 정의 된 "보안" 버전으로 복귀하는 관리 작업입니다. 목표: MTTR 감소, 돈/데이터 보호, 파트너 및 규제 기관의 신뢰 유지.
2) 변경 및 롤백 접근 방식의 분류
코드 및 컨테이너: 버전이 지정된 아티팩트 → 청록색, 카나리아, 이전 이미지에 즉시 롤백하여 롤백.
구성/phicheflags: 토글 롤백, TTL이있는 원자 스위치 및 감사 기능.
데이터베이스 스키마: 확장 → 마이그레이션 → 계약, 양방향 마이그레이션, "그림자" 열, 백그라운드에서 백필.
데이터/가격 목록/세금: 아티팩트 버전 ('fx _ version', 'tax _ rule _ version', 'pricelist _ version'), "동결" 및 반환.
통합 (PSP/KYC/컨텐츠 제공 업체): 경로/풀 전환, 백업 제공 업체로 대체.
인프라/네트워크/CNC: 규칙/경로의 단계적 롤백, 이중로드가있는 인증서/키의 롤백.
3) 가역성을위한 건축 패턴
불변의 릴리스: 각 릴리스는 이전 릴리스를 즉시 선택할 수있는 서명 된 아티팩트 (이미지/설정) 입니다.
호환성 계층: 소비자 측의 스키마 컴파트 (추가, 제거하지 않음), 내성 리더.
이중 쓰기 및 그림자 읽기: "전환" 전에 일관성을 비교하십시오.
이데올로기 및 사가: 서비스 간 거래를위한 보상 단계.
Ficheflags: "핫" 재배치 대신 빠른 셧다운/위상 조정.
4) 리턴 포인트가있는 롤링 전략
카나리아 N%: 분해 자동 롤백 동안 메트릭/가드 레일 →; 성공하면-100% 로 확장하십시오.
청록색: 2 개의 prod 스택; 트래픽 전환 및 즉시 롤백.
일시 정지로 롤링: "일시 정지 지점" 및 이전 파동으로 롤백 할 수있는 기능으로 당사자별로 업데이트하십시오.
코호트에 의한 Ficheflags: "어두운 발사", 화이트리스트, 지역/테넌트 플래그.
5) 롤백 데이터베이스 및 마이그레이션: 보안 템플릿
확장 → 마이그레이션 → 계약없이 "파괴적인" 마이그레이션을하지 마십시오
1. 확장: 새 열/인덱스/엔드 포인트를 추가하면 코드가 두 버전 모두에 기록됩니다.
2. Migrate: 백필 및 검증; 새로운 구조에서 "그림자" 를 읽습니다.
3. 계약: 안정성 후 오래된 비활성화.
양방향: 각 마이그레이션에는 'down ()' 이 있습니다. 큰 세트-물리적 삭제 대신 논리적 복귀 (플래그, 라우팅).
스냅 샷/포인트 인 타임: 중요한 릴리스 전에 테이블의 PITR/스냅 샷.
계획 제어: 준비/복제에 대한 CI/CD + "드라이 런" 의 계약 유효성 검사기.
6) 카탈로그/가격/세금 롤백
가격 목록 및 세금 규칙 개정; 출판 영수증을 보관하십시오
(PHP 3 = 3.0.6, PHP 4)
"PriceMismatch" 를 사용하면 → 는 캐시의 힘 장애이며, 이전 버전의 아티팩트로 돌아가서 정책에 의한 보상입니다.
7) 통합 및 외부 제공 업체
PSP/KYC/컨텐츠: 백업 경로, 건강 샘플, DNA/LB 빠른 전환, 개별 키 유지.
웹 후크: 쓰기 드롭 및 대기열을 포함합니다. 롤백 중-demotent 키가있는 "죽은 글자" 에서 재생합니다.
인증서/키: 이중 로딩 (이전 + 새), 전환 전에 호환성 확인
8) 리베이트 자동화 ("룬") 및 가드 레일
우리는 스키마를 복원합니다.
Guardrails: IC/소유자가 사용할 수있는 킥백 출시; 서명 (DSSE), 트랜잭션 빈도 제한, 확인 점검표.
- 9) 커뮤니케이션 및 인공물
릴리스 카드: 버전, 해시, 미리보기 체크리스트, 롤백 플레이 북, 책임.
롤백 중: 타임 스탬프, 원인, 영향을받는 트래픽의 양, 아티팩트 (로그 링크, 메트릭 전/후).
외부 커뮤니케이션 (상태 페이지/파트너): 간결하고 사실적입니다.
10) 롤백 플레이 북 (참조)
코드/이미지 저하 (P1):1. 재 경로/Blue-Green back → 2) 수정 버전 → 3) 추가 롤링 → 4) 변형.
- 깃발은 오류를 증가시킵니다
1. Feature Flag (100%) → 2) 플러시 캐시/폴백 → 3) 수정 티켓을 사용하지 않습니다.
데이터베이스 마이그레이션은 타임 아웃을
1. 무거운 백필 → 2) 이전 체계로의 리턴 판독 (이중 판독 해제) → 3) 로드/인덱스를 줄입니다 → 4) 'down ()' 또는 논리적 롤백을 평가하십시오.
PriceMismatch/FX/세금:1. 'pricelist _ version '/' tax _ rule _ version' → 2) 에지 캐시 비활성화 → 3) 수표 보상 및 조정.
PSP 오류:1. 대기 PSP → 2) 회색 트랜잭션 검역 → 3) 안정화 후 복제본을 대기열로 전환합니다.
키/인증서 깨짐:1. 이전 키 (듀얼 키) → 2) 회전 및 회전으로 돌아갑니다.
11) RACI
12) 품질 및 SLO 지표
CFR (Change Failure Rate) -롤백과 릴리스의 공유 (대상).
MTTR (롤백 포함) 은 안정성으로 돌아가는 평균 시간입니다.
롤백 시간-트리거에서 롤백 끝까지 (P1 × 15-20 분).
계수 전/후 메트릭 (p95, 오류율, E2E 성공).
동일한 원인의 롤백이 반복됩니다.
감사 범위: 아티팩트 및 서명이 포함 된 100% 롤백.
13) 보안, 개인 정보 보호, 규정 준수
릴리스/롤백을위한 WORM 잡지; 레귤레이터에 의한 아티팩트 저장.
PII/금융: 롤백이 해결되지 않은 영역/이전 정책에 대한 액세스 권한을 열지 않음을 확인합니다.
SoD: "누가 롤백" 을 시작하는지 승인 한 "누가 롤" ".
크레딧/비밀: 듀얼 롤오버 및 이전 키로 즉시 돌아갑니다.
14) 재무 및 운영 효과
다운 타임 비용 대 롤백 비용: SLO 가드 레일을 통해 솔루션을 자동화하십시오.
SLA 보상/크레딧-플레이 북의 템플릿.
탈출/계산 캡: 롤백은 일시적으로로드 (재생/캐싱) 를 높일 수 있습니다.
15) 시험판 점검표 (go/no-go)
- 서명 된 아티팩트 및 리턴 포인트 (이미지/설정/데이터 버전).
- 롤아웃 계획 및 롤백 플레이 북 (단계).
- 마이그레이션 검증: 확장 → 마이그레이션 → 계약, PITR 활성.
- 다이얼/가드 레일 SLO: 경보 시스템의 자동 롤백 조건.
- 커뮤니케이션 채널: IC/소유자/통화 중.
- 스테이징시 후진 호환성 테스트 및 "드라이 런".
- 중요한 통합을위한 백업 경로.
- 통신 계획 (내부/외부) 및 템플릿.
16) 롤백 중 점검표 (사고 중)
- 승인 트리거 및 영향을받는 볼륨 (지역/테넌트/채널).
- "우리가 롤백하는 것" 버전을 수정하십시오.
- 롤백 룬을 실행하십시오 (코드/플래그/경로/데이터).
- SLI/SLO 및 비즈니스 메트릭 (E2E, 체크 아웃, 웹 후크) 을 확인하십시오.
- 디렉토리/버전 확인 (FX/Tax/PriceList).
- 상태를 수정하십시오: 새로운 롤링을 금지하고 인공물을 수집하십
- 커뮤니케이션: 상태 페이지, 파트너, 내부.
17) 빈번한 오류 및 패턴 방지
아티팩트 및 서명없이 "수동으로" 롤백.
양방향 및 PITR이없는 파괴적인 마이그레이션.
"글로벌 스위치" 가없는 기능 플래그.
PSP/KYC에 대한 백업 경로가 없습니다.
냉기 요청을 예열하지 않은 플러시 캐시 → 눈사태.
가격 목록 반환 후 설명되지 않은 견적
18) FAQ
롤백은 언제 "제자리에" 수정보다 낫습니까?
SLO 위반/돈/데이터 위험의 경우 알려진 안정적인 버전으로 돌아가는 것이 더 빠르고 안전합니다.
"파괴적인" 마이그레이션을 롤백 할 수 있습니까?
예, 확장 → 마이그레이션으로 설계된 경우 'down () '/PITR 및 논리 폴백으로 → 계약을 마이그레이션합니다.
롤백 결정을 어떻게 자동화합니까?
SLO 가드 레일 (p95, 오류율, λ값, 웹 후크의 성공) + 위험 매트릭스 → 자동 룬.
주문/거래 "사이" 는 어떻게해야합니까?
이데올로기 키, "회색" 작업의 검역, 중복 제거가있는 대기열의 복제본.
요약: 롤백 시나리오는 즉흥 연주가 아니라 사전 설계된 기능으로 빠르게 안정성으로 돌아갑니다. 모든 것을 수정하고, 가역적 인 데이터 체계를 유지하고, 가상 데이터 및 카나리아를 사용하고, 룬을 자동화하고, 아티팩트를 캡처하고, SLO 가드 레일을 사용하십시오. 그런 다음 모든 릴리스를 관리 할 수 있으며 비즈니스는 예상대로 안정적입니다.