위험 완화 전략
1) 목표와 원칙
목표는 사고 가능성을 줄이고 "폭발 반경" 을 제한하며 MTTR 및 재무/규제 결과를 줄이는 것입니다.
원칙:> 감지 방지> 포함> 복구; SLO- 우선; 세분화 및 격리; 자동화; 검증 가능성 (연습 및 테스트); 비용 인식.
2) 위험 분류법 (우리가 행동하는 것)
하중 및 생산성: 과부하, 대기열, 대기 시간 꼬리.
기술/인프라: AZ/지역 장애, 데이터베이스/캐시 저하, 취약점, DDoS.
의존성: PSP/KYC/AML, 게임 제공 업체, CNC/WAF, 메일/SMS 게이트웨이.
지불/재무: 승인 감소, 사기/청구 회수 증가, 현금 격차.
규정 준수/규제: 데이터 저장, 책임있는 플레이, 라이센스.
프로세스/인간: 릴리스 오류, 수동 작업, 잘못된 구성.
평판/마케팅: 판촉 피크, 공공 분야의 부정.
3) 예방 전략 (확률 감소)
1. 건축 단열
세입자의 교통/할당량에 제한이있는 다중 세입자.
중요한 경로 분리: 별도의 도메인에 입금/요율/출력.
네트워크 정책 제로 트러스트, 최소 권한, 비밀 및 키 회전.
2. 기본 성능
CQRS, 비정규화, 핫 키 캐싱, demempotency.
유효한 연결 풀, 역압, 타임 아웃 및 지터 retreas.
요청/페이지 크기 제한, N + 1 보호.
3. 중요한 종속성을위한 멀티 올
지불: 건강 및 유료 인식 라우팅이있는 2-3 PSP.
스토리지: 복제본/샤딩, 다른 스토리지 클래스, 지연 제어.
통신: 백업 전자 메일/SMS 제공 업체, 대체 채널.
4. 설계 준수
보존 정책 (TTL), 휴식/운송 중 암호화, 감사.
데이터의 지리 라우팅 제어 및 역할 별 액세스.
5. 안전
WAF/CNC, 속도 제한, 봇 완화, 요청 서명 및 HMAC 웹 후크.
CI/CD, SBOM, 종속성 커밋 및 업데이트의 SCA/DAST/SAST.
6. 프로세스 및 릴리스
카나리아/청록색, 진한 발사, 기능 플래그, 필수 체크리스트.
위험한 변화에 대한 명확한 RACI 및 이중 제어.
4) 탐지 전략 (초기 지표 및 이상)
KRI/SLI: p95/p99, 오류율, 대기열 지연, 캐시 적중, 복제 지연, GEO/은행의 PSP 승인.
변칙적 탐지: 버스트 및 딥 용 STL/IQR/스트림 검출기.
연소율 경고: 오류 예산에 대한 빠른 (1 시간) 및 느린 (6-24 시간) 창.
이벤트 상관 관계: 메트릭의 릴리스/phicheflags/캠페인 성능 저하.
의존성 검사기: 활성 건강 핑 PSP/KYC/CDN에서 SLA 계약 모니터링.
5) 격리 전략
서킷 브레이커/벌크 헤드: 클라이언트 풀 격리, 타임 아웃 전파 중지.
요율 제한 및 쿼타: 클라이언트/테넌트/엔드 포인트 당, 특히 쓰기 경로.
우수한 분해: 캐시/정적에서 읽고 킬 스위치 버튼으로 중요하지 않은 기능을 비활성화합니다.
도메인별로 실패 오픈/실패: 예를 들어 실패 오픈 분석, 실패 결제.
사용자에게 보내는 메시지: 친근한 상태, 대기 대기열, "우리는 당신의 내기를 저장했습니다".
6) 완화 및 복구 전략
예측/지연에 의한 자동 스케일: 최대 예측을 갖는 HPA/KEDA.
교통 이전: 지오 스티어링, 핫 리전 대피, 실시간 PSP 변경.
런북 및 플레이 북: 기성품 단계별 지침 (보증금 정지; 속도로 5xx 상승; 지연 복제).
백업 데이터 스크립트: 시점 복원, 콜드 대기/활성, 계획 RPO/RTO.
커뮤니케이션: 내부 전쟁 실 + 외부 메시지 템플릿/상태 페이지.
7) 위험 이전 및 수락 전략
계약 및 SLA: 공급자를 사용할 수없는 경우 벌금/대출, 중요한 서비스에 대한 에스크로.
보험: 사이버 위험, 누출에 대한 책임, 비즈니스 중단.
정보 수락: 문서 잔여 위험, 소유자, KRI 및 개정 날짜.
8) 계층 별 위험 완화 패턴
8. 1 인프라 및 네트워크
다중 AZ/지역, 반 지역 종속성, 탈출 제어.
도메인 당 하위 그룹, 보안 그룹, 아웃 바운드 정책.
카나리아 검사 새 커널/백엔드 버전.
8. 2 데이터, DB 및 캐시
읽기 복제 및 읽기/쓰기 분리로 인해 긴 거래가 제한됩니다.
핫 인덱스 및 구체화 된 집계; TTL/아카이브.
캐시가 봉우리로 워밍업되어 각인 (단일 비행) 으로부터 보호됩니다.
8. 3 대기열 및 비동기식
지수와 지터가있는 할아버지 편지 및 재 시도 주제.
소비자 지연 제어, 키로 분할, dempotent 소비자.
8. 4 개의 지불 및 재무
PSP- 라우터: 건강 × 수수료 × 변환 점수.
3-D 보안/재시도 → 더 높은 변환, 더 적은 배상.
사기 방지: 위험 점수, 속도 규칙, 결론 제한.
유동성 관리: 공급자 별 현금 잔액 및 VaR 모니터링.
8. 5 안전 및 준수
스토리지 정책, 암호화, 정기적 인 탁상 사고 훈련.
데이터 계보 및 액세스 감사; 비밀-비밀 관리자.
책임있는 플레이: 자체 제외 트리거, 한계, SLA 처리.
8. 6 제품 및 전면
안전한 분해 기능이있는 기능 플래그; A/B 가드 레일.
가장자리에서 캐칭, 버스트 방지 (대기열 페이지, 대기실).
Idempotent UI가 재생되어 트랜잭션 초안이 저장됩니다.
9) 프로세스, 사람, 훈련
SRE 의식: 매주 KRI/SLO 검토, 행동 항목이있는 사후 복고풍.
관리 변경: 필수 카나리아 + 롤백 계획; 위험한 활동을위한 "더블 키".
운영자 교육: 플레이 북 교육, 피크/실패 시뮬레이션 (게임 데이).
프레임 리저브: 통화 중 회전, 지식 복제 (런북, 아키텍처 맵).
10) 대시 보드 및 커뮤니케이션
Exec-dashboard: 최고 위험 (히트 맵), 잔여 위험 대 식욕, 연소율, 재정적 영향.
기술 대판: p95/p99, 오류율, 소비자 지연, 캐시 적중, 복제 지연, PSP 변환, DDoS 신호.
상태 페이지: 가동 시간 도메인, 사고, ETA, 이력.
Comm 패턴: 사고 및 회귀의 내부/외부 커뮤니케이션.
11) 위험 완화 효과의 KPI
사고 빈도 및 규모 (월/분기 당).
MTTA/MTTR, SLO의% 기간, 연소율 오류 예산.
회복 된 수익/손실, 최대 지불 전환.
연습 실행 (적용 범위) 및 자동화 된 반응의 공유.
성공적으로 실행 된 장애/카나리아/롤백 스크립트의 비율.
12) 구현 로드맵 (8-12 주)
네드. 1-2: 임계 경로 맵 (예금/비율/출력), 현재 KRI/SLO, 종속성 인벤토리.
네드. 3-4: 빠른 격리 조치: 속도 제한, 회로 차단기, 킬 스위치, 기본 플레이 북.
네드. 5-6: 다중 PSP 라우팅, 캐시 워밍업, 읽기 복제본, TTL/로그 및 추적 보관.
네드. 7-8: 이상 감지, 화상 경보, 게임 당일 운동 + 롤백 연습.
네드. 9-10: 지오 페일러, 예측/지연에 따른 자동 스케일, 백업 통신 (e-mail/SMS).
네드. 11-12: 규정 준수 감사 (TTL/암호화), 최종 런북, 분기 별 위험 검토 시작.
13) 아티팩트 패턴
Playbook Degrade: 세 가지 수준의 저하, 끄는 기능, 반환 기준.
실패 계획: 지역/PSP, 제어 메트릭, 롤백 단계를 누가 어떻게 전환하는지.
PSP 라우팅 정책: 건강/커미션/변환 규칙, 제한, 테스트 경로.
점검표 변경: 출시 전/도중/후에, 관찰 게이트, 카나리아 기준.
위험 히트맵 및 등록 업데이트 형식, 소유자, 타임 라인, KRI/임계 값.
14) 안티 패턴
격리와 한계 대신 "규모에 대한 희망".
중요한 도메인에 대한 단일 공급자에 의존합니다.
연습과 자동화없이 "종이에" 플레이 북.
지터 → 폭풍과 폭포없이 끝없이 후퇴합니다.
사건을 "맹인" 으로 만드는 로그/모니터링 비용 절감.
합계
효과적인 위험 완화는 측정 가능한 KRI/SLO 및 일반 드릴이 지원하는 아키텍처 격리, 예측 가능한 프로세스 관행 및 자동화 된 응답의 조합입니다. 이 루프는 사고의 가능성과 규모를 최소화하고 복구를 가속화하며 플랫폼 수익과 평판을 보호합니다.