자동 오류 수정
1) 목적과 원칙
목표: SLO, 수익 및 규정 준수를 유지하여 MTTR을 줄이고 사고의 확대를 방지합니다.
원칙:- SLO 우선: 오류 예산에 위협이 확인 된 경우에만 자동 조치가 허용됩니다.
- 보안 우선: 최소 폭발 반경, 명시 적 한계 및 타임 박스.
- 의도적으로 설명 할 수 있음: 각 작업은 설명 가능하고 감사 할 수 있습니다.
- 롤백 준비: 모든 단계에는 반품 기준이 수반됩니다.
- 위험이 높은 Human-in-the-loop: 이중 제어 또는 IC/온-콜 확인을 통한 P1 크리티컬 변경 (정책에 의해 달리 확립되지 않는 한).
2) 용어
자동 치료: 사람의 개입없이 사건에 대한 프로그램 반응 (경고/이상).
가드 레일: 제한 정책 (임계 값, 기간, 시도 횟수, 영향 영역).
Runbook-Action: 사전/사후 점검 및 롤백을 통한 원자 작동.
의사 결정 엔진-이벤트를 정책에 매핑하고 조치를 유발하는 서비스.
3) 솔루션 아키텍처
1. 신호: SLO/연소율, KRI, 합성, RUM, 심층 건강.
2. 상황 상관: 릴리스, 기능 플래그, 계획된 작업, 종속 제공 업체.
3. 의사 결정 엔진: 규칙/정책 (코드 정책), 영향 및 위험 평가, 시나리오 선택.
4. 실행: 런북 동작 오케 스트레이터 (demempotency, retrai with jitter).
5. 제어: 사전 검증자, 사후 검증 자, 타임 박스, 롤백.
6. 감사 및 관찰 가능성: 활동 추적, 성공 지표, 로그 (WORM/불변성).
7. 커뮤니케이션: 지원을위한 상태 페이지 (Comms Lead를 통해), var-room, 매크로.
4) 코드 정책
조건의 예 (의사-레고/논리): 실패 PSP:- (PHP 3 = 3.0.6, PHP 4) (PHP 3 = 3.0.6, PHP 4) (PHP 3 = 3.0.6, PHP 4)
- (PHP 3 = 3.0.6, PHP 4) 생겨난 '
- '소비자 _ lag> 목표 및 비용 _ 예산이있는 경우 허용하십시오. (PHP 3 = 3.0.6, PHP 4) 사용 가능 '
- '내보내기 _ spike & no _ ticket & & data _ class = PII -> 작업 = 블록 + 알림 (준수)'
각 정책에는 조건, 조치, 제한 (범위/시간/빈도), 성공 기준, 롤백이 포함됩니다.
5) 안전한 작업 디렉토리 (원자 런북 작업)
지불: 트래픽을 대체 PSP/은행으로 전환; 라우팅 건강 × 수수료 × 변환의 우선 순위 변경; 단순화 된 3DS를 사용하면 지터로 리트레이 한계가 높아집니다.
베팅/게임: 규모 정착 근로자; 캐시 예열을 사용하면 중요하지 않은 기능 (애니메이션, 보조 피드) 을 일시적으로 비활성 대기실/대기열 페이지를 활성화하십시오.
인프라: 열화 된 인스턴스 (이상 탐지기) 를 제거하고 인근 AZ/지역으로 트래픽을 대피하십시오. 수영장/할당량을 늘리면 보풀을 확인하여 작업자를 다시 시작합니
데이터/대기열: 재분배 당사자; 소비자를 한도에 올리십시오 읽기 트래픽을 건강한 복제본으로 전환; 적응 형 경로 샘플링 사용.
보안/준수: 티켓없이 PII 수출을 일시적으로 차단합니다. 속도 출력 제한을 강화하면 민감한 작업에 대한 이중 제어가 가능합니
콤마 레이어: Comms Lead의 자동 드래프트 상태 + 업데이트 슬롯; PSP가 분해 될 때 파트너에게 알립니다.
6) 검증 전 및 사후 검증
이전:- 문제가 실제적이고 신선한 지 확인하십시오 (N-of-M 창; 침묵/계획된 작업 없음).
- 정책에 의해 조치가 허용되며 자원 예산이 있음을 확인하십시오.
- 비용 (FinOps) 및 규정 준수 제약 조건을 추정하십시오.
- 연소율/지표 감소 확인; 결과를 기록하십시오. 조건에 따른 자동 롤백 일정.
7) 롤백 알림 "탈출 해치"
메트릭을 안정화하고 최대 TTL 동작을 통해 자동 반환.
var room에서 IC/on-call 용 롤 버튼입니다.
비상 접근만을위한 브레이크 글래스; 감사 후 필요합니다.
8) 경고 및 사고와의 통합
모든 자동 작업이 사건 카드에 첨부됩니다. 누가/무엇/언제/왜, 결과, 그래프에 연결됩니다.
호출기는 중복을 위해 음소거되지만 실패한 자동 수정 (에스컬레이션) 은 음소거되지 않습니다.
상태 페이지는 템플릿에서 Comms Lead를 통해 업데이트됩니다.
9) 안전 및 규정 준수 설계
오케 스트레이터에 대한 최소 특권; 행동/도메인 당 개별 역할.
고위험에 대한 SoD 및 이중 제어: PSP 라우팅, 보너스 제한, PII 수출.
입력 및 정책 버전을 포함한 모든 자동 솔루션의 WORM/불변을 감사합니다.
PII 위생: 라벨 및 작업 로그에 개인 식별자가 없습니다.
10) 자동 루프의 관찰 가능성
지표: 동작의 성공률, 반응 시간,% 롤백, MTTR 절약, SLO에 미치는 영향.
추적: 신호 → 결정 → 동작 → 효과에 대한 종단 간 추적.
로그: 정책 _ id, 버전 및 사전/사후 검사를 사용하여 구조화되었습니다.
대시 보드: Exec (수익 영향/SLO), Ops (액션 매트릭스 × 도메인), FinOps (자동 측정 비용).
11) 예 시나리오 (iGaming)
11. 1 PSP 분해 (TR/EU)
신호: 10 분 안에 PSP-1 NDEND에서 성공률이 25%, 트랜잭션의 30% 를 커버합니다.
조치: 트래픽의 40% 를 PSP-2/3으로 재분배; 단순화 된 3DS 활성화는 지터로 Bank X 요청의 배상을 증가시킵니다.
경계: 대체 PSP 당 총 트래픽의 60% 이하; TTL 45 분
롤백: 15 분 동안 성공률 이하 목표를 정규화 할 때.
11. 정착 스테이크에서 2 상승 p99
신호: p99 "bet → 해결"> 3 × norm + 소비자 지연> 임계 값.
행동: 한도 전에 근로자의 규모 축소; 계수 캐시 예열; 일시적으로 "역사 재실행" 을 끄십시오.
롤백: 헤드 룸> X 및 p99 후 일반적으로 20 분.
11. 3 데이터베이스 복제본이 뒤쳐져 있습니다
신호: 복제 지연> N 초, 잠금 대기 성장.
조치: 읽기 트래픽을 건강한 복제본으로 전환; 우선 순위가 낮은 스로틀 링 쓰기 작업을 가능하게
롤백: 지연 정규화 및 잠금 오류 후.
11. 4 PII 수출 급증
신호: 내보내기 속도> 기준선 × K, 티켓 없음.
동작: 내보내기 차단, 준수 알림, 이중 제어 활성화.
롤백: 요청을 확인하고 이상을 닫은 후.
12) KPI 1KRI
자동 수정이 작동하는 사고에 대해서는 MTTR CAND입니다.
TTD → 행동: 탐지에서 행동까지의 시간.
행동의 성공률 및 롤백 속도 (오 탐지로 인한 것이 아니라면 낮음).
허위 행동 속도 (효과가 없거나 부정적인 영향이없는 행동).
SLO 충격이 절약되었습니다.
페이저 피로... (동일/더 나은 SLO를 가진 수동 호출기 수).
13) 구현 로드맵 (8-12 주)
네드. 1-2: 3-5 개의 높은 ROI 시나리오를 선택하십시오 (PSP- 페일 오버, 지연에 의한 자동 스케일, 기능 저하); 정책/제한/롤백을 설명합니다.
네드. 3-4: 액션 오케 스트레이터, 비밀 및 역할 구현, 사건 플랫폼과의 통합; 관찰 및 감사를 추가하십시오.
네드. 5-6: "그림자" 모드의 파일럿 (시뮬레이션 전용) → A/B 효과 추정치; 그런 다음 적용 범위가 낮은 제품에 포함하십시오
네드. 7-8: 상태 페이지 및 Comms와 관련된 스크립트 디렉토리 (데이터베이스/캐시/대기열/프론트) 를 확장합니다.
네드. 9-10: FinOps 제한 규칙 (비용/SLI) 을 추가하고 고위험에 대한 이중 제어를 구현하십시오.
네드. 11-12: 탁상/혼돈 교육, KPI/KRI 개정, 지침 발표 및 통화 교육.
14) 유물과 패턴
자동 개선 정책: 상태, 작업, 한계, TTL, 롤백, 소유자, 위험 클래스.
Runbook-Action Spec: 전제 조건, 단계, 점검, 오류, 모니터링, 롤백 로직.
변경 제어: 누가 정책, 홍보 검토, 테스트, diff 및 버전을 규칙 할 수 있습니까?
증거 팩: SLO 충격 로그/트레일/메트릭, 사후/감사 보고서.
15) 안티 패턴
원인과 SLO → 플 래핑을 확인하지 않고 "증상 치료".
롤백이없는 동작 및 TTL → 동결 분해.
가드 레일이없는 범용 스크립트 → 계단식 충돌.
감사 및 정책 범위 부족.
비용 무시 (제한없이 오토 스케일) 및 규정 준수 (PII 수출).
P1 위험에 Human-in-the-loop가없는 완전한 자율성.
합계
자동 오류 수정은 관리 루프입니다. 가드 레일이있는 SLO 신호 → 롤백 → 관찰 성 및 감사 → 사고 교육을 통해 런북 동작을 보호하십시오. 이 방법은 MTTR을 크게 줄이고 스페이드의 수익을 유지하며 안전 및 규제 요구 사항을 준수하면서 통화 중 루틴을 제거합니다.