알림 및 경고 시스템
(섹션: 운영 및 관리)
1) 목적과 원칙
목표는 적시에 관련 신호 만 적시에 이해할 수있는 다음 단계를 가진 책임있는 사람/로봇에게 전달하는 것입니다.
원칙:- 기본적으로 실행 가능: 각 경고에는 소유자, 우선 순위, 응답 시간 및 동작 버튼이 있습니다.
- SLO 우선: 경고는 임의의 메트릭이 아닌 SLI/SLO를 중심으로 구축됩니다.
- 소음 제어: 데드 업, 상관 관계, 폭풍 진압.
- 문맥이 풍부한: 메타 데이터 (지역, 테넌트, 버전, trace _ id) 및 런북 링크.
- 감사 준비: 모든 경고 및 반응이 변경되지 않은 로그에서 인정되고 저장됩니다.
2) 신호 소스
그것들. 원격 측정: 가용성, p95/p99, 오류율, 대기열 지연, 자원 제한.
비즈니스 이벤트: PriceMismatch, WebhookLag, RTP Drift, 사기 신호.
보안/준수: SoD 위반, PII 액세스, 키/인증서 만료.
Scheduler: 만료 된 SLA 작업, DLQ 눈사태, 재 시도 폭풍.
3) 분류 및 우선 순위
가드 레일: SLO/오류 예산 (연소율) 에 관한 경고가 공식화됩니다.
4) 라우팅 및 확장 24 × 7
문맥 별 라우팅: '지역/테넌트/제품/공급자/심각도'.
에스컬레이터 래더: 통화 엔지니어 → 명령 리드 → 듀티 매니저 → Exec/Legal (PII/Finance 용).
의무: 역할 별 회전 (SRE, 앱, 데이터, 보안, 지불), 백업 연락처 (채팅/음성/SMS).
침묵 창: 밤, 출시, 마케팅; P1에 대한 예외.
5) 소음 감소 및 상관 관계
중복 제거: '(지문, 지역, 세입자, 경로)' 및 'trace _ id'.
폭풍 진압: 활성 P1로 복제물을 일시적으로 억제합니다.
상관 관계: 근본 원인을 중심으로 신호를 그룹화합니다 (릴리스/기능/제공자).
히스테리시스: 임계 값에서 진입/종료-" 톱 "을 피하기 위해 다릅니다.
6) 경고 내용 (템플릿)
제목: 간결하고 실질적인- "EU/체크 아웃: p95> 250ms (SLO 위반)".
주요 필드: 우선 순위, 시간, 지역, 테넌트, 버전, trace _ id, 영향을받는%, 이유.
지금해야 할 일: 첫 1-3 단계 + 런북/버튼 링크 (재 경로, 롤백, 일시 중지 프로모션).
다음 통신: N 분, 소유자 (IC/on-call).
7) 배달 채널
채팅/메신저: 심사의 메인 채널 (버튼이있는 봇 카드).
페이저/음성/SMS: P1 용.
메일: 보고서 및 비 긴급 (P3/Info).
웹 후크: 발권/오케 스트레이터와의 통합.
상태 페이지: 고객 및 파트너의 외부 알림.
8) 통합 및 동작 버튼
인시던트 봇: 카드를 만들고, IC를 할당하고, 비디오 브리지를 열고, 타이머를 시작합니다.
자동 작업 (자동 작업): 재 경로, 롤백, 제한 제한, 플러시 캐시, 웹 후크 사용하지 않기, 안전 모드 사용.
권리: 런 런은 역할로 제한됩니다. 모든 작업에 서명하고 기록합니다.
9) 다중 지역 및 다중 임차인
지역별 독립 SLO/임계 값; 지역 사건은 전 세계를 "페인트" 하지 않습니다.
가시성 필터: 파트너/테넌트는 자신의 것만 볼 수 있습니다.
관리 요구 사항: 알림 텍스트, 언어, 시간대.
10) 정책, 일정, 침묵 창
경고 정책: 소유자, 임계 값, 채널, 에스컬레이션, 템플릿.
달력: 작업/작업 시간, 릴리스/마케팅 창.
동결 변경: 큰 주식에서 임계 값을 완화하거나 "비 P1" 을 억제합니다.
11) 감사 및 법적 고정
영수증: 중요한 경고- '영수증 _ 해시' 및 DSSE 서명.
WORM 로그: 변경할 수없는 이벤트 및 반응 저장 (누가 한 일을 확인했는지).
양육권: 에스컬레이션 및 결정 추적.
12) 알림 시스템 메트릭 및 SLO
MTTA (인정): P1 λ5-10 분; P2 체크 30 분
페이지 속도/통화 중로드: 대상 범위에서 시프트 당 신호.
잘못된 긍정적%: 목표 임계 값
상관 효율: 그룹화 된 신호의 비율이 80% 이상입니다.
배송 SLO: 99 이상의 채팅. 9%, SMS/음성 5%.
동작 시간: 경고에서 룬을 실행하려면 p95입니다.
13) 대시 보드 및 보고서
운영: 활성 사고, 연소율, 지역/테넌트 맵, 경고 대기열.
경고 품질: 노이즈, FP, 임계 값 재테스트, 자동 영역.
통화 중 부하: 페이징 주파수, 응답 시간, "시간 외".
사고 후: 룬 효율성, 재발을 유발합니다.
14) iGaming/fintech의 특성
결제/PSP: P1 - 공급자 실패, 인증 오류 증가; 백업 PSP로의 자동 경로.
RTP & Limits: RTP 드리프트 관찰 경고, 한계 초과, 의심스러운 승리 패턴.
제휴/웹 후크: 배송 지연, 이중 성장, 확인 된 영수증 감소.
가격/FX/세금: 동기화 된 아티팩트 버전의 vitrina SL 체크 아웃 불일치.
책임감있는 플레이: RG 트리거 및 지원/준수에서 적시에 확대됩니다.
15) RACI
16) 구현 점검표
- North-Star 및 SLI/SLO를 정의하십시오. 경고를 연소율과 연관시킵니다.
- 정책 디렉토리 입력: 임계 값, 채널, 에스컬레이션, 침묵 창.
- 교착 상태, 상관 관계, 히스테리시스, 폭풍 진압 구현.
- 다중 지역 및 다중 테넌트 가시성 규칙 설정.
- "액션 버튼" 및 런북을 연결합니다. 출시 권한을 제한하십시오.
- WORM/Bill, trace _ id Trace 및 Runtime Audit 사용.
- 품질 대시 보드 구축 (노이즈, FP, MTTA, 페이지 속도).
- 게임 데이: PSP 정전, WebhookLag, PriceMismatch, RTP Drift.
- 정기적 인 검토 임계 값; A/B 임계 값은 "멍청한" 메트릭입니다.
- 매월 통화 중로드 및 개선 보고서.
17) 플레이 북 (참조)
PSP 중단 (P1): 예약을위한 자동 경로, 클라이언트 타임 아웃 감소, 검역 "회색" 트랜잭션, 15 분 안에 상태 업데이트.
WebhookLag (P2): 작업자/배치, 대기열 우선 순위 지정, 선택적 종점의 시간 일시 정지.
PriceMismatch (P1/P2): 캐시 포스 장애, 'fx _ version/tax _ rule _ version' 조정, 아티팩트 롤백, 보상.
RTP 드리프트 (P2): 보너스/프로모션 일시 정지, 프로파일 감사, 창 확장 모니터링.
보안: SoD/MFA 실패 (P1/P2): 필요한 경우 작업 차단, JIT 재점검, 법의학 및 법률.
18) FAQ
오 탐지를 줄이는 방법?
SLO 지향 규칙, 상관 관계, 히스테리시스, 교육 창 및 정기적 인 임계 값 수정.
더 중요한 것은 무엇입니까?
P1의 경우 정확도와 속도 (바람직하지는 않지만 중요 함). P3의 경우 추세 및 비용 적용 범위.
전화 페이징이 필요합니까?
예, P1의 경우; 채팅을 사용할 수 없거나 "허쉬" 할 수 있습니다.
통화 중 명령을 "연소" 하지 않는 방법은 무엇입니까?
페이지 속도 제한, 부하 재분배, 햇볕에 따른 월간 소음 검토.
요약: 알림 및 경고 시스템은 신호에서 동작까지 제어되는 파이프 라인입니다. SLO로 빌드하고, 소음을 완화하고, 상황에 따라 경로를 정하고, 동작 버튼을 제공하고 모든 것을 합법적으로 수정 이렇게하면 MTTA를 줄이고 통화 중 부하를 제거하고 급격한 스파이크 및 공급자 실패에도 불구하고 비즈니스 복원력을 향상시킵니다.