실시간 경고
1) 목적과 원칙
목적: SLO, 수익 및 규정 준수를 위협하는 적시에 정확하고 표적화 된 이벤트 방식으로 올바른 사람/시스템에 알리고 올바른 조치 (수동/자동) 를 유발합니다.
원칙: SLO 우선, 잡음 최소화, 설명 불가능, 상황, 비즈니스 영향에 의한 우선 순위 결정, "하나의 신호-하나의 이해할 수있는 행동".
2) 신호 분류법
SLO 신호: 중요한 경로 (로그인, 예금, 속도, 출력) 에 대한 오류 예산 연소율.
KRI: 초기 위험 지표 (은행/GEO에 의한 PSP 지정 성공 감소, 소비자 지연 성장, p99 TP).
이벤트: 종속성 플래그, 장애 조치, 수동 스위치, 보호 활성화 (속도 제한, WAF).
보안/규정 준수: 민감한 운영, PII 수출, SoD 위반의 스파이크.
3) 경보 수준 및 SLA
4) 출처와 상황 상관 관계
원격 측정: 메트릭/트레일/로그, 합성 및 RUM.
디렉토리: CMDB/서비스지도, 소유자, 종속성.
변경 사항: 릴리스, 기능 플래그, 마이그레이션, 계획된 작업.
외부 제공 업체: PSP/KYC/게임 스튜디오/CNC/WAF 상태.
각 경고가 풍부합니다. 다음에 무엇이 바뀌 었습니까? (릴리스/기능), 어떤 종속성이 빨간색 입니까?, 어떤 세그먼트가 영향을 받습니까? (GEO/PSP/은행/테넌트).
5) SLO 경고 규칙 (핵심)
화상 속도: 두 개의 창문 (빠른 1 시간 및 느린 6-24 시간). 페이저-동시에 초과 된 경우에만.
가드 레일: p99/오류율에 의한 임계 값은 컨텍스트 분석 트리거 역할을하며 SLO를 대체하지 않습니다.
Impakt: 평가 "청중 × 돈/광산 × 정규화" → P1-P4 수준.
6) 소음 감소
중복 제거 - 서비스/테넌트/원인 별 그룹화; 우리는 수십 개의 신호 대신 하나의 사건을 공유합니다
히스테리시스: N-of-M 확인, 최소 이상 지속 시간.
Silences/Meats: 계획된 작품, 알려진 사건, "Follow-the-Sun" 창문.
요율 제한 및 할당량: 소스/라벨/테넌트 당; "폭풍" 으로부터의 보호.
카디널리티 감소: 경고 레이블에서는 useID/sessionId가 금지됩니다.
7) 경로 및 확장
컨텍스트 별 라우팅: 도메인 (결제/게임/코어), 환경 (prod/stage), 지역, 심각도.
에스컬레이션: t0 - 통화 중 L1; t0 + X - L2/도메인 소유자; t0 + Y-IC/수동. X/Y 시간은 P1-P3에 따라 다릅니다.
채널 별 복제: P1에서의 호출기 + 채팅; P3에서 채팅/티켓.
교대 변경: 컨텍스트의 자동 전송 (타임 라인, 수행 된 작업, 가설).
8) 자동 치료
지불: 건강 × 수수료 × 변환에 의한 PSP 전환, 은행/방법의 제한, 지터가있는 retrai.
게임/베팅: 캐시 웨지/제한 쓰기 작업, 대기열 페이지/대기실 전면을 활성화하십시오.
Infra: 교통 대피, 저하 근로자 재시작, 지연으로 확장.
안전/준수: PII 수출을 일시적으로 폐쇄하고 P1 운영에 대한 이중 제어를 시작하십시오.
롤백 정책 및 반품 기준을 갖춘 모든 자동 작업.
9) 런북 우선 경험
각 경고는 목표, 빠른 진단 (3-5 점검), 수정/롤백 단계, 연락처, 대시 보드 링크 및 상태 페이지와 같은 런북과 관련이 있습니다. 채팅/호출기에는 짧은 액션 카드가 표시됩니다.
10) 그는 정치를 부른다
회전 24 × 7, 도메인 적용 범위 (지불/게임 코어/SRE).
var room의 2 인 규칙 인 P1의 "두 번째 통화 중".
조용한 시간과 태양 뒤 창문.
훈련: 분기 별 운동 (탁상/게임 일), 그림자 이동.
소진을 피하기 위해 사후 크레딧 (comp-time).
11) 통합
사건 관리: 카드 자동 생성, 업데이트 테이프, IC/CL 역할, 타이머.
상태 페이지: 템플릿 및 현지화로 P1/P2 (Comms Lead를 통해) 게시
릴리스: SLI 별 릴리스 게이트, 경고에 의한 자동 정지/롤백.
디렉토리: 소유자, CMDB, 공급자 연락처.
12) 경보 예 (iGaming)
1. 10 분 만에 PSP-1 TR CDNA에서 성공률이 25% 증가
트랜잭션의> 30% 가 적용되는 경우 P2 → P1.
자동 작동: 트래픽 PSP-2/3 재분배; 단순화 된 3DS 파트너 관리자 경고 사용
2. p99 "stavka → settl"> EU의 3 × 규범
이유: 지연 복제, 근로자 대기열.
자동 작업: 스케일 아웃 작업자, 워밍업 캐시, 일시적으로 중요하지 않은 기능을 끄십시오.
3. PII 스파이크 내보내기
티켓/승인이없는 경우 P1.
자동 작업: 다운로드 블록, 준수 알림, SoD 확인.
13) 품질 지표 알림 (KPI/KRI)
MTTA-Comms/MTTA-Ops: 반응 시간/첫 번째 동작.
정밀/리콜 (알림 사건), 허위 경보 속도.
SLO 위반 전 리드 타임, TTD (탐지 시간).
페이 피로: 경고/사람/주, 야간 통화, "인형" 백분율.
자동 수정 속도: 사람이없는 자동 반응으로 인해 발생하는 문제의 비율.
노화: P3/P4> X 일 교수형의 비율.
14) 비용 관리
경고/소스에 대한 쿼터, 중복 라벨을 차단합니다.
다운 샘플링 및 미터법 집계, 트랙 샘플링; 수업 별.
정기적 인 비용 검토: $/경고, $/SLI 대시 보드, "무거운" 시리즈.
15) 개인 정보 보호 및 준수
경고 및 레이블 텍스트에 PII가 없음; 식별자의 토큰 화.
경고 구성에 대한 액세스 정책 (RBAC/ABAC), SoD.
감사 규칙 변경, 버전 지정, 테스트 및 diff.
16) 구현 로드맵 (6-10 주)
네드. 1-2: SLI/KRI 디렉토리, 소유자 맵, P1-P4 레벨, 첫 번째 SLO 규칙 (연소율).
네드. 3-4: 디드 업/히스테리시스/침묵, 사건 시스템 및 채팅과의 통합, 런북 번들.
네드. 5-6: 결제/대기열에 대한 자동 작업, 릴리스 게이트, 상태 페이지 피드.
네드. 7-8: 컨텍스트 (릴리스/기능 플래그/제공 업체), PSP 히트 카드 × 뱅크 × GEO, P1/P2 연습.
네드. 9-10: FinOps 경고, KPI 대시 보드, 임계 값 및 할당량 개정, 통화 교육.
17) 유물과 패턴
경고 스펙: 미터법/조건, 창, 억제, 소유자, 런북, 자동 작업.
경로지도: domen → kanal → eskalatsii, 백업 연락처.
침묵 정책: 포함 할 수있는 음소거 규칙 (계획/알려진 사건).
통화 중 핸드북: 회전, 시프트 변경, P1/P2 체크리스트, 채널.
사후 팩: 경고 업로드/타임 라인, 신호 품질 분석.
18) 안티 패턴
SLO → 노이즈 및 피로가없는 "원시" p95/p99를 선택하십시오.
같은 것에 대한 수십 개의 신호 (중복/상관 없음).
경고에는 런북이나 소유자가 없습니다.
계절/세분화없이 "석재" 임계 값 (GEO/PSP/은행/시간).
자동 동작 후 반환이 없습니다 (롤백 기준 없음).
PII 및 벽화 위험이있는 레이블 및 카디널리티 폭발.
결과
정말 유용한 경고는 SLO 중심 파이프 라인입니다. 연소율, 스마트 노이즈 감소, 명확한 라우팅 및 에스컬레이션, 런북 우선 경험 및 안전한 자동 작동 컨텍스트 규칙. 이러한 회로는 사용자보다 먼저 중요한 이벤트를 포착하고 MTTR을 줄이며 수익을 보호하며 동시에 "호출기" 루틴으로부터 호출을 보호합니다.