운영 대시 보드
(섹션: 운영 및 관리)
1) 목적과 원칙
운영 대시 보드는 플랫폼 상태를 모니터링하고 조치를 취하기위한 "단일 창" 입니다. 사용자 역할 (SRE, 제품, 재무, 준수, 지원, 파트너) 과 관련하여 메트릭, 이벤트, 경고 및 비즈니스 주요 수치를 집계합니다.
원칙:- 의도적으로 실행 가능: 각 위젯에는 동작 버튼 (롤백, 파즈, 다시 실행, 재 경로) 이 있습니다.
- 역할 인식: 권리와 세부 수준은 역할/테넌트/지역에 따라 다릅니다.
- 진실의 출처: 숫자는 청구/로그/청구서와 수렴합니다.
- 거의 실시간 + 역사: 사고의 경우 초/분, 트렌드의 경우 달/년.
- 설명 가능성: 모든 집계는 'trace _ id' 를 사용하여 원시 이벤트로 확장됩니다.
2) 역할과 스크립트 (누가 왔으며 왜)
SRE/플랫폼: 가용성, p50/p95/p99 대기 시간, 오류/회전, 용량, 1k 이벤트 당 비용.
제품/운영: E2E 성공률, 전환, 파트너 온 보딩 시간, phicheflags.
금융/FinOps: 단위당 수익/COGS/CM, 탈출/진입, 예산 및 상한, 편차.
준수/보안: 영수증/서명, PII 요청, SoD 위반, 재 인증 상태.
지원/CS: 파트너 및 지역 별 티켓 대기열, MTTA/MTTR, SLA.
파트너/임차인: 자체 SLO 메트릭, 웹 후크 상태, 사용 및 할당량.
3) 노스 스타 및 주요 SLI/SLO
North Star: 각 지역의 목표 p95에서 중요 경로에 대한 E2E 성공률.
SLI (예):- 채널 당/지역별 가용성.
- p50/p95/p99 대기 시간.
- 배상의 오류율 및 비율.
- 웹훅 배송 성공률 (영수증 포함).
- 단위당 1k 이벤트 및 출구/침입 비용.
- 사건 요약: MTTA, MTTR, 오류 예산 연소.
- 가용성은 99 이상입니다. 95 %/지역/채널.
- p95 체크 아웃/견적).
- 웹 후크의 성공은 99 이상입니다. 5 분 만에 5%. 창.
- 따옴표와 체크 아웃 = 0 사이의
- P1에서의 반응 시간은 10 분, MTTL은 60 분입니다.
4) 대시 보드 데이터 아키텍처
이벤트 버스: 원격 측정 (추적/메트릭/로그), 비즈니스 이벤트, 청구, 준수.
스트리밍/집계: 거의 실시간으로 T + 5s/T + 1m 창; 배송 보장을위한 CDC/아웃 박스.
스토리 지: 시계열 (RAM), OLAP (long history), WORM 로그 (감사).
시맨틱 레이어: 메트릭, 단위, 지역 및 테넌트 별 정규화 사전.
원자재에 대한 링크: 'trace _ id '/' event _ id' 로 드릴 다운 및 서명 (indicate _ hash).
5) 인터페이스 및 위젯 설계
글로벌 헤더: 필터 (시간, 지역, 테넌트, 제품, 환경), 상태 표시기.
타일 (KPI): E2E 성공, 가용성, p95, 오류율, 비용/1k, 출구.
차트: 스파크 라인 트렌드, 지역별 히트 맵, 백분위 수 차트.
테이블: 최고의 실수, 열화 파트너, 할당량 초과, 폐쇄되지 않은 사건.
동작 섹션: "일시 중지 프로모션", "롤백 기능", "인상 할당량", "전달 재시작".
문맥 도움: 메트릭/기술 및 SLO와의 커뮤니케이션에 대한 힌트.
6) 대시 보드 모듈 (권장 세트)
1. 플랫폼 상태: 가용성/대기 시간/오류, 연소 오류 예산.
2. 파트너 통합: 웹 후크 상태, 영수증, demempotent 테이크, 지연 대기열.
3. 체크 아웃 및 가격: vitrina SL 체크 아웃 준수, 'fx _ version', 'tax _ rule _ version', 실패 사례.
4. 콘텐츠/디렉토리: 게시 시간, 캐시/무효화 오류, 신선도.
5. RTP 및 한계 (해당되는 경우): 이론. vs RTP, 한계 작동, 노출을 관찰했습니다.
6. FinOps: COGS/유닛, 탈출/진입, 계산/스토리지, 예산/캡 알림.
7. 보안/준수: SoD, JIT, MFA, 서명 된 운영, PII 요청 및 로그.
8. 지원: 대기열, MTTA/MTTR, 이유, 자동 런북.
9. 릴리스/기능 플래그: 릴리스 상태, 카나리아 지역, 사고시 자동 접착 회귀.
10. 실험: A/B 가드 레일, SLI/ROI에 대한 기능의 영향.
7) 경고, 룬 및 에스컬레이션
레벨 P1-P3은 노이즈 제거 및 'trace _ id' 중복 제거로 경고합니다.
자동 런북: 트리거되면-검사/수정 시작 (캐시 지우기, 라우팅 전환, 프로모션 일시 중지).
에스컬레이션: 행렬 24 × 7, 응답 SLO, 채널 (채팅/음성/SMS), "빨간색 버튼".
사고 후: 인과 보고서 템플릿 및 동작 항목.
8) 다중 지역 및 다중 임차인
슬라이스: 지역/테넌트/채널/제공자, 독립 SLO 및 예산.
신뢰 영역: PII 데이터/금융-각 영역에서만 볼 수 있으며 나머지는 집계됩니다.
비용 인식: 경로를 동일한 p95로 가격별로 비교; 최적화 권장 사항.
9) 보안 및 개인 정보 보호
RBAC/ABAC: 역할 별 가시성 및 조치; 제품/테넌트 소유권에 대한 ReBAC.
서명 및 영수증: 재무/중요 이벤트에 대한 해시 및 DSSE 영수증.
PII 위생: 토큰 화, 마스킹, 승인 된 bs을 통해서만 액세스 할 수 있습니다.
감사: 설정/역할/제한 변경, 재현성에 대한 WORM 로그.
10) 메트릭 데이터 모델 (예)
'metric' '{이름, 단위, 유형: 카운터/게이지/hist, 소유자, sla _ ref}'
'dom' {지역, 테넌트, 제품, 공급자, 버전, 환경} '
'point' '{metric, 값, ts, dims {}, trace _ id, sign?}'
'이벤트' '{유형, 심각도, 주제 _ id, 페이로드 _ 해시, 영수증 _ 해시, ts}'
(PHP 3 = 3.0.6, PHP 4)
'경고' '{slo _ ref, 상태, 상태, ack _ by, 인정 된 _ at, runbook _ step}'
11) 대시 보드 API/웹 후크
'POST/ingest/metrics' - 메트릭 수신 (체계, 제한, 인증).
'POST/ingest/이벤트' -비즈니스 이벤트 (버전/서명).
'GET/kpis? 필터... '- 위젯에 대한 집계.
'GET/trace/{ trace _ id}' - 심층 프로모션.
보안: 'IncidentRaised', 'QuotaCapReached', 'PriceMismatch', 'WebhookDeliveryLag', 'SecuritySoDViolation'.
12) 데이터 품질 및 테스트
데이터 계약: 수신 체계 및 검증, 버전 지정 ('확장 → 마이그레이션 → 계약').
Anomalies: 누락/점프 모니터링, 임계 값 "플랫 라인 "/" 노이즈".
샘플링: 높은 QPS 메트릭의 경우-표현력을 유지하면서 슬라이딩.
백필: 안전한 버전 태그 백로드.
13) 대시 보드 자체의 메트릭 (메트릭 메트릭)
UI/API 가용성은 99 이상입니다. 9%.
대기 시간 p95 API는 약 300ms를 요청합니다.
완전성-창으로 데이터를 전송 한 소스의 백분율 5%.
신선도: 점진적 업데이트 지연으로 30 초
정확성: 참조 보고서와의 불일치 1%.
14) 대시 보드의 경제와 FinOps
공급자/지역별로 분해 된 1k 이벤트 당 비용.
탈출/침입 히트 맵, 캐싱/라우팅 권장 사항.
예산/상한 경고: 80/90/100%, 자동 거래 및 우선 순위.
15) 가용성 및 UX
야간 테마, 짧은 캡션, 상태 아이콘.
키보드 탐색 및 a11y: 대비, alt, aria 태그.
저장된 사전 설정: "SRE 듀티", "파트너".
스냅 샷 및 공유: 필터와 링크/내보내기로 상태를 캡처합니다.
16) 위험 및 반 패턴
대시 스프롤: 단일 메트릭 사전이없는 20 개의 서로 다른 대시 보드.
허영 지표: SLO/동작과 관련이없는 아름다운 그래프.
수치의 일관성이 없음: 보고서에서 청구/감사.
시끄러운 경고: 피로 및 P1 누락.
드릴 다운 부재: 1 차 및 원인에 도달하는 것은 불가능합니다.
17) 구현 점검표
- 역할과 스크립트를 정의하십시오. North Star와 SLI/SLO에 동의합니다.
- 메트릭 및 단위 사전을 만듭니다. 데이터 계약을 공식화하십시오.
- ingest (메트릭/이벤트/추적), OLAP 및 WORM 감사 설정.
- 키 모듈 구현 (건강, 파트너, 체크 아웃, FinOps, 보안).
- 룬 및 에스컬레이션에 대한 경고 포함; "빨간색 버튼".
- 롤백/일시 정지/재 경로/상승 제한 동작 추가
- 지역/테넌트별로 히트 맵 구축; 필터 및 사전 설정.
- 청구서/청구서로 나가는 숫자를 확인하십시오.
- 게임 데이 (GameDay): 공급자의 단절, 레트라의 눈사태, 가격의 비 동기화.
- 주간 SLO 검토 및 사후 품질.
18) RACI
19) FAQ
모든 보고서를 대시 보드로 교체 할 수 있습니까?
아니요, 그렇지 않습니다. 대시 보드-RAM 및 동작 용; 공식적인보고/감사-개별 아티팩트.
얼마나 "실시간" 이 필요합니까?
사고-초/분, 경제-분/시간; 절대적인 "온라인" 이 아니라 일관성이 중요합니다
경고 소음을 처리하는 방법?
SLO 지향 조건, 집계, 'trace _ id' 에 의한 중복 제거, 우선 순위 지정 및 자동 런북.
지표의 정확성을 확인하는 방법?
참조 보고서, 테스트 피드, 제어 샘플 및 WORM 로그를 통한 정기적 인 조정.
요약: 운영 대시 보드는 "아름다운 보드" 가 아니라 단일 SLI/SLO, 인터페이스의 동작, 원자재 추적 및 청구 및 감사를 통한 엄격한 일관성 관리 도구입니다. 이벤트 아키텍처를 기반으로 구축하고 역할별로 컨텍스트를 제공하며 룬과 에스컬레이션을 추가하며 예측 가능한 운영, 빠른 의사 결정 및 지속 가능한 성장을 얻