중앙 제어 대시 보드
1) 목적과 원칙
중앙 제어 대시 보드 (이하 CDU라고 함) 는 운영 결정을 내리기위한 단일 창입니다. 원격 측정, ITSM, CI/CD, 서비스 카탈로그, 작업 일정 및 공급자의 신호를 집계하여 실행 가능한 위젯으로 변환합니다.
원칙:- SLO 우선: 최고-대상 SLO 및 Tier-0/1의 연소율.
- 위젯에서 플레이 북/런북 또는 티켓까지 한 번 클릭하십시오.
- 통합 사전: 동일한 SEV, 상태, 색상 및 임계 값입니다.
- 이벤트 주석: 모든 그래프에서 릴리스/구성/창.
- 역할 및 권한: 개인보기 (통화 중, IC, 관리).
- 낮은 소음-정족수, 중복 제거 및 윈도우.
2) 역할 및 주요 시나리오
통화 중 (P1/P2): "무엇이 있는지" 를 빠르게 이해하고 플레이 북을 엽니 다 (보통 1 클릭).
IC: SEV 선언, 전쟁 실 모드 시작, com 업데이트 제어 케이던스.
릴리스 관리자: 게이트, 카나리아 진행 상황, 롤백 준비 상태 참조.
서비스 소유자/제품: 비즈니스 SLI (결제/등록 성공), 기능의 영향.
SRE/플랫폼: 용량, 자동 스케일, 이상, DR 준비.
FinOps: $/단위, 초과 지출, 예산 경고.
보안/법률: 자세, 주요 인증서, 회전 창, WORM 감사 링크.
3) CDA 정보 아키텍처
상단 선반 (영웅 패널):- SLO
- SEV 상태: 활성 사건 및 일정.
- 출시 상태: 카나리아/청록색, 활성 게이트.
- 신호등 제공 업체 (PSP/KYC/CNC).
- 유지 보수 창 (현재/24 시간), 억제 카드.
- 용량: 예측 된 CPU/RAM/IO/큐 깊이/p95 대기 시간.
- FinOps: $/1k txn, 일일 지출 대 예산, 로그 볼륨 이상.
- DataOps: 쇼케이스의 신선도, SLA 파이프 라인, DQ 오류.
- 보안: 인증서 용어, 비밀 회전, 중요한 취약점 (연령/SLA).
하단 선반 (진단/drill-
상관 관계 "릴리스 SL SLO", "제공자 표시 기능 실패/대기 시간".
빠른 링크: 로그, 트레일, 티켓, 플레이 북, SOP, 에스컬레이션 매트릭스.
4) 위젯 (참조 세트)
1. SLO 및 번 레이트
현재 SLI, 대상 및 오류 예산 소비 (1 시간/6 분) 를 보여줍니다.
동작: 서비스 저하 플레이 북을 엽니 다.
2. 사건 (SEV 패널)
액티브/최근, Declare/Comms 타이머, IC/Comms 역할.
행동: 열린 전쟁 실, 업데이트 템플릿, IC 점검표.
3. 릴리스/구성
카나리아 1 → 5 → 25%, 플래그, 롤백 (버튼/SOP 링크).
주석: 버전, 커밋, 저자.
4. 유지 보수 창
현재/다가오는 영향을받는 서비스/지역; 억제 마스크.
조치: 좌표 알림, SLO 가드 활성화
5. 용량/오토 스케일
소비 예측 (Naive/AR), 핫스팟 카드, 워밍 풀.
조치: 할당량/규모 규칙 (정책을 다시 작성하기 위해 PR) 을 요청하십시오.
6. FinOps
$/유닛, 최고 "고가의" 쿼리/로그, 일일 화상 대 예산.
조치: 보고서 및 권장 사항 (샘플링 로그, 아카이브) 을 엽니 다.
7. 제공자
SLA/PSP/KYC/CNC 상태, 경로 가중치, 폴백 준비 상태.
동작: 파트너에게 무게, 통신 템플릿 전환.
8. 보안
인증서 (계정 30d), 회전 지연, 취약점 (연령), 의심스러운 이벤트.
액션: 열린 IR 플레이 북/티켓.
9. DataOps
창문 신선도, 건너 뛰기 비율, 파이프 라인 고장, DLQ.
동작: 백필/검역/롤백 변환.
5) 상태/색상/임계 값 (참조)
녹색: 대상 내의 SLI, 연소 속도 <1 ×.
앰버: SLI는 분해, 연소 속도 1-2 ×, p95 성장하지만 해결 방법이 있습니다.
빨간색: 위반 또는 예측 소진 <1h; SEV-1/0을 엽니 다.
그레이: 억제, 원격 측정 없음 (소스 오류).
6) 주석과 상관 관계
릴리스/설정/창/공급자 상태는 SLO 그래프에 표시됩니다.
→ diff 마커, 저자, 게이트, Rolback/Folback/SOP 버튼을 클릭하십시오.
이 경우 타임 라인은 ChatOps 주석 및 작업으로 작성됩니다.
7) 데이터 소스 및 확인
원격 측정: trace _ id가있는 메트릭/트레일/로그.
ITSM: 사건/문제/변경 (상태/SLA).
CI/CD: 릴리스, 서명, 아티팩트, 테스트.
서비스 디렉토리/CMDB: 소유자, SLO, 종속성.
일정: 유지 보수 창.
서비스 제공 업체: 상태 API + 수동 확인 (별도의 쇼케이스에 착륙).
FinOps: 청구/리소스 태그, 로그 볼륨, 출구.
품질 관리: 쿼럼, 중복 프로브, SLA 신선도, "멍청한" 소스에 대한 경고.
8) 디스플레이 모드
전쟁 실: 고정 레이아웃 SLO/Incidents/Releases/Comms-timer.
임원 (28 일): 트렌드 MTTR/MTTD/SEV 믹스, $/단위, SLO 준수.
통화 중: 소형 "야간" 패널 (어두운 모드, 많은 숫자).
다중 임차인/지역: 서비스/지역/임차인 필터; 사전 설정.
9) 탐색 및 동작 (한 번의 클릭)
버튼: '/선언 세븐 ', '/프리즈', '/롤백 ', '/상태 업데이트', '오픈 플레이 북'.
Drill- forign 지정: SLO → 그래프 → 미리 채워진 필터가있는 로그/트레일 (trace _ id, release _ id).
공유: 티켓/상태 페이지의 패널 스냅 샷.
10) 보안, 액세스, 감사
SSO/OIDC + RBAC/ABAC: 역할 및 범위 (보기/작업).
JIT/JEA: "위험한" 조치는 일시적인 인상으로 만 가능합니다.
감사는 변할 수 없다: 누가 무엇을 눌렀는지, 어떤 요청/명령이 남았는지.
비밀: 표시되지 않고 비밀 관리자에게만 연결됩니다.
11) CDU 성숙도 지표
행동 성 이상 90%: 클릭은 그래프뿐만 아니라 행동으로 이어집니다.
SEV-1/0 동안 CCD에서 타임 투-퍼스트 액션
CDU가 "진리의 원천" 인 사건의 비율은 95% 이상입니다.
위젯의 신선도: 데이터가 "신선한 5 분" 인%
적용 범위: SLO 카드를 사용한 중요한 서비스의% 및 릴리스 주석.
제로 사각 지대: 일주일 동안의 자동 소스 = 0.
12) 점검표
디자인
- 역할 및 스크립트가 설명됩니다 (P1/P2/IC/Exec/FinOps/Security/DataOps).
- 색상/SEV/임계 값 사전은 일정합니다.
- 정족수 및 신선도 SLA가있는 데이터 소스.
- 전쟁 실/통화 중/집행 레이아웃.
- ChatOps/ITSM/CI/CD/CMDB 통합 계획.
작동
- 위젯은 린터를 통과합니다 (필요한 필드, 소유자, 임계 값).
- 일주일에 한 번-DPC 개선으로 에스컬레이션/경보 검토.
- 사고 스냅 샷이 AAR/RCA에 첨부됩니다.
- 다크 모드/모바일 듀티 프리셋.
- "음소거" 소스 및 주석의 정확성을 테스트합니다.
13) 템플릿 (아이디어)
13. 1 위젯 정의 (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 사건 카드 2 개 (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 릴리스와 연결
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. FinOps 위젯 4 개
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) 반 패턴
동작과 플레이 북이없는 "그래프의 벽".
SEV의 명령 → 혼동에 대한 색상/임계 값이 다릅니다.
릴리스/창 주석이 없습니다-복잡한 원인 상관 관계.
쿼럼이없는 중복 소스는 잘못된 페이지/노이즈입니다.
패널의 비밀/키-누출 위험.
느린 렌더 (요청/집계는 캐시되지 않음) -전투에서 패널이 열리지 않습니다.
15) 구현 로드맵 (4-8 주)
1. 네드. 1: 역할 별 요구 사항 모음, 상태/색상 사전, 세 가지 모드의 레이아웃.
2. 네드. 2: SLO/Incidents/Releases/Windows 연결, 주석, ChatOps 작업.
3. 네드. 3: 소스 정족수 인 FinOps/Capacity/Providers/DataOps/Security를 추가하십시오.
4. 네드. 4: 전쟁 실 모드, ITSM의 스냅 샷, Tier-0의 파일럿.
5. 네드. 5-6: 성능 최적화, 모바일/통화 사전 설정, 위젯 린터.
6. 네드. 7-8: 만기 지표, 주간 검토, 자동 권장 사항 (샘플링 로그, 할당량, 폴백).
16) 결론
CDU는 "아름다운 그래프" 가 아니라 위의 SLO 및 번 레이트, 한 문맥의 사고/릴리스/창, ChatOps 및 SOP를 통한 즉각적인 조치, 확인 된 소스 및 주석 등 솔루션 패널입니다. 이 대시 보드는 MTTA/MTTR을 줄이고 통신을 단순화하며 FinOps를 지원하며 작업을 투명하고 예측 가능하게 만듭니다.