인프라 대시 보드

1) 왜 필요한가

클러스터 및 네트워크에서 데이터베이스 및 대기열에 이르기까지 단일 상태 그림.

빠른 RCA 및 사후 관리자: 많은 메트릭 로그인하기Name

서비스 및 플랫폼 별 SLO: 가용성 및 대기 시간에 대한 제어.
FinOps 투명성: 서비스, 세입자 및 환경 별 볼륨/비용.
준수/보안: 패치/취약점, 액세스, 이상 상태.

방법론: 황금 신호 (대기 시간, 교통, 오류, 포화), 요청에 대한 RED (속도, 오류, 지속 시간), 자원에 대한 사용 (활용, 포화, 오류).

2) 좋은 대시 보드의 원리

실행 가능한 각 패널은 "다음에해야 할 일" 에 응답합니다.
계층: 개요 → 도메인 → 딥 다이빙 → 원시.
템플릿/변수: '클러스터', '네임 스페이스', '서비스', '테넌트', 'env'.
유니폼 단위: 대기 시간에 대한 ms,%, RPS, ops/sec, 바이트.
일관된 타임 픽커: 기본 1-6 시간, 빠른 미리 설정 5m/15m/24h.
드릴 다운: 패널에서 로그 (Loki/ELK) 및 트랙 (Tempo/Jaeger) 까지.
소유권: 소유자는 대시 보드, SLO, 런북, 통화 중 연락처에 표시됩니다.

3) 폴더 구조 및 역할

00 _ 개요-플랫폼의 높은 수준의 개요.
10 _ Kubernetes-클러스터, 노드, 워크로드, HPA/VPA, 컨테이너.
20 _ Network _ Edge-Ingress/Envoy/Nginx, LB, DNA, CNC, WAF.
30 _ Storage _ DB-PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, 객체 스토리지.
40 _ CICD _ Runner-파이프 라인, 에이전트, 아티팩트, 레지스트리.
50 _ Security _ Compliance-취약점, 패치, RBAC, 감사 이벤트.
60 _ FinOps _ Cost-서비스 당/테넌트/클러스터 비용, 폐기.
99 _ 런북-명령 및 SLO 카드에 대한 링크.

역할: 플랫폼-SRE (전체 액세스), 서비스 소유자 (자체 공간), 보안/준수, 금융/FinOps, 뷰 전용.

4) 플랫폼 개요 대시 보드 (랜딩)

목표: 모든 것이 순서대로되어 있는지 이해하는 데 30 초 안에.

권장 패널:

SLO 플랫폼 (API 가용성 에지): 대상 값, 실제, 오류 시대, 연소율.
주요 진입 지점별로 p50/p95/p99 대기 시간.
회귀가있는 4xx/5xx 오류 및 최고 엔드 포인트.
리소스 채도 (CPU, RAM, 네트워크, 디스크) -클러스터 별 p95.
사건/경고 (활성) 및 최근 릴리스.
비용/시간 (대략적인) 및 주별 추세.

가변 템플릿: 'env', 'region', 'cluster', 'tenter'.

5) Kubernetes: 클러스터 및 워크샵

주요 그룹:

1. 클러스터/노드

CPU/메모리 처리, 압력 (메모리/cpu), IO 디스크, 이노드.
서브 시스템: kube-api, etcd, 컨트롤러; 쿠 벨레 트 건강.

2. 보크로드

RPS/RPM, 대기 시간 p95, 오류율, 재시작, 스로틀 링, OOMKills.
HPA는 실제 지표 대 대상입니다.

3. 클러스터 내 네트워크 경로

eBPF/Netflow: 최고 화자, 방울, 재전송.

4. 이벤트 K8

평가는 경고/실패 예약/백오프입니다.

PromQL의 예:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) 엣지, 그리드 및 DNSName

패널:

Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, 업스트림 _ 오류, 활성 _ conns.
LB/Anycast: 구역 별 트래픽 분포, 장애 조치 이벤트.
DNA: 해상도 대기 시간, NXtterr/SERVFAIL 속도, 적중 비율 캐시.
CNC/WAF: 규칙, 비정상적인 트래픽 (봇/스크래퍼) 에 의해 차단됩니다.

예 (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) 데이터베이스 및 저장

PostgreSQL/MySQL: qps, 대기 시간, 잠금 대기, 복제 지연, 백업/오류.
Redis: 적중률, 퇴거, 기억, 느린 명령.
Kafka/RabbitMQ: 소비자 그룹에 의한 지연, 재조정, 풀린 메시지.
객체 저장: 쿼리, 오류, 출구, lat p95.

PostgreSQL (예):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

카프카 (예):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD 및 아티팩트

파이프 라인 개요: 성공/런타임, 러너 큐.
배포 상태: 버전, 카나리아/청록색 상태, 예열 시간.
이미지 레지스터: 크기, 마지막 푸시 및 폐기.

예:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) 안전 및 준수

패치 및 취약점: 중요한 CVE가있는 노드/이미지의 비율, 평균 "패치 시간".
RBAC 및 비밀: 액세스 시도 실패, 비밀 액세스.
감사 이벤트: 중요한 구성 요소의 입력/변경, 드리프트.
WAF/DLP/PII 개정: 규칙 잠금, 마스킹 오류.

10) 로그 및 트레일: 엔드 투 엔드 검토

로그 오류 요약 (Loki/ELK): 상위 예외, 새 서명.
버튼 "필터로 로그로 이동" (LogQL/ES 쿼리).
추적: 최고 느린 스팬, 추적 컨텍스트가없는 요청 백분율.

LogQL의 예:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: 비용과 폐기

서비스/테넌트/클러스터 별 비용 (청구/수출 업체에 따라).
핫/콜드 노드: 유휴 리소스, 올바른 권장 사항 (CPU/Mem).
데이터 유출, L7 요청 및 비용.
역학: 주/월, 예측.

주요 지표:

(PHP 3 = 3.0.6, PHP 4)
효율성 계수: 'RPS/$' 또는 'SLO-minutes/$'.

12) SLO, 버그 및 연소율

각 도메인 대시 보드의 SLO 카드: 목표, 기간, 오류 (예산).
번 레이트 경고 (두 가지 속도: 빠른/느린).

PromQL의 예 ("5xx 또는 p95> 임계 값" 으로 오류):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 'SLO' 및 다중 창 멀티 번 계수를 대체하십시오.

13) 시각화 표준

패널 유형: 시리즈 시계열, KPI 통계, 상위 N 테이블, 대기 시간 히트 맵.
전설과 단위: 필요한; 단축 된 라벨, SI 형식.
색상 영역: SLO/임계 값으로 녹색/노란색/빨간색 (균일).
패널 설명: 측정, 소스, 런북 링크, 소유자.

14) 패널 템플릿 (빠른 시작)

(A) API 개요

KPI: 'RPS', 'p95', '5xx%', '오류 _ 예산 _ 남은'.
오류/대기 시간별 최고 엔드 포인트.
'trace _ id = $ trace' 로그의 드릴 다운.

(B) 노드 건강

CPU/메모리/디스크/네트워크-노드 별 p95, "핫" 목록.
압력, 스로틀 링, 패키지 드롭.

(C) DB 건강

TPS, 대기 시간 p95, 잠금 장치, 복제 지연, 느린 쿼리.
백업 상태/최신 성공.

(D) 카프카 라그

그룹 별 래그, 소비율 대 생산, 재조정.

(E) 비용 및 우틸

서비스 별 시간/시간, 유휴%, 오른쪽 힌트, 예측.

15) 변수 및 태그 (권장 세트)

'env' (prod/stage/dev)

'지역 '/' z'

'클러스터'

'네임 스페이스 '/' 서비스 '/' 워크로드'

'테넌트'

'구성 요소' (에지/db/캐시/큐)

'버전' (릴리스/git _ sha)

16) 경보 및 사건 관리와의 통합

Alertmanner/Graphana의 규칙은 원하는 대시 보드 및 이미 대체 된 변수에 대한 링크로 경고합니다.
SLO 기준에 따른 P1/P2는 통화 중 자동 할당됩니다.
그래프의 릴리스/사건의 주석.

17) 대시 보드의 품질: 점검표

소유자와 연락처.
SLO/임계 값이 문서화되어 있습니다.
변수는 작동하고 쿼리의 크기를 제한합니다.
유닛과 전설이있는 모든 패널.
로그/트랙으로 드릴 다운.
패널은 2-3 "스크린" 에 맞습니다 (킬로미터 당 스크롤 없음).
응답 시간은 2-3 초 (캐시, 다운 샘플) 입니다.
데드 패널이나 열악한 메트릭이 없습니다.

18) 대시 보드 자체의 성능 및 비용

무거운 집계에 대한 다운 샘플링/녹화 규칙.
캐싱 (쿼리 프론트 엔드/리피터) 및 범위/단계 제한.
격납고 테스트: 일반적인 대시 보드 요청에 대한 TSDB/클러스터로드.
와일드 카드를 버리는 라벨 위생 (낮은 카디널리티).

19) 구현 계획 (반복)

1. 1 주차: Landing + K8/Edge 리뷰, 기본 SLO, 소유자.
2. 둘째 주: DB/대기열, 로그 및 추적 통합 (드릴 다운), 연소율 경고.
3. 3 주차: FinOps 대시 보드, 권장 사항, 비용 보고서.
4. 4 주차 이상: 보안/준수, SLO 카드 자동 생성, 대시 보드 회귀 테스트.

20) 미니 -FAQ

몇 개의 대시 보드가 필요합니까?
도메인 당 최소 1 개의 리뷰 + 도메인 (K8, Edge, DB, 대기열, CI/CD, 보안, 비용). 나머지는 성숙합니다.

더 중요한 것은 무엇입니까?
증상 및 SLO 측정 항목은 원인을 기록합니다. 'trace _ id' 및 일관된 레이블을 번들로 제공합니다.

패널에서 "익사" 하지 않는 방법?
계층 구조, 명시 적 소유자, 미터법 위생, 정기적 인 검토 및 "죽은" 패널 제거.

합계

인프라 대시 보드는 "아름다운 그래프" 가 아니라 SLO 제어, 빠른 RCA 및 의식적인 FinOps와 같은 관리 도구입니다. 변수, 시각적 패턴 및 소유자를 표준화하십시오. 로그/트랙에 드릴 다운을 제공하고 연소율 경보를 자동화하십시오. 이는 전체 플랫폼 수준에서 예측 가능성, 반응 속도 및 비용 투명성을 제공합니다.

인프라 대시 보드

(B) 노드 건강

(C) DB 건강

(D) 카프카 라그

(E) 비용 및 우틸

합계

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다