운영 및 → 관리 성능 지표
성능 측정 항목
1) 성능 지표
성능은 응답 시간에 대상 SLO를 제공하고 주어진 비용으로 처리량을 제공하는 시스템의 기능입니다. 지표 없이는 불가능합니다
사고 전에 열화를 감지합니다
용량과 예산을 예측하고
대안을 비교하십시오 (캐시 vs DB, gRPC vs REST)
출시 후 회귀 관리.
원칙: 단일 메트릭 사전, 백분위 수 별 집계 (p50/p90/p95/p99), "핫" 및 "콜드" 경로에 대한 별도의 회계, 컨텍스트 (버전, 지역, 공급자, 장치).
2) 지표 분류
2. 1 기본 SRE 프레임
지연, 교통, 오류, 포화 등 네 가지 황금 신호.
RED (마이크로 서비스의 경우): 속도, 오류, 기간.
사용 (하드웨어 용): 활용, 포화, 오류.
2. 2 단계
인프라: CPU, RAM, 디스크, 네트워크, 컨테이너, 노드.
플랫폼/서비스: API 엔드 포인트, 대기열, 캐시, 데이터베이스, 이벤트 버스.
고객 경험: 웹 바이탈, 모바일 SDK, 스트리밍, CDN입니다.
데이터 플랫폼: ETL/ELT, 스트림, 상점, BI 지연.
비즈니스 중요 흐름: 승인, KYC, 예금/지불, 게임 라운드.
3) 키 메트릭 및 공식 카탈로그
3. API와 마이크로 서비스 1 개
RPS (초당 요청).
대기 시간 p50/p95/p99 (ms) - 바람직하게는 "엔드 투 엔드" 및 "백엔드 전용".
오류율 (%) = 5xx + 4xx 검증/모든 요청.
포화: 평균 작업자 대기열 길이, 기내 요청.
콜드 스타트 속도 (FaaS).
스로틀 링/드롭 요청.
SLO 예: EU- 동부 지역에서 최대 2k의 RPS를 갖는 p95 대기 시간 약 250 ms; 오류 자체가 0 입니다. 5%.
3. 데이터베이스 2 개
QPS/Transactions/s, avg/median 쿼리 시간, p95 쿼리 시간.
잠금 웨이트/데드 락, 행/색인 적중 비율, 버퍼 캐시 미스%.
RepLag (복제), Checkpoint/Flush time, 자동 진공 지연.
핫 키/스키-로드 별 상단 N 키.
"핵심 요청" 의 공식: QPS/vCPU _ core _ count → 샤딩 신호.
3. 캐시와 CDN이 3 개
적중 비율 (%), 퇴거/s, 대기 시간 p95, 항목 크기 백분위 수.
원산지 오프로드 (%)
3. 대기열 4 개/스트림
Ingress/egress msg/s, 소비자 래그, 재조정 율.
처리 시간 p95, DLQ 속도.
3. 5 인프라/컨테이너
CPU 활용%, CPU 스로틀%, 실행 큐 길이.
메모리 RSS/작업 세트, OOM 킬, 페이지 결함.
디스크 IOPS/대기 시간/처리량, 네트워크 RTT/재전송.
노드 포화: 보류중인 포드, 압력 (CPU/메모리/IO).
3. 6 웹 클라이언트 (UX)
핵심 웹 바이탈: LCP, INP, CLS.
TTFB, FCP, TTI, 리소스 타이밍
오류율 (JS), 긴 작업, SPA경로 변경 시간.
CNC Geo-Latency (백분위 수).
3. 7 모바일 클라이언트
앱 시작 시간 (차가운/따뜻한), ANR 요금, 충돌없는 세션%.
네트워크 왕복/세션, 페이로드 크기, 배터리 드레인/세션.
오프라인 성공률.
3. 8 데이터 플랫폼 및보고
Freshness Lag (T-now → витрине), 처리량 행/s, 직업 성공%.
결핵 당 비용, 파티 별 Skew, 늦은 이벤트%.
주요 대시 보드를위한 BI Time-to-Render p95.
3. 9 도메인 크리티컬 흐름 (예를 들어 iGaming)
Auth p95, KYC TTV (Time-to-Verify), 예금/철회 p95.
게임 라운드 기간 p95, RNG 통화 대기 시간, 공급자 RTT p95.
지불 PSP 성공률, Chargeback 조사 SLA.
4) 정규화, 백분위 수 및 속성
백분위 수 대 평균: p50/p90/p95/p99 수정-평균 최고 통증을 부드럽게합니다.
섹션: 응용 프로그램 버전, 지역, 공급자, 네트워크 채널 (4G/Wi-Fi), 장치.
상관 관계: 인과 체인에 대해 "백엔드 전용" 및 "실제 사용자" 메트릭을 연결합니다.
Exemplars/Traces: 극단적 인 백분위 수를 흔적과 연관시킵니다.
5) 임계 값 및 경고 (대략적인 격자)
대기 시간 p95 (코어 API): 경고> 250 ms, 임계> 400 ms 5 분 연속.
오류율: 경고> 0. 5%, 중요> 2% (전세계가 아닌 엔드 포인트).
DB RepLag: 경고> 2 초, 중요> 10 초
카프카 소비자 지연 (시간): 경고> 30 초, 중요> 2 분
웹 LCP (p75): 경고> 2. 5 초, 중요> 4 초
모바일 ANR: 경고> 0. 5%, 중요> 1%.
ETL 신선도: 경고> + 15 분, 크리티컬> + 60 분 о) SLA.
우리는 서비스/릴리스에 의한 정적 + 적응 임계 값 (계절성, 주간 패턴), 중복 제거 및 경고 그룹화를 사용합니다.
6) 성능 테스트
유형: 기준선, 스트레스, 연장 (흡수), 혼돈 (저하 링크/PSP).
로드 프로필: 실제 트랜잭션 (분배 기반), "버스트", 지역 피크.
목표: 목표 RPS 및 혼합 작업, 역압 검증을 통한 SLO 성과.
실행 메트릭: 처리량, 오류%, p95 대기 시간, GC 일시 정지, CPU 스로틀, 대기열 지연, 비용/실행.
회귀 규칙: p95가 동일한 프로파일로 10% 가 저하되지 않고 요청 비용 (CPU-ms/요청) 이> 15% 증가하지 않으면 릴리스가 성공한 것으로 간주됩니다.
7) 용량 계획 및 가격/성능
수요 모델: 시간별 RPS x 평균 작업/요청 (CPU-ms, IO-ops).
헤드 룸: 중요 경로의 경우 30-50% 마진, P95로 자동 스케일링.
비용 KPI: 1k 요청 당 비용, GB 당 비용, 1 p.p. LCP 개선.
캐싱/비정규화: "캐시 ROI" = (CPU-ms 저축-캐시 비용) 을 읽으십시오.
따뜻하고 차가운 지역: CNC/edge로 오프로드, 읽기 전용 복제.
8) 관찰 및 프로파일 링 관행
흔적: 모든 홉에 분산 된 미량 ID; 샘플링은 똑똑합니다 (꼬리 기반).
메트릭: Prometheus/OpenTelemetry, 이름 및 레이블의 단일 표기법.
로그: 미량 상관/스팬, 노이즈 로그 예산, PII 편집.
프로파일 러: CPU/Heap/Alloc/Lock 프로파일, 연속 프로파일 링 (eBPF).
샘플 인스턴스: p99 버스트를 특정 스팬/SQL/PSP 호출과 연관시킵니다.
9) 릴리스 및 팀 메트릭 (완전성을 위해)
DORA: 배치 빈도, 리드 타임, 변경 실패율, MTTR.
SPACE: 만족, 성과, 활동, 의사 소통, 효율성.
이러한 지표는 철에 관한 것이 아니라 성능의 안정성에 직접적인 영향을 미칩니다.
10) 반 패턴
체이스 평균: p95/p99를 무시하십시오.
"글로벌" 오류율: 고통스러운 엔드 포인트를 숨 깁니다.
버전별로 귀속되지 않음: 클라이언트 회귀를 잡는 것은 불가능합니다.
경고 스팜: 히스테리시스 및 계절성 교정이없는 임계 값.
맹인 최적화: 등급이나 흔적 없음.
UX 및 백엔드 대기 시간 혼합: 고객 경험의 잘못된 결론.
11) 점검표
통합 미터법 표준
- 공식, 단위, 소유자가있는 메트릭 사전
- 필수 백분위 수 p50/p90/p95/p99
- 추적 상관 및 로그 상관 관계
- 태그: 지역, 버전, 공급자, 장치, 네트워크 채널
- 히스테리시스와 중복 제거
출시 전에
- 무대 및 prod의베이스 라인 p95/p99
- 카나리아 트래픽 + A/B 메트릭 비교
- 빠른 롤백 플래그 기능
- 관찰 런북
정기적으로
- 가장 느린 Top N 쿼리/SQL 검토
- 감사 캐시 정책 및 TTL
- 신선도 및 데이터베이스 복제 확인
- 외부 공급자 열화 테스트 (PSP, KYC)
12) 미니 플레이 북 (예)
분해 p95/api/payment
1. 오류% 및 PSP 외부 타임 아웃을 확인하십시오.
2. 소비자 지연 대기열 수집품을 확인하십시오
3. p99 예제를 보시겠습니까?
4. 디렉토리/제한 캐시를 사용하고 N + 1을 줄입니다.
5. 예산: 일시적으로 근로자 자원을 20% 증가시키고 오토 스케일을 포함합니다.
6. 수정 후: 색인 (psp _ id, 상태, 생성 된 _ at), retray-jitter.
DB의 RepLag 성장
1. "무거운" 요청과 긴 거래를 확인하십시오.
2. 복제 동시성을 높이고 체크 포인트를 조정하십시
3. 오프로드 읽기 전용 캐시/복제본.
4. 피크 창에서 - 부분 denorm + 배치.
13) 공식/SQL의 예 (단순화)
엔드 포인트 별 오류 속도
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
대기 시간 p95 (TDigest/Apx)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
소비자 래그 (시간)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
웹 LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) 대시 보드 및보고에 포함
KPI 카드: p95 대기 시간, 오류%, RPS, WoW/DoD 트렌드의 채도.
상위 N "최악" 엔드 포인트/SQL/리소스, 클릭 가능한 드릴 다운 → 추적.
클라이언트 버전 상관 관계: 열 "버전 → p95 LCP/INP → 변환".
세계지도: 지리적 대기 시간 (CNC), 지역별 PSP 대기 시간.
SLO 패널: SLO의 시간 점유율, SLO와의 충돌, "오류 예산".
15) 총계
성능 지표는 단일 어휘, 백분위 수, 속성, 우수한 관찰 성 및 엄격한 SLO와 같은 시스템 분야입니다. 기술 (대기 시간, 지연, 캐시 적중) 과 제품 신호 (KYC 시간, p95 예금, LCP) 를 결합하여 경험의 품질과 전달 비용을 예측 가능하고 확장 가능하게 관리합니다.