GH GambleHub

관찰 및 상태 제어

1) 목표와 원칙

목표: SLO를 위반하거나 OPEX를 팽창시키지 않고 사고를 예방하고 신속하게 복구하기 위해 "무슨 일이 일어나고 있는지" 및 "왜" 를 실시간으로 이해하는 것.
원칙: SLO 우선, "골든 신호" (대기 시간, 트래픽, 오류, 포화), 단일 원격 측정 표준 (OpenTelemetry), 최소한의 충분한 세부 사항, 설명 불가능, 비용 인식 관찰 가능성.

2) 관찰 가능성 레이어

1. 측정 항목: SLI/SLO, 용량 및 동향 (RED/USE 모델) 에 대한 집계.
2. 추적: 요청, 지불 및 게임 거래의 인과 체인.
3. 로그/이벤트: 운영자/서비스 작업에 대한 자세한 컨텍스트 및 감사.
4. 합성 (블랙 박스): 외부 API/웹 경로 검사, PSP/KYC 건강 핑.
5. RUM (실제 사용자): 최전선 메트릭 (TTFB, LCP, JS 오류), 지리/장치 슬라이스.
6. 저수준 원격 측정: eBPF/CPU 프로파일 링/IO/alloc, 네트워크 백분위 수 지연.

3) SLI 세트 및 황금 신호

대기 시간: 중요한 경로 (로그인, 예금, 요율, 인출) 별로 p50/p95/p99.
오류: 5xx/타임 아웃/거부 비율 (공급자/은행에서 정규화).

트래픽/처리량: RPS/TPS, 활성 세션, 이벤트/초

포화: CPU/RAM/IO로드, 대기열 깊이, 풀 사용량, 복제 지연.
비즈니스 SLI: 창당 성공적인 예금/% 요금, KYC/PSP 변환 편차, 요금 환급 점유율.

4) 원격 측정 아키텍처

표준화 된 주입: OpenTelemetry SDK/collector → 정규화, 샘플링, 개인 정보 보호 필터 → 스토리지 (TSDB, 흔적, 로그).
상관 관계: 로그 및 메트릭의 미량 ID/스팬 아이드 (예제); 결제/게임 이벤트에 대한 단일 상관 관계 ID.
토폴로지: 서비스 그래프, 라이브 SLI를 갖춘 종속 외부 제공 업체.
비용 관리: 보존 수준, 집계, 동적 샘플링, "핫 "/" 콜드" 스토리지 클래스.

5) 측정: 디자인 및 카디널리티

규칙: 적은 수의 레이블, 시계열에서 높은 카디널리티 금지 (useID, sessionID); 이러한 세부 사항-경로/로그에서만 가능합니다.
RED/USE: 요청 오류-기간 인프라에 대한 활용-포화 오류.
임플러스: 특정 미량 예제에 높은 백분위 수를 바인딩합니다.
비즈니스 지표: $/RPS, PSP 은행/GEO 변환, 공급자 복원력.

6) 추적: 깊이와 샘플링

상황: 우리는 전면 → API → 중개인 → 프로세서 → 데이터베이스/PSP를 통해 추적 컨텍스트를 던집니다.
샘플링: 기본 1-10%, 이상-규칙에 따라 동적 증가 (꼬리 기반).
초점: 결제 흐름 (init → 께 → 캡처/결제), 게임 트랜잭션 (bet → 결제), KYC (init → 확인).
주석: 응답 PSP 코드, 은행 -BIN/발행자 범주, 지역, 위험률.

7) 통나무 및 감사

구조화 된 로그: JSON, 프로필 별 레벨 (prod의 INFO, 디버그의 DEBUG).
개인 정보 보호 필터: PII 마스킹, 원시 KYC 문서 로그 금지.

감사 이벤트: 고위험 거래 (보너스, 제한, PSP 라우팅) 에 대한 티켓 ID, 사전/게시물 값

불일치: 정책에 의한 세계/불변, 서명, 유지.

8) 조건 제어 (건강)

라이브니스/준비/시작: 올바른 샘플 (리비티의 외부 종속성을 확인하지 마십시오).
분해 모드: 경고 및 상태 페이지가 일관되도록 명시 적 서비스 저하 플래그.
예산 상태: 연소율 오류 예산 (빠른/느린 창), 리소스 및 대기열에 의한 헤드 룸.

9) 경고 및 조기 경고

SLO 경고: "원시" p95 대신 오류 예산 (4 시간 및 1 시간 창) 에 따라.
Anomalies: 5xx 버스트를위한 STL/IQR/온라인 검출기, PSP 승인은 특정 GEO/은행에서 떨어집니다.
근본 원인 힌트: 경고를 최신 릴리스/phicheflags/계획 작업과 연결합니다.
런북: 각 경고에는 플레이 북, 그래프, "빠른 점검" 에 대한 링크가 있습니다.

10) 대시 보드 (보는 사람)

Exec: 가동 시간/SLO, 연소율, 성공적인 예금/요금, 공급자 상태, 용량 예측 및 $/RPS.
SRE/플랫폼: 서비스 별 RED/USE, 대기열/지연, 풀 사용량, 복제 지연, CNC/WAF, eBPF 프로파일.
지불/위험: PSP/은행/GEO 승인, 소프트/하드 감소, KYC 시간, 청구 초기 신호.
지원/CS: 사고 상태 패널, 응답 SLA, FAQ 매크로.

11) FinOps 관찰 가능

보존: "원시" 트랙의 경우 7-14 일, 단위 이상; 선택적으로-뜨거운 서비스.
샘플링/응집: 이상에 의한 동적 샘플링, 오래된 시리즈의 다운 샘플링.
음성 정책: 노이즈 (건강 핑, 중복 로그), 카디널리티 지표에 대한 할당량 차단.
KPI 비용: $/GB 섭취, $/추적, $/SLI 대시 보드; 최고의 먹는 사람에 대한 정기적 인 리뷰.

12) 개인 정보 보호 및 준수

PII/금융: 원격 측정에서 마스킹, 토큰 화, 데이터 최소화.

지역 현지화: 관할권에 의한 저장 및 처리; 로그 내보내기 - 암호화 및 TTL을 사용하여 승인 된 워크 플로우를 통해서

원격 측정에 대한 감사 액세스: RBAC/ABAC, 업로드 용 SoD, 요청 로그.

13) 사건 관리 및 릴리스와의 통합

상태 페이지: 사건 카드에서 자동 업데이트 피드.
릴리스 게이트: SLI 카나리아 분석, 연소율> 임계 값에서의 자동 정지 릴리스.
사후: 트레일/로그, 실제 SLI 및 위반 창에서 타임 라인.

14) 구현 연습 (8-12 주)

네드. 1-2: 중요한 경로 및 SLI 목록; 스택 선택 (OTel, TSDB, 로그, 추적); 종속성 맵.
네드. 3-4: 3-5 개의 주요 서비스 (로그인/예금/비율), 기본 RED/USE, 로그의 추적 컨텍스트 구현.
네드. 5-6: SLO 및 연소율 경고; PSP/KYC에 따른 합성; 첫 번째 런북; 웹/모바일에 RUM.
네드. 7-8: 동적 샘플링, 예제, 서비스 맵; Exec/SRE/Payments 대시 보드.
네드. 9-10: eBPF/핫 병목 현상 프로파일 링; 개인 정보 보호 필터; 할당량/보류.
네드. 11-12: SLI에 의한 출시 게이트 및 자동 롤백; 상태 페이지 테이블 탑 교육과 통합.

15) 아티팩트 패턴

SLO 서비스 카드: SLI, 목표, 창, 오류 예산, 경고, 소유자.
경고 스펙: 메트릭/조건, 임계 값, 데드 업/침묵, 수신자, 런북.
대시 보드 스펙: 청중, 질문, 6-8 위젯, 데이터 소스, 재생률.
원격 측정 정책: 허용/금지, 보존, 마스킹, 수출 분야.
비용 검토 팩: 최고 시리즈/로그 스트림, 샘플링 오퍼/TTL, 예상 저축.

16) 관찰 기능 KPI

MTTA/MTTR (SLO 경고 구현 후 개선).
사용자 불만 제기 전에 합성/SLI에서 발견 된 사고의%.
수동 개입없이 SLI를 통해 게이트를 통과 한 릴리스의 비율.
진단을 유지하면서 원격 측정 당 $/RPS 감소.
중요 경로의 범위를 추적하십시오 (> 90%).
상관 상태 업데이트 "실제 SLI" 의 정확성.

17) 안티 패턴

"모든 것을 로그" → 비용과 소음의 폭발.
SLO/연소 율 → 호출기 피로 대신 "원시" 메트릭에 대한 경고.
메트릭스의 높은 카디널리티 (군) → TSDB 폭풍.
비즈니스 컨텍스트가없는 트레일 (PSP/bank/GEO) → 통찰력이 없습니다.
릴리스/사건 → 원격 측정과 관찰 가능성의 연관성이 없습니다.

합계

관찰 및 조건 제어는 일련의 도구가 아니라 관리 시스템입니다. 올바른 SLI/SLO → 표준화 된 원격 측정 및 상관 → SLO 경고 및 런북 → 릴리스 및 상태 통신과의 통합 → 비용 인식 작업 및 개인 정보. 이러한 루프는 극심한 트래픽 피크에서도 초기 신호, 빠른 RCA 및 비즈니스 복원력을 제공합니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.