원격 측정 스레드
1) 목적과 맥락
원격 측정 흐름은 플랫폼의 성능에 대한 관찰 데이터의 지속적인 유입을 제공합니다. iGaming에서 이는 예금/베팅 저하, 외부 제공 업체의 가시성 (PSP/KYC/게임 스튜디오) 및 입증 가능한 SLO/규정 준수를 조기에 탐지하는 데 중요합니다.
2) 원격 측정 소스 맵
메트릭 (TSDB): RED/USE, 비즈니스 SLI (승인 성공, 성공적인 베팅의%).
OTel: 전면 → API → 중개인 → 데이터베이스/PSP를 통한 요청 체인.
로그 (구조화): 이벤트, 감사 작업, 오류.
RUM: TTFB/LCP, JS 오류, 지리/장치.
합성: 다른 GEO의 외부 시험 거래 (로그인/예금/모래 비율).
저수준 원격 측정: eBPF/CPU 프로파일 링/IO/alloc, 네트워크 p95/p99.
외부 상태: 웹 후크/PSP/KYC/CNC/WAF 풀.
3) 표준 및 체계
링구아 프랑카로서의 OpenTelemetry: 속성 의미론의 통일 (서비스. 이름, 배포. 환경, 최종 사용자. id - 마스크, 추적/SpanID, PSP 코드).
스키마 규칙: 버전 지정, 로그/트레일에 대한 스키마 레지스트리, 이진 플래그 및 유예 기간을 통해서만 "변경".
상관 ID: 미터법 백분위 수의 모든 계층 + 예제를 통한 지불/베팅을위한 단일 '상관 _ id'.
4) 주입 컨베이어 (높은 수준)
1. 생산자: SDK/에이전트/수집가 (노드의 OTel 수집기).
2. 가장자리 버퍼링: 한계가있는 로컬 큐 (메모리/디스크).
3. 전송: demempotency 키가있는 gRPC/TH OTLP → 메시지 브로커 (Kafka/Pulsar).
4. 프로세서: 정규화, 농축 (GEO/테넌트/채널), PII 필터, 얇은 샘플링.
5. 팬 아웃: TSDB (메트릭), 트레이스 스토리지, 로그 시스템, 호수/DWH, 경고/규칙.
6. 소비자: 대시 보드, SLO 경고 (연소율), 조사, 상태 페이지, 자동 게이트 릴리스.
5) QoS 및 흐름 클래스
클래스 A (실시간, P1): SLI/SLO, 합성, 주요 제공 업체 (PSP/KYC). 배송 SLA: <5-10c, 이하 99. 9%.
클래스 B (운영실): RCA, SLA 트레일/로그: <1-2 분
클래스 C (분석): 호수/DWH, SLA: 시간/일의 집계 및 배치.
클래스 라우팅 → 우선 순위 지정, 다른 요청, 개별 대기열/주제.
6) 샘플링, 집계, 유지
지표: 역사적 시리즈 (1s → 10s → 1m) 의 다운 샘플링, 백분위 수 집계, 예제.
트레일: 테일 기반 샘플링 (이상, PSP 오류, p99- "버스트").
로그: 프로파일 수준, 압축, 소음 제거 (건강 핑, 판매시 DEBUG-금지).
보존: "핫" (7-14 일 세부 사항), "콜드" (단위/아카이브). 클래스 당 정책 및 비용.
7) 개인 정보 보호 및 준수
PII 위생: 식별자의 마스킹/토큰 화; 원격 측정에서 CCM 문서/카드 토큰 금지.
지역 현지화: 관할권에 의한 저장; 승인 된 워크 플로 (암호화, TTL, 감사) 를 통해서만 내보내십시오.
액세스 제어: 원격 측정 저장소에 대한 RBAC/ABAC, 업로드 용 SoD.
8) 유량 신뢰성
이데올로기: 이벤트 키, 프로세서의 디드 업.
역압: 임차인/서비스 당 주입 제한; 우선 순위가 낮은 과부하 필드에 대한 낙하 정책.
재생-재 처리를 위해 브로커에 72 시간 이상 저장하십시오.
데드 레터: 경고로 DLQ를 보호하기위한 라우팅 오류 (체계, 크기, PII 위반).
버전: 회로 변경 (v1 + v2) 및 소비자 마이그레이션시 "이중 흐름".
9) 다중 임차인 및 격리
각 이벤트에서 태그의 테넌트 _ id/브랜드/지역; 한계 할당량 및 예산.
위상에 의한 A/B 스트림의 분리; 주입 및 보관에 대한 찬성/청구.
수출 중 임차인 경계에 대한 마스킹/집계.
10) 스트림 디렉토리 (예 필드)
식별자: '원격 측정. 지불. 저자. 성공. 비율. 우 '
수업: A (실시간)
확인: '{타임 스탬프, 테넌트, 지역, psp, bank _ bin _ group, success _ rate, 창}'
출처: OTel Collector + PSP 라우터 메트릭
소비자: SLO 경고, Exec 대시 보드, 상태 페이지
유지: 30 일 동안 뜨겁고 12 개월 동안 집계
소유자: 결제 SRE, dpo 소유자 (개인 정보 보호)
흐름 SLO: 지연 <10 c p95, 손실 <0. 1 %/일
11) 경고 및 릴리스와의 통합
SLO는 예금/요금에 대해 연소율 (빠른/느린 창) 로 경고합니다.
릴리스 게이트: SLI 카나리아 분석; 분해 중 자동 정지/롤백.
상태 페이지: 사건 카드 + SLI 장치에서 피드를 업데이트하십시오.
12) 키 대시 보드 세트
Exec: 가동 시간, 연소율, 승인/요율의 성공 (GEO/PSP 별), 공급자 상태, $/RPS 원격 측정.
SRE/플랫폼: 서비스 별 RED/USE, 지연 대기열, 특이 치 감지, eBPF 프로파일.
지불/위험: 은행 전환/PSP, 소프트/하드 감소, KYC SLA, 조기 청구 신호.
비용: 소스 별 주입량, 카디널리티 상단 레이블, 스트림 별 비용.
13) 관찰 가능성 금융 (FinOps)
KPI 비용: $/GB 섭취, $/추적, $/SLI 대시 보드; "무거운" 메트릭 및 레이블에 대해보고하십시오.
최적화: 집계 및 다운 샘플링, 동적 샘플링, 수다스러운 로그 청소, 중요한 저장 클래스.
정치인: 카디널리티 할당량, 이슈 빈도 제한, 분기당 한 번 계획 검토.
14) 프로세스 및 역할
데이터/관찰 가능성 소유자 н응급 프로그램 (결제, 게임, 핵심 API, Infra).
회로 변경 제어: PR 검토, 테스트 벤치, 소비자의 호환성.
탁상/혼돈 일: 공급자의 단절, 중개인 과부하, 역압/등압 검사.
사후: 원격 측정 분석 (신호 충분, 잘못된 경보, 비용) 이 포함됩니다.
15) 구현 로드맵 (8-12 주)
네드. 1-2: 현재 흐름 감사, 소스 맵, 원격 측정 SLO 목표, 표준 선택 (OTel, TSDB, 트레일, 로그).
네드. 3-4: OTel 수집가, 단일 상관 ID, 예금/베팅을위한 기본 RED/USE + 비즈니스 SLI, 흐름 디렉토리 v0.
네드. 5-6: 테일 기반 샘플링, GEO 합성, DLQ/idempotency, 개인 정보 보호 필터.
네드. 7-8: FinOps 패널 (가장 많은/보존), 다운 샘플링, 카디널리티 할당량, SLO 경고 (연소율).
네드. 9-10: eBPF/낮은 수준의 신호, 상태 페이지 피드, 릴리스 게이트.
네드. 11-12: 혼돈 테스트, 비용 최적화, 공식적인 SLA 흐름, 분기 별 체계 검토 시작.
16) 아티팩트 패턴
원격 측정 스트림 스펙: id, 소유자, 제도, QoS 클래스, 소스, 소비자, 보존, SLO/경고, 개인 정보 보호 정책.
스키마 PR 템플릿: 변경/마이그레이션, 호환성, 테스트, 롤백 계획.
샘플링 정책: 이상이있는 경우 샘플링을 해제하는 규칙; 목표 예산.
비용 검토 팩: 최고 출처 ($/Value, TTL/Aggregation Offers).
인시던트 원격 측정 점검표: RCA에 필요한 차트/트레일/로그 목록.
17) 원격 측정 스트림의 KPI/KRI
배송: 수업 별 p95 지연,% 손실 된 메시지/일.
적용 범위: 추적이> 90% 인 중요한 경로의 비율, 메트릭으로 닫힌 SLI의 비율.
신호 품질: 불만 제기 전에 SLI에서 발생한 사고의%, 허위/누락 된 경고.
비용: 원격 측정을위한 $/RPS, $/추적, 주입시 "잡음" 공유.
신뢰성: 브로커 저하 후 복구 시간, 재생 량.
18) 안티 패턴
TSDB의 고 카디널리티 메트릭 (useID, sessionID).
구조화 및 구성표가없는 단일 "블랙 박스" 로그.
DLQ/idempotency → 복제 및 피크 손실이 없습니다.
FinOps → 지수 청구서 성장이없는 "끝없는" 보류.
비즈니스 컨텍스트가없는 트레일 (PSP/bank/GEO) → 열악한 진단.
명령 → 소비자 간의 일관성없는 체계가 깨집니다
합계
원격 측정 스트림은 제어 된 다층 시스템입니다. OTel 표준 및 체계 → QoS 및 역압 → 샘플링/집계 및 비용 → 개인 정보 보호 및 다중 테넌트 격리 → SLO 경고, 대시 보드 및 릴리스 게이트에 대한 안정적인 주입. 이러한 회로는 피크 모드에서 초기 신호, 빠른 RCA, 예측 가능한 비용 및 iGaming 플랫폼의 안정성을 제공합니다.