GH GambleHub

건강 검진 메커니즘

1) 왜

건강 점검은 계단식 고장에 대한 첫 번째 장벽입니다. 회전에서 노드를 올바르게 제거하고 폭풍을 예방하며 분해를 단순화하고 회복을 가속화하며 SLO를 유지하고 MTTR을 줄입니다.


2) 기본 유형의 검사

살기-프로세스는 "살아 있습니다" (교착 상태/누출/공황 없음). 오류 → 인스턴스 재시작

준비-서비스는 대상 SLO로 트래픽을 서비스 할 수 있습니다 (풀이 올라가고 캐시가 예열되고 종속 리소스가 정상 임). 오류 → 밸런싱에서 제외되지만 다시 시작되지는 않습니다.
스타트 업-서비스는 활력/준비 (긴 부트 스트랩, 마이그레이션, 워밍업) 로 갈 준비가되었습니다. 조기 재시작으로부터 보호합니다.

심층 건강 (도메인 별): 비즈니스 불변량 (요금이 엔드 투 엔드를 통과하면 예금은 활성 PSP에 의해 승인됩니다). 저하 신호에는 사용되지만 즉시 재시작에는 사용되지 않습

외부/합성: 외부의 활성 핑 (API 경로, 전면 스크립트, PSP/KYC 엔드 포인트) -사용자 가용성을 측정합니다.


3) 샘플 디자인: 일반적인 규칙

1. 저렴한 활력: 외부 의존성으로 가지 마십시오. 이벤트 루프, 힙/FD, 워치 독을 확인하십시오.
2. SLO의 준비 상태: 유지 보수에 필요한 로컬 리소스 (데이터베이스 풀, 워밍 캐시, 한계) 를 확인합니다. 외부 종속성-비 차단 "서빙 할 수 있습니까?" 신호.
3. 대기 시간 예산: 각 샘플에는 고유 한 SLA (예: 자체 100-200 ms) 가 있습니다. 초과 된 경우 - "분해" 하지만 활력에 대해서는 5xx가 아닙니다.
4. Backoff & Jitter: 동기식 폭풍을 피하기 위해 오류가 기하 급수적으로 지연되는 샘플 간격 5-15 초, 타임 아웃 1-2 초.
5. Hysteresis: 상태 변경을위한 N 성공/오류 응답 (예: '성공 임계 값 = 2', '실패 임계 값 = 3').
6. 검증: 엔드 포인트 '/healthz ', '/readyz', '/startupz '는 안정적입니다. '/health/... 에서 딥 체크 '명명 된 수표로.
7. 비밀 및 PII 없음: 답변은 상태 및 짧은 코드 일뿐입니다.
8. 설명 가능성: 하위 확인 목록이있는 JSON: '{"상태": "저하", "확인": [{"이름": "db", "ok": 참, "latencyM": 18}, {"이름": "psp. eu "," ok ": 거짓," 이유 ":" 타임 아웃 "}]} '.


4) 계층별 딥 체크의 예

4. 1 DB/캐시/스토리지

DB: 짧은 거래 'SELECT 1' 복제 및 풀 수표 읽기; 대기 시간/복제 지연 임계 값.
캐시: 'GET '/' SET' 테스트 키 + 적중 비율 가드 (낮은 적중 → 경고).
오브젝트 스토리지: 기존 오브젝트의 HEAD (다운로드 없음).

4. 대기열 2 개/스트리밍

중개인: 핑-토픽 출판 + 로컬 파티션 내에서 소비; 소비자 지연 임계 값.
DLQ: 창당 데드 레터 메시지가 급증하지 않습니다.

4. 3 외부 제공 업체 (PSP/KYC/AML)

PSP: 경량 지정 프로브 (비 금전적), 계약/인증서/할당량 검증; 안전한 샘플이없는 경우 프록시 메트릭을 사용합니다 (은행/GEO가 5-10 분 안에 승인 한 성공).
KYC/AML: 건강 API 및 SLA 대기열; 열화의 경우-대체 스트림/공급자로 전환.

4. 4 API/프론트

합성: EU/LATAM/APAC의 트랜잭션 경로 (로그인 → 예금 개시 → "모래에" 베팅).
RUM 신호: JS/HTP 및 LCP/TTFB 오류의 비율-" 외부 "트리거.


5) 플랫폼 통합

5. 1 Kubernetes/클라우드

'startupProbe' 는 부트 스트랩 (마이그레이션/캐시 워밍업) 을 보호합니다.
'livenessProbe' 는 최소한입니다. 'readinessProbe' 는 풀/캐시/로컬 큐를 고려합니다.
게 이니 알 델라 이초 ',' 시간 초과 ',' 타임 아웃 초점 ',' 실패 임계 값 ',' 성공 임계 값 '.
PodDisruptionBudget 및 최대 준비 상태를 고려할 수 없습니다.
HPA/KEDA: 큐 스케일링/SLI; 준비 상태는 라우팅에 영향을 미칩니다.

5. 2 밸런서/게이트웨이/메쉬

L7 레벨에서의 건강 라우팅 (상태 200/429/503 의미론).
이상 감지 (특사/메쉬) - 오류율/대기 시간 백분위 수로 풀에서 출력.
회로 차단기: 의존성에 대한 동시 요청/연결 제한, 건강 신호와의 통합.

5. 3 자동 검사 및 분해

준비 상태 = FALSE → 트래픽이 제거되었지만 포드는 살아 있습니다 (예열 할 수 있음).
심층 저하 (PSP 다운) → 우아한 모드를위한 플래그가 있습니다 (예: 일시적으로 지불 방법을 숨기고 대기실을 활성화 함).


6) 시간 및 퇴각 정책

타임 아웃 <SLO 예산: 동기식 종속성에 대한 '타임 아웃 = 분 (λ99, 1-2)'.
이데올로기: 배신에 필수적; demempotency 키를 사용하십시오.
지수 백오프 + 지터: 동기 샤프트 효과를 방지합니다.
재 트레이 예산: 요청당 한도/임차인, "재 시도 폭풍" 에 대한 보호.


7) 상태 신호 및 경고

녹색/노란색/빨간색: 서비스 대시 보드의 요약 상태.
SLO에 의한 연소 속도 경고: 빠른 (1 시간) 및 느린 (6-24 시간).
상관 힌트: 릴리스/기능 플래그/계획 활동 노트.
자동 작업: "빨간색" 딥 체크-공급자의 폴백을 켜면 트랙 샘플링이 증가합니다.


8) iGaming을위한 스마트 전략

지불 인식 준비: 베팅 서비스의 준비 상태는 PSP 라우터의 상태와 은행/GEO의 제한을 고려합니다.
승률/라인 게시: 게시자의 준비 상태는 라인 소스 별 요약 지연 및/edge 캐시의 배포 시간에 따라 다릅니다.
토너먼트 스파이크: 보다 적극적인 특이 치 탐지 및 대기실의 임시 정책.


9) 안티 패턴

데이터베이스/PSP → 질량으로가는 활력은 외부 문제에 대해 다시 시작됩니다.
분리 시작/준비/활력이없는 "범용" 건강 종점입니다.
백오프/지터 → 폭풍이없는 어려운 타임 아웃.
히스테리시스 → 라우팅 플 래핑이 없습니다.
재시작을 유발하는 딥 체크 (목적은 진단 및 라우팅이며 다시 시작하지 않음) 입니다.
체력 끝점에 숨겨진 5xx (실제 상태 마스킹).


10) 인터페이스 템플릿

/ startupz → '200 OK {"uptimeSec": ..., "버전": "..."}'

검사: init 스크립트, 마이그레이션 완료, 키 및 구성 요소가로드되었습니다.

/ healthz (liveness) → '200 OK {"heapOk": 참, "fdOk": 참, "eventLoop": "ok"}'

검사: 이벤트주기, 프로세스 리소스, 패닉/룸 플래그 없음.

/ readyz (준비) →

'200 OK/503 {"canServe": 참, "db": {"ok": 참, "latencyMs": 12}: "cash": {"ok": 참}, "큐": {"ok": 참, "lag": 0}, "localquot": {"ok}'

/ 건강/지불 (깊은) →

'200/206/503 {"psp. eu ": {" ok ": 거짓," 이유 ":" 타임 아웃 "}", psp. alt ": {" ok ": 참}," 루터 모드 ":" failover "} '


11) 건강 회로 품질 지표 (KPI/KRI)

'NotReady' 에서 'Ready' (워밍업 SLO) 까지 포드 종료 시간.
서비스 당 플 래핑 준비 빈도.
% 가 실수로 포드 (루트 원인-외부 종속성) 를 다시 시작했습니다.
건강 메커니즘이 중요한 역할을하는 사건의 MTTR (전/후).
통화없이 자동 장애/기능 저하의 공유.
신디케이트 정확도 vs RUM (오 탐지/미스).


12) 구현 로드맵 (4-8 주)

네드. 1-2: 중요한 경로 인벤토리; 시작/활력/준비 후; 하위 점검 및 히스테리시스로 JSON 응답을 입력하십시오.
네드. 3-4: 딥 체크 추가: 데이터베이스/캐시/브로커; 2-3 GEO에서 로그인/예금/베팅을위한 합성; / mesh 게이트웨이에서 특이 치 탐지가 가능합니다.
네드. 5-6: 지불 인식 준비 (PSP- 폴백); 전면 대기실; 지연/대기열에 의한 오토 스케일; 연소율에 의한 경고.
네드. 7-8: 혼돈 일 (PSP/데이터베이스 복제본 비활성화), 백오프/지터 검사; 타임 아웃 파인닝, PDB; KPI 보고서 및 수정.


13) 유물

건강 스펙 (서비스 당): 수표, 시간 예산, 히스테리시스, 빨간색 상태의 동작 목록.
런북: "Readiness = FALSE: 우리는 무엇을하고 있습니까?", "PSP 대체: 단계 및 반환 기준".
라우팅 정책: 특이 치 감지 규칙, 회로 차단기, 백분위 수 임계 값.
합성 플레이 북: 스크립트 및 지역, SLO 합성, 일정.
릴리스 게이트: 빨간색 딥 체크 키 종속성이있는 릴리스 블록.


결과

잘 설계된 건강 검진 루프는 프로세스 생존력을위한 쉬운 활력, 트래픽 서비스 기능을위한 준비, 안전한 시작을위한 시작, 관리 된 열화 및 라우팅을위한 도메인 별 딥 체크 등 계층화 된 신호 시스템입니다. 오토 스케일 링, 특이 치 라우팅, 합성 및 SLO 경고와 함께 계단식 고장의 위험을 줄이고 MTTR을 줄이며 iGaming 플랫폼의 비즈니스 중요 경로를 안정화시킵니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.