GH GambleHub

스트림 대 배치 분석

1) 간단한 요지

스트림-사기 방지/AML, RG 트리거, SLA 경고, 운영 패널 등 몇 초 만에 이벤트를 지속적으로 처리합니다.
배치-완전한 재현성을 갖춘 주기적 재계산: 규제보고 (GGR/NGR), 재무 문서, ML 데이터 세트.

랜드 마크: p95 e2e 0을 스트리밍하십시오. 5-5 초, 배치 D + 1 ~ 06:00 (잠금) .

2) 선택 행렬 (TL; DR)

기준스트림배치
SLA 반응초/분시간/일
완전성높지만 늦은 수정이 가능합니다매우 높고 제어되는 D + 1
재현성 "현재"더 어려운 (재생)더 쉬운 (시간 여행/스냅 샷)
단위당 비용더 비싼 온라인 방식볼륨 당 저렴하다
일반적인 작업AML/RG 경고, SRE, 실시간 쇼케이스보고서, 조정, ML 오프라인
역사화 (SCD)제한적으로완전히
규제/세계골드 리뷰를 통해기본적으로 (금/D + 1)

80/20 규칙: 반응이 필요하지 않은 모든 것 <5 분-배치; 나머지는 배치 야간 검증과 함께 스트림에 있습니다.

3) 건축

3. 람다 1 개

온라인 + 배치를 위해 스트리밍하십시오. 플러스: 유연성. 마이너스: 두 가지 논리.

3. 2 카파

모든 것은 개울과 같습니다. 로그를 통한 배치 = "재생". 플러스: 단일 코드. 마이너스: 재생/비용의 복잡성.

3. 3 레이크 하우스 하이브리드 (권장)

스트리밍 → 온라인 OLAP 마트 (분) 및 브론즈/실버; 배치는 금 (D + 1) 을 재 조립하고 보고서를 게시합니다.

4) 데이터 및 시간

스트림

창: 텀블링/호핑/세션.
워터 마크: 2-5 분; 늦은 데이터가 표시되고 어두워집니다.
Stateful: CEP, dedup, TTL.

배치

증가/CDC: '업데이트 된 _ at', 로그 복제.
SCD I/II/III: 속성 기록.
스냅 샷: "as-of" 에 대한 주간/월 레이어.

5) iGaming의 응용 프로그램 패턴

AML/사기 방지: 스트림 (속도/구조화) + 배치 조정 및 사례.
책임있는 게임: 한계/자체 제외에 대한 제어를 스트리밍합니다. 배치보고 레지스터.
운영/SRE: 스트림 경고 SLA; 사건 및 추세의 배치 후 분석.
제품/마케팅: 개인화/미션 스트리밍; 배치 코호트/LTV.
금융/보고서: 배치 (Gold D + 1, WORM 패키지), 스트림-운영 패널.

6) DQ, 재현성, 재생

스트림 DQ: 체계 검증, '(이벤트 _ id, 소스)', 창의 완전성, 후기 비율, dup-rate; 중요한 DLQ →.
배치 DQ: 독창성/FK/범위/시간적, OLTP/제공자와의 조정; 중요 → 실패 작업 + 보고서.

재현성:
  • 스트림: 범위 + 결정 론적 변환에 의한 복제 주제.
  • 배치: 시간 여행/논리 버전 ('logic _ version') + 골드 스냅 샷.

7) 개인 정보 보호 및 거주

스트림: 가명, 온라인 마스킹, 지역 파이프 라인 (EEA/UK/BR), 외부 PII 전망에 대한 타임 아웃.
배치: PII 매핑 격리, RLS/CLS, DSAR/RTBF, Legal Hold, WORM 아카이브.

8) 비용 공학

스트림: "핫" 키 (소금), 제한 async 조회, TTL 상태, 사전 집계를 피하십시오.
배치: 분할/클러스터링, 작은 파일 압축, 안정적인 집계의 구체화, 할당량/발사 창.

9) 예

9. 1 스트림-Flink SQL (10 분 예금 속도)

sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

9. 2 스트림-CEP (AML 의사 코드)

python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())

9. 3 배치-MERGE (은 증분)

sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

9. 4 배치-골드 GGR (D + 1)

sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;

10) 측정 및 SLO

스트림 (랜드 마크)

p95 섭취 → 경고 5%

스키마 오류 1%

늦은 비율 소 1%

가용성은 99 이상입니 9%

배치 (랜드 마크)

금. 매일 06:00 자물쇠까지 준비됩니다.

99 이상의 완성. 5%

99 이상의 유효성. 9%

MTTR DQ 사건

11) 테스트 및 릴리스

계약/체계: 소비자 중심 테스트; 백 컴파트 CI.
스트림: 카나리아 규칙, 다크 런칭, 재생 시뮬레이터.
배치: 샘플에서 드라이 런, 메트릭 비교, 조정.

12) 반 패턴

중복 논리: 공식 정렬없이 다른 스트림 및 배치 계산.
캐시/타임 아웃이없는 스트림 핫 경로의 동기식 외부 AP.
증분 대신 "경우에 따라" 완전 재 장전.
워터 마크/늦은 정책이 없습니다.
분석 계층의 PII; CLS/RLS 없음.
금은 소급하여 "돌연변이" 하는 것을 보여줍니다.

13) 권장 하이브리드 (플레이 북)

1. 스트림 루프: 섭취 → 버스 → Flink/Beam (워터 마크, dedup, CEP) →

1-5 분 패널 + 청동/은색 (추가) 에 대한 OLAP (ClickHouse/Pinot).
2. 배치 루프: 증가/CDC → 실버 정규화/SCD → 골드 데일리 디스플레이/보고서 (WORM).
3. 일치: 단일 의미 론적 측정 계층; 야간 스트림 배치 조정; 불일치> 임계 값 → 티켓.

14) RACI

R (책임): 스트리밍 플랫폼 (스트림 정보), 데이터 엔지니어링 (배치 모델), 도메인 분석 (메트릭/규칙), MLops (기능/기능 저장소).
A (책임): 데이터/CDO 책임자.

C (컨설팅): 규정 준수/법률/DPO, 금융 (FX/GGR), 위험 (RG/AML), SRE (SLO/стои

I (정보): BI/제품/마케팅/운영.

15) 로드맵

MVP (2-4 주):

1. Kafka/Redpanda + 2 중요한 주제 ('결제', '지정').

2. 플링크 작업: 워터 마크 + 디드 업 + 1 CEP 규칙 (AML 또는 RG).

3. OLAP 쇼케이스 1-5 분 + 대시 보드 지연/늦게/dup.

4. 레이크 하우스 실버 (ACID), 최초의 금. ggr _ daily (D + 1 ~ 06:00).

2 단계 (4-8 주):
  • 도메인 별 증가/CDC, SCD II, 시맨틱 메트릭 레이어.
  • DQ 및 야간 스트림 배치 조정을 스트리밍합니다.
  • 지역화 (EEA/UK/BR), DSAR/RTBF, 법률 보유.
3 단계 (8-12 주):
  • 규칙/메트릭의 재생 시뮬레이터, 카나리아/A-B 릴리스.
  • 비용 대시 보드 및 할당량; 계층 형 스토리지; DR 가르침.
  • 쇼케이스/메트릭 문서 및 계보의 자동 생성.

16) 구현 점검표

  • 레지스트리의 계획/계약; 백 콤파트 테스트는 녹색입니다.
  • 스트림: 워터 마크/허용 지연 시간, OLAP 패널
  • 배치: WORM 수출을 통한 증분/CDC, SCD II, 골드 D + 1.
  • 단일 의미 론적 측정 계층; 야간 스트림 배치 조정.
  • 신선도/완전성/유효성 DQ 보드; 경고 지연/늦음/dup.
  • RBAC/ABAC, 암호화, 거주지; DSAR/RTBF/법적 보류.
  • 통제 대상 비용 (비용/GB, 비용/쿼리, 주 크기, 재생은 할당량 할당).

17) 결론

스트림과 배치는 경쟁 업체가 아니라 동일한 드라이브의 두 기어입니다. 스트림은 아침에 "여기와 지금" 배치-검증 가능한 진실 "이라는 반응을 보여줍니다. "하이브리드 레이크 하우스 접근 방식, 단일 측정 계층 및 DQ/계보 분야를 통해 SLA 및 비용에 최적의 빠르고 재현 가능하며 호환되는 분석 윤곽을 구축 할 수 있습니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.