스트림 대 배치 분석
1) 간단한 요지
스트림-사기 방지/AML, RG 트리거, SLA 경고, 운영 패널 등 몇 초 만에 이벤트를 지속적으로 처리합니다.
배치-완전한 재현성을 갖춘 주기적 재계산: 규제보고 (GGR/NGR), 재무 문서, ML 데이터 세트.
랜드 마크: p95 e2e 0을 스트리밍하십시오. 5-5 초, 배치 D + 1 ~ 06:00 (잠금) .
2) 선택 행렬 (TL; DR)
80/20 규칙: 반응이 필요하지 않은 모든 것 <5 분-배치; 나머지는 배치 야간 검증과 함께 스트림에 있습니다.
3) 건축
3. 람다 1 개
온라인 + 배치를 위해 스트리밍하십시오. 플러스: 유연성. 마이너스: 두 가지 논리.
3. 2 카파
모든 것은 개울과 같습니다. 로그를 통한 배치 = "재생". 플러스: 단일 코드. 마이너스: 재생/비용의 복잡성.
3. 3 레이크 하우스 하이브리드 (권장)
스트리밍 → 온라인 OLAP 마트 (분) 및 브론즈/실버; 배치는 금 (D + 1) 을 재 조립하고 보고서를 게시합니다.
4) 데이터 및 시간
스트림
창: 텀블링/호핑/세션.
워터 마크: 2-5 분; 늦은 데이터가 표시되고 어두워집니다.
Stateful: CEP, dedup, TTL.
배치
증가/CDC: '업데이트 된 _ at', 로그 복제.
SCD I/II/III: 속성 기록.
스냅 샷: "as-of" 에 대한 주간/월 레이어.
5) iGaming의 응용 프로그램 패턴
AML/사기 방지: 스트림 (속도/구조화) + 배치 조정 및 사례.
책임있는 게임: 한계/자체 제외에 대한 제어를 스트리밍합니다. 배치보고 레지스터.
운영/SRE: 스트림 경고 SLA; 사건 및 추세의 배치 후 분석.
제품/마케팅: 개인화/미션 스트리밍; 배치 코호트/LTV.
금융/보고서: 배치 (Gold D + 1, WORM 패키지), 스트림-운영 패널.
6) DQ, 재현성, 재생
스트림 DQ: 체계 검증, '(이벤트 _ id, 소스)', 창의 완전성, 후기 비율, dup-rate; 중요한 DLQ →.
배치 DQ: 독창성/FK/범위/시간적, OLTP/제공자와의 조정; 중요 → 실패 작업 + 보고서.
- 스트림: 범위 + 결정 론적 변환에 의한 복제 주제.
- 배치: 시간 여행/논리 버전 ('logic _ version') + 골드 스냅 샷.
7) 개인 정보 보호 및 거주
스트림: 가명, 온라인 마스킹, 지역 파이프 라인 (EEA/UK/BR), 외부 PII 전망에 대한 타임 아웃.
배치: PII 매핑 격리, RLS/CLS, DSAR/RTBF, Legal Hold, WORM 아카이브.
8) 비용 공학
스트림: "핫" 키 (소금), 제한 async 조회, TTL 상태, 사전 집계를 피하십시오.
배치: 분할/클러스터링, 작은 파일 압축, 안정적인 집계의 구체화, 할당량/발사 창.
9) 예
9. 1 스트림-Flink SQL (10 분 예금 속도)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
9. 2 스트림-CEP (AML 의사 코드)
python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())
9. 3 배치-MERGE (은 증분)
sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
9. 4 배치-골드 GGR (D + 1)
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
10) 측정 및 SLO
스트림 (랜드 마크)
p95 섭취 → 경고 5%
스키마 오류 1%
늦은 비율 소 1%
가용성은 99 이상입니 9%
배치 (랜드 마크)
금. 매일 06:00 자물쇠까지 준비됩니다.
99 이상의 완성. 5%
99 이상의 유효성. 9%
MTTR DQ 사건
11) 테스트 및 릴리스
계약/체계: 소비자 중심 테스트; 백 컴파트 CI.
스트림: 카나리아 규칙, 다크 런칭, 재생 시뮬레이터.
배치: 샘플에서 드라이 런, 메트릭 비교, 조정.
12) 반 패턴
중복 논리: 공식 정렬없이 다른 스트림 및 배치 계산.
캐시/타임 아웃이없는 스트림 핫 경로의 동기식 외부 AP.
증분 대신 "경우에 따라" 완전 재 장전.
워터 마크/늦은 정책이 없습니다.
분석 계층의 PII; CLS/RLS 없음.
금은 소급하여 "돌연변이" 하는 것을 보여줍니다.
13) 권장 하이브리드 (플레이 북)
1. 스트림 루프: 섭취 → 버스 → Flink/Beam (워터 마크, dedup, CEP) →
1-5 분 패널 + 청동/은색 (추가) 에 대한 OLAP (ClickHouse/Pinot).
2. 배치 루프: 증가/CDC → 실버 정규화/SCD → 골드 데일리 디스플레이/보고서 (WORM).
3. 일치: 단일 의미 론적 측정 계층; 야간 스트림 배치 조정; 불일치> 임계 값 → 티켓.
14) RACI
R (책임): 스트리밍 플랫폼 (스트림 정보), 데이터 엔지니어링 (배치 모델), 도메인 분석 (메트릭/규칙), MLops (기능/기능 저장소).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 규정 준수/법률/DPO, 금융 (FX/GGR), 위험 (RG/AML), SRE (SLO/стои
I (정보): BI/제품/마케팅/운영.
15) 로드맵
MVP (2-4 주):1. Kafka/Redpanda + 2 중요한 주제 ('결제', '지정').
2. 플링크 작업: 워터 마크 + 디드 업 + 1 CEP 규칙 (AML 또는 RG).
3. OLAP 쇼케이스 1-5 분 + 대시 보드 지연/늦게/dup.
4. 레이크 하우스 실버 (ACID), 최초의 금. ggr _ daily (D + 1 ~ 06:00).
2 단계 (4-8 주):- 도메인 별 증가/CDC, SCD II, 시맨틱 메트릭 레이어.
- DQ 및 야간 스트림 배치 조정을 스트리밍합니다.
- 지역화 (EEA/UK/BR), DSAR/RTBF, 법률 보유.
- 규칙/메트릭의 재생 시뮬레이터, 카나리아/A-B 릴리스.
- 비용 대시 보드 및 할당량; 계층 형 스토리지; DR 가르침.
- 쇼케이스/메트릭 문서 및 계보의 자동 생성.
16) 구현 점검표
- 레지스트리의 계획/계약; 백 콤파트 테스트는 녹색입니다.
- 스트림: 워터 마크/허용 지연 시간, OLAP 패널
- 배치: WORM 수출을 통한 증분/CDC, SCD II, 골드 D + 1.
- 단일 의미 론적 측정 계층; 야간 스트림 배치 조정.
- 신선도/완전성/유효성 DQ 보드; 경고 지연/늦음/dup.
- RBAC/ABAC, 암호화, 거주지; DSAR/RTBF/법적 보류.
- 통제 대상 비용 (비용/GB, 비용/쿼리, 주 크기, 재생은 할당량 할당).
17) 결론
스트림과 배치는 경쟁 업체가 아니라 동일한 드라이브의 두 기어입니다. 스트림은 아침에 "여기와 지금" 배치-검증 가능한 진실 "이라는 반응을 보여줍니다. "하이브리드 레이크 하우스 접근 방식, 단일 측정 계층 및 DQ/계보 분야를 통해 SLA 및 비용에 최적의 빠르고 재현 가능하며 호환되는 분석 윤곽을 구축 할 수 있습니다.