GH GambleHub

데이터 수명주기

1) 목적과 원칙

목표는 분석, 운영 및 규제 시나리오를 지원하여 처음부터 최종 처분까지 데이터를 예측 가능하고 준수하며 비용 효율적으로 이동할 수 있도록하는 것입니다.

기본 원칙:
  • 제품으로서의 데이터: 각 세트에는 소유자, 계약, SLO 문서가 있습니다.
  • 스키마 우선: 체계가 필요합니다. 버전을 통한 변경 사항.
  • 개인 정보 보호 설계: PII 최소화, 가명, 지역 저장.
  • 기본값으로 관찰: 메트릭, 액세스 로깅, 계보.
  • 비용 인식: 저장 수준, TTL, 샘플링, 압축.

2) 수명주기 단계

2. 1 만들기/수집

출처: 제품 (웹/모바일), 백엔드, 결제, KYC/AML 제공 업체, 게임/스튜디오, 마케팅, 운영 로그.
식별 자: '이벤트 _ id', '사용자. pseudo _ id ',' section _ id ',' trace _ id '.
계약: JSON/Avro 체계, AsyncAPI/OpenAPI.
입력 품질: 체계 검증, 필수 필드, 크기 제한, 중복 방지.
개인 정보 보호: 민감한 필드의 토큰 화, 지리 라우팅 섭취 (EEA/UK/BR).

2. 2 섭취 및 원시

운송: TP/gRPC → Edge → 버스 (Kafka/Redpanda).
원시 계층 (청동): 추가 전용 불변의 페이로드 (법의학 용), 시간/시장/테넌트 별 분할.
정치인: '(이벤트 _ id, 소스)', "파손 된" 이벤트에 대한 DLQ, 법적 보류 태그.

2. 3 처리 및 청소 (보증)

정규화 (실버): 타이핑, 중복 제거, 디렉토리, FX/에스컬레이션, 강화.
품질 (DQ): 완전성/고유성/범위/참조 무결성.
재 처리: dempotent 컨베이어, 시간 이동, 제어 된 백필.

2. 4 서비스/사용

골드 쇼케이스: BI/보고 (GGR, RG, AML), 제품 및 위험 모델, 실시간 쇼케이스.
액세스: SQL/Trino, 시맨틱 메트릭 레이어, API/GraphQL, Feature Store.
SLA 신선도: 예를 들어 골드 데일 쇼케이스는 현지 시간으로 06: 00까지 준비됩니다.

2. 5 공유 및 게시

내부 소비자: 분석, 제품, 위험, 준수, 마케팅, 금융.
외부 오프로드: 규제 기관, 파트너/제공자; 불변의 패키지 (용지/저장소/JSON + 해시).
모니터링 채널: 서명 된 아티팩트, 감사 다운로드/내보내기.

2. 6 보관/유지

보존 정책: 데이터 유형 및 관할권 (예: 규제 - 5-7 년).
스토리지 레이어: 뜨거운/따뜻한/차가운, 불변성을위한 WORM/객체 잠금.
아카이브 색인: 디렉토리, 버전/시장 레이블, 빠른 메타 데이터 검색.

2. 7 제거 및 완료 (폐기)

일반적인 제거: TTL/보존; 안전한 청소, 인덱스 업데이트.
법적 거래: DSAR/RTBF (잊을 권리), 법적 저장 의무에 대한 예외, 법적 보류 (동결 제거).
검증: 삭제 보고서, 감사 로그, 교차 복제 제어.

3) 분류 및 카탈로그

민감도 범주: 공개/내부/기밀/제한.
지불, 게임 플레이, 준수/AML, RG, 마케팅, 작품, 금융.
데이터 카탈로그: 설명, 소유자, 신선도 SLA, 체계, 계보, 액세스 수준.
지정: '관할 구역', '테넌트', 'pii _ class', 'retention _ class', 'legal _ hold'.

4) 레이크 하우스 모델 및 회로도

청동/은/금: 변화와 책임에 대한 명확한 규칙.
형식: ACID (Delta/Iceberg/Hudi) 가있는 Parquet + 테이블 형식.
체계의 진화: 시맨틱 버전, 종 방향 호환성, 변경 중단을위한 이중 입력 마이그레이션.
레지스트리: Schema Registry, 계약의 CI 검증, 소비자 중심 테스트.

5) 데이터 품질 (DQ)

품질 지표:
  • 완전성-실제로받은 이벤트/행의 비율입니다.
  • 유효성: 스키마 유효성을 통과 한 레코드의 비율.
  • 독창성: 중복 제어.
  • 일관성: 참고 서적 및 링크 준수.
  • 신선도: 도착/물질화 지연.
연습:
  • 코드 (YAML/SQL 테스트), 대시 보드, SLO 경고로 DQ 규칙.
  • 분해 중 자동 폴백 (마지막 정확한 컷).

6) 개인 정보 보호 및 준수

PII 최소화: 의사 ID를 저장하고 매핑을 격리 된 루프로 가져갑니다.
마스킹 및 RLS/CLS: 열/행 레벨에서; 역동적 인 정책.
지역화: 시장 별 데이터 레지던트; 별도의 디렉토리/암호화 키.
DSAR/RTBF: 통제 된 예측, 선택적 편집, 감사 문제.
법적 보류: 동결 표시, 변경되지 않은 아카이브, 액세스 로깅.

7) 액세스 및 보안

인증/인증: SSO, RBAC/ABAC, 관할 구역 및 역할의 속성.
암호화: TLS 운송 중; KMS/CMK를 통한 휴식; 키 회전.
액세스 로그: 누가/무엇/언제/어디에; 대량 수출/스캔에 대한 경고.
직무 분리: prod/analytics/admins/reviewers의 역할이 다릅니다.

8) 계보 및 관찰 가능성

기술 계보: 소스 → 변환 → 쇼케이스 → 보고서.
운영 계보: 릴리스와의 링크, 기능 플래그, 모델, AML/RG 규칙.
플랫폼 지표: 처리량, 지연, 고장률, 비용/쿼리, 비용/GB.
추적: 응용 프로그램에서 상점/경고로 'trace _ id' 를 전송합니다.

9) 시간 모델 및 역 프로세스

이벤트 타임 vs 처리 시간: 이벤트 타임, 워터 마크/허용 지연 시간.
백필 및 재 처리: dempotent 파이프 라인, 시간 이동, "이중 계산" 제어.
저장 상태: TTL, 스냅 샷, 재난 복구.

10) 경제 및 비용 관리

파티셔닝 (날짜/시장/테넌트), 클러스터링/Z 주문.
고주파 분석을위한 샘플링 (트랜잭션/규정 준수가 아님).
다층 스토리지 (뜨거운/따뜻한/차가운), 자동 TTL.
팀별 예산/요금 환급, 무거운 요청 및 백필 제한.

11) 프로세스 및 RACI

R (책임): 데이터 플랫폼 (가장 많이/저장/오케스트레이션), 데이터 엔지니어링 (변환), 도메인 소유자 (계약/DQ/SLO).
A (책임): 데이터/최고 데이터 책임자 책임자.
C (컨설팅): 준수/법률/DPO, 아키텍처, SRE, 보안.

I (정보): BI/

12) SLO/SLI (샘플 대상)

표시기목적
신선도 실버 p95할 수 없습니다
금 일일 상점06:00 자물쇠까지. 시간
완전한주의 T≥ 99. 5%
유효성 (체계)≥ 99. 9%
서핑 가용성≥ 99. 9%
DSAR 응답 시간소 30 일 (현지 법에 의해 더 엄격함)

13) 대시 보드

도메인/시장별 신선도 히트 맵.
스레드 별 완전성/유효성.
저장 및 쿼리 비용 (계층 및 명령에 따라).
중요한 보고서에 대한 계보 맵 (규제, GGR, RG/AML).
DSAR/RTBF 대기열, 법적 보류 상태.

14) 유지 정책 템플릿 (예)

데이터 클래스뜨거운따뜻한아카이브 (WORM)TTL 합계
결제 거래7 d60 d7 년7 년
게임 이벤트 (분석)3 d30 d1-2 년1-2 년
준수/AML 아티팩트14 d90 d5-7 년5-7 년
작동 로그3 d30 d1 년1 년

실제 날짜는 법률/DPO 및 현지 법률에 의해 결정됩니다.

15) 문서 및 표준

데이터 제품 페이지: 소유자, 대상, SLA, 스키마, DQ 규칙, 연락처.
로그 변경: 스키마/논리 버전, 영향 분석, 마이그레이션.
런북: 재 처리, 백필, 비상 시나리오, 프리즈 버튼.

16) 구현 로드맵

MVP (4-6 주):

1. 데이터 카탈로그 및 분류 (최상위 도메인), 기본 체계 및 등록.

2. 레이크 하우스 브론즈/실버, 검증 및 중복 제거 섭취.

3. 1-2 금 케이스 (예: GGR 및 변환).

4. 최소 DQ 규칙 및 신선도/완벽한 대시 보드.

5. 보존 정책 및 RBAC 액세스.

2 단계 (6-12 주):
  • 리니지, 시맨틱 메트릭 레이어, DSAR/RTBF 절차.
  • 지역화 (EEA/UK), 규제 유물에 대한 WORM, 법률 보유.
  • 비용 최적화, SLO 경고, 예산보고.
3 단계 (12 주 이상):
  • 데이터 메시 (도메인 제품), 소비자 중심 계약 및 테스트.
  • 체계/논리 변경시 자동 충격 시뮬레이션 재생
  • 단일 규정 준수 패널 (규제, 액세스, DQ, 계보).

17) 사전 판매 점검표

  • 계획 승인, 등록 계약, 호환성 테스트.
  • DQ 규칙이 활성화되고 경고가 구성되며 SLO가 설정됩니다.
  • RBAC/ABAC 역할을 확인하고 액세스 로그를 활성화했습니다.
  • 유지/삭제/아카이브 정책은 Legal/DPO에 의해 검증되었습니다.
  • DSAR/RTBF/Legal Hold 절차가 문서화되고 테스트됩니다.
  • 계보/메트릭/비용이 대시 보드에 표시됩니다.
  • 백필/재 처리/DR 용 런북이 준비되었습니다.

18) 빈번한 실수와 피하는 방법

필수 데이터 제품 카드를 입력하십시오.
체계가없는 원시 데이터: 스키마 우선 + CI 검증.
제거 가능성 없음: 처음부터 디자인 TTL 및 RTBF 프로세스.
PII 및 분석 믹스: 매핑을 별도로 저장하고 마스킹을 적용하십시오.
소유자가없는 금 및 SLO: 할당 된 소유자 및 신선도 목표.
관리되지 않는 비용: 배치, 압축, 계층 형 스토리지, 할당량.

19) 용어집 (브리핑)

DSAR/RTBF-데이터 주제 요청/삭제 권한.
법적 보류-법적 이유로 제거 동결.
계보-원산지 및 변형의 추적 성.
데이터 제품은 SLA와 함께 관리되는 데이터 단위입니다.
DQ - 데이터 품질 규칙 및 지표.
레이크 하우스-데이터 레이크와 ACID 테이블을 결합합니다.

20) 결론

데이터 수명주기는 파일 하우스뿐만 아니라 관리 배열 시스템입니다. 명확한 계약 및 체계, 분류 및 카탈로그, 측정 가능한 품질, 개인 정보 보호 및 보안, 비용 효율적인 스토리지 아키텍처 및 투명한 계보는 놀라움과 숨겨진 위험없이 제품, 규정 준수 및 분석을 지원하는 신뢰할 수있는 자산입니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.