원산지 및 데이터 경로
1) 데이터 리니지 란 무엇입니까
데이터 리니지는 출생지 (소스) 에서 변형 및 전송을 거쳐 상점, 보고서 및 모델에 이르기까지 데이터의 "생활 이야기" 입니다. 리니지가 질문에 답변합니다
보고서의 숫자는 어디에서 왔습니까?
스키마 변경으로 인해 어떤 테이블/필드가 영향을 받습니까?
왜 KPI가 오후 9시에 변경 되었습니까? 어제?
특정 모델과 ML 버전에 어떤 데이터가 들어 갔습니까?
iGaming의 경우 이는 규제, 재무보고 (GGR/NET), 사기 방지, KYC/AML, 책임있는 플레이 및 제품 변경 속도로 인해 중요합니다.
2) 계보 수준과 세분성
1. 비즈니스 계보-용어집에서 메트릭 및 비즈니스 용어를 쇼케이스/공식으로 연결합니다.
2. 기술 라인 (표) -테이블/작업/변환 패키지 간의 관계.
3. 필드/열 수준-소스 열이 규칙에 따라 대상 열을 형성합니다.
4. 런타임 계보 (운영) -실제 실행: 시간, 볼륨, 코드/스키마 버전, 해시 아티팩트.
5. 공급자/PSP/CRM에서 보고서/대시 보드/모델까지의 엔드 투 엔드-엔드 경로.
6. 도메인 간/메시-계약에 따른 도메인 데이터 제품 간의 연결.
3) 키 값
신뢰 및 감사: 보고서 및 모델의 설명 불가능, 사고에 대한 신속한 조사.
영향 분석: 체계/논리의 안전한 변화, 릴리스의 예측 가능성.
온 보딩 속도: 새로운 분석가와 엔지니어는 풍경을 더 빨리 이해합니다.
준수: PII 추적 성, 법적 보류, 규제 기관에보고.
비용 최적화: 데드 파이프 라인 및 중복 상점 식별.
4) 물체와 인공물
그래프 엔티티: 소스 (게임 제공 업체, PSP, CRM), 토픽/스트림, Raw/Staging, Bronze/Silver/Gold, DWH, ML 기능, BI 모델, 대시 보드.
관계: 변환 (SQL/ELT), bs (Airflow/DBT/...), 모델 (버전), 계약 (Avro/Proto/JSON Schema).
속성: 소유자, 도메인, 분류, 스키마 버전, 품질 관리, 신선도, SLO/SLI.
5) 혈통의 진실의 근원
정적: SQL/configs (dbt, ETL) → 구축 종속성.
동적/런타임-런타임에 메타 데이터를 수집합니다 (오케 스트레이터의 명세서, 쿼리 로그).
이벤트: 버스에서 메시지를 게시/읽을 때의 계보 이벤트 (Kafka/Pulsar), 계약 검증.
수동 (최소) -자동으로 검색되지 않은 복잡한 비즈니스 로직을 설명합니다.
6) 계보 및 데이터 계약
계약은 계획, 의미 및 SLA를 수정합니다.
호환성 검사 (semver) 및 demempotency가 필요합니다.
Linige는 계약/버전에 대한 링크와 수표 통과 사실 (CI/CD + 런타임) 을 유지합니다.
7) iGaming의 계보: 도메인 예
게임 이벤트 → RTP 집계, 변동성, 유지, 게임 성능 골드 쇼케이스.
지불/출력/요금 지불 → GGR/NET 보고서, 사기 방지 신호.
KYC/AML → 상태, 점검, 경고 → 규정 준수 사례 및보고.
책임있는 게임 → 제한/자기 배제 → 위험 점수 및 중재 트리거.
마케팅/CRM → 캠페인, 보너스, 베팅 → LTV/ARPPU에 미치는 영향.
8) 그래프 시각화
권장 사항:- 두 가지 모드는 필드마다 "가로 맵" (매크로) 및 "스루 트랙" (마이크로) 입니다.
- 필터: 도메인, 소유자, 분류 (PII), 환경 (prod/stage), 시간.
- 오버레이: 신선도, 볼륨, DQ 오류, 스키마 버전.
- 빠른 단계: "부양 가족 표시", "누가이 열을 소비합니까?", "KPI 대시 보드로가는 길".
9) 영향 분석 및 변경 관리
체계/논리를 변경하기 전에 bs/showcase/대시 보드/모델이 영향을받는 What-if를 실행하십시오.
종속 유물 소유자에게 티켓의 자동 생성.
상점의 이중 쓰기/청록색 패턴: v2는 병렬, 메트릭 비교, 전환으로 채워집니다.
백필 플레이 북: 과거 데이터를로드하는 방법과 방법, 일관성을 확인하는 방법.
10) 연계 및 데이터 품질 (DQ)
유효성, 독창성, 일관성, 적시성 등 그래프 노드/필드와 DQ 규칙을 준수하십시오.
위반시 트랙에 "빨간색 세그먼트" 를 표시하고 소유자에게 경고를 표시하십시오.
DQ 사건 이력과 KPI에 미치는 영향을 유지하십시오.
11) ML/AI 연계
추적 성-데이터 세트 → 기능 → 교육 코드 → 모델 (버전) → 추론.
커밋 수정, 교육 매개 변수, 프레임 워크 버전, 검증 데이터.
계보는 드리프트, 미터법 회귀 및 결과 재생을 조사하는 데 도움이됩니다.
12) 노인 및 개인 정보 보호/준수
라벨 PII/금융 분야, 국가, 법률 (GDPR/로컬), 처리 기준.
마스킹/앨리어싱/익명화가 적용되는 노드를 표시하십시오.
DSAR/권리를 잊어 버리려면 피사체의 창/백업이 어디에 있는지 추적하십시오.
13) 계보 용 메트릭 (SLO/SLI)
적용 범위: 컬럼 라인 제트가있는 테이블/필드의%.
신선도 SLI: SLA 업데이트에 맞는 노드의 비율.
DQ 합격률: 중요한 경로에 의한 성공적인 점검 비율.
데이터 사고에 대한 MTTD/MTTR.
리드 시간 변경: 스키마를 협상하고 안전하게 해제하는 평균 시간.
사망 자산: 청구되지 않은 상점/직업의 비율.
14) 도구 (범주)
카탈로그/용어집/계보: 단일 메타 데이터 그래프, SQL/오케 스트레이터/버스에서 가져옵니다.
오케스트레이션: 런타임 메타 데이터 수집, 작업 상태, SLA.
스키마 등록/계약-호환성 검사, 버전 정책.
DQ/관찰 가능성: 규칙, 이상, 신선도, 볼륨.
Sec/Access: PII 레이블, RBAC/ABAC, 감사.
ML 레지스트리: 모델, 아티팩트 및 데이터 세트 버전.
15) 템플릿 (사용할 준비)
15. Linja 단위 여권 1 개
이름/도메인/환경: 소유자/청지기:- 분류: 공개/내부/기밀/제한 (PII)
- 출처/입력: 테이블/주제 + 계약 버전
- 변환: SQL/job/repo + 커밋
- 출력/소비자: 디스플레이 케이스/대시 보드/모델
- 관찰 가능성 신호: 신선도, 볼륨, 이상
- 사건 기록: 티켓/사후 링크
15. 통신 카드 2 개 (열 수준)
필드에서: 스키마. 테이블. 콜 (유형, 무효화)
현장에서: 스키마. 테이블. 콜 (유형, 무효화)
변환 규칙: 표현/함수/사전
품질 상황: 점검, 범위, 참조
15. 3 사건 조사 플레이 북
1. 영향을받는 KPI/대시 보드 → 2) 소스로 업스트림 → 식별
2. 각 노드에서 신선도/볼륨/DQ 확인 → 4) 마지막 코드/체계 변경 → 찾기
3. 생산/단계/어제 → 6) 할당 고정 및 백필 → 7) 사후 및 미래에 대한 규칙.
16) 프로세스 및 통합
변경 중: 각각 스키마/SQL을 변경하는 리포지토리로 병합하면 계보 재구성 및 영향 분석이 트리거됩니다.
실행 중: 각 성공/실패 작업은 런타임 메타 데이터를 그래프에 씁니다.
액세스 후크: 액세스 요청은 PII 및 책임있는 소유자에게 경로를 보여줍니다.
거버넌스 의식: 중요한 경로에 대한 주간 검토, SLO에 대한 월간 보고서.
17) 구현 로드맵
0-30 일 (MVP)
1. 중요한 KPI/대시 보드 및 엔드 투 엔드 경로를 식별합니다.
2. 테이블 계보를 위해 SQL 구문 분석/작업을 연결하십시오.
3. 노드/통신 여권과 최소 신선도 지표를 입력하십시오.
4. 주요 경로 (KYC, 지불) 에 PII 태그를 설명하십시오.
60-90 일
1. 최고의 쇼케이스를 보려면 열 수준으로 이동하십시오
2. 통합 오케 스트레이터 런타임 메타 데이터 (시간, 볼륨, 상태).
3. 그래프와 DQ 규칙을 준수하면 경고가 포함됩니다.
4. 시각화: 도메인/소유자/PII 별 필터, 신선도 오버레이.
3-6 개월
1. 이벤트 버스 (게임/결제 피드) 에서 계획 계약 및 등록.
2. 전체 트랙 ML 계보 (dannyye → fichi → 모델 → 추론).
3. CI → 의존성 소유자에게 자동 티켓의 영향 분석.
4. 활성 상점의 열 수준 범위는 70% 이상입니다. SLO보고.
18) 패턴 및 반 패턴
패턴:- 그래프 우선: 변경 사항의 "나침반" 으로 단일 메타 데이터 그래프.
- 계약 인식 계보: 스키마 버전 및 검증 결과와의 연관.
- 관찰 오버레이: 그래프에 대한 신선도/볼륨/DQ.
- 제품 사고: 도메인 소유자는 인증 된 "데이터 제품" 을 게시합니다.
- 자동 수집 및 지원이없는 "그림을위한 그림".
- 파싱 및 런타임 진실 대신 핸드 헬드 마인드 맵.
- 중요한 KPI 경로에 대한 열 디테일 부족.
- 액세스/PII 및 DSAR/Legal Hold 프로세스와 바인딩되지 않은 리니지.
19) 실제 점검표
데이터 변경 사항을 공개
- 계약 업데이트, 호환성 통과
- 의존성 영향 분석 완료
- v2 쇼케이스는 병렬로 조립, 지표 비교
- 백필 및 롤백 계획 문서화
주간 검토
- 중요한 경로는 신선합니다
- 고아 직업/상점 없음
- DQ 사건이 종결되고 문서화되었습니
- 대상 임계 값의 열 수준> 범위
결과
리니지는 혼란스러운 데이터 스트림을 해당 지역의 관리 가능한 맵으로 바꿉니다. 어디에서 왔는지, 누가 책임이 있는지, 어떤 위험과 안전하게 변화하는 방법을 볼 수 있습니다. iGaming의 경우 이는 KPI에 대한 신뢰 기반, 실험 속도 및 성숙한 준수입니다.