데이터 마크업 및 모델 품질

1) 목적과 원칙

목표는 백혈병없이 재현 가능한 라벨과 측정 가능한 모델 품질을 얻고 규정 준수를 고려하는 것입니다.

원칙:

스키마 우선: 공식화 된 온톨로지, 수업 사전 및 기준.
시점: 라벨은 결정 시점에 사용 가능한 정보로 작성됩니다.
코드 품질: 저장소의 명령, 테스트, 체크리스트 및 선택.
개인 정보 보호 설계: PII 최소화, DSAR/RTBF 거주.
비용 인식: 마크 업 비용과 예상 비용을 고려하십시오.

2) 온톨로지 및 라벨 체계

마크 업 객체, 클래스, 예외 및 진실의 출처를 정의하십시오

예 (AML/사기 방지):

개체: 거래/세션.
가수: '합법적', '사기 _ 의심', '사기 _ 확인', '알 수 없음'.
예외: 증거가없는 요금 환급 → '알 수 없음'.
출처: 사례 관리, 청구서 등록, 공급자/은행.

YAML 다이어그램:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) 지침

구조:

1. 작업 및 비즈니스 컨텍스트에 대한 설명.

2. 양수/음수 예제 및 경계선 사례가있는 클래스 정의.

3. 소스 우선 순위 규칙 (참> 휴리스틱> 의견).

4. '알 수없는' 및 에스컬레이션 기준.

5. 개인 정보 보호 정책 (ID 대신 마스킹, 토큰).

6. FAQ 및 마크 업 점검표.

지침 조각 (사기):

'사기 _ 확인': FRAUD 태그가있는 입증 된 차지 백/폐쇄 케이스.
'사기 _ 일시 중단': 10 분 이상 IP 번들/링 카드로 3
'합법적': 60 일 동안 깃발이없고 확인 된 사례가 없습니다.
'알 수 없음': 충돌하는 특성 또는 불충분 한 데이터.

4) 라벨 소스 및 현재 규칙

자동 레이블: 규칙/사례, 요금 지불, 자체 배제 (RG), 결과 베팅.
근거: 조사/규제 결과의 결과.
Point-in-time-결정 지점 (t0) 이후에는 이벤트를 사용하지 마십시오.
지연: 예를 들어, 청구 백은 45-90 일 후에 나타납니다 → 레이블 "성숙".

SQL "미래 없음" 템플릿:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) 샘플: 층화 및 균형

희귀 이벤트: 시장/공급자/날짜별로 계층화 된 샘플링을 사용하십시오. 희귀 클래스 또는 초점 손실을 과도하게 샘플링합니다.
검증 계층: 주/시장/테넌트별로 보류하십시오.
제재/PII: 교육 세트에서 직접 ID 필드.

샘플링 바이어스 제어:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) 트레이서 일관성 (IRR)

측정 주석 간 계약: Cohen's 소 (2 개의 주석가 )/Krippendorff의 α (N 주석가, 다른 스케일 유형).

랜드 마크:

κ < 0. 4 - 열악한 일관성 → 명령/예제를 수정합니다.

0. 4–0. 6-복잡한 작업에 적합합니다.> 0. 6- 좋은;> 0. 8은 훌륭합니다.

마킹 품질 카드:

적용 범위 (표시된 수), 클래스 및 슬라이스별로, '알 수없는' 공유, 평균 시간, 최고 오류.

7) QA 회로 및 금 표준

골든 세트: 1-5% 표시-이중 점검 벤치 마크.
허니 팟 작업: 작업 스트림에 숨겨진 알려진 사례.

두 번째 모습: 논란의 여지가있는 예에서 에스컬레이션/차익 거래

회귀 마킹 테스트: 가이드 업데이트 후 재생

8) 적극적이고 약하며 반 감독 학습

능동적 학습: "불확실한" 예제 선택 (최대 엔트로피/다양성).
약한 감독: 휴리스틱/원거리 감독 + 라벨 용 노이즈 모델.
반 감독: 온도 임계 값과 후속 검증이있는 의사 레이블.

파이프 라인:

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) 백혈병 및 시간 통제

기능 및 레이블에 적시에 참여하십시오.
미래의 레이블/기능 금지 ('asof' 이후).
변환 동등성 테스트를 통해 온라인/오프라인 파이프 라인을 분리하십시오.
데이터 및 논리 버전 ('logic _ version', 'data _ version', 'asof _ day').

10) 모델 품질 지표

비즈니스 오류 비용에 대한 메트릭을 선택하십시오:

분류: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, 예상 비용 (FP/FN 가중치).
위험 점수: 드리프트를위한 KS/ROC-AUC, Brier, 교정 (ECE), PSI/CSI.
권장 사항: NDCG/MAP @ K, 적용 범위/다양성, 참신.
Anomalies: Precision @ k, 합성/금 세트의 AUCPR.

예상 비용 (의사 코드):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) 슬라이스 분석 및 공정성

슬라이스: 시장, 공급자, 장치/ASN, 계정 연령, 예금 크기, 시간.

공정성: 이질적인 충격 (비율), 동등한 확률 (ра

동작: 기능 재 조립, 슬라이스 교정, 임계 값 수정, 교육 중량.

12) 생산 품질 모니터링

데이터/예측 드리프트: 기능/속도에 대한 PSI/KL.
교정: ECE, 신뢰성 차트.

임계 값 안정성: 예상 비용 인 경우 경고하기> X% 또는 PR-AUC °

계획/계약: 위반 변경 사항 포착 (스키마 레지스트리).
피드백 루프: 빠른 수동 사고 라벨 (케이스 마감, RG 결과).

13) 개인 정보 보호, 보안, 준수

PII 최소화: 가명, 별도의 보호 매핑.
거주지: 별도의 파이프 라인/키 (EEA/UK/BR); 이유없이 지역 간 가입 금지.
DSAR/RTBF: 계산 가능한 투영 및 선택적 편집.
법적 보유: 사례 및보고 패키지를위한 WORM 아카이브.
로그: 변경할 수없는 액세스/내보내기 감사.

14) 마킹 프로세스 조직

도구: 작업 추적기, 예, 컨텍스트 미리보기, PII 마스킹, 핫키.
속도 및 품질 관리: 주석의 KPI (속도, 황금의 정확도), 교육 및 인증.
버전 지침: '지침 _ 버전', '주석기 _ id', '리뷰어 _ id', 타임 스탬프.
문서: 카드 설정 (소유자, 소스, 창, 규칙, 지표).

15) 샘플 템플릿

데이터 카드 (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

QA 표시 규칙:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

혼합 행렬 (SQL 아이디어):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) 구현 로드맵

MVP (2-4 주):

1. 온톨로지 및 v1 명령, 금 세트 (도메인 당 1000 개 이상의 예).

2. PII 마스킹을 사용하는 항목 흐름, 매주 지표.

3. 기본 모델 + 오프라인 추정치 (PR-AUC, 예상 비용), 시점 샘플링.

4. 기능/속도의 드리프트 모니터링; 데이터 세트 및 안내서 버전 등록.

2 단계 (4-8 주):

액티브/약한 감독 파이프 라인, 자동 심사 '알 수 없음'.
슬라이스 분석 및 공정성 보고서, 확률 보정.
표시된 세트에 대한 DSAR/RTBF 절차, 사례에 대한 법적 보류.

3 단계 (8-12 주):

전체 QA 자동화 (골든/허니 팟), 마크 업 회귀 테스트.
데이터 세트 및 "모델 품질" 카드 카탈로그; 예상 비용 임계 값.
마크 업/추론 비용에 의한 충전, 레이블 업데이트에 의한 SLA.

17) RACI

R (책임): 데이터 과학 (온톨로지, 지표), Label Ops (프로세스/QA), Data Eng (샘플/PII/스토리지).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (PII/거주/DSAR), 위험/AML/RG (정책), 보안 (KMS/감사).
I (정보): 제품/마케팅/운영/지원.

18) 사전 판매 점검표

온톨로지 및 가이드 승인, 버전 고정.
질적 샘플: 계층화, 시간/시장 별 보류.
따르는 대상 목표 임계 값 황금 정확도.
적시 기능 및 레이블 모음; 백혈병 부재 검사.
예상 비용, 슬라이스 분석 및 공정성에 의해 선택된 측정 항목.
드리프트/보정 모니터링; 경고가 설정되었습니다.
PII/DSAR/RTBF 및 법률 보유 정책 시행; 감사가 활성화되었습니다.

19) 반 패턴 및 위험

명확한 기준이없는 마크 업 → 시끄러운 레이블.
미래의 레이크 (사실 후 표시/레이블).
불균형 샘플, 비용을 제외한 ROC-AUC 메트릭.
골든/QA 부족 및 회귀 마크 업 테스트.
가면을 벗기고 거주하지 않는 데이터 세트의 PII.
영역/공급자에 대한 슬라이스 분석 → 숨겨진 열화가 없습니다.

20) 결론

모델 품질은 라벨 품질로 시작합니다. 오류 비용을 고려한 엄격한 온톨로지, 예제가있는 지침, 현장 분야, QA 윤곽 및 지표는 iGaming에서 재현 가능한 ML의 기초입니다. 이러한 관행을 데이터 파이프 라인 및 MLop에 포함함으로써 놀라움없이 비즈니스 결과를 개선하는 지속 가능하고 윤리적이며 호환되는 모델을 얻을 수 있습니다.

데이터 마크업 및 모델 품질

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다