모델 교육
1) 목적과 원칙
이 교육의 목표는 RG/AML/Legal을 준수하면서 비즈니스 메트릭 (Net Revenue, 이탈하지 않음) 을 개선하는 지속 가능하고 재현 가능하며 비용 효율적인 모델을 얻는 것입니다.
원칙:- 문제 → Metric → 데이터: 첫 번째 작업 및 운영 메트릭/오류 비용, 데이터 세트.
- 시점: 미래를 사용하는 기능/레이블이 없습니다.
- 재현성: 고정 종자/버전, 인공물 제어.
- 단순성 우선: 기본 모델/기능으로 시작합니다. 입증 된 이점으로 만 복잡합니다.
- 의도적으로 개인 정보 보호: PII 최소화, 거주, 감사.
2) 작업 및 메트릭의 공식화
분류: 이탈/예금/사기/RG → PR-AUC, F1 @ operas. 임계 값, KS, 예상 비용.
회귀/예측: LTV/GGR → WAPE/SMAPE, P50/P90 오류, PI 적용 범위.
순위/권장 사항: NDCG @ K, MAP @ K, 적용 범위/다양성.
온라인 지표: 순 수익 향상, CTR/CVR, 인터뷰 시간 (RG), 남용률.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) 데이터 세트 및 파티션
포인트 인 타임 조인 및 SCD 호환 측정.
클래스 불균형: 계층화 된 샘플링, 클래스 _ weight, 초점 손실, 오버 샘플링 희귀 이벤트.
시간/시장/임차인 파티션: 누출에 대한 갭 트레인 시험.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) 기능 준비
창문 및 단위: 10m/1h/1d/7d/30d, R/F/M, 속도/분수.
카테고리: 해싱/원 핫; 대상 인코딩 (시간 인식).
정규화/스케일링: 열차의 매개 변수, 아티팩트 저장.
Graph/NLP/geo: 배치를 작성하고 Feature Store (온라인/오프라인) 에 게시하십시오.
5) 기본 알고리즘
GBDT: XGBoost/LightGBM/CatBoost는 표 데이터를위한 강력한 데이터베이스입니다.
물리적 회귀/ElasticNet: 해석 가능/저렴합니다.
자문: LambdaMART, 인수 분해, seq2rec.
Anomalies: 격리 숲, AutoEncoder.
타임 시리즈: 예언자/ETS/GBDT-by 캘린더 기능.
6) 재교육의 보수 및 예방
GBDT: 'max _ deep', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: 드롭 아웃/웨이트 붕괴/조기 중지.
조기 정지: 인내심과 최소한의 개선으로 시간을 측정합니다.
7) 하이퍼 파라미터 선택
초안 검색을위한 그리드/랜덤; 미세 조정을위한 베이지안/하이퍼 밴드.
제한: 반복/시간/비용 예산, 발에 대한 "부적합" (여러 시간 분할에 대한 교차 점검).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) 확률 보정
Platt/Isotonic не홀드 아웃; 교정 기능을 아티팩트로 저장하십시오.
ECE/Relayability를 확인하십시오. 예상 비용으로 임계 값을 재협상하십시오.
9) 통역 및 설명
글로벌: 기능 중요도/wwwP, 순열 기여.
로컬: 단위 솔루션 용 wwwP (RG/AML 사례).
온라인으로 설명을 사용할 때의 위험과 수용 가능성을 문서화하
10) 재현성과 유물
모든 곳에서 종자: 데이터/모델/적합/분할.
아티팩트: 데이터 버전, 기능 파이프 라인, 가중치, 교정, 임계 값, 구성.
결정 론적 구축: 고정 컨테이너/종속성.
11) 실험 추적
기트 커밋, 데이터 세트/기능 버전, 모델 설정, 메트릭 (오프/온라인), 아티팩트 및 댓글이 등록됩니다.
실험, 태그 이름 지정 규칙 (도메인/시장/모델).
12) 오프라인 → 온라인 전송
통합 변환 코드 (기능 저장소); 온라인/오프라인 동등성 테스트.
서빙: REST/gRPC, 타임 아웃/배상/캐시; 카나리아/단계별 인출.
임계 값/정책: 구성 가능 (기능 플래그), 감사 및 롤백.
13) 모니터링 및 드리프트
데이터/속도: PSI/KL; 임계 값을 초과하면 경고합니다.
교정 및 지표: 스트리밍 레이블의 ECE, PR-AUC/KS.
비즈니스 지표: 순수익 향상, 사기 절약, RG 개입, SLA.
트리거 재교육: 드리프트/계절별/릴리스/만료 날짜.
14) 개인 정보 보호, 거주, 공정성
PII 최소화: 가명, CLS/RLS, 개별 매핑.
거주지: 개별 디렉토리/키 (EEA/UK/BR); 이유없이 지역 간 가입 금지.
공정성: 슬라이스 분석 (시장/장치/계정 연령), 이질적인 영향, 동등한 확률; 기능/임계 값/가중치 수정.
15) 비용 공학
교육 비용: CPU/GPU 시간, I/O, 실행 횟수.
추론 비용: 요청 당 대기 시간/비용; 온라인 기능 및 모델 크기에 대한 제한.
재료화: 무거운 기능-오프라인; 온라인-빠르고 캐시 된.
충전: 실험/재생 예산.
16) 예 (조각)
LightGBM (분류, 파이썬 스케치):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
포인트 인 타임 샘플링 (SQL 아이디어):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
예상 비용 추정치 및 임계 값 선택:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) 프로세스 및 RACI
R (책임): 데이터 과학 (모델/실험), Data Eng (데이터 세트/기능/기능 저장소), MLops (서빙/모니터링/CI-CD-CT).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (PII/RG/AML/DSAR), 보안 (KMS/비밀/감사), SRE (SLO/값), 재무 (ROI).
I (정보): 제품/마케팅/운영/지원.
18) 구현 로드맵
MVP (3-6 주):1. 작업 및 메트릭 (예상 비용), 시점 데이터 세트 디렉토리.
2. 기본 모델 (LogReg/GBDT) + 교정 + 모델 카드.
3. 추적 실험, 고정 종자/인공물, 재현 가능한 빌드.
4. 카나리아 온라인 서핑, 설정과 같은 임계 값, 경고 메트릭/드리프트.
2 단계 (6-12 주):- 베이지안/하이퍼 밴드 선택, 슬라이스 분석/공정성, 재교육 트리거.
- 경제학 기능/추론, 캐시/TTL, 차지 백.
- 메트릭/임계 값 공식의 문서, What-if 시뮬레이션.
- 다중 지역 파이프 라인, DR/연습, WORM 아카이브 릴리스.
- 품질/보정 보고서의 자동 생성, 이벤트 별 자동 교육.
- A/B/n은 순차적 테스트 및 자동 종료 실험을합니다.
19) 사전 판매 점검표
- 작업 및 미터법 비즈니스 정렬; 오류 비용을 계산했습니다.
- 데이터 셋 포인트 인 타임; 백혈병이없는 시간/시장 분할.
- 선택/정규화, 조기 정지, 확률 보정.
- 모델 카드: 데이터, 기능, 지표, 위험, 공정성, 소유자.
- 아티팩트 저장 (가중치, 피처 파이프 라인, 교정, 임계 값).
- 온라인/오프라인 동등성 테스트가 통과되었습니다 기능 플래그로 서핑.
- 드리프트/보정/비즈니스 지표 모니터링; 재교육/롤백 계획.
- PII/DSAR/RTBF 정책, 거주 및 액세스 감사가 수행됩니다.
- 교육/추론 비용은 예산에 포함됩니다. SLA 경고.
20) 반 패턴 및 위험
레이카지: 조정되지 않은 미래의 기능/레이블.
하나의 샤프트 샘플에서 "파란색으로" 튜닝: 임시 분할/교차 점검 없음.
교정 및 비용 임계 값이 없습니다.
온라인/오프라인 기능과 일치하지 않음: prod의 결과가 다릅니다.
공정성/슬라이스를 무시합니다: 시장/장치의 숨겨진 실패.
무제한 재생 및 고가의 기능: 이익없는 가치 상승.
21) 결론
모델 교육은 관리 가능한 프로세스입니다. 명확한 작업 및 미터법, 현장 규율, 정규화, 교정 및 재현성을 통한 지능형 튜닝, 온라인으로의 투명한 전송, 품질, 비용 및 위험에 대한 지속적인 모니터링. 이 플레이 북을 따르면 신속하고 윤리적이며 안정적으로 제품, 유지 및 규정 준수를 향상시킬 수있는 모델을 얻을 수 있습니다.