모델 교육

1) 목적과 원칙

이 교육의 목표는 RG/AML/Legal을 준수하면서 비즈니스 메트릭 (Net Revenue, 이탈하지 않음) 을 개선하는 지속 가능하고 재현 가능하며 비용 효율적인 모델을 얻는 것입니다.

원칙:

문제 → Metric → 데이터: 첫 번째 작업 및 운영 메트릭/오류 비용, 데이터 세트.
시점: 미래를 사용하는 기능/레이블이 없습니다.
재현성: 고정 종자/버전, 인공물 제어.
단순성 우선: 기본 모델/기능으로 시작합니다. 입증 된 이점으로 만 복잡합니다.
의도적으로 개인 정보 보호: PII 최소화, 거주, 감사.

2) 작업 및 메트릭의 공식화

분류: 이탈/예금/사기/RG → PR-AUC, F1 @ operas. 임계 값, KS, 예상 비용.
회귀/예측: LTV/GGR → WAPE/SMAPE, P50/P90 오류, PI 적용 범위.
순위/권장 사항: NDCG @ K, MAP @ K, 적용 범위/다양성.
온라인 지표: 순 수익 향상, CTR/CVR, 인터뷰 시간 (RG), 남용률.

비용 임계 값 (의사 코드):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) 데이터 세트 및 파티션

포인트 인 타임 조인 및 SCD 호환 측정.
클래스 불균형: 계층화 된 샘플링, 클래스 _ weight, 초점 손실, 오버 샘플링 희귀 이벤트.
시간/시장/임차인 파티션: 누출에 대한 갭 트레인 시험.

임시 분할 (SQL 아이디어):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) 기능 준비

창문 및 단위: 10m/1h/1d/7d/30d, R/F/M, 속도/분수.
카테고리: 해싱/원 핫; 대상 인코딩 (시간 인식).
정규화/스케일링: 열차의 매개 변수, 아티팩트 저장.
Graph/NLP/geo: 배치를 작성하고 Feature Store (온라인/오프라인) 에 게시하십시오.

5) 기본 알고리즘

GBDT: XGBoost/LightGBM/CatBoost는 표 데이터를위한 강력한 데이터베이스입니다.
물리적 회귀/ElasticNet: 해석 가능/저렴합니다.
자문: LambdaMART, 인수 분해, seq2rec.
Anomalies: 격리 숲, AutoEncoder.
타임 시리즈: 예언자/ETS/GBDT-by 캘린더 기능.

6) 재교육의 보수 및 예방

GBDT: 'max _ deep', 'num _ leaves', 'min _ data _ in _ leaf', 'subsample', 'colsample _ bytree', 'lambda _ l1/l2'.
NN: 드롭 아웃/웨이트 붕괴/조기 중지.
조기 정지: 인내심과 최소한의 개선으로 시간을 측정합니다.

7) 하이퍼 파라미터 선택

초안 검색을위한 그리드/랜덤; 미세 조정을위한 베이지안/하이퍼 밴드.
제한: 반복/시간/비용 예산, 발에 대한 "부적합" (여러 시간 분할에 대한 교차 점검).

스케치:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) 확률 보정

Platt/Isotonic не홀드 아웃; 교정 기능을 아티팩트로 저장하십시오.
ECE/Relayability를 확인하십시오. 예상 비용으로 임계 값을 재협상하십시오.

9) 통역 및 설명

글로벌: 기능 중요도/wwwP, 순열 기여.
로컬: 단위 솔루션 용 wwwP (RG/AML 사례).

온라인으로 설명을 사용할 때의 위험과 수용 가능성을 문서화하

10) 재현성과 유물

모든 곳에서 종자: 데이터/모델/적합/분할.
아티팩트: 데이터 버전, 기능 파이프 라인, 가중치, 교정, 임계 값, 구성.
결정 론적 구축: 고정 컨테이너/종속성.

11) 실험 추적

기트 커밋, 데이터 세트/기능 버전, 모델 설정, 메트릭 (오프/온라인), 아티팩트 및 댓글이 등록됩니다.
실험, 태그 이름 지정 규칙 (도메인/시장/모델).

12) 오프라인 → 온라인 전송

통합 변환 코드 (기능 저장소); 온라인/오프라인 동등성 테스트.
서빙: REST/gRPC, 타임 아웃/배상/캐시; 카나리아/단계별 인출.
임계 값/정책: 구성 가능 (기능 플래그), 감사 및 롤백.

13) 모니터링 및 드리프트

데이터/속도: PSI/KL; 임계 값을 초과하면 경고합니다.
교정 및 지표: 스트리밍 레이블의 ECE, PR-AUC/KS.
비즈니스 지표: 순수익 향상, 사기 절약, RG 개입, SLA.
트리거 재교육: 드리프트/계절별/릴리스/만료 날짜.

14) 개인 정보 보호, 거주, 공정성

PII 최소화: 가명, CLS/RLS, 개별 매핑.
거주지: 개별 디렉토리/키 (EEA/UK/BR); 이유없이 지역 간 가입 금지.
공정성: 슬라이스 분석 (시장/장치/계정 연령), 이질적인 영향, 동등한 확률; 기능/임계 값/가중치 수정.

15) 비용 공학

교육 비용: CPU/GPU 시간, I/O, 실행 횟수.
추론 비용: 요청 당 대기 시간/비용; 온라인 기능 및 모델 크기에 대한 제한.
재료화: 무거운 기능-오프라인; 온라인-빠르고 캐시 된.
충전: 실험/재생 예산.

16) 예 (조각)

LightGBM (분류, 파이썬 스케치):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

포인트 인 타임 샘플링 (SQL 아이디어):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

예상 비용 추정치 및 임계 값 선택:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) 프로세스 및 RACI

R (책임): 데이터 과학 (모델/실험), Data Eng (데이터 세트/기능/기능 저장소), MLops (서빙/모니터링/CI-CD-CT).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (PII/RG/AML/DSAR), 보안 (KMS/비밀/감사), SRE (SLO/값), 재무 (ROI).
I (정보): 제품/마케팅/운영/지원.

18) 구현 로드맵

MVP (3-6 주):

1. 작업 및 메트릭 (예상 비용), 시점 데이터 세트 디렉토리.

2. 기본 모델 (LogReg/GBDT) + 교정 + 모델 카드.

3. 추적 실험, 고정 종자/인공물, 재현 가능한 빌드.

4. 카나리아 온라인 서핑, 설정과 같은 임계 값, 경고 메트릭/드리프트.

2 단계 (6-12 주):

베이지안/하이퍼 밴드 선택, 슬라이스 분석/공정성, 재교육 트리거.
경제학 기능/추론, 캐시/TTL, 차지 백.
메트릭/임계 값 공식의 문서, What-if 시뮬레이션.

3 단계 (12-20 주):

다중 지역 파이프 라인, DR/연습, WORM 아카이브 릴리스.
품질/보정 보고서의 자동 생성, 이벤트 별 자동 교육.
A/B/n은 순차적 테스트 및 자동 종료 실험을합니다.

19) 사전 판매 점검표

작업 및 미터법 비즈니스 정렬; 오류 비용을 계산했습니다.
데이터 셋 포인트 인 타임; 백혈병이없는 시간/시장 분할.
선택/정규화, 조기 정지, 확률 보정.
모델 카드: 데이터, 기능, 지표, 위험, 공정성, 소유자.
아티팩트 저장 (가중치, 피처 파이프 라인, 교정, 임계 값).
온라인/오프라인 동등성 테스트가 통과되었습니다 기능 플래그로 서핑.
드리프트/보정/비즈니스 지표 모니터링; 재교육/롤백 계획.
PII/DSAR/RTBF 정책, 거주 및 액세스 감사가 수행됩니다.
교육/추론 비용은 예산에 포함됩니다. SLA 경고.

20) 반 패턴 및 위험

레이카지: 조정되지 않은 미래의 기능/레이블.
하나의 샤프트 샘플에서 "파란색으로" 튜닝: 임시 분할/교차 점검 없음.
교정 및 비용 임계 값이 없습니다.
온라인/오프라인 기능과 일치하지 않음: prod의 결과가 다릅니다.
공정성/슬라이스를 무시합니다: 시장/장치의 숨겨진 실패.
무제한 재생 및 고가의 기능: 이익없는 가치 상승.

21) 결론

모델 교육은 관리 가능한 프로세스입니다. 명확한 작업 및 미터법, 현장 규율, 정규화, 교정 및 재현성을 통한 지능형 튜닝, 온라인으로의 투명한 전송, 품질, 비용 및 위험에 대한 지속적인 모니터링. 이 플레이 북을 따르면 신속하고 윤리적이며 안정적으로 제품, 유지 및 규정 준수를 향상시킬 수있는 모델을 얻을 수 있습니다.

모델 교육

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다