Չափման նվազում
1) Ինչու՞ iGaming-պլատֆորմը նվազեցնել չափսերը
ML-ի արագությունն ու կայունությունը 'ավելի քիչ նշաններ ավելի արագ, քան fit/serve-ը, ավելի ցածր են, քան ընկալման ռիսկը։
Տեսողականացում ՝ 2D/3D պրոյեկտներ, որպեսզի հայտնաբերեն հատվածները, դրեյֆը և անոմալիան։
Աղմուկը ցույց է տալիս ազդանշանը 'ընդհանրացված գործոնները (վարքագծային/ստացիոնար) ավելի դիմացկուն են արտանետումների համար։
Արժեքը 'ավելի քիչ ֆիչ առցանց ավելի էժան է պահել/տեղափոխել/կարել։
Գաղտնիությունը 'համակցված գործոնների զգայուն նշանների փոխարինումը։
2) «Ընտրություն» vs «Կառուցվածք» նշանները
Ընտրությունը (feature) 'ֆիլտրեր/փաթեթ/մոդելի քաշը, մենք պահպանում ենք դելֆիչի ենթաբազմությունը։
Կառուցվածքը (feature extraction) 'հաշվարկում ենք նոր գործոններ (պրոյեկցիաներ/սաղմեդդինգներ)։
Մենք կիսում ենք 'սկզբում հիմնական ընտրությունը (leakage, կայունություն, փոխադարձ տեղեկատվություն), ապա գործոնների կառուցումը։
3) Մեթոդներ ՝ կարճ քարտ
3. 1 Գծային
PCA/SVD 'օրգոնալ բաղադրիչներ, ավելացնում են բացատրական ցուցադրությունը։ Արագ, մեկնաբանական (loadings)։
Factor Analysis (FA) 'լատինական գործոններ + հատուկ սխալներ; լավ է վարքագծային «սանդղակի» համար։
NMF: ոչ բացասական ադիդիտիվ մասերը («թեմաներ «/« դրդապատճառներ »վճարումների/խաղերի); մեկնաբանական 0-ի դեպքում։
3. 2 Ոչ գծային
t-MSE: տեղական կառուցվածքը և տրամագիծը 2D/3D; միայն տեսողության համար (ոչ սերվինգի համար)։
UMAP: պահպանում է տեղական + համաշխարհային կառուցվածքի մի մասը, ավելի արագ t-MSE; հարմար է կլաստերիզացման համար։
Autoencoders (AE/VIII), մենք ուսումնասիրում ենք կոդավորող, լատենտ վեկտոր։ կարող եք առցանց/պարամետրային։
Isomap/LE: ավելի քիչ վաճառքում (ճանապարհներ և կապրիզներ)։
3. 3 Կատեգորիկ/խառը
Կատեգորիաների էմբեդինգները (խաղ/պրովայդեր/ջրանցք/սարք) + PCA/UMAP-ը սաղմդինգ-մատրիցի վրա։
Գաուերի հեռավորությունը MDS/UMAP-ն է խառը տեսակների համար։
4) Sypline (ստանդարտ)
1. Winhygiene: PII դիմակներ, տոկենիզացիա, բացթողումներ լրացնելը, պոչի լուծումը։
2. Սկեյլինգը 'Standard/Robust scaler; հաշվիչների համար 'լոգ տրանսֆորմ։
3. Ընտրությունը 'remove near-zero variant, www.r> 0։ 95 (leave-one), mutual info.
4. Նվազեցման մեթոդը 'PCA/UMAP/AE; արձանագրում ենք randium seed և www.g։
5. Գնահատումը 'մետրիկները (ներքևում), բջիջները, տեսողությունները։
6. Serve: (ONNX/PMML/registry պահեստ), Time-travel վերափոխման համար։
7. Իսպանիան 'լատինական գործոնների dreaft, PSI, kNN-topology պահպանությունը։
5) Հատկության մետրերը
Intained Variance (PCA) 'ընտրում ենք K շեմը (օրինակ ՝ 90-95 տոկոսը)։
Reconstruction error (AE/NMF): SNE/Poisson, SSJ պատկերների համար (եթե CV)։
Trustworthiness/Intinuity (UMAP/t-SNE) '0-ից 1-ից, որքանով են տեղական հարևանները։
KNN-preservation 'ընդհանուր հարևանների մասնաբաժինը պրոյեկտից առաջ/հետո։
Downstream-impact: կլաստերիզացիայի/դասակարգման որակը տրանսֆորմացիայից հետո (F1/AUC, silhouette)։
Մոսկվա: Rand/NMI-ը վերագործարկումների միջև, զգայունությունը seed/hyperparams։
6) Գործնական բաղադրատոմսեր առաջադրանքների վերաբերյալ
6. 1 Խաղացողների կլաստերիզացիա
UMAP wwww.HDBSCAN: Լավ բացահայտում է «07/social», «bonus-hunters», «crash-risk» հատվածները։
PCA-baseline արագ մեկնաբանման համար (loadings ցույց են տալիս «տոկոսադրույքներ/րոպե», «անկայունություն», «երեկոյան փամփուշտ»)։
6. 2 Անտիֆրոդ և վճարումներ
NMF-ը մատրիցի վրա (խաղացողը վճարման մեթոդը) հայտնաբերում է երթուղիների «մոտիվները»։ հետո k-means/GMM։
AE-ը ավանդների/եզրակացությունների վարքագծի վրա լատինական վեկտորն է անոմալիայի մոդելի մեջ (IForest/OC-SVM)։
6. 3 Առաջարկող համակարգեր
SVD/ALS-emedings (խաղացող ռուսական խաղ/պրովայդեր) + PCA/UMAP-ը աղմուկի և սկորինգի ֆիլտրելու համար։
6. 4 Տեքստ/ակնարկներ
Sentence-Emedings www.UMAP-ը 'բացասականության և աճի տեսողությունն է (տե՛ ս «Սենտիմենտալ վերլուծություն»)։
NMF-IDF-ի վրա 'մեկնաբանված բողոքների թեմաներ (եզրակացություններ, KYC, լագներ)։
7) Առցանց, ռելիմենտալություն և դրեյֆ
IncrementalPA/Streaming AE: Մենք թարմացնում ենք բաղադրիչները առանց ամբողջական վերապատրաստման։
Warm-start UMAP: նորարարություն նոր մարտերի վրա (զգուշորեն գլոբիկայի աղավաղմամբ)։
Դրեյֆը 'PSI/KC-ի դիտարկումը գործոններով, drift-ը kNN-ի կարգաբանության; փոշիները www.canary/rollback։
Տարբերակումը '"project @ MAJOR։ MINOR. PATCH`; MAJOR-ը անօգուտ է, պահել dox-serve-ը։
8) Գաղտնիությունը և կոմպլենսը
Zero-PII մուտքի վրա; նվազեցված գործոնները պահվում են առանձին աղբյուրներից։
k-անանուն վիտրինը (առնվազն N օբյեկտ կտրելու համար)։
Տարբերակներ։ մասնավորությունը (oporational) PCA/AE-ում 'աղմուկ գրադիենտներում/կոորդինատներում։
DSAR 'սուբյեկտի ներդրումը մաքրելու հնարավորություն (հեռացնել տողերը, հաշվարկել գործոնները հաջորդ մարտում)։
9) Գործոնների մեկնաբանումը
Loadings (PCA/FA) 'լավագույն բաղադրիչները, որոնք պարունակում են մարդկային-ընթերցման անուններ («ինտենսիվություն», «գիշերային ակտիվություն», «բոնուսների զգայունություն»)։
NMF-մասերը 'ֆիչի հավաքածուներ, որոնք դրական քաշով համապատասխանում են «վճարումների/խաղերի շարժառիթին»։
AE: գծային ապրոքսիմացիա կետի շուրջ (Jacobian) + surrogate-մոդելը տեղական բացատրության համար։
10) Մոսկվա
Կլաստերիզացիա: UMAP/PCA-տարածքը www.HDBSCAN/k-means։
Անոմալիա ՝ AE-վերակառուցում/Latent distae-alerts։
Առաջարկություններ 'կոմպակտ սաղմեդդինգներ նման և ANN որոնման համար։
API վերլուծաբաններ. Մենք միավորներ և գործոններ ենք տալիս «հում» զգայուն ֆիչի փոխարեն։
11) Ձևանմուշները (պատրաստ են օգտագործման համար)
11. 1 Georg PCA
yaml projection:
method: "pca"
n_components: "auto_0. 95" # cumulative variance ≥95%
scaler: "robust"
random_state: 42 serve:
format: "onnx"
p95_latency_ms: 5 monitoring:
drift_psi_max: 0. 2 privacy:
pii_in: false
11. 2 UMAP www.HDBSCAN
yaml umap:
n_neighbors: 30 min_dist: 0. 05 metric: "cosine"
random_state: 42 cluster:
method: "hdbscan"
min_cluster_size: 120 min_samples: 15 evaluate:
metrics: ["silhouette","trustworthiness","knn_preservation"]
11. 3 AE (սերվերինգ)
yaml autoencoder:
encoder: [256,128,64]
latent_dim: 16 activation: "gelu"
dropout: 0. 1 optimizer: "adamw"
loss: "mse"
early_stop_patience: 10 serve:
route: "light heavy" # router by latent complexity cache_embeddings: true
11. 4 Պրոյեկտիայի անձնագիր (BI)
yaml version: "proj_pca_1. 3. 0"
explained_variance_cum: 0. 932 top_components:
- id: pc1, name: "rate intensity," top_features: ["bets _ per _ min, ""volatility,"" session _ len"]
- id: pc2, name: "night activity," top_features: ["evening _ share, ""dow _ weekend,"" live _ share"]
usage:
downstream: ["clusters_v4","fraud_iforest_v2","reco_ann_v3"]
12) Իրականացման ճանապարհային քարտեզը
0-30 օր (MVP)
1. Հիգիենան ֆիչ (սկեյլինգ, անցք, հարաբերակցություն), Zero-PII։
2. PCA-ն ցրման 95 տոկոսն է։ 2D UMAP-ի տեսողականացումը հատվածների վերլուծման համար։
3. Метрики: explained variance, trustworthiness, downstream uplift.
4. Ռուսական տրանսֆորմացիան registry-ում; duschbord գործոններ։
30-90 օր
1. AE վճարումների/վարքի համար; NMF-ը այդ ակնարկների համար։
2. Ռուսական ապդեյտները (IncrementalPCA/AE); canary փոխելիս։
3. Կլաստերիզացիայի/հակաֆրոդի/առաջարկի հետ ինտեգրումը։ kNN-topology drift ալերտները։
3-6 ամիս
1. Գեո/տենանտ հատուկ պրոյեկտներ; budget-aulterving (INT8/FP16)։
2. Սննդի թիմերի գործոնների մեկնաբանման զեկույցները։
3. DP տարբերակները կարգավորող զգայուն շուկաների համար։
13) Anti-patterna
Օգտագործել t-MSE-ը պրոտո-սերվինգի համար (ոչ ստանդարտ և չթողնենք գործարկման միջև)։
Խառնել PII գործոններով։ տրամաբանել սկզբնական ֆիգուրները առանց դիմակների։
Անտեսել skeiling/բաց թողեք «կեղծ» բաղադրիչները։
Ընտրել k «աչքերի վրա» առանց ցրման կորի/մետրիկ և downstream-validation։
Պրոյեկցիան փոխակերպել առանց տարբերակման և dult-serve-ի, որը նկարագրում է «կոտրված» մոդելը շղթայի վրա։
UMAP նկարը մեկնաբանելը որպես «www.und truth» առանց կայունության ստուգելու։
14) RACI
Master Platform (R): wwww.plines, registry, www.drefa։
Windows Science (R) 'ընտրություն/մեթոդների կարգավորում, գործոնների մեկնաբանություն։
Cort/CRM (A) 'գործոնների օգտագործումը սեգմենտացիայի/օֆերի մեջ։
Risk/RG (C) 'գործոնների օգտագործման կանոնները, պաշտպանությունը «ագրեսիվ» թարթինգից։
System/DPO (A/R) 'գաղտնիությունը, k-անունությունը, DSAR-ը։
15) Կապված հատվածներ
Տվյալների կլաստերիզացիան, խորհրդատվական համակարգերը, անոմալիաների և հարաբերակցությունների վերլուծությունը, Sentiment-վերլուծությունը, NLP-ը և տեքստերի մշակումը, SysteOps-ը, MLOps-ը, մոդելների, Տվյալների էթիկայի և թափանցիկության վիրահատությունը։
Արդյունքը
Չափման նվազումը www.ML գործիք է, ոչ միայն «կետերի գեղեցիկ ամպեր», խիստ հիգիենան ֆիչ, կառուցվածքի պահպանման չափումներ, կայուն և տարբերակված փոխակերպումներ։ IGaming-ում նման պրոյեկտները արագացնում են ուսուցումը և սերվինգը, բարելավում անոմալիաների հատվածները և հայտնաբերումը, խնայում բյուջեն և օգնում են պահպանել գաղտնիությունը։