MLOps: Մոդելների շահագործում
1) iGaming-ում Գործողության դերը iGaming-ում
IGaming-ում մոդելները ազդում են իրական փողի և կարգավորողականության վրա ՝ RG միջամտություններ, հակաֆրոդ, վճարումներ, KYC, լիմիտներ, օֆերներ և առաջարկություններ։ Գործողությունը վստահելի կանխատեսում է երաշխավորված SLO-ով, հետադարձ հայացքով և անվտանգությամբ։
Նպատակները
Կանխատեսելի օրինագծեր և արձագանքներ առանց անցյալի։
Տվյալների և ֆիչի համաձայնությունը 24.9/on.ru։
Դիտարկումը 'որակը, դրաֆը, ազնվությունը, գաղտնիությունը։
TCO-ի նվազումը 'արտադրողականությունը, քեշը, GPU/CPU-միկրոսները։
Պահանջների համապատասխանությունը (DSAR/Legal Hold/էթիկա)։
2) Սերվինգի ճարտարապետությունը
Batch (ofline) 'գիշերային/ժամացույցի սկորինգներ (limits, հատվածներ)։ Պլյուսներ ՝ ավելի էժան, ավելի կայուն։ Մինուսներ 'ակնթարթային արձագանք չկա։
Stream (near-real-time) 'իրադարձությունների (տոկոսադրույքներ, անոմալիաներ) 1-5 պատուհաններով
Online (wwww.nc API): <100-300 ms p95 UX/ռիսկի լուծումների, քեշինգի և քայքայման համար։
Հիբրիդ ՝ «batch + առցանց հստակեցում» (օրինակ ՝ RG ռիսկը 7 օրվա ընթացքում + առցանց նստաշրջանի գրավիչները)։
Patterns
Ensemble/Stacking-ը թեթև «գեյթ մոդելի» հետ կրիտիկական ճանապարհին։
Fallback-evristia-ը մոդելի/ֆիչի ձախողման ժամանակ։
Circuit Breaker-ը և rate limiting պիկի վրա կամ պրովայդերների քայքայման ժամանակ։
3) Մոդելների իրականացումը և տարբերակների կառավարումը
Model Registry: տարբերակները, սեփականատերերը, թողարկման ամսաթիվը, մետրիկները (AUC/PR, տրամաչափը), diaset _ version, feature _ բանաձև _ version, օգտագործման սահմանափակումները։
Մոդելի քարտը (Model Card) 'խնդիր, տվյալներ/fichi, fairness/privacy-բաժին, ռիսկի գոտիներ, հոսանքի հաճախականություն։
Օրինագծերի քաղաքականությունը '"MAJOR. MINOR. PATCH '+ պարտադիր rollback պլանը։
Champion-Challenger: զուգահեռ propon challenger զեկույցներով։ ավտոմատ բարձրացում չափանիշների կատարման ժամանակ։
4) Առցանց ֆիչին և ներդաշնակությունը
Feature Store: 105 105 (ուսուցում) և onport (inphs) վիտրիններ ստրոգիական պայմանագրերով։
Time travel և point-in-time join ուսուցման ժամանակ։
Idempotent apdeites fich և պաշտպանություն թարգետի արտահոսքից։
Համաձայն '«read-your-writes» կամ SLA առաքման երաշխիքները (օրինակ ՝ 60 վայրկյան)։
Նշանների քաղաքականությունը 'allow/deny-lists, դիմակավորում, թունավորում, արգելք 2019-PII։
5) Օրինագծերի ռազմավարությունը
Shadow 'ամբողջ www.champion; challenger ստանում է հարցումների պատճենը, պատասխանները չեն ազդում բիզնեսի վրա։
Canary: 1-10 տոկոսը ռուսական տարբերակն է։ KPI/metric-ի համեմատությունը, մեքենայի արձագանքը։
Blue-Green: Երկու սերվերի/endpointa։ RF/երթուղի փոխակերպումը։
Դրոշները 'շուկաների/տենանտների/։
6) Դիտողությունն ու ալերտինգը
Ազդանշաններ (առցանց)
Իսպանիա ՝ error rate, timeouts, p50/p95/p99 latency, QPS, saturation։
Տվյալները/ֆիչին 'թարմ, ամբողջական, բաշխում, անոմալիա, բացթողումներ, շեմա դրիֆտ։
Որակը 'տրամաչափություն, post-fact metriks (AUC/PR, uplift), միջամտությունների արձագանք։
Դրեյֆ 'մուտքերի (PSI/KS) և ելքերի մոտ (score drift)։
Էթիկա/արդարություն ՝ EO/EOp-դելտա, parate impact։
Գաղտնիությունը ՝ Attack-AUC (membership/inversion) 240։ 5, 71-usage (եթե DP)։
Բիզնեսը 'chargeback, RG միջամտությունները, օֆերի փոխակերպումը' հատվածների բաժանումով։
Տիպիկ շեմեր
p95 latency 24200 ms (առցանց RG/հակաֆրոդ)։
Error rate ≤ 0. 1% 5-2019 միջին։
Drift PSI ≤ 0. 2 առանցքային փուլերով. EOP-դելտա 243 p.p.
Freshness fich 2460 վայրկյան; բաց թողեք 0-ը։ 5%.
ACE 380 տրամաչափը։ 02.
7) Պատահականներն ու պլեյբուսները
Sev մակարդակները ՝ P1 (RG/սխալ), P2 (սխալների բարձրացում> շեմն), P3 (որակի դեգրադացիա)։
Avto-mitigation 'champion, հաճախականության նվազում, wwww.fallback կանոնները, թունավոր ֆիչի մեկուսացումը։
Runbooks: չեկլիստները հնացած են "," մեծացել է դրեյֆը "," ֆիդայի տիպիզացումը փոխվել է "," GPU-ն սպառվել է "։
Փոստի մորտեմը ՝ RCA, ֆիքսված պլան, թեստերի/շեմերի թարմացում/2019։
8) Փորձարկումներ և փոփոխությունների վերահսկողություն
A/B և multi-armed bandit-ը միայն հիմնական խմբերի (երկիր/ջրանցք/սարք) հետ է։
Էթիկական ստոպիկ կանոնները 'RG-ռիսկի/բողոքների կտրուկ աճի ժամանակ։
Dance-run վիտրինը և մոդելները մինչև անցումը։
KPI-ի տարբերակումը և որոշումները (BI 35ract) արդյունքների կայուն մեկնաբանման համար։
9) Ապահովությունն ու սեփականաշնորհումը վաճառքում
mTLS/TLS 1. 3, հարցումների ստորագրումը, anti replay (nonce/idempotency)։
Գաղտնիքները Secrets Express-ից, JIT-2019-ից, աուդիտ։
Մուտքերի/լոգարանների տոկենիզացիա; PII-ի արգելքը ճանապարհներում։
TEE/գաղտնի infess VIP-2019/AML-ի համար (անհրաժեշտության դեպքում)։
Հասանելիության քաղաքականությունը (RBAC/ABAC/JIT) դեպի ավարտներ և էնդպոինտներ։
DSAR/Legal Hold: Լուծումների ուղին, որը բացատրության և հոսանքի համար է։
10) Արտադրողականությունը և արժեքը
Քեշը (feature/score) TTL-ից, հատկապես կայուն ազդանշանների համար։
Քվանտիզացիա/արագացման համար (INT8/FP16)։
Autockeiling: հորիզոնական QPS/latency, ուղղահայաց batch-size։
CPU/GPU հիբրիդ ՝ latency-քննադատական GPU-ում, «զանգվածը» CPU-ում։
Սառը մեկնարկների հետքը, տաքացնելով մոդելները։
Մոդելների փամփուշտը և «sticky routing» -ը շուկաների/տենանտների վրա քեշի տեղանքի համար։
11) Քեյսա iGaming (հանրաքվեներ)
RG-corping: Առցանց սկորինգը մուտքի և նստաշրջանի մեջ։ խիստ overrides (ինքնանպատակ), նպատակային մետրը 'EOp + տրամաչափը։
Antifrod/վճարումներ ՝ ավտորիզացիոն լուծումներ <150 մզ; EO-վերահսկումը FPR, robust-ագրեգատորներ։
KYC/AML: thin-ռուսական աջակցություն; PSI/MPC գործընկերոջ հետ; DSAR-համատեղելիությունը։
Կերպարացում 'uplift մոդելներ և հաճախականության լիմիտներ։ high-risk բացառություն ագրեսիվ օֆֆերից։
12) Մետրիկի և SLO գործողության (օրինակ)
13) Արտեֆակտների օրինակները
13. 1 Releant Notes (ուրվագիծ)
Մոդելը '"rg _ risk @ 2։ 1. 0` (MINOR)
Փոփոխությունները 'ավելացված է «loss _ streak _ 7d»; նորարարությունը նորարարված է
Վալիդացիա 'shadow 14 օր; delta KPI ≤ 0. 3%; EOP դելտա նորմալ
Rollout: canary 10% EU → 50% → 100%
Rollback 'դրոշը' rg. use_v1=true`
Սեփականատերը/ամսաթիվը/ticet
13. 2 Մոդելի քարտ (հատված)
Առաջադրանք ՝ հակաֆրոդ
Տվյալները ՝ "payments _ gold v3։ 2 ', fich-set' payout _ signals v1։ 7`
Մետրիկները ՝ AUC = 0։ 89, ACE=0. 015, FPR @ օպերա։ շեմն = 1։ 2%
Fairness: EO TPR/FPR Δ ≤ 2 п.п. по «country/method»
Սահմանափակումներ ՝ VIP հաճախորդներ 'միայն human-review
Գաղտնիությունը 'TEE-inphs; տրամաբանությունը առանց PII-ի
Ռևյու ՝ 90 օրվա ընթացքում
13. 3 SLO էնդպոինտի քաղաքականություն (հատված)
yaml endpoint: /v1/score/rg slo:
latency_p95_ms: 200 success_rate: 0. 995 max_error_burst_per_5m: 50 data:
feature_freshness_s: 60 allowed_missing_pct: 0. 5 ethics:
eop_delta_pp: 3 privacy:
attack_auc_max: 0. 55
13. 4 Runbook «Fichi հնացած»
1. Ստուգել լագը Feature Store-ում և ֆիդայի աղբյուրը։
2. Անցնել պահեստային ալիքի/քեշի վրա։
3. Նվազեցնել պարամետրերը/միացնել fallback կանոնները։
4. Հաղորդակցություն # ml-status; P2/P1 պատահարը SLA-ով։
5. RCA և retrav։
14) Փորձարկման գործընթացները նախքան վերանորոգումը
Ֆիչի պայմանագրերը 'շեմա/enum/nullable, SLA թարմ։
Տվյալները ՝ DQ թեստեր, point-in-time, target արտահոսք։
Մոդելը ՝ unit/integration, տրամաչափը, սթրեսը/։
Անվտանգություն 'գաղտնիքներ, mTSA, Zero-PII լոգարաններում։
Էթիկան/գաղտնիությունը 'fairness-chek, attack-suite։
Դիտարկումը 'dashbords/alerta, SLO եզրեր։
Մոսկվա: Rele.ru Notes + rollback պլանը։
15) RACI (օրինակ)
ML Lead (A/R) 'որակը, ալյումինը, մետրիկները։
Platform (R): Feature Store, գրանցամատյան, նվագախումբը, դիտարկումը։
Domain Owners (R) 'աղբյուրների/ֆիչի պայմանագրեր։
System/DPO (A/R) 'հասանելի, գաղտնիություն, տոկենիզացիա, TEE։
MSE/SecOps (R) 'միջադեպեր, SLO, ավտո սկեյլ, SOAR։
Anport.ru/Finance (C), ազդեցություն KPI-ի և հաշվետվությունների վրա։
Supert/RG/Risk (C): human-in-the-loop և բացատրություն։
16) Իրականացման ճանապարհային քարտեզը
0-30 օր (MVP)
1. Model Registry + քարտերը high-impact մոդելների համար (RG/վճարումներ/հակաֆրոդ)։
2. Հիմնական կոմպոզիցիան 'latency, errors, freshness, drift մուտքեր։
3. Shadow-պրոգրեսները նոր տարբերակների, canary-ուրվագծերի։
4. Ֆիչի և Zero-PII պայմանագրերը լոգարաններում։
5. Runbooks-ը և # ml-status ալիքը։
30-90 օր
1. Champion-Challenger-ը և շարժիչների ավելացումը։
2. Fairness/privacy-խաղացողները CI/CD, attack-suite-ում։
3. Քեշինգը, քվանտիզացիան, ավտոսկեյլը։ SLO/արժեքի բյուջե։
4. BI/ML wwww.KPI և on.ru-metric; dashbords SLO.
3-6 ամիս
1. Ռուսական փոստ-մորտեմները, մոդելների զանգվածը։
2. Geo/tenant-մեկուսացում էնդպոինտների, կղզիների և ֆիչի։
3. TEE/MPC-ը մասնավոր infex to/AML-ի համար։
4. Releant Notes-ի ամբողջական ավտոմատիզացիան գծից և diff-ից։
5. Գործընթացների արտաքին աուդիտը (որտեղ պահանջվում է լիցենզիա)։
17) Anti-patterna
Ռելիզը առանց shadow/canary և rollback պլանի։
Չհամաձայնեցված դեղամիջոցները։
Logs PII-ից, token-policy-ի բացակայությունը։
«Հավիտենական» շեմերը առանց վերանայման։ անտեսումը և տրամաչափումը։
Human-in-the-loop-ի բացակայությունը high-risk լուծումների համար։
Փորձարկումներ առանց ստրատիզացիայի և էթիկական ստոպային կանոնների։
18) Կապված հատվածներ
International Ops-պրակտիկան, Հասանելիության վերահսկումը, Տվյալների պահպանման, անվտանգության և կոդավորման, Adit-ի և տարբերակի, կողմնակալության նվազումը, գաղտնի ML, Federated Learning, Տվյալների պահպանման քաղաքականությունը, Տվյալների ծագումը և ճանապարհը, տվյալների էթիկան։
Արդյունքը
Մոդելների շահագործումը ինժեներական առարկա է վաճառքի ծառայությունների մակարդակում 'հստակ պայմանագրեր և տարբերակներ, կանխատեսելի օրինագծեր, 24/7 դիտարկումներ, որոնք կառավարվում են էթիկայի/մասնագիտության ռիսկերի և բիզնեսի վրա թափանցիկ ազդեցության վրա։ Այսպիսով, ML-ը դառնում է հուսալի ապրանք, ոչ թե «լավագույն նոթբուքի ջութակը»։