Գաղտնի մեքենայական ուսուցում
1) Էությունն ու նպատակները
Գաղտնի (privacy-preserving) ML-ն այն մոտեցումներն են, որոնք թույլ են տալիս սովորել և օգտագործել մոդելներ, նվազեցնելով սկզբնական տվյալների հասանելիությունը և սահմանափակելով արտահոսքերը հատուկ մրցույթների մասին։ IGaming-ի համար դա հատկապես կարևոր է PII/ֆինանսական տվյալների, կարգավորողների (KYC/AML, RG), ինտեգրման (խաղերի պրովայդերներ, PSA), ինչպես նաև հիբրիդային պահանջների պատճառով։
Հիմնական նպատակները
Նվազեցնել արտահոսքի ռիսկը և կարգավորող տուգանքները։
Հնարավորություն տալ համագործակցող ուսուցում բրենդների/շուկաների միջև առանց հում տվյալների փոխանակման։
Դարձնել բացատրական և ստուգված «մասնագիտության գինը» ML-ում (մետրիկներ, SLO)։
2) ML-ում սպառնալիքների մոդել
Model Systersion-ը մոդելի սկզբնական օրինակները/ատրիբուտները վերականգնելու փորձն է։
Membership Inference-ը 'սահմանումը, թե արդյոք ձայնագրությունը մասնակցել է ուսուցման մեջ։
Windows Leakage-ը www.pline-ում 'logs/finchestors, ժամանակավոր ֆայլեր, snepshots։
Proxy/Linkage հարձակումները 'դեմքի տվյալների լանջը արտաքին աղբյուրների հետ։
Insider/Partner risk 'ավելցուկ արտոնություններ հասանելի/լոգարաններում։
3) MSML գործիքները և մոտեցումները
3. 1 Դիֆերենցիալ մասնավոր (DP)
Գաղափարը 'ավելացնել վերահսկվող աղմուկը երաշխիքների համար, որ միասնական սուբյեկտի ներդրումը «ոչ» է։
Որտեղ օգտագործել 'ագրեգացիաներ, ուսուցման գրադիենտներ (DP-SGD), հաշվետվություններ/dashbords, վիճակագրությունը։
Պարամետրերը ՝ 108 (էպիլոն) - «գաղտնիության բյուջե», ռուսական '«ձախողման» հավանականությունը։
Թորգը տեղին է, որ ավելի շատ աղմուկը ավելի ուժեղ է, քան գաղտնիությունը, ցածր ճշգրտությունը։ պլանավորեք budget acounting-ը մոդելի կյանքի ցիկլի վրա։
3. 2 Ֆեդեգրաֆիկ ուսուցում (FL)
Գաղափարը 'մոդելը գնում է տվյալների, ոչ հակառակը։ համախմբվում են գրադիենտները/քաշը, ոչ թե հում գրառումները։
Տարբերակները ՝ cross-device (շատ հաճախորդներ, թույլ հաճախորդներ), cross-silo (մի քանի հուսալի կազմակերպություններ/բրենդներ)։
Անվտանգության ուժեղացուցիչները ՝ Secure Aggregation, DP FL-ի վերևում, անորակ/չարամիտ հաճախորդների դիմադրությունը (byzantine-robust)։
3. 3 Անվտանգ հաշվարկներ
MPC (Secure Multi-Party Computation) 'միասին հաշվարկներ առանց միմյանց մուտքերի բացահայտման։
HE (Homomorphic Encryption) 'գաղտնագրված տվյալների հաշվարկներ։ թանկ է, բայց օգտակար է կետային խնդիրների համար (արագ/ինֆիս)։
TEE/Intidential Computing: Վստահելի կատարվող միջավայրերը (enclave), ծածկագրի և տվյալների մեկուսացումը HW մակարդակում։
3. 4 Ավելին
Գիտելիք-առանց բացահայտման (ZKP) 'ապացուցել ճկունությունը առանց տվյալների բացահայտման (ոչ-ոքի)։
Կեղծանունացում/անանունացում 'սովորելուց առաջ։ ռիսկի ստուգում։
Private Express Intersport (PSI) 'հավաքածուների հատումը (ֆրոդի/2019 ցուցակները) առանց ամբողջ հավաքածուի բացահայտման։
4) iGaming-ի համար ճարտարապետության պատրանքները
4. 1 Մասնավոր ֆիչեպլիններ
PII-ը առանձնացված է խաղային հեռուստատեսության իրադարձություններից։ բանալիները 'tokenization/salted hashing-ի միջոցով։
Ֆիչեստորը հասանելիության մակարդակներով 'r.ru (Restricted), derived (Coridential), ագրեգատներ (Massal)։
DP ագրեգացիաները հաշվետվությունների և ուսումնասիրությունների համար։ քվոտաներ (մարքեթինգ/ռիսկ/RG)։
4. 2 Համագործակցային ուսուցում
Cross-brand FL-ը 'ընդհանուր հակաֆրոդ/RG սկորինգը հոլդինգի համար տեղական գրադիենտներ, Secure Agg-ի կենտրոնական ագրեգացիան։
MPC-infess-ը PBS-ի հետ 'ռիսկի համակրումը կատարվում է PSA-ի և օպերատորի կողմից առանց հում ավարտների փոխանակման։
4. 3 Մասնավոր ինֆիս
VIP/2019-ի համար կարբինգի հարցումները գնում են TEE ծառայության կամ HE-ի ընտրված ենթաօրենսդրության միջոցով։
Միայն համախմբված արդյունքների քեշինգը։ արգելել «հում» կույր։
5) Գործընթացներ և Governovich
5. 1 «Նվազագույն տվյալների» քաղաքականությունը
Մշակման հստակ նպատակը, թույլատրելի ֆիգուրի ցանկը, պահպանման ժամանակը։
PII-ը առանձին է, հասանելիությունը ՝ RBAC/ABAC, Just-in-Time, ամսագիրը։
5. 2 RACI-ը MSML-ի համար
CDO/DPO-ն գաղտնիության քաղաքականությունն է, DPIA/DEIA-ը, 2019-2019։
ML Lead/Windowner-ը տեխնիկայի ընտրությունն է (DP/FL/MPC/TEE), որակի վալիդացիա։
System/Platform - բանալիներ/գաղտնիքներ, գաղտնի միջավայրեր, աուդիտ։
Stewards-ը գրացուցակ/դասակարգում, ստանդարտ statements, հավաքածուի անձնագրեր։
5. 3 Չեկներ մինչև եզրափակիչ
DPIA/ազդեցության էթիկական գնահատում։
Fairness + խմբի տրամաչափը (չկա «թաքնված բջիջներ»)։
Privacy-тесты: membership inference, gradient leakage, re-identification.
6) Metriki և SLO մասնավորեցումը
71-budget usage 'կուտակված սպառումը մոդելների/տների վրա։
Re-identiformentrisk: Դե անունիզացիայի հավանականությունը (սիմվոլ/հարձակողական թեստեր)։
Attack AUC-ն նշում է, որ membership/inversion հարձակումը պետք է լինի պատահական։
Leakage rate: Leakage rate 'PII = 0։
Coverage: Մոդելների տոկոսը DP/FL/MPC/TEE-ից, որտեղ անհրաժեշտ է։
Latency/Cost SLO 'մասնավոր հաշվարկների ծախսերը 7) iGaming-ի ստանդարտների պրակտիկան 7. 1 KYC/AML PSI + MPC-ը սանկցիոն ցուցակների/RER-ի խաղալու համար առանց ամբողջական հավաքածուի բացահայտման։ DP-ագրեգացիան ռիսկային արտոնագրերի հաշվետվության համար։ 7. 2 Responsible Gaming (RG) FL-ը շուկայի բրենդների միջև ռիսկի ընդհանուր դետեկտորի համար։ խիստ overrides ինքնանպատակ։ DP-հրատարակությունները RG-ի ուսումնասիրությունները բացառելու համար deanonymization-ը։ 7. 3 Անտիֆրոդ/Վճարումներ TEE-ը high-risk-ի համար։ MPC գնահատումը chargeback հավանականության PBS-ից։ Ինֆիսի լույսերի աուդիտը 'առանց փուչիկների և PII ուղիների։ 7. 4 Կերպարացում/CRM DP ագրեգատները սեգմենացիայի համար; «նեղ» ֆիչի (հաճախականությունը, ժանրերը, նստաշրջանները) առանց խաղացողի մանրամասն ուղու։ Off-device FL-ը look-alike մոդելների համար հացահատիկի նշանների վրա։ 8) Գաղտնիության փորձարկումը և հավատարմությունը Membership Inference Challenge-ը հանրային (ներքին) մրցակցային թեստ է մոդելի դեմ։ Gradient/Activation Leakage Tes.ru: Արտահոսքի ստուգում հակառակը։ K-անունություն/07-diversity/t-closeness: Պաշտոնական չափանիշներ անանուն ընտրության համար։ Canary records: Արհեստական գրառումներ 'թղթի/մոդելի արտահոսքի հայտնաբերման համար։ 9) MLOps-ը 'զարգացումից մինչև երկարաձգված։ Policy-as-Code: linter fich/պայմանագրեր PII պիտակների հետ; CI-ն արգելափակում է չլուծված ֆիչերը։ DP-ուսուցումը կոնտուրներում 'CI-ի վերահսկումը, բյուջեի մաշման զեկույցը։ Secrets/KFC: բանալիներ MPC/HE/TEE, նավարկություն և կրկնակի վերահսկողություն։ Observability առանց արտահոսքի 'լծակների դիմակավորում, սիմպիլացիա, PII արգելք ուղիների մեջ։ Model Registry-ը տվյալների տարբերակն է, 112/112, գաղտնիության տեխնիկան, ռևսի ամսաթիվը, սեփականատերը։ 10) Ձևանմուշները (պատրաստ են օգտագործման համար) 10. 1 Մասնավոր մոդելի քարտը (հատված) Առաջադրանք/ազդեցություն: (RG/AML/հակաֆրոդ/CRM) Գաղտնիության տեխնիկան: (DP 24=?, FL, MPC/TEE/HE) Տվյալները/ֆիչին ՝ (դասարաններ, PII-2019, աղբյուրներ) Որակի մետրերը ՝ AUC/PR, տրամաչափը Գաղտնիության մետրերը ՝ 71-usage, Attack AUC, re-id risk Fairness-բաժին ՝ EO/EOR + տրամաչափը Սահմանափակումներ. Որտեղ մոդելը չի օգտագործվում Շրջապատը 'գաղտնի կոդեր/բանալիներ/տրամաբանության քաղաքականություն 10. 2 DP քաղաքականություն (ուրվագիծ) Բյուջեներ բյուջեներով 'մարքեթինգ NoX, ռիսկը Y Ստանիսլավ 'վերապատրաստման/վերլուծության ընթացքում ռեպրեսիա Որակի նվազագույն շեմերը 'որպեսզի չփորձենք զրոյի Բացառություններ 'DPO/CDO լուծումով հիմնավորման ձայնագրությամբ 10. 3 Մասնավոր թողարկման թուղթ 11) Իրականացման ճանապարհային քարտեզը 0-30 օր (MVP) 1. Ֆիչի կատալոգը PII պիտակների հետ։ PII-ի արգելքը լոգարաններում/հետքերով։ 2. Միացրեք DP-ը հիմնական ագրեգատների և հետազոտական ինստիտուտների համար։ 3. Սկսել հիմնական թեստերի հարձակումները (membership/intersion) և հաշվետվությունները։ 4. Մոդելների քարտերը privacy-112 և սեփականատերերի հետ։ 30-90 օր 1. FL (cross-silo) օդաչուն մեկ խնդրի համար (օրինակ, RG կամ հակաֆրոդ)։ 2. Գաղտնի միջավայրերը (TEE) 2019/VIP սկորինգի համար։ 3. Policy-as-Code: linter fich + CI-արգելափակումը մասնավոր։ 4. Կարգավորել դեղամիջոցները և privacy-SLO-ը։ 3-6 ամիս 1. MPC/PSI-ը պատժամիջոցների/ֆրոդի ցուցակների խաղալու համար PSA/գործընկերների հետ։ 2. HE/TEE-ը մասնավոր ինֆիսի կետերի համար։ 3. Ստացիոնար privacy-pentest ML, canary-ձայնագրություններ, post-morMedia։ 4. DP/FL ծածկույթը բոլոր high-impact մոդելներում։ տարեկան աուդիտ։ 12) Anti-patterna «Անանունացում» առանց ռիսկի գնահատելու։ FL-ն առանց Secure Aggregation-ի և առանց DP-ի, կարող են հոսել։ Յինֆիսի/ֆիչեստորի լոգները PII-ի հետ։ Հաճախականության և հանրային (ներքին) հաշվարկների բացակայությունը։ Մրցույթի դեպքում զրոյական պլանը (ոչ պլեյբուկա և հաղորդակցություններ)։ 13) Պլեյբուկի դեպքը (հակիրճ) 1. Հայտնաբերումը 'attack-suite/մոնիտորինգի/բողոքարկման ազդանշան։ 2. Կայունացում 'դադարեցնել թողարկումը/մոդելը/քարոզարշավը, մեկուսացնել շրջապատը։ 3. Գնահատումը 'տվյալների մասշտաբները/տեսակները/ժամանակը, ովքեր կանդրադառնան։ 4. Հաղորդակցություն 'խաղացողներ/գործընկերներ/կարգավորիչ (որտեղ պահանջվում է)։ 5. Միտիգացիա 'patchi-ում, հետ կանչել բանալիները, ուժեղացնել DP/քաղաքականությունը։ 6. Դասերը 'նորարարել քաղաքականությունը, թեստերը, թիմերի ուսուցումը։ 14) Կապը հարևան պրակտիկայի հետ AleksGovernations, Տվյալների ծագումը և ուղին, Տվյալների էթիկան, կողմնակալության նվազումը, DSAR/Privacy, Mastems, Dreef տվյալների հիմքը կառավարվող, պատասխանատու և ստուգված գաղտնիության հիմքն է։ Գաղտնի ML-ն ինժեներական և կառավարման կարգապահություն է 'ճիշտ տեխնոլոգիաներ (DP/FL/MPC/TEE), խիստ գործընթացներ (Policy-as-Code, 108-108, հարձակման թեստեր), գիտակցված փոխզիջումներ ճշգրտության և մասնագիտության միջև և անընդհատ։ IGaming-ում հաղթում են նրանք, ովքեր կարող են մեծացնել վերլուծությունը և AI-ը, առանց բացահայտելու ավելորդ և պահպանելու խաղացողների, գործընկերների և կարգավորիչների վստահությունը։
Արդյունքը