Poufne uczenie maszynowe
1) Istota i cele
MLs chroniące prywatność to podejścia, które pozwalają trenować i korzystać z modeli, minimalizując dostęp do danych źródłowych i ograniczając wycieki o konkretnych użytkownikach. Dla iGaming jest to szczególnie ważne ze względu na dane PII/finansowe, regulacje (KYC/AML, RG), integracje partnerskie (dostawcy gier, dostawcy usług płatniczych), a także wymogi transgraniczne.
Główne cele:- Zmniejszenie ryzyka wycieków i kar regulacyjnych.
- Umożliwienie współpracy między markami/rynkami bez dzielenia się surowymi danymi.
- Uczynić „cenę prywatności” w ML (metryki, SLO) wyjaśnione i weryfikowalne.
2) Model zagrożenia w ML
Model Inversion-Próby przywrócenia oryginalnych przykładów/atrybutów z modelu.
Wniosek o członkostwo: ustalenie, czy nagranie było zaangażowane w szkolenie.
Wyciek danych w rurociągu: dzienniki/fichestery, pliki tymczasowe, migawki.
Ataki proxy/Linkage: klejenie anonimizowanych danych do zewnętrznych źródeł.
Ryzyko Insider/Partner: zbędne uprawnienia w dostępach/dziennikach.
3) Narzędzia i podejścia PPMl
3. 1 Prywatność różnicowa (DP)
Pomysł: dodanie kontrolowanego hałasu w celu zapewnienia, że wkład jednego podmiotu jest „nie do odróżnienia”.
Gdzie stosować: agregacje, gradienty uczenia się (DP-SGD), raporty/deski rozdzielcze, statystyki publikacji.
Parametry: (Epsilon) - „budżet prywatności”, - prawdopodobieństwo „porażki”.
Negocjacje są odpowiednie: więcej hałasu → więcej prywatności, niższa dokładność; Planowanie budżetu dla modelu cyklu życia.
3. 2 Fed Learning (FL)
Idea: model trafia do danych, a nie na odwrót; gradienty/masy są zagregowane, a nie rekordy surowe.
Opcje: cross-device (wielu klientów, słabe węzły), cross-silo (kilka niezawodnych organizacji/marek).
Wzmacniacze bezpieczeństwa: Bezpieczna agregacja, DP nad FL, odporność na niską jakość/złośliwe klientów (bizantyjsko-solidne).
3. 3 Bezpieczne obliczenia
MPC (Secure Multi-Party Computation) - wspólne obliczenia bez otwierania wejść do siebie.
HE (Szyfrowanie homomorficzne): obliczenia nad zaszyfrowanymi danymi; drogie, ale przydatne do zadań punktowych (punktacja/wnioskowanie).
TEE/Confidential Computing: zaufane środowiska wykonywalne (enklawa), kod i izolacja danych na poziomie HW.
3. 4 Opcjonalnie
Wiedza bez ujawniania (ZKP): udowodnić prawidłowość bez ujawniania danych (przypadki niszowe).
Pseudonimizacja/anonimizacja: przed treningiem; ponownej identyfikacji kontroli ryzyka.
Private Set Intersection (PSI): skrzyżowanie zestawów (listy oszustw/sankcji) bez ujawniania całego zestawu.
4) Wzory architektury dla iGaming
4. 1 Linie funkcji prywatnych
PII jest oddzielony od wydarzeń telemetrycznych; klawisze - poprzez tokenizację/solone hashing.
Fichestor z poziomami dostępu: surowy (ograniczony), pochodny (poufny), agregaty (wewnętrzny).
agregacje DP w zakresie sprawozdawczości i badań; • kwoty według domeny (marketing/risk/RG).
4. 2 Uczenie się w ramach współpracy
Cross-marka FL: ogólne anty-fraud/RG punktacja dla gospodarstwa → lokalne gradienty, centralna agregacja z Secure Agg.
Wniosek MPC z PSP: ocena ryzyka płatności po stronie PSP i operatora bez wymiany surowych funkcji.
4. 3 Wniosek prywatny
Żądania punktacji dla VIP/wypłat przechodzą przez usługę TEE lub wybraną ocenę submodela HE.
buforowanie tylko zagregowanych wyników; zakaz serializacji karty „surowej”.
5) Procesy i zarządzanie
5. 1 Polityka dotycząca minimalnych danych
Jasny cel przetwarzania, wykaz dopuszczalnych cech, okres trwałości.
PII osobno, dostęp - RBAC/ABAC, Just-in-Time, logowanie.
5. 2 RACI dla PPMl
CDO/DPO - polityka prywatności, DPIA/DEIA, koordynacja środków z budżetu.
ML Lead/Data Owner - wybór technik (DP/FL/MPC/TEE), walidacja jakości.
Bezpieczeństwo/Platforma - klucze/tajemnice, poufne środowiska, audyt.
Stewards - katalog/klasyfikacja, dane, zestaw paszportów.
5. 3 Kontrole przed uwolnieniem
DPIA/etyczna ocena wpływu.
Uczciwość + kalibracja grupowa (brak ukrytych pełnomocników).
Prywatność-теста: wniosek o członkostwo, wyciek gradientu, ponowna identyfikacja.
6) Wskaźniki prywatności i SLO
• -budget usage: skumulowane zużycie według modeli/domów.
Ryzyko ponownej identyfikacji: prawdopodobieństwo dezanonimizacji (symulacja/atak-testy).
Atak AUC I: Powodzenie ataków członkostwa/inwersji musi być wielką szansą.
Wskaźnik wycieku: incydenty z rejestrowaniem/migawkami z PII = 0.
Zasięg:% modeli z DP/FL/MPC/TEE, jeśli jest to wymagane.
Opóźnienie/koszt SLO: prywatne obliczenia ogólne <próg docelowy dla ścieżek produkcyjnych.
7) Praktyka domeny iGaming
7. 1 KYC/AML
PSI + MPC za listę sankcji/matchup PEP bez pełnego ujawnienia.
Agregacje DP dla sprawozdawczości dotyczącej wzorca ryzyka.
7. 2 Odpowiedzialne gry (RG)
FL między markami rynkowymi dla wspólnego wykrywacza ryzyka; rygorystyczne przeważanie przez samobójstwo.
Publikacje DP badań RG w celu wykluczenia deanonimizacji przypadków.
7. 3 Środki zapobiegawcze/płatności
TEE do punktacji płatności wysokiego ryzyka; Wynik prawdopodobieństwa obciążenia zwrotnego MPC z PSP.
Audyt kłód wnioskowych: bez porzucania funkcji i PII w torach.
7. 4 Personalizacja/CRM
Agregaty DP do segmentacji „wąskie” funkcje (częstotliwość, gatunki, sesje) bez szczegółowej trajektorii gracza.
Off-device FL dla modeli podobnych do wyglądu przez ziarniste funkcje.
8) Testowanie i weryfikacja prywatności
Wyzwanie związane z wnioskami o członkostwo: publiczny (wewnętrzny) test konkurencyjny wobec modelu.
Testy wycieku gradientu/aktywacji
K-anonimnost/α -diversity/t-closeness: kryteria formalne dla próbek bezosobowych.
Rekordy kanaryjskie: sztuczne zapisy do wykrywania wycieków w dzienniku/modelu.
9) MLOp: od rozwoju do produkcji
Policy-as-Code: linter feature/contracts with PII labels; CI blokuje nieautoryzowane funkcje.
Nauka w zakresie DP w konturach: z kontrolą w CI, raport z amortyzacji budżetu.
Sekrety/KMS: klucze do MPC/HE/TEE, rotacji i podwójnej kontroli.
Obserwacja bez przecieków: maskowanie w logach, pobieranie próbek, wyłączanie PII w śladach.
Rejestr modeli: wersja danych, technika prywatności, data przeglądu, właściciel.
10) Szablony (gotowe do użycia)
10. 1 Prywatna karta modelowa (fragment)
Zadanie/uderzenie: (RG/AML/Antifraud/CRM)
Technika prywatności: (DP α =?, FL, MPC/TEE/HE)
Dane/cechy: (klasy, znaczniki PII, źródła)
Wskaźniki jakości: AUC/PR, kalibracja
Wskaźniki ochrony prywatności: wykorzystanie, AUC ataku, ryzyko ponownego zidentyfikowania
Sekcja uczciwości: Docelowa kalibracja EO/EO +
Ograniczenia: jeżeli model nie ma zastosowania
Środowisko: poufne węzły/klucze/polityka logowania
10. 2 Polityka DP (miniaturka)
Budżety według domeny - marketing ≤ X, ryzyko ≤ Y
• Rachunkowość - sprawozdawczość przyrostowa podczas szkolenia/analizy
Minimalne progi jakości: aby nie „hałas” do zera
Wyjątki: Decyzja DPO/CDO wraz z dokumentem uzasadniającym
10. 3 Lista kontrolna wydania prywatnego
- DPIA/etyka uchwalona, właściciele mianowani
- PII oddzielone, cechy dozwolone przez politykę
- DP/FL/TEE/MPC skonfigurowane i przetestowane
- Atak-suite: członkostwo/inwersja
- Kłody/szlaki bez PII, zestaw retencji
- Dokumenty: wzór karty + dodatek prywatności
11) Plan działania na rzecz realizacji
0-30 dni (MVP)
1. Katalog funkcji oznaczonych znakiem PII; Zakaz PII w logach/śladach.
2. Uwzględnij DP dla kluczowych agregatów i raportów badawczych.
3. Uruchom podstawowe testy ataku (członkostwo/inwersja) i raportowanie.
4. Karty modelowe z parametrami prywatności i właścicieli.
30-90 dni
1. Pilot FL (cross-silo) dla jednego zadania (na przykład RG lub anti-fraud).
2. Poufne środowiska (TEE) do punktacji płatności/VIP.
3. Policy-as-Code: linter funkcji + zamki CI prywatności.
4. Skonfiguruj deski rozdzielcze w zakresie rachunkowości i prywatności.
3-6 miesięcy
1. MPC/PSI w celu dopasowania list sankcji/oszustw do PSP/partnerów.
2. HE/TEE dla scenariuszy prywatnego punktu wnioskowania.
3. Regularna prywatność-pentest ML, płyty kanaryjskie, post-morTematy.
4. zasięg DP/FL na wszystkich modelach o wysokim uderzeniu; roczny audyt.
12) Anty-wzory
„Anonimizacja” bez ponownej oceny ryzyka identyfikacji.
FL bez bezpiecznej agregacji i bez DP - gradienty mogą płynąć.
Wnioski/dzienniki fichestore z PII.
Brak rozliczania raportów na temat ochrony prywatności, a także sprawozdań publicznych (wewnętrznych).
Zerowy plan w przypadku incydentu (brak odtwarzania i komunikacji).
13) Incydent Playbook (krótki)
1. Wykrywanie: sygnał z apartamentu atakującego/monitorowania/reklamacji.
2. Stabilizacja: zatrzymać uwolnienie/model/kampanię, odizolować środowisko.
3. Ocena: skala/typy danych/czas, który jest dotknięty.
4. Komunikacja: gracze/partnerzy/regulator (w razie potrzeby).
5. Łagodzenie: łaty rurociągu, odwołać klucze, wzmocnić DP/polityki.
6. Lekcje: Aktualizacja zasad, testy, zespoły pociągów.
14) Związek z praktykami sąsiednimi
Zarządzanie danymi, pochodzenie danych i ścieżka, etyka danych, zmniejszenie stronniczości, DSAR/prywatność, monitorowanie modelu, dryfowanie danych - podstawa zarządzanej, odpowiedzialnej i możliwej do zweryfikowania prywatności.
Razem
Poufny ML to dyscyplina inżynieryjno-zarządzająca: odpowiednie techniki (DP/FL/MPC/TEE), ścisłe procesy (Policy-as-Code, α-accounting, attack tests), świadome kompromisy między dokładnością a prywatnością oraz stałe monitorowanie. W iGaming, ci, którzy mogą skalować analityki i AI wygrać bez ujawniania zbyt wiele i utrzymania zaufania graczy, partnerów i regulatorów.