Poufne uczenie maszynowe

1) Istota i cele

MLs chroniące prywatność to podejścia, które pozwalają trenować i korzystać z modeli, minimalizując dostęp do danych źródłowych i ograniczając wycieki o konkretnych użytkownikach. Dla iGaming jest to szczególnie ważne ze względu na dane PII/finansowe, regulacje (KYC/AML, RG), integracje partnerskie (dostawcy gier, dostawcy usług płatniczych), a także wymogi transgraniczne.

Główne cele:

Zmniejszenie ryzyka wycieków i kar regulacyjnych.
Umożliwienie współpracy między markami/rynkami bez dzielenia się surowymi danymi.
Uczynić „cenę prywatności” w ML (metryki, SLO) wyjaśnione i weryfikowalne.

2) Model zagrożenia w ML

Model Inversion-Próby przywrócenia oryginalnych przykładów/atrybutów z modelu.
Wniosek o członkostwo: ustalenie, czy nagranie było zaangażowane w szkolenie.
Wyciek danych w rurociągu: dzienniki/fichestery, pliki tymczasowe, migawki.
Ataki proxy/Linkage: klejenie anonimizowanych danych do zewnętrznych źródeł.
Ryzyko Insider/Partner: zbędne uprawnienia w dostępach/dziennikach.

3) Narzędzia i podejścia PPMl

3. 1 Prywatność różnicowa (DP)

Pomysł: dodanie kontrolowanego hałasu w celu zapewnienia, że wkład jednego podmiotu jest „nie do odróżnienia”.
Gdzie stosować: agregacje, gradienty uczenia się (DP-SGD), raporty/deski rozdzielcze, statystyki publikacji.
Parametry: (Epsilon) - „budżet prywatności”, - prawdopodobieństwo „porażki”.
Negocjacje są odpowiednie: więcej hałasu → więcej prywatności, niższa dokładność; Planowanie budżetu dla modelu cyklu życia.

3. 2 Fed Learning (FL)

Idea: model trafia do danych, a nie na odwrót; gradienty/masy są zagregowane, a nie rekordy surowe.
Opcje: cross-device (wielu klientów, słabe węzły), cross-silo (kilka niezawodnych organizacji/marek).
Wzmacniacze bezpieczeństwa: Bezpieczna agregacja, DP nad FL, odporność na niską jakość/złośliwe klientów (bizantyjsko-solidne).

3. 3 Bezpieczne obliczenia

MPC (Secure Multi-Party Computation) - wspólne obliczenia bez otwierania wejść do siebie.
HE (Szyfrowanie homomorficzne): obliczenia nad zaszyfrowanymi danymi; drogie, ale przydatne do zadań punktowych (punktacja/wnioskowanie).
TEE/Confidential Computing: zaufane środowiska wykonywalne (enklawa), kod i izolacja danych na poziomie HW.

3. 4 Opcjonalnie

Wiedza bez ujawniania (ZKP): udowodnić prawidłowość bez ujawniania danych (przypadki niszowe).
Pseudonimizacja/anonimizacja: przed treningiem; ponownej identyfikacji kontroli ryzyka.
Private Set Intersection (PSI): skrzyżowanie zestawów (listy oszustw/sankcji) bez ujawniania całego zestawu.

4) Wzory architektury dla iGaming

4. 1 Linie funkcji prywatnych

PII jest oddzielony od wydarzeń telemetrycznych; klawisze - poprzez tokenizację/solone hashing.
Fichestor z poziomami dostępu: surowy (ograniczony), pochodny (poufny), agregaty (wewnętrzny).
agregacje DP w zakresie sprawozdawczości i badań; • kwoty według domeny (marketing/risk/RG).

4. 2 Uczenie się w ramach współpracy

Cross-marka FL: ogólne anty-fraud/RG punktacja dla gospodarstwa → lokalne gradienty, centralna agregacja z Secure Agg.
Wniosek MPC z PSP: ocena ryzyka płatności po stronie PSP i operatora bez wymiany surowych funkcji.

4. 3 Wniosek prywatny

Żądania punktacji dla VIP/wypłat przechodzą przez usługę TEE lub wybraną ocenę submodela HE.
buforowanie tylko zagregowanych wyników; zakaz serializacji karty „surowej”.

5) Procesy i zarządzanie

5. 1 Polityka dotycząca minimalnych danych

Jasny cel przetwarzania, wykaz dopuszczalnych cech, okres trwałości.
PII osobno, dostęp - RBAC/ABAC, Just-in-Time, logowanie.

5. 2 RACI dla PPMl

CDO/DPO - polityka prywatności, DPIA/DEIA, koordynacja środków z budżetu.
ML Lead/Data Owner - wybór technik (DP/FL/MPC/TEE), walidacja jakości.
Bezpieczeństwo/Platforma - klucze/tajemnice, poufne środowiska, audyt.
Stewards - katalog/klasyfikacja, dane, zestaw paszportów.

5. 3 Kontrole przed uwolnieniem

DPIA/etyczna ocena wpływu.
Uczciwość + kalibracja grupowa (brak ukrytych pełnomocników).
Prywatność-теста: wniosek o członkostwo, wyciek gradientu, ponowna identyfikacja.

6) Wskaźniki prywatności i SLO

• -budget usage: skumulowane zużycie według modeli/domów.
Ryzyko ponownej identyfikacji: prawdopodobieństwo dezanonimizacji (symulacja/atak-testy).
Atak AUC I: Powodzenie ataków członkostwa/inwersji musi być wielką szansą.
Wskaźnik wycieku: incydenty z rejestrowaniem/migawkami z PII = 0.
Zasięg:% modeli z DP/FL/MPC/TEE, jeśli jest to wymagane.
Opóźnienie/koszt SLO: prywatne obliczenia ogólne <próg docelowy dla ścieżek produkcyjnych.

7) Praktyka domeny iGaming

7. 1 KYC/AML

PSI + MPC za listę sankcji/matchup PEP bez pełnego ujawnienia.
Agregacje DP dla sprawozdawczości dotyczącej wzorca ryzyka.

7. 2 Odpowiedzialne gry (RG)

FL między markami rynkowymi dla wspólnego wykrywacza ryzyka; rygorystyczne przeważanie przez samobójstwo.
Publikacje DP badań RG w celu wykluczenia deanonimizacji przypadków.

7. 3 Środki zapobiegawcze/płatności

TEE do punktacji płatności wysokiego ryzyka; Wynik prawdopodobieństwa obciążenia zwrotnego MPC z PSP.
Audyt kłód wnioskowych: bez porzucania funkcji i PII w torach.

7. 4 Personalizacja/CRM

Agregaty DP do segmentacji „wąskie” funkcje (częstotliwość, gatunki, sesje) bez szczegółowej trajektorii gracza.
Off-device FL dla modeli podobnych do wyglądu przez ziarniste funkcje.

8) Testowanie i weryfikacja prywatności

Wyzwanie związane z wnioskami o członkostwo: publiczny (wewnętrzny) test konkurencyjny wobec modelu.

Testy wycieku gradientu/aktywacji

K-anonimnost/α -diversity/t-closeness: kryteria formalne dla próbek bezosobowych.
Rekordy kanaryjskie: sztuczne zapisy do wykrywania wycieków w dzienniku/modelu.

9) MLOp: od rozwoju do produkcji

Policy-as-Code: linter feature/contracts with PII labels; CI blokuje nieautoryzowane funkcje.
Nauka w zakresie DP w konturach: z kontrolą w CI, raport z amortyzacji budżetu.
Sekrety/KMS: klucze do MPC/HE/TEE, rotacji i podwójnej kontroli.
Obserwacja bez przecieków: maskowanie w logach, pobieranie próbek, wyłączanie PII w śladach.
Rejestr modeli: wersja danych, technika prywatności, data przeglądu, właściciel.

10) Szablony (gotowe do użycia)

10. 1 Prywatna karta modelowa (fragment)

Zadanie/uderzenie: (RG/AML/Antifraud/CRM)

Technika prywatności: (DP α =?, FL, MPC/TEE/HE)

Dane/cechy: (klasy, znaczniki PII, źródła)

Wskaźniki jakości: AUC/PR, kalibracja

Wskaźniki ochrony prywatności: wykorzystanie, AUC ataku, ryzyko ponownego zidentyfikowania

Sekcja uczciwości: Docelowa kalibracja EO/EO +

Ograniczenia: jeżeli model nie ma zastosowania

Środowisko: poufne węzły/klucze/polityka logowania

10. 2 Polityka DP (miniaturka)

Budżety według domeny - marketing ≤ X, ryzyko ≤ Y

• Rachunkowość - sprawozdawczość przyrostowa podczas szkolenia/analizy

Minimalne progi jakości: aby nie „hałas” do zera

Wyjątki: Decyzja DPO/CDO wraz z dokumentem uzasadniającym

10. 3 Lista kontrolna wydania prywatnego

DPIA/etyka uchwalona, właściciele mianowani
PII oddzielone, cechy dozwolone przez politykę
DP/FL/TEE/MPC skonfigurowane i przetestowane
Atak-suite: członkostwo/inwersja
Kłody/szlaki bez PII, zestaw retencji
Dokumenty: wzór karty + dodatek prywatności

11) Plan działania na rzecz realizacji

0-30 dni (MVP)

1. Katalog funkcji oznaczonych znakiem PII; Zakaz PII w logach/śladach.
2. Uwzględnij DP dla kluczowych agregatów i raportów badawczych.
3. Uruchom podstawowe testy ataku (członkostwo/inwersja) i raportowanie.
4. Karty modelowe z parametrami prywatności i właścicieli.

30-90 dni

1. Pilot FL (cross-silo) dla jednego zadania (na przykład RG lub anti-fraud).
2. Poufne środowiska (TEE) do punktacji płatności/VIP.
3. Policy-as-Code: linter funkcji + zamki CI prywatności.
4. Skonfiguruj deski rozdzielcze w zakresie rachunkowości i prywatności.

3-6 miesięcy

1. MPC/PSI w celu dopasowania list sankcji/oszustw do PSP/partnerów.
2. HE/TEE dla scenariuszy prywatnego punktu wnioskowania.
3. Regularna prywatność-pentest ML, płyty kanaryjskie, post-morTematy.
4. zasięg DP/FL na wszystkich modelach o wysokim uderzeniu; roczny audyt.

12) Anty-wzory

„Anonimizacja” bez ponownej oceny ryzyka identyfikacji.
FL bez bezpiecznej agregacji i bez DP - gradienty mogą płynąć.
Wnioski/dzienniki fichestore z PII.
Brak rozliczania raportów na temat ochrony prywatności, a także sprawozdań publicznych (wewnętrznych).
Zerowy plan w przypadku incydentu (brak odtwarzania i komunikacji).

13) Incydent Playbook (krótki)

1. Wykrywanie: sygnał z apartamentu atakującego/monitorowania/reklamacji.
2. Stabilizacja: zatrzymać uwolnienie/model/kampanię, odizolować środowisko.
3. Ocena: skala/typy danych/czas, który jest dotknięty.
4. Komunikacja: gracze/partnerzy/regulator (w razie potrzeby).
5. Łagodzenie: łaty rurociągu, odwołać klucze, wzmocnić DP/polityki.
6. Lekcje: Aktualizacja zasad, testy, zespoły pociągów.

14) Związek z praktykami sąsiednimi

Zarządzanie danymi, pochodzenie danych i ścieżka, etyka danych, zmniejszenie stronniczości, DSAR/prywatność, monitorowanie modelu, dryfowanie danych - podstawa zarządzanej, odpowiedzialnej i możliwej do zweryfikowania prywatności.

Razem

Poufny ML to dyscyplina inżynieryjno-zarządzająca: odpowiednie techniki (DP/FL/MPC/TEE), ścisłe procesy (Policy-as-Code, α-accounting, attack tests), świadome kompromisy między dokładnością a prywatnością oraz stałe monitorowanie. W iGaming, ci, którzy mogą skalować analityki i AI wygrać bez ujawniania zbyt wiele i utrzymania zaufania graczy, partnerów i regulatorów.

Poufne uczenie maszynowe

Razem

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami