Segmentacja danych

Segmentacja to podział wielu obiektów (użytkowników, transakcji, produktów, wydarzeń) na jednorodne grupy do celów ukierunkowania, personalizacji, analizy i zarządzania ryzykiem. Dobra segmentacja zwiększa marże, zmniejsza koszty i sprawia, że decyzje są wyraźne.

1) Cele i cele

Marketing i wzrost: spersonalizowane oferty, częstotliwość kontaktów, polityka antyspamowa.
Monetyzacja: dyskryminacja cen, pakiety, usługa VIP.
Ryzyko i zgodność: poziomy kontroli, wyzwalacze KYC/AML, punktacja podejrzanych wzorów.
Produkt i doświadczenie: na pokładzie skrypty, treść/zalecenia gry, ograniczenia dynamiczne.
Operacje: priorytetowe określenie wsparcia, podział limitów i kwot.

Formułujemy jednostkę segmentacji (użytkownik/sesja/handlowiec), horyzont (7/30/90 dni), częstotliwość konwersji (online/daily/weekly) i docelowe KPI.

2) Taksonomia segmentu

Demografia/geo: kraj, język, platforma.
Zachowanie: aktywność, częstotliwość, głębokość, pora dnia, ulubione kategorie.
Wartość oparta: ARPU/ARPPU, kwantyle LTV, marginalność.
Etap: na pokładzie, dojrzałe, „spanie”, powrócił.
RFM: Recency, Frequency, Monetary with bins/quantiles.
Kohorta: według daty rejestracji/pierwszej płatności/źródła.
Segmenty ryzyka: ryzyko obciążenia zwrotnego, ryzyko nadużycia premii, nieprawidłowa aktywność.
Cykl życia: skłonność do kościoła, skłonność do kupowania, następna najlepsza akcja.
Kontekst: reguły dotyczące urządzenia/kanału/regionu.

3) Dane i przygotowanie

Poprawność punktu w czasie: znaki liczone są z dostępnej „przeszłości”.
Agregaty według okna: 7/30/90-dniowe sumy/częstotliwości/kwantyle.
Normalizacja: skalowanie robastów (mediana/MAD), przemiany logarytmiczne dla długich ogonów.
Kategorie: hot/target/hash; kontrola wartości „rzadkich”.
Jakość: pominięcia, duplikaty, dryfowanie obwodów, synchronizacja stref czasowych.
Semantyka: wyraźne zasady działalności (na przykład depozyt ≥ 1) przed segmentacją ML.

4) Metody segmentacji

4. 1. Zasady i progi w bieli

Proste warunki: „VIP jeśli LTV ≥ X i częstotliwość ≥ Y.”

Plusy: zrozumiałe, szybko wdrożone jako polityka.
Minusy: kruchość podczas dryfowania, złożoność wsparcia, gdy rośnie liczba reguł.

4. 2. Klastrowanie (bez nadzoru)

k-means/k-medoidy: szybki punkt odniesienia dla cech liczbowych.
GMM: akcesoria miękkie, segmenty probabilistyczne.
HDBSCAN/DBSCAN: klastry wolnej formy + „hałas” jako anomalie.
Widmo/EM na typy mieszane: dla geometrii złożonych.
Uczenie się funkcji → klaster: najpierw osadzanie (autoencoder/transformator), a następnie klastrowanie w utajonej przestrzeni.

4. 3. Segmentacja nadzorcza (ukierunkowana na cele)

Trenujemy model na docelowym KPI (na przykład LTV/ryzyko), i budować segmenty zgodnie z kwantylami prognozowania, profile SHAP i drzewa decyzji.
Plusy: segmenty są „związane” z celem biznesowym, łatwo jest sprawdzić wzrost.
Minusy: ryzyko „dopasowania”; konieczna jest rygorystyczna walidacja.

4. 4. Motywy i zasady częstotliwości

Matryce RFM, zasady asocjacyjne (wsparcie/podnoszenie), częste sekwencje (PrefixSpan) - szczególnie dla nawigacji produktów i pakietów.

4. 5. Segmenty wykresu/sieci

społeczności komunikacyjne (urządzenia, metody płatności, polecenia); GNN wzbogacić cechy.

5) Wybór podejścia: szybka matryca

Sytuacja	Dane	Zalecenie
Potrzeba polityki zarządzanej	Tabela + Zasady działalności	Zasada + przegląd okresowy
Szukaj „naturalnych” grup	Wiele funkcji numerycznych	k-means/GMM, następnie opisać klastry
Silna nieliniowość	Mieszany/wysoki wymiar	Osadzenia → HDBSCAN
Cel bezpośredni (LTV/ryzyko)	Istnieją znaczniki/cel	Nadzorowanie segmentacji prognoz
Sieci/Komunikacja	Liczba	Wykres detekcji Wspólnoty + cechy wykresu

6) Ocena jakości segmentacji

Wskaźniki wewnętrzne (brak odniesienia):

Sylwetka/Davies-Bouldin/Calinski-Harabasz: zwartość i rozdzielność.
Stabilność: Jaccard/ARI pomiędzy restarts/bootstraps.
Informatyczność: zmienność międzysegmentowa kluczowych cech.

Zewnętrzne/Business Metrics:

Jednorodność według KPI: różnice w LTV/konwersji/ryzyku między segmentami.
Czynność: odsetek segmentów, dla których reakcja na interwencje różni się.
Uplift/A/B: segment ukierunkowany na zysk vs total targeting.
Zasięg:% użytkowników w segmentach „na żywo” (nie tylko „hałas”).

7) Walidacja i solidność

CV czasowe: sprawdzanie stabilności segmentów w czasie (okna toczące).
Walidacja grupy: nie mieszać użytkowników/urządzeń pomiędzy pociągiem/val.
Replikacja - Uruchom na sąsiednich rynkach/kanałach.
Drift: PSI/JS-wg funkcji i dystrybucji segmentu; progi dotyczące wpisów.
Stabilne strony/inicjalizacja: do porównania wersji segmentacji.

8) Wykładnia

Paszporty segmentu: opis zasad/centroidów, kluczowe funkcje (top-SHAP/permutacja), portret publiczności, profil KPI.
Wizualizacja: UMAP/t-SNE z kolorami segmentów, „kratka” metryk według segmentów.
Zasady aktywacji: ludzkie zakładki („High-Value Infrequent”, „Risky Newcomers”).

9) Realizacja operacyjna

Fichestor: jednolite funkcje obliczania funkcji online/offline.
Rescoring: SLA i częstotliwość (online przy wjeździe, raz dziennie, na imprezie).
Eksport API/partii: identyfikator użytkownika → segment/prawdopodobieństwo/znaczniki czasu.
Wersioning: 'SEG _ MODEL _ vX', umowa o dane, data zamrożenia zestawu treningowego.
Polityka: dla każdego segmentu - zasady działania (oferta/limity/priorytet wsparcia).
Fail-safe: domyślny segment po degradacji (brak funkcji/czasu).

10) Eksperymenty i podejmowanie decyzji

A/B/n według segmentu: testujemy różne oferty/limity na tej samej siatce segmentu.
Uplift: efekt celowania vs control (Qini/AUUC, uplift @ k).
Alokacja budżetu: rozdzielamy budżet według segmentów według limitów marży/ryzyka.
Poręcze: FPR/FNR dla segmentów ryzyka, szybkości kontaktu i zmęczenia publiczności.

11) Etyka, prywatność, zgodność

Minimalizacja danych: używamy wymaganego minimum, pseudonimizacji.
Sprawiedliwość: porównanie błędów i „sztywności” polityk przez wrażliwe segmenty; wyłączyć chronione atrybuty z reguł lub zastosować korekty uczciwości.
Prawo do wyjaśnienia: Logika przypisania segmentu dokumentu.
Audyt: dziennik wersji, cechy wejściowe, decyzje i wyniki kampanii według segmentów.

12) Wzory artefaktów

Paszport segmentu

Kod/Wersja: „SEG _ HVIF _ v3”

Opis: „Wysoka wartość, rzadka aktywność”

Kryteria/Centrum: 'LTV _ quantile ≥ 0. 9 „,” Rekordowość _ dni „[15,45],” Częstotliwość _ 30d „[1,3]”

Rozmiar/zasięg: 4. 8% użytkowników (ostatnie 30 dni)

Profil KPI: ARPPU α 2. 4 × mediany, Średnia ryzyka kościoła

Zalecenia: oferty miękkiego ponownego zaangażowania, produkty premium cross-sell, limit częstotliwości 1/7d

Ryzyko: nadmierne zniżki → „uzależnienie”

Właściciel: CRM/Monetyzacja

Data/ważność: 2025-10-15; kwartalna rewizja

Umowa segmentacji

Funkcja źródłowa: 'fs. user_activity_v5'

Harmonogram: partia nocna 02:00 UTC; aktualizacja online na temat wydarzenia „zakup”

Usługa: "segmentor. api/v1/score '(p95 ≤ 120 си)

Dzienniki: 'seg _ scoring _ log' (hash funkcji, wersja, prędkość, segment)

Wpisy: udział „NIEZNANY”> 2%; PSI według kluczowych funkcji> 0. 2; brak równowagi segmentu> 10 pp dziennie

13) Lista kontrolna przed zwolnieniem

Uzgodnione cele oddziaływania segmentacji i KPI
Zdefiniowano jednostkę, okna i częstotliwość konwersji
Istnieje scenariusz bazowy (oparty na zasadach) i wariant ML; porównanie podwyżek
Dokumentacja segmentu + Wizualizacja i zakładki ludzkie
Tuned A/B, barierki i wpisy dryfujące
Wersioning, umowy o dane, książeczki incydentów
Polityki działania w podziale na segmenty i default-fallback

Razem

Segmentacja nie jest „jednorazowym klastrowaniem”, ale pętlą kontrolną: poprawne dane i okna, przezroczyste segmenty, powiązanie z KPI, rygorystyczna walidacja, operacyjne SLO i monitorowanie dryfu. Dodaj złożoność (osadzanie, wykresy, nadzorowanie podejścia) tylko wtedy, gdy daje wymierny wzrost i pozostaje wyjaśnione dla biznesu i zgodności.

Segmentacja danych