Segmentacja danych
Segmentacja danych
Segmentacja to podział wielu obiektów (użytkowników, transakcji, produktów, wydarzeń) na jednorodne grupy do celów ukierunkowania, personalizacji, analizy i zarządzania ryzykiem. Dobra segmentacja zwiększa marże, zmniejsza koszty i sprawia, że decyzje są wyraźne.
1) Cele i cele
Marketing i wzrost: spersonalizowane oferty, częstotliwość kontaktów, polityka antyspamowa.
Monetyzacja: dyskryminacja cen, pakiety, usługa VIP.
Ryzyko i zgodność: poziomy kontroli, wyzwalacze KYC/AML, punktacja podejrzanych wzorów.
Produkt i doświadczenie: na pokładzie skrypty, treść/zalecenia gry, ograniczenia dynamiczne.
Operacje: priorytetowe określenie wsparcia, podział limitów i kwot.
Formułujemy jednostkę segmentacji (użytkownik/sesja/handlowiec), horyzont (7/30/90 dni), częstotliwość konwersji (online/daily/weekly) i docelowe KPI.
2) Taksonomia segmentu
Demografia/geo: kraj, język, platforma.
Zachowanie: aktywność, częstotliwość, głębokość, pora dnia, ulubione kategorie.
Wartość oparta: ARPU/ARPPU, kwantyle LTV, marginalność.
Etap: na pokładzie, dojrzałe, „spanie”, powrócił.
RFM: Recency, Frequency, Monetary with bins/quantiles.
Kohorta: według daty rejestracji/pierwszej płatności/źródła.
Segmenty ryzyka: ryzyko obciążenia zwrotnego, ryzyko nadużycia premii, nieprawidłowa aktywność.
Cykl życia: skłonność do kościoła, skłonność do kupowania, następna najlepsza akcja.
Kontekst: reguły dotyczące urządzenia/kanału/regionu.
3) Dane i przygotowanie
Poprawność punktu w czasie: znaki liczone są z dostępnej „przeszłości”.
Agregaty według okna: 7/30/90-dniowe sumy/częstotliwości/kwantyle.
Normalizacja: skalowanie robastów (mediana/MAD), przemiany logarytmiczne dla długich ogonów.
Kategorie: hot/target/hash; kontrola wartości „rzadkich”.
Jakość: pominięcia, duplikaty, dryfowanie obwodów, synchronizacja stref czasowych.
Semantyka: wyraźne zasady działalności (na przykład depozyt ≥ 1) przed segmentacją ML.
4) Metody segmentacji
4. 1. Zasady i progi w bieli
Proste warunki: „VIP jeśli LTV ≥ X i częstotliwość ≥ Y.”
Plusy: zrozumiałe, szybko wdrożone jako polityka.
Minusy: kruchość podczas dryfowania, złożoność wsparcia, gdy rośnie liczba reguł.
4. 2. Klastrowanie (bez nadzoru)
k-means/k-medoidy: szybki punkt odniesienia dla cech liczbowych.
GMM: akcesoria miękkie, segmenty probabilistyczne.
HDBSCAN/DBSCAN: klastry wolnej formy + „hałas” jako anomalie.
Widmo/EM na typy mieszane: dla geometrii złożonych.
Uczenie się funkcji → klaster: najpierw osadzanie (autoencoder/transformator), a następnie klastrowanie w utajonej przestrzeni.
4. 3. Segmentacja nadzorcza (ukierunkowana na cele)
Trenujemy model na docelowym KPI (na przykład LTV/ryzyko), i budować segmenty zgodnie z kwantylami prognozowania, profile SHAP i drzewa decyzji.
Plusy: segmenty są „związane” z celem biznesowym, łatwo jest sprawdzić wzrost.
Minusy: ryzyko „dopasowania”; konieczna jest rygorystyczna walidacja.
4. 4. Motywy i zasady częstotliwości
Matryce RFM, zasady asocjacyjne (wsparcie/podnoszenie), częste sekwencje (PrefixSpan) - szczególnie dla nawigacji produktów i pakietów.
4. 5. Segmenty wykresu/sieci
społeczności komunikacyjne (urządzenia, metody płatności, polecenia); GNN wzbogacić cechy.
5) Wybór podejścia: szybka matryca
6) Ocena jakości segmentacji
Wskaźniki wewnętrzne (brak odniesienia):- Sylwetka/Davies-Bouldin/Calinski-Harabasz: zwartość i rozdzielność.
- Stabilność: Jaccard/ARI pomiędzy restarts/bootstraps.
- Informatyczność: zmienność międzysegmentowa kluczowych cech.
- Jednorodność według KPI: różnice w LTV/konwersji/ryzyku między segmentami.
- Czynność: odsetek segmentów, dla których reakcja na interwencje różni się.
- Uplift/A/B: segment ukierunkowany na zysk vs total targeting.
- Zasięg:% użytkowników w segmentach „na żywo” (nie tylko „hałas”).
7) Walidacja i solidność
CV czasowe: sprawdzanie stabilności segmentów w czasie (okna toczące).
Walidacja grupy: nie mieszać użytkowników/urządzeń pomiędzy pociągiem/val.
Replikacja - Uruchom na sąsiednich rynkach/kanałach.
Drift: PSI/JS-wg funkcji i dystrybucji segmentu; progi dotyczące wpisów.
Stabilne strony/inicjalizacja: do porównania wersji segmentacji.
8) Wykładnia
Paszporty segmentu: opis zasad/centroidów, kluczowe funkcje (top-SHAP/permutacja), portret publiczności, profil KPI.
Wizualizacja: UMAP/t-SNE z kolorami segmentów, „kratka” metryk według segmentów.
Zasady aktywacji: ludzkie zakładki („High-Value Infrequent”, „Risky Newcomers”).
9) Realizacja operacyjna
Fichestor: jednolite funkcje obliczania funkcji online/offline.
Rescoring: SLA i częstotliwość (online przy wjeździe, raz dziennie, na imprezie).
Eksport API/partii: identyfikator użytkownika → segment/prawdopodobieństwo/znaczniki czasu.
Wersioning: 'SEG _ MODEL _ vX', umowa o dane, data zamrożenia zestawu treningowego.
Polityka: dla każdego segmentu - zasady działania (oferta/limity/priorytet wsparcia).
Fail-safe: domyślny segment po degradacji (brak funkcji/czasu).
10) Eksperymenty i podejmowanie decyzji
A/B/n według segmentu: testujemy różne oferty/limity na tej samej siatce segmentu.
Uplift: efekt celowania vs control (Qini/AUUC, uplift @ k).
Alokacja budżetu: rozdzielamy budżet według segmentów według limitów marży/ryzyka.
Poręcze: FPR/FNR dla segmentów ryzyka, szybkości kontaktu i zmęczenia publiczności.
11) Etyka, prywatność, zgodność
Minimalizacja danych: używamy wymaganego minimum, pseudonimizacji.
Sprawiedliwość: porównanie błędów i „sztywności” polityk przez wrażliwe segmenty; wyłączyć chronione atrybuty z reguł lub zastosować korekty uczciwości.
Prawo do wyjaśnienia: Logika przypisania segmentu dokumentu.
Audyt: dziennik wersji, cechy wejściowe, decyzje i wyniki kampanii według segmentów.
12) Wzory artefaktów
Paszport segmentu
Kod/Wersja: „SEG _ HVIF _ v3”
Opis: „Wysoka wartość, rzadka aktywność”
Kryteria/Centrum: 'LTV _ quantile ≥ 0. 9 „,” Rekordowość _ dni „[15,45],” Częstotliwość _ 30d „[1,3]”
Rozmiar/zasięg: 4. 8% użytkowników (ostatnie 30 dni)
Profil KPI: ARPPU α 2. 4 × mediany, Średnia ryzyka kościoła
Zalecenia: oferty miękkiego ponownego zaangażowania, produkty premium cross-sell, limit częstotliwości 1/7d
Ryzyko: nadmierne zniżki → „uzależnienie”
Właściciel: CRM/Monetyzacja
Data/ważność: 2025-10-15; kwartalna rewizja
Umowa segmentacji
Funkcja źródłowa: 'fs. user_activity_v5'
Harmonogram: partia nocna 02:00 UTC; aktualizacja online na temat wydarzenia „zakup”
Usługa: "segmentor. api/v1/score '(p95 ≤ 120 си)
Dzienniki: 'seg _ scoring _ log' (hash funkcji, wersja, prędkość, segment)
Wpisy: udział „NIEZNANY”> 2%; PSI według kluczowych funkcji> 0. 2; brak równowagi segmentu> 10 pp dziennie
13) Lista kontrolna przed zwolnieniem
- Uzgodnione cele oddziaływania segmentacji i KPI
- Zdefiniowano jednostkę, okna i częstotliwość konwersji
- Istnieje scenariusz bazowy (oparty na zasadach) i wariant ML; porównanie podwyżek
- Dokumentacja segmentu + Wizualizacja i zakładki ludzkie
- Tuned A/B, barierki i wpisy dryfujące
- Wersioning, umowy o dane, książeczki incydentów
- Polityki działania w podziale na segmenty i default-fallback
Razem
Segmentacja nie jest „jednorazowym klastrowaniem”, ale pętlą kontrolną: poprawne dane i okna, przezroczyste segmenty, powiązanie z KPI, rygorystyczna walidacja, operacyjne SLO i monitorowanie dryfu. Dodaj złożoność (osadzanie, wykresy, nadzorowanie podejścia) tylko wtedy, gdy daje wymierny wzrost i pozostaje wyjaśnione dla biznesu i zgodności.