Сегментація даних
Сегментація даних
Сегментація - це поділ безлічі об'єктів (користувачів, транзакцій, продуктів, подій) на однорідні групи для таргетингу, персоніфікації, аналізу та управління ризиками. Хороша сегментація підвищує маржинальність, знижує витрати і робить рішення зрозумілими.
1) Цілі та постановки
Маркетинг і зростання: персоналізовані оффери, частота контактів, анти-спам-політика.
Монетизація: прайс-дискримінація, бандли, VIP-обслуговування.
Ризик і комплаєнс: рівні контролю, тригери KYC/AML, скоринг підозрілих патернів.
Продукт і досвід: онбординг за сценаріями, рекомендації контенту/ігор, динамічні ліміти.
Операції: пріоритизація підтримки, розподіл лімітів і квот.
Формулюємо одиницю сегментації (користувач/сесія/мерчант), горизонт (7/30/90 днів), частоту перерахунку (онлайн/щодня/щотижня) і цільові KPI.
2) Таксономія сегментів
Демографія/гео: країна, мова, платформа.
Поведінкові: активність, частота, глибина, час доби, улюблені категорії.
Ціннісні (value-based): ARPU/ARPPU, LTV-квантилі, маржинальність.
Стадійні: онбординг, зрілі, «сплячі», повернені.
RFM: Recency, Frequency, Monetary з бінами/квантилями.
Когортні: за датою реєстрації/першої оплати/джерелом.
Ризик-сегменти: chargeback-risk, bonus-abuse-risk, аномальна активність.
Життєвий цикл: propensity-to-churn, propensity-to-buy, next-best-action.
Контекстні: пристрій/канал/регіональні правила.
3) Дані та підготовка
Point-in-time коректність: ознаки вважаються з доступного «минулого».
Агрегати по вікнах: 7/30/90-денні суми/частоти/квантилі.
Нормалізація: робаст-скейлінг (median/MAD), лог-перетворення для довгих хвостів.
Категорії: one-hot/target/hash; контроль «рідкісних» значень.
Якість: пропуски, дублікати, дрейф схем, синхронізація часових зон.
Семантика: явні бізнес-правила (наприклад, ≥1 депозиту) до ML-сегментації.
4) Методи сегментації
4. 1. Правила і пороги (white-box)
Прості умови: «VIP, якщо LTV ≥ X і частота ≥ Y».
Плюси: зрозуміло, швидко впроваджується як політика.
Мінуси: крихкість при дрейфі, складність підтримки при зростанні числа правил.
4. 2. Кластеризація (unsupervised)
k-means/k-medoids: швидкий бейзлайн на числових фічах.
GMM: м'які приналежності, ймовірнісні сегменти.
HDBSCAN/DBSCAN: кластери довільної форми + «шум» як аномалії.
Спектральні/ЕМ на змішаних типах: для складних геометрій.
Feature learning → cluster: спочатку ембеддинги (autoencoder/transformer), потім кластеризація в латентному просторі.
4. 3. Супервайз-сегментація (target-driven)
Навчаємо модель на цільовому KPI (наприклад, LTV/ризик), а сегменти будуємо за квантилями передбачень, SHAP-профілями і деревами рішень.
Плюси: сегменти «прив'язані» до бізнес-мети, легко перевіряти uplift.
Мінуси: ризик «підгонки»; потрібна сувора валідація.
4. 4. Частотні мотиви і правила
RFM-матриці, асоціативні правила (support/lift), часті послідовності (PrefixSpan) - особливо для продуктової навігації і бандлів.
4. 5. Графові/мережеві сегменти
Співтовариства по зв'язках (пристрої, платіжні методи, реферали); GNN для збагачення ознак.
5) Вибір підходу: Швидка матриця
6) Оцінка якості сегментації
Внутрішні метрики (без еталона):- Silhouette / Davies–Bouldin / Calinski–Harabasz: компактність і подільність.
- Стабільність: Jaccard/ARI між перезапусками/бутстрепом.
- Інформативність: міжсегментна дисперсія ключових фіч.
- Гомогенність по KPI: відмінності в LTV/конверсії/ризик між сегментами.
- Actionability: частка сегментів, за якими розрізняється відгук на інтервенції.
- Uplift/A/B: приріст при сегментному таргетингу vs загальний таргетинг.
- Охоплення: % користувачів в «дійсних» сегментах (не тільки «шум»).
7) Валідація і стійкість
Temporal CV: перевірка стабільності сегментів за часом (rolling вікна).
Групова валідація: не змішувати користувачів/пристрої між train/val.
Реплікація: запуск на сусідніх ринках/каналах.
Дрейф: PSI/JS-div за фічами та розподілом сегментів; пороги на алерти.
Стабільні сиди/ініціалізація: щоб порівнювати версії сегментації.
8) Інтерпретованість
Паспорти сегментів: опис правил/центроїдів, ключові фічі (top-SHAP/permutation), портрет аудиторії, KPI-профіль.
Візуалізація: UMAP/t-SNE з кольорами сегментів, «решітка» метрик по сегментах.
Правила для активації: людські лейбли («High-Value Infrequent», «Risky Newcomers»).
9) Операційне впровадження
Фічестор: єдині функції розрахунку ознак онлайн/офлайн.
Рескоринг: SLA і частота (онлайн при вході, раз на добу, при події).
API/батч-експорт: ID користувача → сегмент/ймовірність/мітки часу.
Версіонування: 'SEG _ MODEL _ vX', контракт даних, дата «заморозки» навчальної вибірки.
Політики: для кожного сегмента - правила дії (оффер/ліміти/пріоритет підтримки).
Fail-safe: дефолтний сегмент при деградації (немає фіч/таймаути).
10) Експерименти та прийняття рішень
A/B/n за сегментами: тестуємо різні офери/ліміти на одній і тій же сітці сегментів.
Uplift-оцінка: ефект таргетингу vs контроль (Qini/AUUC, uplift @k).
Budget allocation: розподіляємо бюджет за сегментами за маржинальністю/ризик-лімітами.
Guardrails: FPR/FNR для ризик-сегментів, частота контактів і втома аудиторії.
11) Етика, приватність, комплаєнс
Мінімізація даних: використовуємо необхідний мінімум, псевдонімізація.
Справедливість: порівнюємо помилки і «жорсткість» політик за чутливими сегментами; виключаємо Protected Attributes з правил, або застосовуємо fairness-корекції.
Право на пояснення: документуємо логіку присвоєння сегмента.
Аудит: лог версій, вхідних фіч, рішень і результатів кампаній по сегментах.
12) Шаблони артефактів
Паспорт сегмента
Код/версія: `SEG_HVIF_v3`
Опис: «Висока цінність, рідкісна активність»
Критерії/центр: `LTV_quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`
Розмір/охоплення: 4. 8% користувачів (останні 30 днів)
Профіль KPI: ARPPU ↑ 2. 4 × від медіани, Churn-risk середній
Рекомендації: м'які ре-енгейдж-оффери, крос-селл преміум-товарів, ліміт частоти 1/7д
Ризики: надлишкові знижки → «звикання»
Власник: CRM/Monetization
Дата/валідність: 2025-10-15; перегляд раз на квартал
Контракт сегментації
Джерело фіч: `fs. user_activity_v5`
Розклад: нічний батч 02:00 UTC; онлайн-апдейт при події'purchase '
Сервіс: `segmentor. api/v1/score` (p95 ≤ 120 мс)
Логи: 'seg _ scoring _ log'( фічі-хеш, версія, скор, сегмент)
Алерти: частка «UNKNOWN»> 2%; PSI за ключовими фічами> 0. 2; дисбаланс сегментів> 10 п.п. за добу
13) Чек-лист перед релізом
- Узгоджені цілі і KPI впливу сегментації
- Визначено одиницю, вікна та частоту перерахунку
- Є бейзлайн (rule-based) і ML-варіант; порівняння uplift
- Документація сегментів + візуалізації та людські лейбли
- Налаштовані A/B, guardrails і алерти дрейфу
- Версіонування, контракти даних, рунібуки на інциденти
- Політики дій по кожному сегменту і default-fallback
Підсумок
Сегментація - це не «разова кластеризація», а контур управління: коректні дані та вікна, прозорі сегменти, зв'язка з KPI, сувора валідація, операційні SLO і моніторинг дрейфу. Додавайте складність (ембеддинги, графи, супервайз-підхід) тільки там, де це дає вимірний uplift і залишається зрозумілим для бізнесу і комплаєнсу.