Сегментація даних

Сегментація - це поділ безлічі об'єктів (користувачів, транзакцій, продуктів, подій) на однорідні групи для таргетингу, персоніфікації, аналізу та управління ризиками. Хороша сегментація підвищує маржинальність, знижує витрати і робить рішення зрозумілими.

1) Цілі та постановки

Маркетинг і зростання: персоналізовані оффери, частота контактів, анти-спам-політика.
Монетизація: прайс-дискримінація, бандли, VIP-обслуговування.
Ризик і комплаєнс: рівні контролю, тригери KYC/AML, скоринг підозрілих патернів.
Продукт і досвід: онбординг за сценаріями, рекомендації контенту/ігор, динамічні ліміти.
Операції: пріоритизація підтримки, розподіл лімітів і квот.

Формулюємо одиницю сегментації (користувач/сесія/мерчант), горизонт (7/30/90 днів), частоту перерахунку (онлайн/щодня/щотижня) і цільові KPI.

2) Таксономія сегментів

Демографія/гео: країна, мова, платформа.
Поведінкові: активність, частота, глибина, час доби, улюблені категорії.
Ціннісні (value-based): ARPU/ARPPU, LTV-квантилі, маржинальність.
Стадійні: онбординг, зрілі, «сплячі», повернені.
RFM: Recency, Frequency, Monetary з бінами/квантилями.
Когортні: за датою реєстрації/першої оплати/джерелом.
Ризик-сегменти: chargeback-risk, bonus-abuse-risk, аномальна активність.
Життєвий цикл: propensity-to-churn, propensity-to-buy, next-best-action.
Контекстні: пристрій/канал/регіональні правила.

3) Дані та підготовка

Point-in-time коректність: ознаки вважаються з доступного «минулого».
Агрегати по вікнах: 7/30/90-денні суми/частоти/квантилі.
Нормалізація: робаст-скейлінг (median/MAD), лог-перетворення для довгих хвостів.
Категорії: one-hot/target/hash; контроль «рідкісних» значень.
Якість: пропуски, дублікати, дрейф схем, синхронізація часових зон.
Семантика: явні бізнес-правила (наприклад, ≥1 депозиту) до ML-сегментації.

4) Методи сегментації

4. 1. Правила і пороги (white-box)

Прості умови: «VIP, якщо LTV ≥ X і частота ≥ Y».
Плюси: зрозуміло, швидко впроваджується як політика.
Мінуси: крихкість при дрейфі, складність підтримки при зростанні числа правил.

4. 2. Кластеризація (unsupervised)

k-means/k-medoids: швидкий бейзлайн на числових фічах.
GMM: м'які приналежності, ймовірнісні сегменти.
HDBSCAN/DBSCAN: кластери довільної форми + «шум» як аномалії.
Спектральні/ЕМ на змішаних типах: для складних геометрій.
Feature learning → cluster: спочатку ембеддинги (autoencoder/transformer), потім кластеризація в латентному просторі.

4. 3. Супервайз-сегментація (target-driven)

Навчаємо модель на цільовому KPI (наприклад, LTV/ризик), а сегменти будуємо за квантилями передбачень, SHAP-профілями і деревами рішень.
Плюси: сегменти «прив'язані» до бізнес-мети, легко перевіряти uplift.
Мінуси: ризик «підгонки»; потрібна сувора валідація.

4. 4. Частотні мотиви і правила

RFM-матриці, асоціативні правила (support/lift), часті послідовності (PrefixSpan) - особливо для продуктової навігації і бандлів.

4. 5. Графові/мережеві сегменти

Співтовариства по зв'язках (пристрої, платіжні методи, реферали); GNN для збагачення ознак.

5) Вибір підходу: Швидка матриця

Ситуація	Дані	Рекомендація
Потрібна керована політика	Табличні + бізнес-правила	Rule-based + періодична ревізія
Пошук «природних» груп	Багато числових фіч	k-means/GMM, потім описуємо кластери
Сильна нелінійність	Змішані/висока розмірність	Ембеддинги → HDBSCAN
Прямий таргет (LTV/ризик)	Є мітки/таргет	Супервайз-сегментація за передбаченням
Мережі/зв'язки	Граф	Ком'юніті-детекція + графові ознаки

6) Оцінка якості сегментації

Внутрішні метрики (без еталона):

Silhouette / Davies–Bouldin / Calinski–Harabasz: компактність і подільність.
Стабільність: Jaccard/ARI між перезапусками/бутстрепом.
Інформативність: міжсегментна дисперсія ключових фіч.

Зовнішні/бізнес-метрики:

Гомогенність по KPI: відмінності в LTV/конверсії/ризик між сегментами.
Actionability: частка сегментів, за якими розрізняється відгук на інтервенції.
Uplift/A/B: приріст при сегментному таргетингу vs загальний таргетинг.
Охоплення: % користувачів в «дійсних» сегментах (не тільки «шум»).

7) Валідація і стійкість

Temporal CV: перевірка стабільності сегментів за часом (rolling вікна).
Групова валідація: не змішувати користувачів/пристрої між train/val.
Реплікація: запуск на сусідніх ринках/каналах.
Дрейф: PSI/JS-div за фічами та розподілом сегментів; пороги на алерти.
Стабільні сиди/ініціалізація: щоб порівнювати версії сегментації.

8) Інтерпретованість

Паспорти сегментів: опис правил/центроїдів, ключові фічі (top-SHAP/permutation), портрет аудиторії, KPI-профіль.
Візуалізація: UMAP/t-SNE з кольорами сегментів, «решітка» метрик по сегментах.
Правила для активації: людські лейбли («High-Value Infrequent», «Risky Newcomers»).

9) Операційне впровадження

Фічестор: єдині функції розрахунку ознак онлайн/офлайн.
Рескоринг: SLA і частота (онлайн при вході, раз на добу, при події).
API/батч-експорт: ID користувача → сегмент/ймовірність/мітки часу.
Версіонування: 'SEG _ MODEL _ vX', контракт даних, дата «заморозки» навчальної вибірки.
Політики: для кожного сегмента - правила дії (оффер/ліміти/пріоритет підтримки).
Fail-safe: дефолтний сегмент при деградації (немає фіч/таймаути).

10) Експерименти та прийняття рішень

A/B/n за сегментами: тестуємо різні офери/ліміти на одній і тій же сітці сегментів.
Uplift-оцінка: ефект таргетингу vs контроль (Qini/AUUC, uplift @k).
Budget allocation: розподіляємо бюджет за сегментами за маржинальністю/ризик-лімітами.
Guardrails: FPR/FNR для ризик-сегментів, частота контактів і втома аудиторії.

11) Етика, приватність, комплаєнс

Мінімізація даних: використовуємо необхідний мінімум, псевдонімізація.
Справедливість: порівнюємо помилки і «жорсткість» політик за чутливими сегментами; виключаємо Protected Attributes з правил, або застосовуємо fairness-корекції.
Право на пояснення: документуємо логіку присвоєння сегмента.
Аудит: лог версій, вхідних фіч, рішень і результатів кампаній по сегментах.

12) Шаблони артефактів

Паспорт сегмента

Код/версія: `SEG_HVIF_v3`

Опис: «Висока цінність, рідкісна активність»

Критерії/центр: `LTV_quantile ≥ 0. 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Розмір/охоплення: 4. 8% користувачів (останні 30 днів)

Профіль KPI: ARPPU ↑ 2. 4 × від медіани, Churn-risk середній

Рекомендації: м'які ре-енгейдж-оффери, крос-селл преміум-товарів, ліміт частоти 1/7д

Ризики: надлишкові знижки → «звикання»

Власник: CRM/Monetization

Дата/валідність: 2025-10-15; перегляд раз на квартал

Контракт сегментації

Джерело фіч: `fs. user_activity_v5`

Розклад: нічний батч 02:00 UTC; онлайн-апдейт при події'purchase '

Сервіс: `segmentor. api/v1/score` (p95 ≤ 120 мс)

Логи: 'seg _ scoring _ log'( фічі-хеш, версія, скор, сегмент)

Алерти: частка «UNKNOWN»> 2%; PSI за ключовими фічами> 0. 2; дисбаланс сегментів> 10 п.п. за добу

13) Чек-лист перед релізом

Узгоджені цілі і KPI впливу сегментації
Визначено одиницю, вікна та частоту перерахунку
Є бейзлайн (rule-based) і ML-варіант; порівняння uplift
Документація сегментів + візуалізації та людські лейбли
Налаштовані A/B, guardrails і алерти дрейфу
Версіонування, контракти даних, рунібуки на інциденти
Політики дій по кожному сегменту і default-fallback

Підсумок

Сегментація - це не «разова кластеризація», а контур управління: коректні дані та вікна, прозорі сегменти, зв'язка з KPI, сувора валідація, операційні SLO і моніторинг дрейфу. Додавайте складність (ембеддинги, графи, супервайз-підхід) тільки там, де це дає вимірний uplift і залишається зрозумілим для бізнесу і комплаєнсу.

Сегментація даних