Veri segmentasyonu
Veri segmentasyonu
Segmentasyon, birçok nesnenin (kullanıcılar, işlemler, ürünler, etkinlikler) hedefleme, kişiselleştirme, analiz ve risk yönetimi için homojen gruplara bölünmesidir. İyi segmentasyon marjları artırır, maliyetleri düşürür ve kararları açıklanabilir hale getirir.
1) Amaç ve hedefler
Pazarlama ve büyüme: kişiselleştirilmiş teklifler, iletişim sıklığı, anti-spam politikası.
Para kazanma: fiyat ayrımcılığı, paketler, VIP hizmeti.
Risk ve uyum: kontrol seviyeleri, KYC/AML tetikleyicileri, şüpheli modellerin puanlanması.
Ürün ve deneyim: Senaryolar, içerik/oyun önerileri, dinamik sınırlar.
Operasyonlar: Desteğin önceliklendirilmesi, limitlerin ve kotaların dağılımı.
Segmentasyon birimi (kullanıcı/oturum/tüccar), ufuk (7/30/90 gün), dönüşüm sıklığı (çevrimiçi/günlük/haftalık) ve hedef KPI'ları formüle ediyoruz.
2) Segment taksonomisi
Demografi/coğrafi: ülke, dil, platform.
Davranışsal: aktivite, sıklık, derinlik, günün saati, favori kategoriler.
Değer tabanlı: ARPU/ARPPU, LTV nicemleri, marjinallik.
Aşama: onboarding, olgun, "uyku", geri döndü.
RFM: Sonluk, Frekans, Kutularla/niceliklerle Parasal.
Kohort: kayıt tarihine göre/ilk ödeme/kaynak.
Risk segmentleri: ters ibraz riski, bonus kötüye kullanım riski, anormal aktivite.
Yaşam döngüsü: çalkalanma eğilimi, satın alma eğilimi, bir sonraki en iyi eylem.
Bağlamsal: cihaz/kanal/bölgesel kurallar.
3) Veri ve hazırlık
Zaman içinde doğruluk: işaretler mevcut "geçmiş'ten sayılır.
Pencereye göre kümeler: 7/30/90 günlük toplamlar/frekanslar/nicelikler.
Normalleştirme: robast ölçekleme (medyan/MAD), uzun kuyruklar için günlük dönüşümleri.
Kategoriler: one-hot/target/hash; "Nadir" değerlerin kontrolü.
Kalite: eksiklikler, kopyalar, devrelerin sürüklenmesi, zaman dilimlerinin senkronizasyonu.
Semantik: ML segmentasyonundan önce açık iş kuralları (örneğin, depozito ≥1).
4) Segmentasyon yöntemleri
4. 1. Beyaz kutu kuralları ve eşikleri
Basit koşullar: "LTV ≥ X ise VIP ve Y ≥ frekans".
Artılar: anlaşılabilir, hızla bir politika olarak uygulanır.
Eksileri: Sürüklenirken kırılganlık, kuralların sayısı arttıkça desteğin karmaşıklığı.
4. 2. Kümeleme (denetimsiz)
k-means/k-medoids: Sayısal özellikler üzerinde hızlı temel.
GMM: yumuşak aksesuarlar, olasılıksal segmentler.
HDBSCAN/DBSCAN: Serbest biçimli kümeler + anomali olarak "gürültü".
Karışık tiplerde spektral/EM: karmaşık geometriler için.
Özellik öğrenme - küme: ilk gömme (otomatik kodlayıcı/transformatör), daha sonra gizli alanda kümeleme.
4. 3. Supervise-segmentasyon (hedef odaklı)
Modeli hedef KPI (örneğin, LTV/risk) üzerinde eğitiyoruz ve tahmin niceliklerine, SHAP profillerine ve karar ağaçlarına göre segmentler oluşturuyoruz.
Artıları: segmentler bir iş hedefine "bağlı", yükseltmeyi kontrol etmek kolaydır.
Eksileri: "uyum" riski; Titiz bir doğrulama gereklidir.
4. 4. Frekans motifleri ve kuralları
RFM matrisleri, ilişkilendirme kuralları (destek/kaldırma), sık diziler (PrefixSpan) - özellikle ürün gezinme ve demetler için.
4. 5. Grafik/Ağ Segmentleri
İletişim toplulukları (cihazlar, ödeme yöntemleri, yönlendirmeler); Özellikleri zenginleştirmek için GNN.
5) Yaklaşım seçimi: hızlı matris
6) Segmentasyon kalitesi değerlendirmesi
Dahili metrikler (referans yok):- Siluet/Davies-Bouldin/Calinski-Harabasz: kompaktlık ve ayrılabilirlik.
- Stabilite: Yeniden başlatmalar/önyüklemeler arasında Jaccard/ARI.
- Enformasyon: Temel özelliklerin kesişen varyansı.
- KPI ile homojenlik: Segmentler arasındaki LTV/dönüşüm/risk farklılıkları.
- Eyleme geçirilebilirlik: Müdahalelere verilen yanıtın farklılık gösterdiği segmentlerin oranı.
- Uplift/A/B: segment hedefleme kazancı vs toplam hedefleme.
- Kapsam: "Canlı" segmentlerdeki kullanıcıların yüzdesi (sadece "gürültü'değil).
7) Doğrulama ve sağlamlık
Zamansal CV: Zaman içinde segmentlerin stabilitesinin kontrol edilmesi (yuvarlanan pencereler).
Grup doğrulama: kullanıcıları/cihazları tren/val arasında karıştırmayın.
Çoğaltma - Komşu pazarlarda/kanallarda çalıştırın.
Sürüklenme: Özelliklere ve segment dağılımına göre PSI/JS-div; Uyarılar üzerindeki eşikler.
Kararlı kenarlar/başlatma: segmentasyon sürümlerini karşılaştırmak için.
8) Yorumlanabilirlik
Segment pasaportları: kuralların/centroidlerin tanımı, temel özellikler (üst-SHAP/permutasyon), izleyici portresi, KPI profili.
Görselleştirme: Segment renkleri ile UMAP/t-SNE, segmente göre metriklerin "kafesi".
Etkinleştirme kuralları: insan sekmeleri ("Yüksek Değerli Seyrek", "Riskli Yeni Gelenler").
9) Operasyonel uygulama
Fichestor: tek tip çevrimiçi/çevrimdışı özellik hesaplama işlevleri.
Yeniden tarama: SLA ve frekans (girişte çevrimiçi, günde bir kez, etkinlikte).
API/batch export: user ID> segment/probability/timestamps.
Sürüm oluşturma: 'SEG _ MODEL _ vX', veri sözleşmesi, eğitim seti dondurma tarihi.
Politikalar: Her segment için - eylem kuralları (teklif/limit/destek önceliği).
Fail-safe: Bozulma üzerine varsayılan segment (özellik/zaman aşımı yok).
10) Deney ve karar verme
Segmentlere göre A/B/n: Aynı segment ızgarasında farklı teklifler/limitler test ediyoruz.
Uplift: hedefleme etkisi vs kontrol (Qini/AUUC, uplift @ k).
Bütçe tahsisi: Bütçeyi segmentlere göre marj/risk limitlerine göre dağıtıyoruz.
Korkuluklar: Risk segmentleri, temas oranı ve kitle yorgunluğu için FPR/FNR.
11) Etik, gizlilik, uyum
Veri minimizasyonu: gerekli minimum, takma adı kullanıyoruz.
Adalet: Hassas kesimlerin hatalarını ve politikaların "sertliğini" karşılaştırın; Korunan Nitelikleri kurallardan hariç tutun veya adalet düzeltmeleri uygulayın.
Açıklama hakkı: Belge bölümü atama mantığı.
Denetim: Sürümlerin günlüğü, giriş özellikleri, kararlar ve segmentlere göre kampanyaların sonuçları.
12) Eser desenleri
Segment pasaportu
Kod/Sürüm: 'SEG _ HVIF _ v3'
Açıklama: "Yüksek değer, nadir etkinlik"
Ölçütler/Merkez: 'LTV _ quantile ≥ 0. 9 ',' Recency _ days ∈ [15,45] ',' Frequency _ 30d ∈ [1,3] '
Boyut/erişim: 4. Kullanıcıların %8'i (son 30 gün)
KPI profili: ARPPU ↑ 2. 4 × medyan, Churn-risk ortalaması
Öneriler: yumuşak yeniden etkileşim teklifleri, çapraz satış premium ürünleri, frekans sınırı 1/7d
Riskler: aşırı indirimler - "bağımlılık"
Sahibi: CRM/Para Kazanma
Tarih/geçerlilik: 2025-10-15; Üç aylık revizyon
Segmentasyon sözleşmesi
Kaynak özellik: 'fs. user_activity_v5'
Program: gece partisi 02:00 UTC; 'Satın alma' olayında çevrimiçi güncelleme
Hizmet: 'Segmentör. api/v1/score '(p95 ≤ 120 мс)
Günlükler: 'seg _ scoring _ log' (özellik hash, sürüm, hız, segment)
Uyarılar: "UNKNOWN" payı> 2 %; Temel özelliklere göre PSI> 0. 2; segment dengesizliği> günde 10 pp
13) Yayın öncesi kontrol listesi
- Segmentasyon etki hedefleri ve KPI'lar kabul edildi
- Birim, pencereler ve dönüşüm frekansı tanımlı
- Bir taban çizgisi (kural tabanlı) ve bir ML varyantı vardır; yükseltme karşılaştırması
- Segment Dokümantasyonu + Görselleştirme ve İnsan Sekmeleri
- Ayarlı A/B, korkuluklar ve sürüklenme uyarıları
- Sürüm, veri sözleşmeleri, olay runibooks
- Segment başına ve varsayılan geri dönüş eylem politikaları
Toplam
Segmentasyon bir'tek seferlik kümeleme'değil, bir kontrol döngüsüdür: doğru veri ve pencereler, şeffaf segmentler, KPI'lara bağlantı, titiz doğrulama, operasyonel SLO'lar ve sürüklenme izleme. Karmaşıklık ekleyin (gömme, grafikler, denetim yaklaşımı) yalnızca ölçülebilir bir yükselme sağladığı ve iş ve uyumluluk için açıklanabilir kaldığı yerlerde.