GH GambleHub

Տվյալների սեգմենտացիա

Տվյալների հատվածներ

Սեգմենտացիան բազմաթիվ օբյեկտների (օգտագործողներ, գործարքներ, ապրանքներ, իրադարձություններ) բաժանումն է տարեգինգի, անձնավորման, վերլուծության և ռիսկերի կառավարման համասեռ խմբերի։ Լավ սեգմենտացիան բարձրացնում է մարժինալությունը, նվազեցնում ծախսերը և լուծումները դարձնում բացատրական։

1) Նպատակներն ու արտադրությունները

Մարքեթինգը և աճը 'անհատականացված օֆերներ, շփումների հաճախականությունը, հակա-սպամ քաղաքականությունը։

Մոնետիզացիա ՝ ռուսական s-112, խմբեր, VIP-ծառայություն։

Ռիսկի և կոմպլանսի 'կառավարման մակարդակներ, KYC/AML հարվածներ, կասկածելի պաթոգեններ։

Ապրանքը և փորձը 'ոնբորդինգը սցենարներով, բովանդակության/խաղերի առաջարկություններով, դինամիկ սահմանաչափերով։

Վիրահատություններ 'աջակցության գերակայություն, սահմանների և քվոտաների բաշխում։

Մենք ձևակերպում ենք սեգմենտացիայի միավորը (օգտագործող/նստաշրջան/մերչանտ), հորիզոնը (7/30/90 օր), փոխանցման հաճախականությունը (առցանց/ամեն օր/շաբաթական) և KPI կոմպոզիցիան։

2) Հատվածների տաքսոնոմիա

Դեմոգրաֆիա/գեո 'երկիր, լեզու, պլատֆորմ։

Վարքագծային 'ակտիվություն, հաճախականություն, խորություն, օրվա ժամանակ, սիրելի կատեգորիաներ։

Արժեքավոր (value-based): ARPU/ARPPU, LTV-quanali, մարջինալություն։

Փուլային 'Onbording, հասուն, «քնած», վերադարձված։

RFM: Recency, Frequency, Monetary binams/quantils։

Կոգորթ 'գրանցման/առաջին վճարման/աղբյուրի ամսաթվով։

Ռիսկի հատվածներ ՝ chargeback-risk, bonus-abuse-risk, աննորմալ ակտիվություն։

Կյանքի ցիկլը 'propronity-to-churn, propronity-to-buy, next-best-action։

Կոնտեքստային 'սարք/ալիք/տարածաշրջանային կանոններ։

3) Տվյալները և պատրաստումը

Point-in-time ճիշտ է, նշանները համարվում են հասանելի «անցյալից»։

Ագրեգատները պատուհաններով ՝ 7/30/90-օրյա գումարներ/հաճախականություններ/քվանալի։

Նորմալացում 'robast-skailing (in/MAD), երկար պոչերի համար լոգ փոխակերպումներ։

Կատեգորիաներ ՝ one-hot/target/hash; «հազվագյուտ» արժեքների վերահսկումը։

Որակը 'բացթողումներ, կրկնօրինակներ, սխեմաների դրեյֆ, համապատասխան գոտիների համաժամեցում։

Սեմանտիկան 'ակնհայտ բիզնես կանոնները (օրինակ ՝ 241 դեպոզիտ) մինչև ML-հատվածները։

4) Հատվածավորման մեթոդներ

4. 1. Կանոնները և շեմերը (white-box)

Պարզ պայմանները ՝ «VIP, եթե LTV 35X և Y- ի հաճախականությունը»։

Պլյուսներ ՝ բացատրական, արագ ներկայացվում է որպես քաղաքականություն։

Մինուսները 'փխրունությունը, աջակցության բարդությունը կանոնների թվի աճի ժամանակ։

4. 2. Կլաստերիզացիա (unsupervised)

k-means/k-entoids: արագ բեյսլայնը թվային ֆիգուրներում։

GMM 'փափուկ, հավանական հատվածներ։

HDBSCAN/DBSCAN 'կամայական ձևի կլաստերներ + «աղմուկ» որպես անոմալիա։

Սպեկտրալ/EM տեսակների վրա 'բարդ երկրաչափության համար։

Feature learning no cluster: Առաջին սաղմեդդինգը (autoencoder/transformer), հետո կլաստերիզացիան լատինական տարածքում։

4. 3. Սուպեր-սեգմենտացիա (target-driven)

Մենք սովորեցնում ենք մոդելը KPI-ում (օրինակ, LTV/ռիսկ), իսկ հատվածները կառուցում ենք կանխատեսումների քվանտներով, SHAP պրոֆիլներով և որոշումների ծառերով։

Պլյուսներ 'հատվածները կապված են բիզնեսի նպատակին, հեշտ է ստուգել uplift-ը։

Մինուսներ '«բարձրանալու» ռիսկ; անհրաժեշտ է խիստ վալիդացիա։

4. 4. Հաճախականության մոտիվներ և կանոններ

RFM-մատրիցը, ասոցիատիվ կանոնները (suport/lift), հաճախակի հաջորդականությունները (Systfect Express), հատկապես սննդի նավարկության և բանդալների համար։

4. 5. Գրաֆիկ/ցանցային հատվածներ

Կապերի համայնքները (սարքեր, հիբրիդային մեթոդներ, ռեֆերալներ); GNN-ը հատկությունները հարստացնելու համար։

5) Մոտեցման ընտրություն 'արագ մատրիցա

ԻրավիճակըՏվյալներըԱռաջարկություն
Անհրաժեշտ է կառավարվող քաղաքականությունՊլաստիկ + բիզնես կանոններըRule-based + պարբերական ստուգում
Փնտրել «բնական» խմբերՇատ թվային ֆիչk-means/GMM, ապա նկարագրում ենք կլաստերները։
Ուժեղ ոչ գծայինԽառը/բարձր չափսերEmbeddings no HDBSCAN
Ուղղակի target (LTV/ռիսկ)Կա 108/targetՍուպեր-սեգմենացիա կանխատեսման
Ցանցեր/կապերԳրաֆըԿոմյունիտի դետեկտիվ + գրաֆիկական նշաններ

6) Սեկտորի որակի գնահատումը

Ներքին մետրերը (առանց ստանդարտի)

Silhouette/Davies-Bouldin/Calinski-Harabasz 'կոմպակտ և բաժանվածություն։

Մոսկվա: Jaccard/ARI-ը վերագործարկումների/բուտստրեպի միջև։

Ինֆորմատիվությունը 'հիմնական ֆիգների միջին տարբերությունը։

Արտաքին/բիզնես մետր

KPI-ի հոմոգենությունը 'LTV/կոնվերսիայի/ռիսկի տարբերությունները հատվածների միջև։

Actionability: Հատվածների մի մասը, որոնք տարբեր են միջամտության վրա։

Uplift/A/B: Աճը տարգինգինգում vs ընդհանուր targeting է։

Մոսկվան 'օգտագործողների տոկոսը «գործող» հատվածներում (ոչ միայն «աղմուկը»)։

7) Վալիդացիան և կայունությունը

Temensal CV 'ժամանակի հատվածների կայունության ստուգում (rolling պատուհաններ)։

Խմբային վալիդացիա 'չխառնվել օգտագործողներին/սարքերը train/val-ի միջև։

Կրկնօրինակումը հարևան շուկաներում/ալիքներում արձակումն է։

Դրեյֆը ՝ PSI/JS-dance-ը և հատվածների բաշխումը։ արոտավայրեր։

Կայուն նստատեղեր/նախաձեռնություն 'սեգմենտացիայի տարբերակները համեմատելու համար։

8) Մեկնաբանությունը

Հատվածների անձնագրերը 'կանոնների/ցենտրոիդների նկարագրությունը, հիմնական ֆիչիները (top-SHAP/permutation), հանդիսատեսի դիմանկարը, KPI պրոֆիլը։

Տեսողական 'UMAP/t-SNE-ը հատվածների գույներով, «վանդակավոր» հատվածներով։

Ակտիվացման կանոնները ՝ մարդկային լեյբլներ («High-Value Infrequent», «Risky Newcomers»)։

9) Վիրահատական ներդրումը

Ֆիչեստորը 'առցանց/օֆլայնի նշանների հաշվարկման միասնական գործառույթներ։

Resorcoring: SLA և հաճախականությունը (առցանց մուտքի ժամանակ, մեկ անգամ, իրադարձության ժամանակ)։

API/batch էքսպորտը 'օգտագործողի ID 24սեգմենթ/հավանականություն/ժամանակային։

Տարբերակումը '«SEG _ MODEL _ vX», տվյալների պայմանագիրը, ուսուցչի «սառեցման» ամսաթիվը։

Քաղաքական գործիչները 'յուրաքանչյուր մրցույթի համար' գործողության կանոնները (օֆֆեր/լիմիտներ/աջակցության գերակայություն)։

Fail-safe: դեֆոլտ սեգմենտը քայքայման ժամանակ (ոչ ֆիչ/թայմաուտներ)։

10) Փորձեր և որոշումներ կայացնելը

A/B/n հատվածներում, մենք ստուգում ենք տարբեր օֆերներ/լիմիտներ հատվածների նույն ցանցում։

Uplift-գնահատումը 'targeging vs վերահսկման էֆեկտը (Qini/AUUC, uplift @ k)։

Budget allocation: Մենք բաժանում ենք մարժինալիզմի/ռիսկային սահմանների հատվածների բյուջեն։

Guardrails: FPR/FNR ռիսկային հատվածների համար, շփումների հաճախությունը և հանդիսատեսի հոգնածությունը։

11) Էթիկան, գաղտնիությունը, կոմպլենսը

Տվյալների նվազեցումը 'մենք օգտագործում ենք անհրաժեշտ նվազագույն, կեղծանունացում։

Արդարություն 'համեմատում ենք սխալները և քաղաքական գործիչները զգայուն հատվածներում։ բացառում ենք Directed Attributes-ը կանոններից, կամ օգտագործում ենք fairness-2019-ը։

Բացատրության իրավունքը փաստարկն է։

Աուդիտ 'տարբերակների լոգ, մուտքային ֆիչ, լուծումներ և արդյունքներ հատվածներում։

12) Արտեֆակտների օրինակները

Անձնագիր 2019

Կոդը/տարբերակը '«SEG _ HVIF _ v3»

Նկարագրություն ՝ «Բարձր արժեք, հազվագյուտ ակտիվություն»

Չափանիշները/կենտրոնը '"LTV _ quantile 240։ 9`, `Recency_days ∈ [15,45]`, `Frequency_30d ∈ [1,3]`

Չափսը/07: 4։ Օգտագործողների 8 տոկոսը (վերջին 30 օրվա ընթացքում)

KPI պրոֆիլը ՝ ARPPU 382։ 4 ռուբլիներ բժիշկներից, Churn-risk միջին

Առաջարկություններ ՝ փափուկ re-engeige-offers, cross-cell premium ապրանքներ, 1/7d հաճախականության սահմանափակում

Ռիսկեր ՝ վերընտրվող զեղչեր «սովորություն»

Սեփականատերը ՝ CRM/Monetization

Ամսաթիվը/վալիդիզմը ՝ 2025-10-15; 71 անգամ թաղամասում

Սեգմացիայի պայմանագիրը

Ֆիչի աղբյուրը '"fs. user_activity_v5`

Մոսկվա 'գիշերային բաց 02: 00 UTC; առցանց ապդեյթ «purchair» իրադարձության ժամանակ

Ծառայություն 'segmentor։ api/v1/score` (p95 ≤ 120 мс)

Լոգներ ՝ «seg _ scoring _ log» (fichi-hash, տարբերակը, սկորը, սեգմենտը)

Ալերտներ '«UNKNOWN» մասնաբաժինը> 2 տոկոսը; PSI-ն հիմնական ֆիգուրներով> 0։ 2; սեգմենտների անհավասարակշռությունը> 10 տոկոսն է օրվա ընթացքում

13) Չեկի թուղթը նախքան թողարկումը

  • Համաձայնեցված նպատակները և KPI ազդեցությունը սեգմենտացման վրա
  • Որոշված է միավորը, պատուհանները և շրջադարձային հաճախությունը []
  • Կա բեյզլին (rule-based) և ML տարբերակը։ համեմատություն uplift
  • Տեսողական հատվածներ + և մարդկային լեյբլներ []
  • Տրամադրված A/B, guardrails և dreaft ալտերտեր
  • Տարբերակումը, տվյալների պայմանագրերը, ռունիբուկները պատահականության համար
  • Գործողությունների քաղաքական գործիչները յուրաքանչյուր հատվածում և ռուսական-fallback-fallback-ը։

Արդյունքը

Սեգմենտացիան ոչ թե «տարբեր կլաստերիզացիա» է, այլ կառավարման պարամետրեր ՝ ճիշտ տվյալներ և պատուհաններ, թափանցիկ հատվածներ, կապեր KPI-ի հետ, խիստ վալիդացիա, վիրահատական SLO և www.draif։ Ավելացրեք բարդությունը (սաղմդինգներ, գրաֆիկներ, սուպեր-մոտեցում) միայն այնտեղ, որտեղ դա տալիս է չափված uplift և մնում է բացատրական բիզնեսի և կոմպլենսների համար։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։