ქცევითი სიგნალები
ქცევითი სიგნალები
ქცევითი სიგნალები არის მომხმარებლის ურთიერთქმედების „ტელემეტრია“ პროდუქტთან: მოვლენები, კონტექსტი და დროებითი რიგები, საიდანაც ჩვენ ვიღებთ განზრახვას, ინტერესს, ტრაფიკის ხარისხს, რისკს და ღირებულებას. სიგნალებთან მუშაობის საიმედო წრე: მითითება, შეგროვება, გაწმენდა, ნორმალიზაცია, ნიშნები, გადაწყვეტილებებში გამოყენება, მონიტორინგი და ეთიკა.
1) რა არის ქცევითი სიგნალები
სესიები: დაწყება/გაჩერება, ხანგრძლივობა, ეკრანების რაოდენობა, სიღრმე, განმეორება დღეში, „მშვიდი“ სესიები.
დაწკაპუნება/ტაჩი/კრეკი: დაწკაპუნების სიმკვრივე, გადაადგილების სიჩქარე, სიღრმე, გაჩერება (scroll-stops).
Dwell დრო: ეკრანზე დრო/ელემენტი, აქტიური დრო (idle ფილტრი).
ეკრანების ნავიგაცია/ურთიერთობა: თანმიმდევრობა, მარყუჟები, რიგრიგობა.
შეყვანა/ფორმა: შევსების სიჩქარე, კორექტირება, დალაგება, paste rate.
მიკრო ინერცია: chovers, გამჟღავნებები, კონცენტრატორები, დახარისხება/ფილტრები.
შინაარსი/ძებნა: მოთხოვნები, CTR, CTCVR, შენახვა, „გადადება“.
ტექნიკა: მოწყობილობები/ბრაუზერი, FPS/ბატარეის სტატუსი, შეცდომები, ლატენტობა, ქსელები (IP/ASN), ოფლაინ/ონლაინ რეჟიმში.
დრო/კონტექსტი: საათი/დღე/ადგილობრივი კალენდარი, გეო-ნიმუშები (ზუსტი გეოლოკაციის გარეშე, საჭიროების შემთხვევაში).
უარყოფითი გამოხმაურება: დამალვა, საჩივარი, ხელმოწერა, წელის/პერსონალიზაციის უარყოფა.
2) ბრიფინგი და მოვლენების სქემა
კანონიკური სქემა (მინიმალური):
event_id, user_id, session_id, ts_utc, type, screen/page, element, value, duration_ms,
device_id, platform, app_version, locale, referrer, ip_hash, asn, experiment_id, schema_version
პრინციპები: idempotence (dedup '(წყარო _ id, checksum)'), UTC დრო, სქემების ვერსია, იდენტურობის სტაბილური გასაღებები, PII (ჰაში/ნიშნები) მინიმუმამდე შემცირება.
3) გაწმენდა და ანტიბოტი
Headless/automation დროშები: WebDriver/puppeteer ხელმოწერები, მომხმარებლის ჟესტები.
არანორმალური სიჩქარე: ზეადამიანური კლიშეები/კრეკი, „იდეალური“ ინტერვალები.
ქსელი: მონაცემთა მასპინძელი ცენტრები, ცნობილი მარიონეტები/VPN ASN.
ნიმუშის განმეორება: იგივე ტრაექტორია და თანმიმდევრობა.
QA/შიდა: ტესტის ანგარიშების/მოწყობილობების სიები.
Frode: Device/IP გრაფიკი (ერთი მოწყობილობა - მრავალი ანგარიში, გეო-ძალა).
4) ნორმალიზაცია და Point in Time (PIT)
დროებითი ფანჯრები: 5 წუთი/1 საათი/24 საათი/7 დღე; გამოფენა. გლუვი.
სეზონურობა: დღე-კვირა, დღე-დღე, სადღესასწაულო დროშები.
PIT ნაჭრები: ყველა ნიშანი აგებულია შეფასების დროზე; მომავალი ინფორმაცია არ არის.
ონლაინ/ოფლაინ პარიტეტი: იგივე რეცეპტები feature store- ში.
5) სიგნალების ხარისხი და სიზუსტე
Coverage: სესიების/ეკრანების წილი სრული მოვლენებით.
Freshness: დაშვების ლაგი.
Consistence: ღონისძიებების წილი მომხმარებელზე/სესიაზე „დერეფნებში“ (ემისიების კონტროლი).
ყურადღება: აქტიური დრო/it ფილტრი, scroll depth, გაჩერებები.
განზრახვა: ღრმა მოქმედებებზე გადასვლა (ფილტრი - დეტალი - სამიზნე).
სანდოობა: ანტიბიოტიკი, ენდობა მოწყობილობას/IP.
6) ნიშნები
R/F: უახლესი ინტერაქციის ჩანაწერები, სიხშირეები ფანჯრებისთვის 7/30/90.
Dwell/scroll: medians/quannille, ეკრანების წილი dwell - X, სიღრმე - p%.
თანმიმდევრობები: n-grams, მარკოვის გადასვლები, სინანულის ნიმუშები, run-length.
მოწყობილობის სტაბილურობა: მოწყობილობის/ბრაუზერის შეცვლა, entropy მომხმარებლის აგენტები.
დაწკაპუნების ხარისხი: დაწკაპუნების ელემენტების ratio კლიშეები, rage-clicks.
ძებნა/განზრახვა: მოთხოვნის სიგრძე/განმარტება, ჩხრეკის შემდეგ dwell, success rate.
იდენტურობის აგრეგაციები: user _ id, device _ id, ip _ hash, asn.
ჰიბრიდები: სესიების ემბედინგი (Doc2Vec/Transformer) - კლასტერიზაცია/რანჟირება.
7) სიგნალი: მოქმედების ცხრილი
ჰისტერეზი და ყუთები სავალდებულოა, რომ არ მოხდეს „მოციმციმე“ მინიშნებები.
8) ფსევდო-SQL/რეცეპტები
A. აქტიური დრო და სიღრმე
sql
WITH ev AS (
SELECT user_id, session_id, page, ts,
SUM(CASE WHEN event='user_active' THEN duration_ms ELSE 0 END) AS active_ms,
MAX(CASE WHEN event='scroll' THEN depth_pct ELSE 0 END) AS max_depth
FROM raw_events
WHERE ts BETWEEN:from AND:to
GROUP BY 1,2,3,4
)
SELECT user_id, session_id,
AVG(active_ms) AS avg_dwell_ms,
PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY max_depth) AS scroll_median
FROM ev
GROUP BY 1,2;
B. Rage-clicks / back-forth
sql
WITH clicks AS (
SELECT user_id, session_id, ts,
LAG(ts) OVER (PARTITION BY user_id, session_id ORDER BY ts) AS prev_ts,
element
FROM ui_events WHERE event='click'
),
rage AS (
SELECT user_id, session_id,
COUNT() FILTER (WHERE EXTRACT(EPOCH FROM (ts - prev_ts)) <= 0. 3) AS rage_clicks
FROM clicks GROUP BY 1,2
),
backforth AS (
SELECT user_id, session_id,
SUM(CASE WHEN action IN ('back','forward') THEN 1 ELSE 0 END) AS nav_bf
FROM nav_events GROUP BY 1,2
)
SELECT r. user_id, r. session_id, r. rage_clicks, b. nav_bf
FROM rage r JOIN backforth b USING (user_id, session_id);
C. ანტიბოტი სკორი (ესკიზი)
sql
SELECT user_id, session_id,
(CASE WHEN headless OR webdriver THEN 1 ELSE 0 END)0. 4 +
(CASE WHEN asn_cat='hosting' THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN click_interval_std < 50 THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN scroll_speed_avg > 5000 THEN 1 ELSE 0 END)0. 2 AS bot_score
FROM telemetry_features;
თანმიმდევრობა n-gram
sql
-- Collect screen sequences and transition frequencies
SELECT screen_seq, COUNT() AS freq
FROM (
SELECT user_id, session_id,
STRING_AGG(screen, '→' ORDER BY ts) AS screen_seq
FROM nav_events
GROUP BY 1,2
) t
GROUP BY screen_seq
ORDER BY freq DESC
LIMIT 1000;
9) ქცევითი სიგნალები ML/ანალიტიკაში
მიდრეკილებები/პერსონალიზაცია: CTR/CTCVR მოდელები, სესიის მოდელები, შემდეგი საუკეთესო მოქმედება.
გადინება/შენარჩუნება: hazard მოდელები, ჩანაწერების/სიხშირეების/რიგითების ნიშნები.
ანტიფროდი: ფორმების სიჩქარე, გეო-ველი, მოწყობილობა/IP გრაფიკი, ფერმის შაბლონები.
ტრაფიკის ხარისხი: „ნამდვილი ხედვები“, ენერგიული სესიები, უარყოფითი გამოხმაურება.
A/B და causality: მრიცხველები, როგორც შუამავლები, მაგრამ დასკვნები - სავარაუდო მიხედვით (ROMI/LTV, გამართვა).
10) ვიზუალიზაცია
Sankey/step-bars: ბილიკები და drop-off.
Heatmaps: ფრჩხილის სიღრმე, დაწკაპუნების რუქები (ანონიმურად).
კოჰორტის × age: როგორ იცვლება სიგნალები კოჰორტის ასაკის მიხედვით.
Bridge გრაფიკა: ფაქტორების წვლილი (სიჩქარე, გადახრა, შეცდომები) კონვერტაციის შეცვლაში.
11) კონფიდენციალურობა, ეთიკა, RG/შესაბამისობა
PII მინიმალიზაცია: იდენტიფიკატორის ჰაშები, RLS/CLS, შენიღბვა ექსპორტის დროს.
თანხმობა/გამჭვირვალეობა: ტრეკინგის კონფიგურაცია, უარი - პატივს სცემს; ლოგიკა გასაგებია.
RG: არ გამოიყენოთ სიგნალები მავნე ქცევის გასაუმჯობესებლად; რბილი შეხსენებები/ლიმიტები.
Fairness: შეცდომების/ჩარევის განსხვავებების შემოწმება ჯგუფებად; გამორიცხეთ მიუღებელი ნიშნები.
შენახვა: სასურველია TTL დრო „ნედლეული“ მოვლენებისთვის, აგრეგაცია.
12) დაკვირვება და დრიფტი
მონაცემთა ხარისხი: coverage, დუბლიკატები, ლაქები, ცარიელი ველების პროცენტი.
სიგნალის დრიფტი: PSI/KL dwell/scroll/სიხშირეზე; „ახალი“ შაბლონები.
ოპერაციული: მოსაკრებლის ლატარია, p95 მახასიათებლების გაანგარიშება, ფოლკლორული წილი.
Guardrails: botscore, საჩივრები, პასუხები; აგრესიული ჩარევისთვის გაჩერებული ამწე.
13) ანტი შაბლონები
ნედლეული დაწკაპუნება კონტექსტის/idl ფილტრის გარეშე არის ყალბი „ყურადღება“.
ერთეულების (სესიები - მომხმარებლები), TZ, ფანჯრები და შეუსაბამობა.
მომავალი სახეები (არა PIT) - მოდელების გადაფასება.
ხმაურის არაკეთილსინდისიერება: მკაცრი რეიდები ჰისტერეზიის გარეშე - „მოციმციმე“.
ანტიბიოტიკების/QA ფილტრების უგულებელყოფა არის გადაჭარბებული მეტრიკა.
დამატებითი PII- ის ჩაწერა მიზეზის გარეშე არის რისკები და ჯარიმები.
14) ქცევითი სიგნალების მიკროსქემის გაშვების ჩეკის სია
- მოვლენების სქემა (ვერსიები, UTC, idempotence), მინიმიზაცია PII
- ანტიბოტი/QA ფილტრები, ASN/მოწყობილობების შავი/თეთრი სიები
- PIT რეცეპტები, ფანჯრები 5m/1h/24h/7d, ონლაინ/ოფლაინ პარიტეტი
- ხარისხის მეტრიკა: coverage, freshness, მოწყობილობები
- ნიშნები R/F/dwell/scroll/scroll/scroll, session embeddings
- Decision tables: მოქმედებები, ჰისტესეზი, კუნთები, guardrails
- დაშბორდები და დრიფტის ალერტები (PSI/KL), საჩივრები/პასუხები, RG ინდიკატორები
- დოკუმენტაცია: დანიური ლექსიკონი, სიგნალის პასპორტი/მეტრიკი, მეპატრონეები და რუნიბუკები
შედეგი
ქცევითი სიგნალები ფასდება მხოლოდ მოწესრიგებულ წრეში: სწორი ბრიფინგი და PIT, გაწმენდა და ანტიბიოტიკები, მოქმედების სტაბილური ნიშნები და მკაფიო პოლიტიკა, კონფიდენციალურობა და RG, დაკვირვება და დრიფტის რეაქცია. ეს მიდგომა თარგმნის „კლიშეებს და სკრელებს“ გადაწყვეტილებებში, რომლებიც ზრდის კონვერტაციას, შენარჩუნებას და LTV- ს - უსაფრთხო, გამჭვირვალე და რეპროდუქციული.