Wskazówki behawioralne
Wskazówki behawioralne
Wskazówki behawioralne to „telemetria” interakcji użytkownika z produktem: zdarzenia, kontekst i seria czasowa, z której wywodzimy intencję, zainteresowanie, jakość ruchu, ryzyko i wartość. Niezawodny obwód pracy z sygnałami: oprzyrządowanie → kolekcja → czyszczenie → normalizacja → formacja znaków → zastosowanie w rozwiązaniach → monitorowanie i etyka.
1) Co rozważyć sygnały behawioralne
Sesje: start/stop, czas trwania, liczba ekranów, głębokość, powtórzenia dziennie, sesje „ciche”.
Kliknięcia/dotknięcie/przewijanie: gęstość kliknięć, prędkość przewijania, głębokość, przystanki (zwoje).
Dwell-time: czas na ekranie/element, czas aktywny (filtr bezczynny).
Nawigacja/wzajemne powiązania ekranów: sekwencje, pętle, nawigacja gniewna.
Wejście/formularze: prędkość napełniania, korekty, nawigacja kart, szybkość wklejania.
Mikro-interakcje: kopyta, ujawnia, przełączniki, rodzaje/filtry.
Zawartość/wyszukiwanie: zapytania, CTR, CTCVR, zapisuje, „odłożyć na później”.
Technika: urządzenie/przeglądarka, stan FPS/baterii, błędy, opóźnienia, sieci (IP/ASN), offline/online.
Czas/kontekst: godzina/dzień/kalendarz lokalny, wzory geograficzne (brak dokładnej geolokalizacji, chyba że jest to wymagane).
Negatywne opinie: ukryj, narzekaj, rezygnuj z subskrypcji, odrzucaj pliki cookie/personalizację.
2) Schemat oprzyrządowania i zdarzeń
System kanoniczny (minimum):
event_id, user_id, session_id, ts_utc, type, screen/page, element, value, duration_ms,
device_id, platform, app_version, locale, referrer, ip_hash, asn, experiment_id, schema_version
Zasady: idempotencja (dedup by '(source_id, checksum)'), czas UTC, wersja schematu, stabilne klucze tożsamości, minimalizacja PII (hashes/tokens).
3) Czyszczenie i anty-boty
Flagi bezgłowe/automatyki: podpisy WebDriver/puppeteer, brakujące niestandardowe gesty.
Nieprawidłowa prędkość: nadludzkie kliknięcia/przewijanie, „idealne” odstępy czasu.
Sieć: centra hostingu danych, znany serwer proxy/VPN ASN.
Powtarzalność wzoru: te same trajektorie i sekwencje.
QA/wewnętrzne: listy kont testowych/urządzeń.
Oszustwo: urządzenie/wykres IP (jedno urządzenie → wiele kont, geo-prędkość).
4) Normalizacja i punkt w czasie (PIT)
Okna czasowe: 5 minut/1 godzina/24 godziny/7 dni; expon. wygładzanie.
Sezonowość: dzień w tygodniu, godzina w dzień, flagi wakacyjne.
Plasterki PIT: wszystkie funkcje są zbudowane do czasu oceny; Brak informacji z przyszłości.
Parytet online/offline: identyczne przepisy w sklepie funkcyjnym.
5) Jakość i ważność sygnału
Relacja: udział sesji/ekranów z pełnymi wydarzeniami.
Świeżość: wstęp opóźniony.
Spójność: proporcje zdarzeń na użytkownika/sesję w „korytarzach” (kontrola emisji).
Uwaga: aktywny filtr czasu/idl, głębokość przewijania, zatrzymuje się.
Intencja: przejścia do głębokiego działania (filtr → detal → tselevoye).
Niezawodność: anty-bot prędkości, zaufanie do urządzenia/IP.
6) Inżynieria funkcji
R/F: rekordowość ostatniej interakcji, częstotliwości na oknach 7/30/90.
Dwell/zwoje: mediany/kwantyle, odsetek ekranów z dwell ≥ X, głębokość ≥ p%.
Sekwencje: n-gramy, przejścia Markowa, wzory „wyrzutów sumienia” (odwrotnie), długość przebiegu.
Stabilność urządzenia: zmiana urządzenia/przeglądarki, entropia agentów użytkownika.
Kliknij jakość: stosunek kliknięć do możliwych do kliknięcia elementów, kliknięć.
Wyszukiwanie/zamiar: długość/udoskonalenie zapytań, mieszkanie po wyszukiwaniu, wskaźnik sukcesu.
Agregacje według tożsamości: user_id, device_id, ip_hash, asn.
Hybrydy: Osadzanie sesji (Doc2Vec/Transformer) → klastrowanie/ranking.
7) Sygnał → Działanie: Tabela decyzji
Histereza i chłodzenie są obowiązkowe, aby nie „mrugać” wskazówkami.
8) Pseudo-SQL/Przepisy
A. Aktywny czas i głębokość przewijania
sql
WITH ev AS (
SELECT user_id, session_id, page, ts,
SUM(CASE WHEN event='user_active' THEN duration_ms ELSE 0 END) AS active_ms,
MAX(CASE WHEN event='scroll' THEN depth_pct ELSE 0 END) AS max_depth
FROM raw_events
WHERE ts BETWEEN:from AND:to
GROUP BY 1,2,3,4
)
SELECT user_id, session_id,
AVG(active_ms) AS avg_dwell_ms,
PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY max_depth) AS scroll_median
FROM ev
GROUP BY 1,2;
B. Kliknięcia gniewne/odwrotne
sql
WITH clicks AS (
SELECT user_id, session_id, ts,
LAG(ts) OVER (PARTITION BY user_id, session_id ORDER BY ts) AS prev_ts,
element
FROM ui_events WHERE event='click'
),
rage AS (
SELECT user_id, session_id,
COUNT() FILTER (WHERE EXTRACT(EPOCH FROM (ts - prev_ts)) <= 0. 3) AS rage_clicks
FROM clicks GROUP BY 1,2
),
backforth AS (
SELECT user_id, session_id,
SUM(CASE WHEN action IN ('back','forward') THEN 1 ELSE 0 END) AS nav_bf
FROM nav_events GROUP BY 1,2
)
SELECT r. user_id, r. session_id, r. rage_clicks, b. nav_bf
FROM rage r JOIN backforth b USING (user_id, session_id);
C. Prędkość przeciwciał (szkic)
sql
SELECT user_id, session_id,
(CASE WHEN headless OR webdriver THEN 1 ELSE 0 END)0. 4 +
(CASE WHEN asn_cat='hosting' THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN click_interval_std < 50 THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN scroll_speed_avg > 5000 THEN 1 ELSE 0 END)0. 2 AS bot_score
FROM telemetry_features;
Sekwencje D. n-gram
sql
-- Collect screen sequences and transition frequencies
SELECT screen_seq, COUNT() AS freq
FROM (
SELECT user_id, session_id,
STRING_AGG(screen, '→' ORDER BY ts) AS screen_seq
FROM nav_events
GROUP BY 1,2
) t
GROUP BY screen_seq
ORDER BY freq DESC
LIMIT 1000;
9) Wskazówki behawioralne w ML/Analytics
Skłonności/personalizacja: modele CTR/CTCVR, osadzanie sesji, next-best-action.
Odpływ/zatrzymanie: modele zagrożenia, oznaki recesji/częstotliwości/sekwencji.
Antyfraud: szybkość form, geo-velo, urządzenie/wykres IP, szablony „gospodarstw”.
Jakość ruchu: „ważne widoki”, zaangażowane sesje, negatywne opinie.
A/B i przyczynowość: wskaźniki uwagi jako mediatorów, ale wnioski przez przyrost (ROMI/LTV, retencja).
10) Wizualizacja
Sankey/step-bars: ścieżki i drop-off.
Mapy ciepłownicze: głębokość przewijania, kliknij karty (bezosobowe).
Kohorta × wiek: jak sygnały zmieniają się w zależności od wieku kohorty.
Wykresy mostowe: wkład czynników (prędkość, przewijanie, błędy) w zmianę konwersji.
11) Prywatność, etyka, RG/Zgodność
Minimalizacja PII: hashes identyfikatora, RLS/CLS, maskowanie podczas eksportu.
Zgoda/przejrzystość: lokalizacja, odmowa - przestrzegane; logika jest do wyjaśnienia.
RG: nie używaj sygnałów do zachęcania do szkodliwego zachowania; miękkie przypomnienia/limity.
uczciwość: sprawdzanie błędów/różnic interwencji w podziale na grupy; wykluczyć nieprawidłowe właściwości.
Przechowywanie: czas TTL dla „surowych” zdarzeń, preferowana agregacja.
12) Obserwowalność i dryfowanie
Jakość danych: pokrycie, duplikaty, opóźnienia, odsetek pustych pól.
Dryf sygnału: PSI/KL przez mieszkanie/przewijanie/częstotliwości; „nowe” wzory.
Działanie: kolekcja opóźnień, p95 obliczanie znaków, udział folbacks.
Poręcze: przepięcie bot-scor, skargi, rezygnacje z subskrypcji; „stop-crane” na agresywnych interwencjach.
13) Anty-wzory
Kliknięcia surowe bez kontekstu/idl filtr → fałszywe „uwaga”.
Zmieszanie jednostek (sessii, „polzovateli”), TZ, okna → rozbieżność.
Twarze z przyszłości (bez PIT) → ponowna ocena modeli.
Brak tolerancji na hałas: ciężkie progi bez histerezy → „mruganie”.
Ignoruj filtry anty-boty/QA → przecenione mierniki.
Nagrywanie dodatkowych PII bez powodu → ryzyko i grzywny.
14) Lista kontrolna pętli sygnału behawioralnego
- Schemat zdarzeń (wersje, UTC, idempotencja), minimalizacja PII
- Filtry anty-boty/QA, czarne/białe listy ASN/urządzenia
- Przepisy PIT, okna 5m/1h/24h/7d, parytet online/offline
- Wskaźniki jakości: zasięg, świeżość, walidatory zaangażowania
- R/F/dwell/scroll/sequence/search, embedding sesji
- Tabele decyzji: działania, histereza, chłodnice, szyny ochronne
- Deski rozdzielcze dryfów i wpisy (PSI/KL), skargi/rezygnacje, wskaźniki RG
- Dokumentacja: słownik danych, paszporty sygnałowe/metryczne, właściciele i runibooki
Razem
Sygnały behawioralne zapewniają wartość tylko w zdyscyplinowanym obwodzie: poprawne oprzyrządowanie i PIT, czyszczenie i anty-boty, stabilne znaki i jasne zasady działania, prywatność i RG, obserwowalność i reakcja dryfująca. To podejście przekłada kliknięcia i zwoje na rozwiązania, które zwiększają konwersję, retencję i LTV - bezpiecznie, przejrzysto i powtarzalnie.