行為信號
行為提示
行為信號是用戶與產品交互的「遙測」:事件,上下文和時間序列,我們從中推斷出意圖,興趣,交通質量,風險和價值。信號操作的可靠輪廓:指示→收集→清潔→規範化→特征形成→決策中的使用→監控和道德。
1)如何考慮行為信號
會議:開始/停止,持續時間,屏幕數量,深度,每天重播,「安靜」會議。
Clicks/Tach/Scroll:點擊密度、滾動速度、深度、停止(滾動)。
Dwell-time:屏幕/元素上的時間,活動時間(idle filter)。
導航/屏幕關系:序列,循環,rage導航。
輸入/表單: 填充速度,修復,tab導航,paste rate.
微型交互:hovers,披露,開關,排序/過濾器。
內容/搜索:查詢,CTR,CTCVR,保存,「推遲到以後」。
技術人員:device/browser, FPS/電池狀態,錯誤,延遲,網絡(IP/ASN),離線/在線。
時間/上下文:小時/天/本地日歷,地理模式(不精確地理位置,除非需要)。
負面反饋:隱藏、投訴、退貨、拒絕Cookie/個性化。
2)指導和事件布局
規範方案(最低):
event_id, user_id, session_id, ts_utc, type, screen/page, element, value, duration_ms,
device_id, platform, app_version, locale, referrer, ip_hash, asn, experiment_id, schema_version
原理:相等性(通過「(source_id,checksum)」刪除),UTC時間,方案版本,穩定身份密鑰,PII最小化(哈希/令牌)。
3)清潔和防毒劑
無頭/自動化標誌:WebDriver/puppeteer簽名,缺少自定義手勢。
異常速度:超人點擊/滾動,「完美」間隔。
網絡:數據托管中心,已知代理/VPN ASN。
模式的可重復性:相同的軌跡和序列。
QA/內部:測試帳戶/設備列表。
Phrod:設備/IP圖形(單個Devys →許多帳戶,geo-velocity)。
4)正常化和按時間(PIT)
時間窗戶:5分鐘/1小時/24小時/7天;expon。平滑。
季節性:每周一天,每周一小時,節日旗幟。
PIT切片:所有特征都在評估時間之前建立;沒有來自未來的信息。
在線/線下平價:功能商店中的相同食譜。
5)信號的質量和有效性
覆蓋:具有完整事件的會議/屏幕的比例。
新生:入學時間。
一致性:「走廊」中每個用戶/會話事件的比例(排放控制)。
註意:活動時間/idl過濾器,scroll depth,停止。
意圖:過渡到深層行動(filtr→detal→tselevoye)。
可信度:反機器人,可信度/IP。
6)特質形成(功能工程)
R/F:最後一次互動的恢復,每個窗口的頻率為7/30/90。
Dwell/scroll:中位數/分位數,具有dwell ≥ X的屏幕比例,深度≥ p%。
序列:n克,馬爾可夫過渡,「悔恨」(後退)模式,奔跑。
設備穩定性:更改設備/瀏覽器、用戶代理。
點擊質量:點擊率對點擊元素,憤怒點擊。
搜索/意圖:查詢長度/澄清,搜索後,dwell,成功率。
按身份分組:user_id,device_id,ip_hash,asn。
雜種:會話栓塞(Doc2Vec/Transformer)→聚類/排名。
7)信號→行動: 決策表
磁滯和culdowns是強制性的,以免被提示「閃爍」。
8)Pseudo-SQL/食譜
A.滾動時間和深度
sql
WITH ev AS (
SELECT user_id, session_id, page, ts,
SUM(CASE WHEN event='user_active' THEN duration_ms ELSE 0 END) AS active_ms,
MAX(CASE WHEN event='scroll' THEN depth_pct ELSE 0 END) AS max_depth
FROM raw_events
WHERE ts BETWEEN:from AND:to
GROUP BY 1,2,3,4
)
SELECT user_id, session_id,
AVG(active_ms) AS avg_dwell_ms,
PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY max_depth) AS scroll_median
FROM ev
GROUP BY 1,2;
B. Rage-clicks / back-forth
sql
WITH clicks AS (
SELECT user_id, session_id, ts,
LAG(ts) OVER (PARTITION BY user_id, session_id ORDER BY ts) AS prev_ts,
element
FROM ui_events WHERE event='click'
),
rage AS (
SELECT user_id, session_id,
COUNT() FILTER (WHERE EXTRACT(EPOCH FROM (ts - prev_ts)) <= 0. 3) AS rage_clicks
FROM clicks GROUP BY 1,2
),
backforth AS (
SELECT user_id, session_id,
SUM(CASE WHEN action IN ('back','forward') THEN 1 ELSE 0 END) AS nav_bf
FROM nav_events GROUP BY 1,2
)
SELECT r. user_id, r. session_id, r. rage_clicks, b. nav_bf
FROM rage r JOIN backforth b USING (user_id, session_id);
C. Antibot scor(草圖)
sql
SELECT user_id, session_id,
(CASE WHEN headless OR webdriver THEN 1 ELSE 0 END)0. 4 +
(CASE WHEN asn_cat='hosting' THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN click_interval_std < 50 THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN scroll_speed_avg > 5000 THEN 1 ELSE 0 END)0. 2 AS bot_score
FROM telemetry_features;
D. n-gram序列
sql
-- Collect screen sequences and transition frequencies
SELECT screen_seq, COUNT() AS freq
FROM (
SELECT user_id, session_id,
STRING_AGG(screen, '→' ORDER BY ts) AS screen_seq
FROM nav_events
GROUP BY 1,2
) t
GROUP BY screen_seq
ORDER BY freq DESC
LIMIT 1000;
9) ML/分析中的行為提示
傾向/個性化:CTR/CTCVR模型,會議安排,下一個最佳動作。
流出/保留:危險模型,響應/頻率/序列特征。
Antifrod:形狀速度,geo-velo,設備/IP圖形,「農場」模式。
流量質量:「有效視圖」、插話、負面反饋。
A/B和隨機性:作為中介的註意指標,但結論是增量的(ROMI/LTV,保留)。
10)可視化
Sankey/step-bars:路徑和下降。
Heatmaps:滾動深度,點擊卡(非人格)。
Cohort × age:信號如何根據隊列年齡變化。
橋圖:因子(速度、滾動、錯誤)對轉換變化的貢獻。
11)隱私,道德,RG/合規性
PII最小化:標識符哈希,RLS/CLS,導出時掩蓋。
同意/透明度:設置跟蹤,拒絕-尊重;邏輯是可以解釋的。
RG:不使用信號來鼓勵有害行為;軟提醒/限制。
公平:檢查各組的錯誤/幹預差異;排除無效的特征。
存儲:「原始」事件的TTL時限,聚合更可取。
12)可觀察性和漂移
數據質量:覆蓋、重復、滯後、空白字段百分比。
信號漂移:dwell/scroll/頻率的 PSI/KL;「新」模式。
手術:後期收集,p95特征計算,後衛比例。
Guardrails:爆發bot-scor,投訴,退貨;攻擊性幹預的「停止起重機」。
13)反模式
沒有上下文/idl過濾器的原始點擊→錯誤的「註意力」。
單位(sessii↔polzovateli),TZ,窗口→不可比性的混合。
來自未來的Likes(沒有PIT)→重新評估模型。
噪音耐受性:強硬的閾值沒有滯後→「閃爍」。
忽略反機器人/QA過濾器→過高的度量。
無緣無故記錄多余的PII →風險和罰款。
14)行為信號環路啟動支票清單
- 事件方案(版本,UTC,等效性),PII最小化
- Antibot/QA過濾器,黑色/白色ASN/設備列表
- PIT配方,窗口5m/1h/24h/7d,在線/離線平價
- 質量度量:coverage, freshness,參與驗證器
- R/F/dwell/scroll/序列/搜索,會議embeddings
- 決策表:行動,滯留,拳擊,護欄
- Dashbords和Alertes漂移(PSI/KL),投訴/退房,RG指標
- 文檔:日記本、信號護照/指標、業主和runibuki
底線
行為信號僅在有紀律的輪廓中具有價值:正確的教學和PIT,清理和反機器人,持續的特征和明確的行動政策,隱私和RG,觀察力和漂移反應。這種方法將「點擊和滾動」轉換為增強轉換,保留和LTV的解決方案-安全,透明和可復制。