Signaux comportementaux

Les signaux comportementaux sont la « télémétrie » de l'interaction de l'utilisateur avec le produit : événements, contexte et séries chronologiques dont nous déduisons l'intention, l'intérêt, la qualité du trafic, le risque et la valeur. Un circuit de signalisation robuste : instrumentation → collecte → nettoyage → normalisation → signalisation → utilisation dans les solutions → surveillance et éthique.

1) Que considérer comme des signaux comportementaux

Sessions : début/arrêt, durée, nombre d'écrans, profondeur, répétitions par jour, sessions « silencieuses ».
Clics/taches/scroll : densité de clics, vitesse de défilement, profondeur, arrêts (scroll-stops).
Dwell-time : temps sur l'écran/élément, temps actif (idle filtre).
Navigation/interconnexion des écrans : séquences, boucles, rage-navigation.
Entrée/formulaires : taux de remplissage, corrections, pass-navigation, rate paste.
Micro-interactions : hovers, divulgations, interrupteurs, triages/filtres.
Contenu/recherche : requêtes, CTR, CTCVR, sauvegarder, « différer pour plus tard ».
Technique : device/browser, FPS/état de la batterie, erreurs, latency, réseaux (IP/ASN), hors ligne/en ligne.
Temps/contexte : heure/jour/calendrier local, géo-modèles (pas de géolocalisation précise si nécessaire).
Rétroaction négative : cacher, plainte, résiliation, refus de cookies/personnalisation.

2) Instrumentation et schéma des événements

Schéma canonique (minimum) :


event_id, user_id, session_id, ts_utc, type, screen/page, element, value, duration_ms,
device_id, platform, app_version, locale, referrer, ip_hash, asn, experiment_id, schema_version

Principes : idempotence (dedup par '(source_id, checksum)), temps UTC, version des schémas, clés d'identité stables, minimisation des PII (hachis/tokens).

3) Nettoyage et antibot

Drapeaux headless/automation : signatures WebDriver/puppeteer, gestes personnalisés manquants.
Vitesse anormale : cliques surhumaines/scroll, intervalles « parfaits ».
Réseau : centres d'hébergement de données, proxy/VPN ASN connus.
Répétabilité du modèle : les mêmes trajectoires et séquences.
QA/interne : listes de comptes de test/appareils.
Frod : device/graphe IP (un device → de nombreux comptes, géo-velocity).

4) Normalisation et Point-in-Time (PIT)

Fenêtres horaires : 5 minutes/1 heure/24 heures/7 jours ; l'expo. lissage.
Saisonnalité : day-of-week, hour-of-day, drapeaux de fête.
Tranches PIT : tous les signes sont construits avant le moment de l'évaluation ; aucune information du futur.
Parité en ligne/hors ligne : les mêmes recettes dans la boutique de fonctionnalités.

5) Qualité et validation des signaux

Coverage : proportion de sessions/écrans avec événements complets.
Freshness : lag d'admission.
Cohérence : part des événements par utilisateur/session dans les « couloirs » (contrôle des émissions).
Attention : temps actif/filtre idl, scroll depth, arrêts.
Intention : passer à l'action profonde (filtr→detal→tselevoye).
Crédibilité : antibot, confiance dans device/IP.

6) Caractérisation (feature engineering)

R/F : recency du dernier interacta, fréquences par les fenêtres 7/30/90.
Dwell/scroll : médians/quantifiés, proportion d'écrans avec dwell ≥ X, profondeur ≥ p %.
Séquences : n-grammes, transitions Markov, schémas de « remords » (back-forth), run-length.
Stabilité de l'appareil : changements de devis/navigateur, agents-utilisateurs entropy.
Qualité des clics : ratio des clics aux éléments cliquables, rage-clicks.
Recherche/intention : longueur/affinement des requêtes, dwell après recherche, taux de réussite.
Agrégations par identité : user_id, device_id, ip_hash, asn.
Hybrides : embeddings de session (→) Doc2Vec/Transformer clustering/classement.

7) Signal → Action : Tableau des solutions

Signaux	Contexte	Action	Guardrails
`rage_clicks≥3` или `latency_p95↑`	онбординг	montrer l'aide/forme allégée	zhaloby≤Kh
`scroll_depth<25%` & `dwell<3с`	contenu	Reconstruire les blocs/liste compressée	SLA UI
`search_refine≥2` & `no_success`	recherche	conseils/facettes, catalogue fallback	CTR ne ↓ pas
`bot_score≥τ`	Chacun	expérience dégradante/capcha/ban	Antibot FPR ≤ 0. 5%
« session_runlength↑ » nuits	RG	rappels doux/pause	FPR≤1%

L'hystérésis et les couldaunes sont obligatoires pour ne pas « clignoter » avec des indices.

8) Pseudo-SQL/recettes

A. Temps actif et profondeur du scroll

sql
WITH ev AS (
SELECT user_id, session_id, page, ts,
SUM(CASE WHEN event='user_active' THEN duration_ms ELSE 0 END) AS active_ms,
MAX(CASE WHEN event='scroll' THEN depth_pct ELSE 0 END)     AS max_depth
FROM raw_events
WHERE ts BETWEEN:from AND:to
GROUP BY 1,2,3,4
)
SELECT user_id, session_id,
AVG(active_ms) AS avg_dwell_ms,
PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY max_depth) AS scroll_median
FROM ev
GROUP BY 1,2;

B. Rage-clicks / back-forth

sql
WITH clicks AS (
SELECT user_id, session_id, ts,
LAG(ts) OVER (PARTITION BY user_id, session_id ORDER BY ts) AS prev_ts,
element
FROM ui_events WHERE event='click'
),
rage AS (
SELECT user_id, session_id,
COUNT() FILTER (WHERE EXTRACT(EPOCH FROM (ts - prev_ts)) <= 0. 3) AS rage_clicks
FROM clicks GROUP BY 1,2
),
backforth AS (
SELECT user_id, session_id,
SUM(CASE WHEN action IN ('back','forward') THEN 1 ELSE 0 END) AS nav_bf
FROM nav_events GROUP BY 1,2
)
SELECT r. user_id, r. session_id, r. rage_clicks, b. nav_bf
FROM rage r JOIN backforth b USING (user_id, session_id);

C. Antibot score (croquis)

sql
SELECT user_id, session_id,
(CASE WHEN headless OR webdriver THEN 1 ELSE 0 END)0. 4 +
(CASE WHEN asn_cat='hosting' THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN click_interval_std < 50 THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN scroll_speed_avg > 5000 THEN 1 ELSE 0 END)0. 2 AS bot_score
FROM telemetry_features;

D. Séquences de n-grammes

sql
-- Collect screen sequences and transition frequencies
SELECT screen_seq, COUNT() AS freq
FROM (
SELECT user_id, session_id,
STRING_AGG(screen, '→' ORDER BY ts) AS screen_seq
FROM nav_events
GROUP BY 1,2
) t
GROUP BY screen_seq
ORDER BY freq DESC
LIMIT 1000;

9) Signaux comportementaux en ML/analytique

Tendances/personnalisation : CTR/CTCVR modèle, session embeddings, next-best-action.
Sortie/rétention : modèles hazard, signes de recency/fréquence/séquences.
Antifrod : vitesse des formes, geo-velo, device/IP graphe, modèles de « fermes ».
Qualité du trafic : « vues valides », sessions engagées, rétroaction négative.
A/B et causalité : mesures de l'attention comme intermédiaires, mais les conclusions sont sur l'incrément (ROMI/LTV, rétention).

10) Visualisation

Sankey/step-bars : chemins et drop-off.
Heatmaps : profondeur du scroll, cartes de clics (impersonnelles).
Cohort × age : comment les signaux changent selon l'âge de la cohorte.
Graphiques de pont : contribution des facteurs (vitesse, scroll, erreurs) au changement de conversion.

11) Vie privée, éthique, RG/conformité

Minimisation PII : hachages ID, RLS/CLS, masquage lors de l'exportation.
Consentement/transparence : réglage du suivi, refus - respecté ; la logique est compréhensible.
RG : ne pas utiliser les signaux pour encourager les comportements nuisibles ; rappels doux/limites.
Fairness : vérifier les différences entre les erreurs et les interventions par groupe ; supprimer les caractéristiques non valides.
Stockage : le délai TTL pour les événements « bruts », l'agrégation est préférable.

12) Observabilité et dérive

Qualité des données : coverage, doublons, majuscules, pourcentage de champs vides.
Dérive de signal : PSI/KL selon dwell/scroll/fréquences ; les « nouveaux » modèles.
Exploitation : collecte de latitude, p95 calculs de caractéristiques, proportion de folbacks.
Guardrails : sursaut de bot-score, plaintes, désengagement ; « stop grue » sur les interventions agressives.

13) Anti-modèles

Clics crus sans contexte/filtre idl → faux « attention ».
Mélange d'unités (sessii↔polzovateli), TZ, fenêtres → incomparabilité.
Les visages du futur (pas de PIT) → la réévaluation des modèles.
Nultolerance au bruit : seuils rigides sans hystérésis → « clignotant ».
Ignorer les filtres antibot/QA → les métriques surévaluées.
L'enregistrement des PII superflus sans raison → les risques et les amendes.

14) Chèque de lancement du contour des signaux comportementaux

Schéma des événements (versions, UTC, idempotence), minimisation des PII
Antibot/filtres QA, listes ASN/dispositifs en noir/blanc
Recettes PIT, fenêtres 5m/1h/24h/7d, parité en ligne/hors ligne
Métriques de qualité : coverage, freshness, validateurs d'engagement
Signes de R/F/dwell/scroll/séquences/recherche, session embeddings
Tables de décision : actions, hystérésis, couldaunes, guardrails
Dashboards et alertes de dérive (PSI/KL), plaintes/désistements, indicateurs RG
Documentation : dictionnaire de dates, passeports de signaux/métriques, propriétaires et runibooks

Résultat

Les signaux comportementaux n'apportent de valeur que dans un circuit discipliné : bonne formation et PIT, nettoyage et antibot, signes résistants et politiques d'action claires, intimité et RG, observabilité et réaction à la dérive. Cette approche traduit les « clics and scroll » en solutions qui augmentent la conversion, la rétention et la LTV - de manière sûre, transparente et reproductible.

Signaux comportementaux