Verhaltenssignale

Verhaltenssignale sind die „Telemetrie“ der Interaktion eines Benutzers mit einem Produkt: Ereignisse, Kontext und Zeitreihen, aus denen wir Absicht, Interesse, Verkehrsqualität, Risiko und Wert ableiten. Zuverlässige Signalkontur: Instrumentierung → Sammlung → Reinigung → Normalisierung → Charakterisierung → Verwendung in Lösungen → Überwachung und Ethik.

1) Was gilt als Verhaltenssignale

Sitzungen: Start/Stopp, Dauer, Anzahl der Bildschirme, Tiefe, Wiederholungen pro Tag, „ruhige“ Sitzungen.
Klicks/Touch/Scrolling: Klickdichte, Scrollgeschwindigkeit, Tiefe, Stopps (Scroll-Stops).
Dwell-Zeit: Zeit auf dem Bildschirm/Element, aktive Zeit (Idle-Filter).
Navigation/Bildschirmbeziehung: Sequenzen, Schleifen, Rage-Navigation.
Eingabe/Formulare: Füllgeschwindigkeit, Korrekturen, Tab-Navigation, Paste-Rate.
Mikro-Interaktionen: Hovers, Enthüllungen, Schalter, Sortierung/Filter.
Inhalt/Suche: Abfragen, CTR, CTCVR, Speichern, „auf später verschieben“.
Technik: Gerät/Browser, FPS/Batteriestatus, Fehler, Latenz, Netzwerke (IP/ASN), offline/online.
Zeit/Kontext: Stunde/Tag/lokaler Kalender, Geo-Muster (keine genaue Geolokalisierung, wenn nicht erforderlich).
Negatives Feedback: Ausblenden, Beschwerde, Abmeldung, Ablehnung von Cookies/Personalisierung.

2) Instrumentierung und Ereignisdiagramm

Kanonisches Schema (Minimum):


event_id, user_id, session_id, ts_utc, type, screen/page, element, value, duration_ms,
device_id, platform, app_version, locale, referrer, ip_hash, asn, experiment_id, schema_version

Prinzipien: Idempotenz (dedup durch'(source_id, checksum)'), UTC-Zeit, Schemaversion, stabile Identitätsschlüssel, PII-Minimierung (Hashes/Token).

3) Reinigung und Anti-Bots

Headless/Automation Flags: WebDriver/puppeteer Signaturen, fehlende benutzerdefinierte Gesten.
Anomale Geschwindigkeit: übermenschliche Klicks/Scrolls, „perfekte“ Intervalle.
Netzwerk: Rechenzentren, bekannte ASN-Proxy/VPN.
Wiederholbarkeit des Musters: gleiche Trajektorien und Sequenzen.
QS/intern: Listen der Testkonten/Geräte.
Fred: Device/IP-Graph (ein Gerät → viele Konten, Geo-Velocity).

4) Normalisierung und Point-in-Time (PIT)

Zeitfenster: 5 Minuten/1 Stunde/24 Stunden/7 Tage; Expon. Glätten.
Saisonalität: Tag-der-Woche, Stunde-des-Tages, Feiertagsfahnen.
PIT-Schnitte: Alle Merkmale werden vor der Bewertungszeit erstellt; Keine Informationen aus der Zukunft.
Online-/Offline-Parität: Die gleichen Rezepte im Feature Store.

5) Qualität und Gültigkeit der Signale

Coverage: Anteil der Sitzungen/Bildschirme mit kompletten Veranstaltungen.
Freshness: Lag des Eingangs.
Consistency: Ereignisanteile pro Benutzer/Sitzung in „Korridoren“ (Emissionskontrolle).
Achtung: aktive Zeit/Idl-Filter, Rolltiefe, Stopps.
Absicht: Übergänge zu tiefgreifenden Handlungen (filtr→detal→tselevoye).
Zuverlässigkeit: Anti-Botskor, Vertrauen in das Gerät/IP.

6) Merkmalsbildung (Feature Engineering)

R/F: recency der letzten Interaktion, Frequenzen hinter den Fenstern 7/30/90.
Dwell/Scroll: Mediane/Quantile, Anteil der Bildschirme mit Dwell ≥ X, Tiefe ≥ p%.
Sequenzen: n-Gramm, Markov-Übergänge, Muster von „Reue“ (Back-Forth), Run-Length.
Gerätestabilität: Geräte-/Browserwechsel, entropy user-agents.
Klickqualität: Klickverhältnis zu anklickbaren Elementen, Rage-Klicks.
Suche/Intention: Länge/Verfeinerung der Abfragen, dwell after search, success rate.
Aggregationen nach Identitäten: user_id, device_id, ip_hash, asn.
Hybride: Embedding-Sitzungen (Doc2Vec/Transformer) → Clustering/Ranking.

7) Signal → Aktion: Entscheidungstabelle

Signale	Der Kontext	Die Handlung	Guardrails
`rage_clicks≥3` или `latency_p95↑`	onbording	Hilfe zeigen/Lightweight Form	zhaloby≤Kh
`scroll_depth<25%` & `dwell<3с`	Der Inhalt	Blöcke neu erstellen/komprimierte Liste	SLA UI
`search_refine≥2` & `no_success`	Die Suche	Hinweise/Facetten, Fallback-Verzeichnis	CTR nicht ↓
`bot_score≥τ`	Jeder	degradierende Erfahrung/captcha/ban	FPR Antibot ≤ 0 5%
„session_runlength↑“ in der Nacht	RG	weiche Erinnerungen/Pause	FPR≤1%

Hysterese und Kuldowns sind obligatorisch, um Hinweise nicht zu „blinken“.

8) Pseudo-SQL/Rezepte

A. Aktive Scrollzeit und -tiefe

sql
WITH ev AS (
SELECT user_id, session_id, page, ts,
SUM(CASE WHEN event='user_active' THEN duration_ms ELSE 0 END) AS active_ms,
MAX(CASE WHEN event='scroll' THEN depth_pct ELSE 0 END)     AS max_depth
FROM raw_events
WHERE ts BETWEEN:from AND:to
GROUP BY 1,2,3,4
)
SELECT user_id, session_id,
AVG(active_ms) AS avg_dwell_ms,
PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY max_depth) AS scroll_median
FROM ev
GROUP BY 1,2;

B. Rage-clicks / back-forth

sql
WITH clicks AS (
SELECT user_id, session_id, ts,
LAG(ts) OVER (PARTITION BY user_id, session_id ORDER BY ts) AS prev_ts,
element
FROM ui_events WHERE event='click'
),
rage AS (
SELECT user_id, session_id,
COUNT() FILTER (WHERE EXTRACT(EPOCH FROM (ts - prev_ts)) <= 0. 3) AS rage_clicks
FROM clicks GROUP BY 1,2
),
backforth AS (
SELECT user_id, session_id,
SUM(CASE WHEN action IN ('back','forward') THEN 1 ELSE 0 END) AS nav_bf
FROM nav_events GROUP BY 1,2
)
SELECT r. user_id, r. session_id, r. rage_clicks, b. nav_bf
FROM rage r JOIN backforth b USING (user_id, session_id);

C. Antibot score (Skizze)

sql
SELECT user_id, session_id,
(CASE WHEN headless OR webdriver THEN 1 ELSE 0 END)0. 4 +
(CASE WHEN asn_cat='hosting' THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN click_interval_std < 50 THEN 1 ELSE 0 END)0. 2 +
(CASE WHEN scroll_speed_avg > 5000 THEN 1 ELSE 0 END)0. 2 AS bot_score
FROM telemetry_features;

D. n-Gramm-Sequenzen

sql
-- Collect screen sequences and transition frequencies
SELECT screen_seq, COUNT() AS freq
FROM (
SELECT user_id, session_id,
STRING_AGG(screen, '→' ORDER BY ts) AS screen_seq
FROM nav_events
GROUP BY 1,2
) t
GROUP BY screen_seq
ORDER BY freq DESC
LIMIT 1000;

9) Verhaltenssignale in ML/Analytik

Neigungen/Personalisierung: CTR/CTCVR-Modelle, Session-Embeddings, Next-Best-Action.
Abfluss/Retention: Hazard-Modelle, Anzeichen von Recency/Frequenz/Sequenzen.
Anti-Fraud: Formulargeschwindigkeit, Geo-Velo, Device/IP-Graph, „Farm“ -Muster.
Verkehrsqualität: „valide views“, engagierte Sessions, negatives Feedback.
A/B und Kausalität: Aufmerksamkeitsmetriken als Vermittler, aber Schlussfolgerungen - durch Inkrement (ROMI/LTV, Retention).

10) Visualisierung

Sankey/step-bars: Wege und Drop-off.
Heatmaps: Scrolltiefe, Klickkarten (unpersönlich).
Cohort × age: Wie verändern sich die Signale durch das Alter der Kohorte?
Bridge-Charts: Beitrag von Faktoren (Geschwindigkeit, Scrolling, Fehler) zur Conversion-Änderung.

11) Datenschutz, Ethik, RG/Compliance

PII-Minimierung: ID-Hashes, RLS/CLS, Maskierung beim Export.
Zustimmung/Transparenz: Tracking-Setup, Ablehnung - respektiert; Die Logik ist erklärbar.
RG: Verwenden Sie keine Signale, um schädliches Verhalten zu fördern; weiche Erinnerungen/Grenzen.
Fairness: Überprüfung der Fehler-/Interventionsunterschiede nach Gruppen; unzulässige Zeichen auszuschließen.
Lagerung: TTL-Timing für „rohe“ Ereignisse, Aggregation ist vorzuziehen.

12) Beobachtbarkeit und Drift

Datenqualität: Abdeckung, Duplikate, Lags, Prozentsatz leerer Felder.
Signaldrift: PSI/KL nach Dwell/Scroll/Frequenzen; „neue“ Muster.
Operativ: Latenz der Sammlung, p95 der Berechnung der Merkmale, Anteil der Folbacks.
Guardrails: eine Welle von Bot-Score, Beschwerden, Abmeldungen; „Stopp-Kran“ für aggressive Interventionen.

13) Anti-Muster

Rohe Klicks ohne Kontext/IDL-Filter → falsche „Aufmerksamkeit“.
Das Mischen von Einheiten (sessii↔polzovateli), TZ, Fenstern → nicht vergleichbar.
Likes aus der Zukunft (kein PIT) → Neubewertung von Modellen.
Nulltoleranz gegenüber Lärm: harte Schwellen ohne Hysterese → „Blinken“.
Antibot/QA-Filter ignorieren → übertriebene Metriken.
Die Erfassung unnötiger PIIs ohne Grund → Risiken und Strafen.

14) Checkliste zur Auslösung der Verhaltenssignalschleife

Ereignisdiagramm (Versionen, UTC, Idempotenz), PII-Minimierung
Anti-Bot-/QA-Filter, schwarze/weiße ASN/Geräte-Listen
PIT-Rezepte, Fenster 5m/1h/24h/7d, online/offline Parität
Qualitätskennzahlen: Coverage, Freshness, Engagement Validators
Signs R/F/dwell/scroll/sequences/search, session embeddings
Entscheidungstabellen: Aktionen, Hysterese, Kuldowns, Guardrails
Dashboards und Drift Alerts (PSI/KL), Reklamationen/Abmeldungen, RG-Indikatoren
Dokumentation: Datenwörterbuch, Signal-/Metrikpässe, Besitzer und Runybuks

Summe

Verhaltenssignale geben nur in einer disziplinierten Schleife Wert: korrekte Instrumentierung und PIT, Reinigung und Anti-Bots, nachhaltige Zeichen und klare Handlungsrichtlinien, Privatsphäre und RG, Beobachtbarkeit und Reaktion auf Drift. Dieser Ansatz übersetzt „Klicks und Scrolls“ in Lösungen, die Conversion, Retention und LTV steigern - sicher, transparent und reproduzierbar.

Verhaltenssignale