Détection de fraude
Détection de fraude
L'antifrod n'est pas seulement un « modèle de risque ». Il s'agit d'événements normalisés → de caractéristiques et de graphiques → de règles/modèles → de décisions et d'actions → d'explications et d'appels → de mesures d'effets et de contrôles de dérive. Ci-dessous, l'instruction système applicable aux plateformes de paiement et de jeux, aux marchés et aux services fintech.
1) Carte des menaces (ce que nous protégeons)
Schémas de paiement : cartes volées, tests de cartes, chargbacks, friendly fraud.
Compte à risque : piratage/interception, multi-accounting, bonus-abyse, fermes d'appareils.
KYC/AML : faux documents, personnes fictives, contournement, sanctions/risques RER.
Comportemental : bots, scripts, modèles anormaux de paris/transactions.
Partenaires : trafic frigorifique/références, stimulation des dépôts de mauvaise qualité.
2) Signaux et matières premières
Appareil/réseau : device fingerprint, canvas/wag, émulateurs, IP/ASN/proxy/VPN, géovelosity.
Paiement : BIN/MCC/pays de la carte, 3DS/ECI, résultats AVS/CVV, velocity (par carte/compte/appareil), écarts des limites.
Comportement : vitesse des formes, trajectoires souris/tache, dwell-time, séquence d'action.
Social/grafovye : les coïncidences телефонов/е-mail/карт/адресов/устройств, total фичи avec de "mauvais" noeuds.
CUS/Documents : qualité OCR/selfie matching/vivacité (liveness), date/source, blacklists/sanctions.
3) Ingénierie des caractéristiques (feature store, point-in-time)
Fenêtres temporaires : 5m/1h/24h/7d pour velocity-fich ; l'expo. lissage.
Agrégats par identité : par user_id, téléphone, e-mail, carte, appareil, IP/ASN.
Géo/heure : pays/région/temps/profils fériés locaux.
Graphe-fiches : degree/triangle count/PageRank, proportion de liens avec les mauvais, composante.
Qualité KYC : confiance OCR, edit distance noms/adresses, validation IBAN/INN.
Anti-visage : strictement point-in-time, sans étiquettes futures ; online/offline parity.
4) Balisage et variables cibles
Targets : chargeback = 1, confirmed_fraud=1, bonus_abuse=1.
Fenêtres de vérité différée : les marques arrivent après T (chargbacks), utilisez la « frise » de la période lors de l'apprentissage.
Distribution : déséquilibre important (0. 1-1 % « unités ») → pondération/échantillonnage prudent.
Marques de substitution : confirmations manuelles et appels - gardez votre confiance.
5) Modèles et approches
Règles (policy-as-code) : listes blanches/noires, seuils de velocity, géovelosity, attributs incompatibles. Rapide, compréhensible, base pour fail-safe.
Supervise : boosting/foresterie en gradient, régression logistique, NN tabulaires avec cost-sensible loss.
Anomalies : Isolation Forest, LOF, robuste z-score/seasonal-decomp, auto-encodeurs.
Approches graphiques : link prediction, GNN/DeepWalk-embeddings, règles « device/carte commune ».
Hybrides : cascade (règles de → ML → graphe), ensembles avec des sanctions différentes pour FP/FN.
Étalonnage : Platt/Isotonic pour les probabilités ; seuils du coût des erreurs.
6) Métriques de qualité (nous nous concentrons sur les classes rares)
la PR-AUC comme principale ; Le ROC-AUC est secondaire en cas de déséquilibre.
Recall@FPR≤x%, Precision@k, Cost-sensitive utility.
Coverage et Latency p95 pour le prod-scoring.
Fairness/Harms : erreurs par segment pays/appareils/méthodes de paiement.
7) Politique de seuil et hystérésis
Séparez les zones de la solution :- 'Score ≥ τ_block' → bloc automatique ;
- 'τ _ review ≤ score <τ_block' → vérification manuelle ;
- 'score <τ_review' → passe.
Ajoutez l'hystérésis (seuil d'entrée/sortie différent) et le cool-down (intervalles minimaux de répétition) pour éliminer le « clignotement ».
Exemple de table de décision
8) Circuit en ligne : Scoring et orchestration
Streaming : événements à travers le pneu ; fiches de la boutique de fonctionnalités en ligne ; idempotence via 'event _ id'.
Latency : de but p95 (par exemple, ≤ 100-300 мс sur la demande).
Orchestrateur : livraison garantie, retrai/backoff, DLQ, rate-limit sur les canaux.
Canaux d'action : 3DS/step-up, colline/limite, bloc, demande de documents, ticket dans le gestionnaire de cas, notification à l'utilisateur.
Audit : de bout en bout _ correlation _ id '« signal→resheniye→deystviye→iskhod ».
9) Human-in-the-loop et gestion de cas
Cas : agrégez les incidents/témoignages, montrez une explication (caractéristiques supérieures/règles, quartier graphique).
Autorisations : auto-débrayage/limite partielle/demande de dop. CUS/fermeture.
Formation : les modifications des analystes retournent aux données (relabel), un atout-lening à la frontière.
SLA : priorité de la P1/P2, réaction temporelle, files d'attente, répartition de la charge.
10) Analyse graphique dans la pratique
Связи: `user ↔ device ↔ card ↔ phone ↔ email ↔ IP`.
Modèles : « étoiles » de cartes de test, « composants » bonus-abyse, proxy/VPN commun.
Scoring nœuds/côtes : pondéré PageRank, suspiciousness par la proportion de mauvais voisins.
Prévention : mise en quarantaine de nouveaux nœuds s'ils entrent dans le composant « infecté ».
11) KYC/AML/sanctions et conformité
Matching : listes de sanctions/RER/médias advers ; recherche fuzzy, normalisation des noms/translittération.
Documents : vivacité/anti-spoofing, vérification MRZ/signes visuels, géo-cohérence.
Surveillance transactionnelle : règles sur les montants/seuils/chaînes de transfert, scripts de dépassement.
Howernance : RLS/CLS, masque PII, journal des décisions, explication et voie d'appel.
12) Évaluation de l'effet (pas seulement « précision »)
L'économie de la solution :[
EV =\text {Avant-propos. dommages} -\text {Valeur des faux blocs} -\text {Coûts de transaction}
]
Politiques/tests : A/B/quasi-expériences (DiD) pour les seuils et les règles ; bandits pour choisir la méthode step-up.
Guardrails : plaintes/recours, NPS, proportion de « blocages erronés » (FPR), latitude.
13) Surveillance, dérive et SLO
Qualité : PR-AUC/Recall @ FPR le long de la fenêtre coulissante ; étalonnage des probabilités.
Dérive : PSI/KL sur les fiches clés, proportion de BIN/ASN « inconnus », nouveaux clusters de périphériques.
Opérations : p95 latitude, proportion de temporisation, % d'escalade manuelle, backlog rhubarbe.
SLO : disponibilité> 99. 9%, Decision→Action p95 ≤ 2–5 c; « robinet stop » en cas de dégradation de la qualité des données.
Runibooks : sursaut de cartes de test, chute de 3DS, sortie du fournisseur, tempête de loges.
14) Architecture de données et de code
Evénements : schéma canonique (UTC, version, source), clés idempotent.
Feature Store : parité en ligne/hors ligne, recets point-in-time, versioning transformations.
Modèles : registre de version, piplines jouables, certification en prod, shadow-start.
Rules-as-Code : dépôt git, revues/chèques, tests de régression.
Explainability : SHAP/journal de poids des règles, échantillons de cas pour l'apprentissage du sappport.
15) Sécurité, vie privée, éthique
Minimisation du PII : Tokénisation/hachage des identifiants ; un « coffre-fort » séparé.
Accès : RLS/CLS et audit de lecture/déchargement ; exportation - avec tokens et délais.
Équité : testez la compensation des erreurs par région/méthode, excluez les attributs non valides.
Transparence : motifs des décisions et appel compréhensible à l'utilisateur.
16) Pseudo-SQL et recettes
Journal des transactions idempotent
sql
MERGE INTO fact_payments t
USING staging_payments s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET status=s. status, amount=s. amount, updated_at=s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id,user_id,card_hash,amount,currency,event_time,created_at)
VALUES (s. txn_id,s. user_id,s. card_hash,s. amount,s. currency,s. event_time,NOW());
Velocity-fichi (fenêtre 24h)
sql
SELECT user_id,
COUNT() AS tx_24h,
SUM(amount) AS sum_24h,
COUNT(DISTINCT card_hash) AS uniq_cards_24h,
COUNT(DISTINCT device_hash) AS uniq_devices_24h,
MIN(event_time) AS first_tx_24h,
MAX(event_time) AS last_tx_24h
FROM fact_payments
WHERE event_time >= NOW() - INTERVAL '24 hour'
GROUP BY user_id;
17) Chèque de démarrage antifrode
- Signaux et schémas normalisés, idempotence incluse
- Feature Store avec point-in-time, parité en ligne/hors ligne
- Les étiquettes sont formées sans visage, les fenêtres de la vérité retardée sont prises en compte
- Politique de seuil avec hystérésis et step-up, SLA et guardrails définis
- Gestion de cas et human-in-the-loop personnalisés, explication disponible
- Métriques : PR-AUC, Recall @ FPR, Cost-utility ; diagnostic fairness
- Surveillance des dérives/erreurs, alertes, incidents runibooks
- Howernance : versions modèles/règles, revues, audit des solutions, conformité KYC/AML
- Plan A/B/DiD pour les seuils/politiques ; un folback sûr sur les règles
Résultat
Fort антифрод est un hybride gouvernait, les modèles et les comtes dans le contour dirigé : les signaux qualitatifs et фичи → la politique liminaire avec l'hysteresis → rapide en ligne скоринг et оркестрация des actions → human-in-the-loop et les appels transparents → les actes de naissance de l'effet et la dérive-contrôle. En suivant ce schéma, vous réduisez les pertes, limitez les dommages causés par de faux verrous et conservez la confiance des utilisateurs et des régulateurs.