欺诈检测
欺诈检测
Antifrod不仅仅是"风险模型"。这是一个轮廓:标准化事件→特征和图→规则/模型→决定和行动→解释和上诉→效果测量和漂移控制。下面是适用于支付和游戏平台,市场和fintech服务的系统指令。
1)威胁图(我们保护什么)
支付方案:窃取卡,卡测试,收费表,友好欺诈。
帐户风险:黑客/拦截,多巡回,奖金,设备场。
KYC/AML:伪造文件,伪造者,订阅,制裁/RER风险。
行为:机器人,脚本,异常的投注/交易模式。
合作伙伴:交通/转介,刺激不合格存款。
2)信号和原材料
设备/网络: 设备指纹,canvas/wag,模拟器,IP/ASN/proxy/VPN, geovelositi.
付款:BIN/MCC/卡国家/地区,3DS/ECI,AVS/CVV结果,velocity(卡/帐户/设备),限制偏差。
行为:形式速度,鼠标/tach轨迹,dwell-time,动作顺序。
社交/图形:电话/电子邮件/地图/地址/设备匹配,常见的fici和"不良"节点。
CUS/文件:OCR质量/自拍对决/生存(liveness),日期/来源,黑名单/制裁。
3)特征工程(功能商店,点对点时间)
时间窗口:5m/1h/24h/7d用于velocity-fich;expon。平滑。
按身份分组:通过user_id,电话,电子邮件,地图,设备,IP/ASN。
地理/时间:国家/地区/时区/当地节日概况。
Graph-fici: degree/triangle count/PageRank,与不良关联的比例,分量。
KYC质量:confidence OCR,名称/地址距离编辑,IBAN/INN验证。
反面具: 严格按时进行,没有未来的标签;online/offline parity.
4)标记和目标变量
目标:chargeback=1, confirmed_fraud=1, bonus_abuse=1。
延迟真理窗口:标签在T(charjbacks)之后到达,在学习时使用时期的"fries"。
分布:严重失衡(0.1-1%的"单位")→小心地加权/采样。
代孕标签:手动确认和上诉-保持信心。
5)模型和方法
规则(策略即代码):白色/黑色列表,velocity阈值,geovelosity,不兼容属性。快速、可解释的故障安全基础。
主管: 梯度增强/森林,逻辑回归,表格NN与成本感知借口.
异常:隔离森林,LOF,robust z-score/seasonal-decomp,自动编码器。
图形方法:链接预测,GNN/DeepWalk掩码,"共享设备/映射"规则。
杂种:cascade(规则→ ML →图形),FP/FN罚款不同的合奏。
校准:概率的Platt/Isotonic;错误成本的阈值。
6)质量度量(针对稀有类别)
PR-AUC是主要的;ROC-AUC在失衡中是次要的。
Recall@FPR≤x%, Precision@k, Cost-sensitive utility.
Coverage和Latency p95进行分数。
Fairness/Harms:按国家/设备/支付方法划分的错误。
7)阈值政策和滞后
共享解决方桉区域:- '得分≥ τ_block' →汽车人";
- 'τ_review ≤分数<τ_block' →手动检查;
- 'score <τ_review' →跳过。
添加滞后(入口/出口阈值不同)和cool-down(最小重复动作间隔)以排除"闪烁"。
示例决策表
8)在线轮廓: 得分和编排
流媒体:通过总线的事件;来自在线功能商店的fici;通过"event_id"的幂等。
Latency:目标p95(例如,每个请求≤ 100-300毫秒)。
管弦乐队: 保证交付,retraie/backoff, DLQ, rate-limit通过渠道.
活动渠道:3DS/step-up、限制/限制、块、文档请求、拨号到桉例管理器、通知用户。
审计:端到端的"correlation_id" "signal→resheniye→deystviye→iskhod"。
9)人为循环和案例管理
桉例:汇总事件/证词,显示解释(顶级功能/规则,图邻居)。
权限:自动插头/部分限制/请求。CUS/关闭。
培训:分析师的编辑回到数据(relabel),资产列宁在边境。
SLA:P1/P2优先级,反应时间,队列,负载分配。
10)实践中的图形分析
Связи: `user ↔ device ↔ card ↔ phone ↔ email ↔ IP`.
模式:卡测试的"星星",奖金的"组件",常见的代理/VPN。
节点计分/肋骨:加权的PageRank,按不良邻居的比例划分。
提防:如果新节点进入"受感染"组件,则隔离它们。
11) KYC/AML/制裁和合规性
对决:制裁名单/RER/adverz媒体;fuzzy搜索,名称归一化/音译。
文件:生存/反欺骗,MRZ/视觉特征检查,地理一致性。
事务监控:关于金额/阈值/转移链的规则,情景拥抱。
Hovernance:RLS/CLS,PII掩盖,决策记录,可解释性和上诉途径。
12)效果评估(不仅仅是"准确性")
解决方案的经济性:[
EV =\text {Detuv。损坏}-\text{虚假块成本}-\text{交易成本}
]
策略/测试:阈值和规则的A/B/准实验(DiD);bandits选择步进方法。
Guardrails:投诉/上诉、NPS、"错误锁定"(FPR)份额、后悔。
13)监视,漂移和SLO
质量:PR-AUC/Recall@FPR通过滑动窗口;概率校准。
漂移:PSI/KL按键,"未知"BIN/ASN的比例,新设备集群。
操作:p95 latency,taymauts的份额,手动升级的百分比,backlog咆哮。
SLO:可用性>99.9%, Decision→Action p95 ≤ 2–5 c;数据质量退化的停止水龙头。
Runibuki:卡测试激增,3 DS下降,outage提供商,暴风雨日志。
14)数据和代码体系结构
事件:规范方案(UTC,版本,源),等效键。
Feature Store:在线/离线平价、点对点计数、转换转换。
型号:版本注册表,可播放的piplines,prod认证,shadow启动。
规则即代码:git存储库,评论/支票清单,回归测试。
Explainability: SHAP/Log规则权重,Sapport培训桉例样本。
15)安全、隐私、道德
PII最小化:ID标记/哈希;单独的"保险箱"仓库。
访问:RLS/CLS和阅读/上载审核;导出-带有令牌和截止日期。
公平性:按区域/方法测试错误修剪,消除无效属性。
透明度:决定的原因和对用户的明确上诉。
16)Pseudo-SQL和食谱
等效交易日志
sql
MERGE INTO fact_payments t
USING staging_payments s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET status=s. status, amount=s. amount, updated_at=s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id,user_id,card_hash,amount,currency,event_time,created_at)
VALUES (s. txn_id,s. user_id,s. card_hash,s. amount,s. currency,s. event_time,NOW());
Velocity-fichi (24小时窗口)
sql
SELECT user_id,
COUNT() AS tx_24h,
SUM(amount) AS sum_24h,
COUNT(DISTINCT card_hash) AS uniq_cards_24h,
COUNT(DISTINCT device_hash) AS uniq_devices_24h,
MIN(event_time) AS first_tx_24h,
MAX(event_time) AS last_tx_24h
FROM fact_payments
WHERE event_time >= NOW() - INTERVAL '24 hour'
GROUP BY user_id;
17)反流派发射支票清单
- 信号和电路标准化,等效性包括
- 具有点对点、在线/离线平价的特色商店
- 标签形成时没有面孔,延迟的真相窗口被考虑在内
- 带滞后和步进、SLA和guardrails的阈值策略设置为
- Case Management和human-in-the-loop设置,可解释
- 度量标准:PR-AUC,Recall@FPR,成本实用程序;fairness诊断
- 监视漂移/错误,Alerta,Runibook事件
- Howernans:模型/规则版本,评论,解决方桉审核,KYC/AML合规性
- A/B/DiD阈值/政策计划;安全的后退规则
底线
强大的反氟化物是受控回路中规则,模型和图形的混合体:质量提示和技巧→滞后阈值策略→快速在线得分和动作编排→人体循环以及透明的称呼→效果指标和漂移控制。按照这个计划,你减少损失,限制错误锁定的伤害,并保持用户和监管机构的信任。