تشخیص تقلب
تشخیص تقلب
Antifraud فقط یک «مدل ریسک» نیست. "این مدار است: رویدادهای استاندارد → ویژگی ها و نمودار ها → قوانین/مدل ها → تصمیم و عمل → توضیح و تجدید نظر → اندازه گیری اثر و کنترل رانش. در زیر یک دستورالعمل سیستم قابل اجرا برای سیستم عامل های پرداخت و بازی، بازارها و خدمات fintech است.
1) نقشه تهدید (آنچه ما محافظت می کنیم)
طرح های پرداخت: کارت های سرقت شده، تست کارت، بازپرداخت، تقلب دوستانه.
خطرات حساب: هک کردن/رهگیری، چند حساب، سوء استفاده پاداش، مزارع دستگاه.
KYC/AML: اسناد جعلی، آدمک، پول نقد، تحریم/خطرات PEP.
رفتاری: رباتها, اسکریپت, الگوهای غیر طبیعی از نرخ/معاملات.
وابسته: تقلب در ترافیک/ارجاع، تحریک سپرده های کم کیفیت.
2) سیگنال ها و مواد اولیه
دستگاه/شبکه: اثر انگشت دستگاه، بوم/wag، شبیه ساز، IP/ASN/پروکسی/VPN، geovelositi.
پرداخت: BIN/MCC/کارت کشور، 3DS/ECI، نتایج AVS/CVV، سرعت (با کارت/حساب/دستگاه)، انحراف محدود.
رفتار: سرعت فرم ها، مسیرهای ماوس/لمس، زمان ساکن، دنباله ای از اقدامات.
اجتماعی/نمودار: تصادف تلفن/ایمیل/نقشه ها/آدرس ها/دستگاه ها، ویژگی های مشترک با گره های «بد».
CUS/اسناد: کیفیت OCR/selfie-matching/liveliness (زنده بودن)، تاریخ/منبع، لیست سیاه/تحریم ها.
3) فروشگاه ویژگی (نقطه در زمان)
پنجره های زمان: 5m/1h/24h/7d برای ویژگی سرعت ؛ خارج از کشور صاف کردن.
واحد های هویت: توسط user_id، تلفن، ایمیل، نقشه، دستگاه، IP/ASN.
جغرافیایی/زمان: کشور/منطقه/منطقه زمانی/پروفایل های تعطیلات محلی
نمودار ویژگی: درجه/شمارش مثلث/PageRank، نسبت اتصالات با موارد بد، جزء.
کیفیت KYC: OCR اطمینان، فاصله ویرایش نام/آدرس، اعتبار IBAN/TIN.
ضد چهره: به شدت نقطه در زمان، بدون علائم آینده ؛ برابری آنلاین/آفلاین
4) نشانه گذاری و متغیرهای هدف
اهداف: بازپرداخت = 1، confirmed_fraud=1، bonus_abuse=1.
پنجره های حقیقت معوق: برچسب ها پس از T (بازپرداخت) می آیند، هنگام یادگیری از «frieze» استفاده کنید.
توزیع: عدم تعادل قوی (0. 1-1٪ «واحد») → وزن کردن/نمونه برداری با دقت.
برچسب های جایگزین: تایید دستی و تجدید نظر - اطمینان داشته باشید.
5) مدل ها و رویکردها
قوانین (سیاست به عنوان کد): لیست سفید/لیست سیاه، آستانه سرعت، geovelocities، ویژگی های ناسازگار. سریع، قابل فهم، پایه ای برای شکست امن.
نظارت: افزایش گرادیان/جنگل، رگرسیون لجستیک، NN های جدولی با از دست دادن حساس به هزینه.
ناهنجاری ها: جنگل جداسازی، LOF، z-score قوی/فصلی-decomp، autoencoders.
رویکردهای نمودار: پیش بینی لینک، تعبیه GNN/DeepWalk، قوانین کلی دستگاه/نقشه.
هیبریدها: آبشار (قوانین → ML → نمودار)، گروه با جریمه های مختلف برای FP/FN.
کالیبراسیون: پلات/ایزوتونیک برای احتمالات ؛ جلوگیری از هزینه اشتباهات
6) معیارهای کیفیت (تمرکز بر کلاس های نادر)
PR-AUC به عنوان اصلی ؛ ROC-AUC در عدم تعادل ثانویه است.
Recall@FPR≤x٪، @k دقیق، ابزار حساس به هزینه.
پوشش و تاخیر p95 برای نمره تولید.
عدالت/مضرات: خطاهای کشور/دستگاه/روش پرداخت بخش.
7) سیاست آستانه و هیسترزیس
مناطق راه حل را جدا کنید:- 'score ≥ τ_block' → قفل خودکار ؛
- 'τ _ بررسی ≤ نمره <τ_block' → بررسی دستی ؛
- 'score <τ_review' پرش کردن.
اضافه کردن هیسترزیس (آستانه ورودی/خروجی متفاوت است) و خنک کردن (حداقل فواصل تکرار) برای جلوگیری از «چشمک زدن».
مثال جدول تصمیم
8) مدار آنلاین: به ثمر رساند و ارکستراسیون
جریان: رویدادها از طریق اتوبوس ؛ ویژگی های فروشگاه ویژگی های آنلاین ؛ قابلیت شناسایی از طریق 'event _ id'.
تاخیر: هدف p95 (به عنوان مثال، ≤ 100-300 میلی ثانیه در هر درخواست).
ارکستر: تحویل تضمین شده، retrai/backoff، DLQ، محدودیت نرخ در سراسر کانال.
کانال های عمل: 3DS/step-up، نگه داشتن/محدود کردن، مسدود کردن، درخواست اسناد، بلیط به مدیر مورد، اطلاع رسانی به کاربر.
حسابرسی: پایان دادن به پایان 'همبستگی _ id' «سیگنال → resheniye → deystviye → iskhod».
9) انسان در حلقه و مدیریت مورد
موارد: مجموع حوادث/شواهد، نشان دادن توضیح (ویژگی های بالا/قوانین، گراف همسایه).
مجوز: خودکار بلوک/محدودیت جزئی/درخواست برای ACC اضافی/بسته شدن.
آموزش: ویرایش تحلیلگران بازگشت به داده ها (برچسب)، دارایی در مرز.
SLA: اولویت P1/P2، زمان پاسخ، صف، به اشتراک گذاری بار.
10) تجزیه و تحلیل نمودار در عمل
: 'کاربر دستگاه کارت تلفن'.
الگوها: «ستاره» تست کارت، «اجزای» سوء استفاده از پاداش، پروکسی های عمومی/VPN ها.
امتیاز دادن گره ها/لبه ها: PageRank وزن، مشکوک بودن نسبت همسایگان بد.
پیشگیری: قرنطینه گره های جدید اگر آنها در جزء «آلوده» گنجانده شده است.
11) KYC/AML/تحریم ها و انطباق
مسابقه: لیست تحریم ها/رسانه های POP/آدرس ؛ جستجوی فازی، عادی سازی نام/ترجمه.
اسناد: نشاط/ضد spoofing، MRZ/نشانه های بصری چک، جغرافیایی سازگاری.
نظارت بر معاملات: قوانین مربوط به مقادیر/آستانه/زنجیره انتقال، سناریوها بازنشانی شدند.
حکومت: RLS/CLS، PII ماسک، ورود به سیستم تصمیم گیری، توضیح، و مسیر درخواست تجدید نظر.
12) برآورد اثر (نه تنها «دقت»)
اقتصاد راه حل:[
EV =\text {پیشین. damage} -\text {هزینه بلوک های کاذب} -\text {هزینه های معامله}
]
سیاست ها/تست ها: A/B/شبه آزمایش (DiD) برای آستانه و قوانین ؛ راهزنان برای انتخاب یک روش گام به گام.
Guardrails: شکایات/تجدید نظر، NPS، نسبت «قفل نادرست» (FPR)، تاخیر.
13) نظارت، رانش و SLO
کیفیت: PR-AUC/Recall @ FPR از طریق پنجره کشویی ؛ کالیبراسیون احتمال.
رانش: PSI/KL با ویژگی های کلیدی، سهم BIN/ASN «ناشناخته»، خوشه های دستگاه جدید.
عملیات: تاخیر p95، سهم وقفه ها، درصد افزایش دستی، بررسی عقب ماندگی.
SLO: در دسترس بودن> 99. 9%, تصمیم → عمل p95 ≤ 2-5 ج; «توقف» در صورت کاهش کیفیت داده ها.
Runibooks: افزایش تست کارت، کاهش در 3DS، ارائه دهنده قطع، طوفان سیاهههای مربوط.
14) معماری داده و کد
رویدادها: طرح متعارف (UTC، نسخه، منبع)، کلیدهای idempotent.
فروشگاه ویژگی: برابری آنلاین/آفلاین، پرواز نقطه در زمان، تغییرات نسخه.
مدل ها: ثبت نسخه ها، خطوط لوله قابل تجدید، صدور گواهینامه در تولید، سایه اندازی.
قوانین به عنوان کد: مخزن گیت، بررسی/چک لیست، آزمون رگرسیون.
توضیح: SHAP/وزن قانون ورود به سیستم، نمونه مورد برای آموزش پشتیبانی.
15) امنیت، حریم خصوصی، اخلاق
به حداقل رساندن PII: نشانه گذاری/هش کردن شناسه ها ؛ فروشگاه های «امن»
دسترسی: RLS/CLS و ممیزی خواندن/آپلود ؛ صادرات - با نشانه ها و مهلت.
عدالت: تست تمایز خطا توسط منطقه/روش، از بین بردن ویژگی های نامعتبر.
شفافیت: دلایل تصمیم گیری و جذابیت قابل درک برای کاربر.
16) شبه SQL و دستور العمل
ثبت معاملات بدون وقفه
sql
MERGE INTO fact_payments t
USING staging_payments s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET status=s. status, amount=s. amount, updated_at=s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id,user_id,card_hash,amount,currency,event_time,created_at)
VALUES (s. txn_id,s. user_id,s. card_hash,s. amount,s. currency,s. event_time,NOW());
ویژگی های سرعت (پنجره 24 ساعته)
sql
SELECT user_id,
COUNT() AS tx_24h,
SUM(amount) AS sum_24h,
COUNT(DISTINCT card_hash) AS uniq_cards_24h,
COUNT(DISTINCT device_hash) AS uniq_devices_24h,
MIN(event_time) AS first_tx_24h,
MAX(event_time) AS last_tx_24h
FROM fact_payments
WHERE event_time >= NOW() - INTERVAL '24 hour'
GROUP BY user_id;
17) چک لیست راه اندازی ضد تقلب
- سیگنال ها و مدارات استاندارد، idempopotency را فعال کنید
- ویژگی فروشگاه با نقطه در زمان، برابری آنلاین/آفلاین
- برچسب ها بدون چهره شکل می گیرند، پنجره های حقیقت به تعویق افتاده در نظر گرفته می شوند
- سیاست آستانه با هیسترزیس و گام به گام، SLA و guardrails تنظیم شده است
- مدیریت پرونده و انسان در حلقه تنظیم شده است، توضیح در دسترس است
- معیارها: PR-AUC، Recall @ FPR، هزینه-ابزار ؛ انصاف تشخیص
- نظارت بر رانش/خطا، هشدارها، Runibooks حادثه
- حاکمیت: نسخه های مدل/قانون، بررسی، ممیزی راه حل، انطباق KYC/AML
- طرح A/B/DiD برای آستانه/سیاست ؛ بازگشت امن در قوانین
مجموع
ضد تقلب قوی ترکیبی از قوانین، مدل ها و نمودار ها در یک حلقه کنترل شده است: سیگنال ها و ویژگی های با کیفیت بالا → سیاست آستانه با هیسترزیس → سریع آنلاین به ثمر رساند و ارکستراسیون اقدامات → انسان در حلقه و درخواست های شفاف → معیارهای اثر و کنترل رانش. با پیروی از این طرح، تلفات را کاهش می دهید، آسیب های قفل های دروغین را محدود می کنید و اعتماد کاربران و تنظیم کننده ها را حفظ می کنید.