Виявлення шахрайства

Антифрод - це не тільки «модель ризику». Це контур: стандартизовані події → ознаки та графи → правила/моделі → рішення та дія → пояснення та апеляції → вимірювання ефекту та дрейф-контроль. Нижче - системна інструкція, що застосовується до платіжних та ігрових платформ, маркетплейсів і фінтех-сервісів.

1) Карта загроз (що захищаємо)

Платіжні схеми: крадені карти, тестинг карт, чарджбекі, friendly fraud.
Акаунт-ризики: злом/перехоплення, мультиаккаунтинг, бонус-аб'юз, ферми пристроїв.
KYC/AML: фальшиві документи, підставні особи, обнал, санкційні/РЕР-ризики.
Поведінкові: боти, скрипти, аномальні патерни ставок/транзакцій.
Партнерські: фрод трафіку/рефералів, стимуляція неякісних депозитів.

2) Сигнали і сировина

Пристрій/мережа: device fingerprint, canvas/ваг, емулятори, IP/ASN/проксі/VPN, геовелосіті.
Платіжні: BIN/MCC/країна карти, 3DS/ECI, AVS/CVV-результати, velocity (по карті/акаунту/пристрою), відхилення лімітів.
Поведінка: швидкість формів, траєкторії миші/тач, dwell-time, послідовність дій.
Соціальні/графові: збіги телефонів/е-mail/карт/адрес/пристроїв, загальні фічі з «поганими» вузлами.
КУС/Документи: якість OCR/селфі-матчинг/жвавість (liveness), дата/джерело, blacklists/санкції.

3) Інженерія ознак (feature store, point-in-time)

Тимчасові вікна: 5м/1ч/24ч/7д для velocity-фіч; Експон. згладжування.
Агрегати за ідентичностями: по user_id, телефону, e-mail, карті, пристрою, IP/ASN.
Гео/час: країна/регіон/таймзона/локальні святкові профілі.
Граф-фічі: degree/triangle count/PageRank, частка зв'язків з поганими, компонентність.
Якість KYC: confidence OCR, edit distance імен/адрес, валідація IBAN/ІПН.
Анти-лики: строго point-in-time, без майбутніх міток; online/offline parity.

4) Розмітка та цільові змінні

Таргети: chargeback=1, confirmed_fraud=1, bonus_abuse=1.
Вікна відкладеної істини: мітки приїжджають через T (чарджбекі), використовуйте «фриз» періоду при навчанні.
Дистрибутив: сильний дисбаланс (0. 1-1% «одиниць») → зважування/семплінг обережно.
Сурогатні мітки: ручні підтвердження та апеляції - зберігайте впевненість.

5) Моделі та підходи

Правила (policy-as-code): білі/чорні списки, пороги velocity, геовелосіті, несумісні атрибути. Швидкі, зрозумілі, база для fail-safe.
Супервізія: градієнтний бустинг/ліс, логістична регресія, табличні NN з cost-sensitive лосами.
Аномалії: Isolation Forest, LOF, robust z-score/seasonal-decomp, автоенкодери.
Граф-підходи: link prediction, GNN/DeepWalk-ембеддинги, правила «загальний девайс/карта».
Гібриди: cascade (правила → ML → граф), ансамблі з різними штрафами за FP/FN.
Калібрування: Platt/Isotonic для ймовірностей; пороги від вартості помилок.

6) Метрики якості (орієнтуємося на рідкісні класи)

PR-AUC як основна; ROC-AUC вторинна при дисбалансі.
Recall@FPR≤x%, Precision@k, Cost-sensitive utility.
Coverage і Latency p95 для прод-скорингу.
Fairness/Harms: помилки за сегментами країн/пристроїв/методів оплати.

7) Порогова політика і гістерезис

Розділяйте зони рішення:

'score ≥ τ_block' → автоблок;
'τ _ review ≤ score <τ_block' → ручна перевірка;
'score <τ_review' → пропуск.

Додайте гістерезис (поріг входу/виходу розрізняється) і cool-down (мінімальні інтервали повторних дій), щоб виключити «миготіння».

Приклад decision table

Умова	Контекст	Дія	Guardrails
`score ≥ 0. 95` или `device in blacklist`	платіж	Блокування	FPR≤0. 3%, SLA <1c
`0. 8≤score<0. 95'і'сума> Q90 '	платіж	Ручний рев'ю	SLA 2ч
'geo-velocity> 1000км/ч'і'No 3DS'	автентифікація	Step-up KYC/3DS	Zhaloby≤Kh

8) Онлайн-контур: скоринг та оркестрація

Стрімінг: події через шину; фічі з online feature store; ідемпотентність через'event _ id'.
Latency: цільові p95 (наприклад, ≤ 100-300 мс на запит).
Оркестратор: гарантована доставка, ретраї/backoff, DLQ, rate-limit по каналах.
Канали дій: 3DS/step-up, холд/ліміт, блок, запит документів, тікет в кейс-менеджер, повідомлення користувачеві.
Аудит: наскрізний'correlation _ id'« signal→resheniye→deystviye→iskhod ».

9) Human-in-the-loop і кейс-менеджмент

Кейси: агрегуйте інциденти/свідчення, показуйте пояснення (top features/правила, граф-сусідства).
Дозволи: авторозблок/частковий ліміт/запит доп. кус/закриття.
Навчання: правки аналітиків йдуть назад в дані (relabel), актив-ленінг на кордоні.
SLA: пріоритет P1/P2, час реакції, черги, розподіл навантаження.

10) Граф-аналіз на практиці

Зв'язки: `user ↔ device ↔ card ↔ phone ↔ email ↔ IP`.
Патерни: «зірки» карт-тестингу, «компоненти» бонус-аб'юзу, загальні проксі/VPN.
Скоринг вузлів/ребер: зважений PageRank, suspiciousness за часткою поганих сусідів.
Превентив: карантин нових вузлів, якщо вони входять в «заражену» компоненту.

11) KYC/AML/санкції та комплаєнс

Матчинг: санкційні списки/РЕР/адверз-медіа; fuzzy-пошук, нормалізація імен/транслітерація.
Документи: жвавість/анти-спуфінг, перевірка MRZ/візуальних ознак, гео-узгодженість.
Транзакційний моніторинг: правила по сумах/порогах/ланцюжках перекладів, сценарії обнала.
Говернанс: RLS/CLS, маскування PII, лог рішень, зрозумілість і шлях апеляції.

12) Оцінка ефекту (не тільки «точність»)

Економіка рішення:

[
EV =\text {Передотв. збиток} -\text {Вартість помилкових блоків} -\text {Операційні витрати}
]

Політики/тести: А/В/квазіексперименти (DiD) для порогів і правил; bandits для вибору step-up-методу.
Guardrails: скарги/апеляції, NPS, частка «невірних блокувань» (FPR), latency.

13) Моніторинг, дрейф і SLO

Якість: PR-AUC/Recall @FPR по ковзному вікну; калібрування ймовірностей.
Дрейф: PSI/KL за ключовими фічами, частка «невідомих» BIN/ASN, нові кластери пристроїв.
Операції: p95 latency, частка таймаутів,% ручних ескалацій, backlog рев'ю.
SLO: доступність> 99. 9%, Decision→Action p95 ≤ 2–5 c; «стоп-кран» при деградації якості даних.
Рунібуки: сплеск карт-тестингу, падіння 3DS, outage провайдера, шторму логів.

14) Архітектура даних і коду

Події: канонічна схема (UTC, version, source), ідемпотентні ключі.
Feature Store: онлайн/офлайн паритет, point-in-time рекети, версіонування трансформацій.
Моделі: реєстр версій, відтворювані пайплайни, сертифікація в прод, shadow-запуск.
Rules-as-Code: git-репозиторій, рев'ю/чек-листи, тести регресій.
Explainability: SHAP/лог ваг правил, семпли кейсів для навчання саппорту.

15) Безпека, приватність, етика

Мінімізація PII: токенізація/хешування ідентифікаторів; окремі «сейф» -сховища.
Доступ: RLS/CLS і аудит читань/вивантажень; експорт - з токенами і термінами.
Справедливість: тестуйте диференцію помилок за регіонами/методами, виключайте неприпустимі атрибути.
Прозорість: причини рішень і зрозуміла апеляція користувачеві.

16) Псевдо-SQL і рецепти

Ідемпотентний журнал транзакцій

sql
MERGE INTO fact_payments t
USING staging_payments s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET status=s. status, amount=s. amount, updated_at=s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id,user_id,card_hash,amount,currency,event_time,created_at)
VALUES (s. txn_id,s. user_id,s. card_hash,s. amount,s. currency,s. event_time,NOW());

Velocity-фічі (24ч вікно)

sql
SELECT user_id,
COUNT()             AS tx_24h,
SUM(amount)            AS sum_24h,
COUNT(DISTINCT card_hash)     AS uniq_cards_24h,
COUNT(DISTINCT device_hash)    AS uniq_devices_24h,
MIN(event_time)          AS first_tx_24h,
MAX(event_time)          AS last_tx_24h
FROM fact_payments
WHERE event_time >= NOW() - INTERVAL '24 hour'
GROUP BY user_id;

17) Чек-лист запуску антифроду

Сигнали та схеми стандартизовані, ідемпотентність включена
Feature Store з point-in-time, online/offline паритет
Мітки сформовані без ликів, вікна відкладеної істини враховані
Порогова політика з гістерезисом і step-up, SLA і guardrails задані
Кейс-менеджмент і human-in-the-loop налаштовані, зрозумілість доступна
Метрики: PR-AUC, Recall@FPR, Cost-utility; fairness-діагностика
Моніторинг дрейфу/помилок, алерти, рунібуки інцидентів
Говернанс: версії моделей/правил, рев'ю, аудит рішень, комплаєнс KYC/AML
План A/B/DiD для порогів/політик; безпечний фолбек на правила

Підсумок

Сильний антифрод - це гібрид правил, моделей і графів в керованому контурі: якісні сигнали і фічі → порогова політика з гістерезисом → швидкий онлайновий скоринг і оркестрація дій → human-in-the-loop і прозорі апеляції → метрики ефекту і дрейф-контроль. Дотримуючись цієї схеми, ви знижуєте втрати, обмежуєте шкоду від помилкових блокувань і зберігаєте довіру користувачів і регуляторів.

Виявлення шахрайства