В данной работе представлено эмпирическое исследование потоковой архитектуры гибридных антифрод-систем, объединяющих нейронные сети и алгоритмы градиентного бустинга для выявления мошеннических транзакций в режиме реального времени. Исследование демонстрирует, что гибридный подход значительно повышает эффективность обнаружения мошенничества по сравнению с использованием отдельных моделей. Проведена экспериментальная оценка на стандартизированном наборе данных о транзакциях по кредитным картам, определены оптимальные веса моделей в гибридной системе и выявлены ключевые факторы, влияющие на производительность системы. Результаты анализа подтверждают, что комбинированный подход обеспечивает более высокую точность, устойчивость и способность к обобщению при выявлении аномальных транзакций в реальном времени.
Ключевые слова: антифрод-системы, машинное обучение, глубокие нейронные сети, XGBoost, потоковая обработка данных, выявление мошенничества.
Финансовое мошенничество представляет собой растущую угрозу для банковских и платежных систем по всему миру. По данным Nilson Report, глобальные потери от мошенничества с картами составили $33,83 млрд в 2023 году, а в предыдущем году общий ущерб от мошенничества во всем мире составил $33,45 млрд [1]. С ростом объемов электронных транзакций и усложнением схем мошенничества традиционные подходы к выявлению подозрительной активности становятся менее эффективными. Однако современные вызовы требуют не только высокой точности обнаружения мошенничества, но и способности обрабатывать огромные объемы транзакций в режиме реального времени с минимальными задержками. В последние годы наблюдается тенденция к разработке гибридных подходов, несмотря на значительное количество исследований, посвященных отдельным моделям [2].
В данной работе представлено эмпирическое исследование потоковой архитектуры гибридной антифрод-системы, сочетающей глубокую нейронную сеть и XGBoost. В рамках работы проведён ряд экспериментов, в результате которых выявлены закономерности в поведении моделей при различных конфигурациях и параметрах.
Разработанная гибридная архитектура состоит из следующих основных компонентов:
- Модуль потоковой обработки данных — симулирует поступление транзакций в реальном времени, разбивая их на батчи с определенной задержкой для имитации реальных условий;
- Детектор на основе нейронной сети — глубокая нейронная сеть с несколькими скрытыми слоями;
- Детектор на основе XGBoost — ансамбль деревьев решений с оптимизированными гиперпараметрами [3];
- Модуль взвешенного объединения результатов — комбинирует вероятности, полученные от обеих моделей, с разными весовыми коэффициентами для формирования итогового решения.
Математическая формулировка гибридной модели может быть представлена следующим образом:
Система работает следующим образом: поток транзакций поступает в оба детектора параллельно, каждый из них генерирует вероятность мошенничества, затем эти вероятности комбинируются с учетом весовых коэффициентов, и на выходе система выдает окончательное решение о легитимности транзакции.
В качестве основы для эксперимента был использован общедоступный набор данных Credit Card Fraud Detection с платформы Kaggle [4], содержащий информацию о транзакциях по кредитным картам, совершенных европейскими держателями карт в течение двух дней. Набор содержит 284,807 транзакций, из которых 492 (0.172 %) являются мошенническими.
Данные были разделены на обучающую (60 %), валидационную (20 %) и тестовую (20 %) выборки с сохранением соотношения классов. Все числовые признаки были нормализованы с помощью StandardScaler. Обе модели были обучены на одних и тех же данных: а) Нейронная сеть: 3 скрытых слоя (64, 32, 16 нейронов) с активацией ReLU, Dropout 0.3–0.4, оптимизатор Adam, раннее останавливание; б) XGBoost: 150 деревьев, максимальная глубина 5, параметр scale_pos_weight=75 для компенсации несбалансированности. Для исследования гибридной модели использовались различные весовые коэффициенты в диапазоне [0, 1] с шагом 0.1. Тестирование проводилось с использованием симуляции потока данных с размером батча 100 транзакций и задержкой 10 мс. Оценка моделей производилась по метрикам: accuracy, precision, recall, F1-мера, AUC-ROC, средняя точность (AP), а также по среднему времени обработки одного батча. Ключевые результаты сравнения отдельных моделей и гибридного подхода представлены в таблице 1.
Таблица 1
Сравнительный анализ моделей
Модель |
Accuracy |
Precision |
Recall |
F1-мера |
AUC-ROC |
Средняя точность (AP) |
Время обработки батча (мс) |
Нейронная сеть |
0,9993 |
0,7980 |
0,8061 |
0,8020 |
0,9771 |
0,8021 |
115,98 |
XGBoost |
0,9995 |
0,8723 |
0,8367 |
0,8542 |
0,9769 |
0,8767 |
3,45 |
Гибридная модель |
0,9996 |
0,8936 |
0,8571 |
0,8750 |
0,9765 |
0,8730 |
116,96 |
Как видно из таблицы 1, гибридная модель демонстрирует наилучшие значения по основным метрикам качества классификации, включая precision, recall и F1-меру. Особенно важно отметить высокую полноту (recall = 0.8571), что критично для задач выявления мошенничества, поскольку позволяет минимизировать количество нераспознанных мошеннических транзакций. Вместе с тем, гибридная модель требует больше времени на обработку одного батча транзакций, что объясняется необходимостью выполнения вычислений обеими моделями и объединения результатов.
Одним из ключевых элементов гибридной системы является соотношение весов между моделями. Результаты исследования влияния весовых коэффициентов на F1-меру представлены на рис. 1.
Рис. 1. Влияния весовых коэффициентов на F1-меру
Оптимальное соотношение весов было достигнуто при значениях: нейронная сеть — 0.7, XGBoost — 0.3. При таком соотношении F1-мера достигает максимального значения 0.8325. Это подтверждает, что в данной задаче нейронная сеть вносит больший вклад в эффективность системы, но комбинация с XGBoost позволяет улучшить результаты.
Для более детальной оценки эффективности предложенной гибридной модели классификации была построена матрица ошибок, изображённая на рисунке 2. Из 98 мошеннических транзакций в тестовом наборе 84 были правильно идентифицированы, что дает recall 0.8571. При этом было допущено только 10 ложных срабатываний из 56,864 легитимных транзакций, что обеспечивает крайне низкий уровень ложноположительных результатов.
Рис. 2. Матрица ошибок
Анализ показал, что мелкие мошеннические транзакции, схожие с обычными, труднее всего обнаружить. Гибридный подход повышает точность за счёт сочетания сильных сторон XGBoost и нейросети, подтверждая его эффективность в выявлении мошенничества в реальном времени.
Литература:
- The Nilson Report. «Card Fraud Worldwide». Issue 1276, December 2024
- Adewumi A. O., Akinyelu A. A. A survey of machine-learning and nature-inspired based credit card fraud detection techniques //International Journal of System Assurance Engineering and Management. — 2017. — Т. 8. — С. 937–953.
- Arfeen A. A., Khan B. M. A. Empirical analysis of machine learning algorithms on detection of fraudulent electronic fund transfer transactions //IETE Journal of Research. — 2023. — Т. 69. — №. 11. — С. 7920–7932.
- Credit Card Fraud Detection Dataset [Электронный ресурс] // Kaggle. — Режим доступа: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud