Використання комбінованого підходу статистичного та машинного аналізу для розпізнавання фішингових сайтів

Abstract

У роботі досліджено проблему виявлення фішингових вебресурсів, які становлять одну з найпоширеніших кіберзагроз сучасного інформаційного середовища. Актуальність теми зумовлена необхідністю підвищення ефективності систем виявлення фішингу при обмежених обчислювальних ресурсах і високій мінливості атак. Метою дослідження є підвищення точності класифікації фішингових сайтів шляхом поєднання статистичних методів аналізу ознак URL із алгоритмами машинного навчання. У роботі проведено порівняльний аналіз базових моделей Logistic Regression, Random Forest та Naive Bayes, а також розроблено комбіновану модель Voting Classifier. Для підвищення інформативності набору даних запропоновано нові статистичні ознаки (довжина URL, співвідношення символів, ентропія, кількість спеціальних символів). Застосовано метод балансування SMOTE для усунення дисбалансу вибірки. Реалізацію виконано у середовищі Python із використанням бібліотек scikit-learn, imblearn та matplotlib. Експериментальні результати показали, що запропонований комбінований підхід забезпечує точність 94,4% та інтегральну метрику F1 = 0.9487, що свідчить про покращення збалансованості класифікації. Розроблена модель може бути інтегрована в системи моніторингу безпеки (SIEM) для автоматичного виявлення фішингових атак.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By