Розробка комп’ютерної системи автоматичного виявлення спаму на основі методу опорних векторів (SVM)

Abstract

Магістерська робота присвячена розв’язанню актуальної задачі розробки комп’ютерної системи автоматичного виявлення спаму на основі методу опорних векторів (SVM). У роботі виконано системний аналіз предметної області антиспам-фільтрації, розглянуто типові канали й ознаки спаму та узагальнено сучасні підходи до протидії. На підставі порівняльних міркувань обґрунтовано вибір методу опорних векторів (SVM) як базового класифікатора для задачі бінарної текстової класифікації у високовимірному просторі ознак. Розроблено програмне рішення на Python 3.9, у якому реалізовано повний конвеєр обробки: очищення тексту, нормалізація шаблонів (<URL>, <EMAIL>, <NUM>), токенізація зі стоп-фільтрацією і стемінгом, формування векторного представлення на основі TF–IDF (уніграми/біграми) та застосування лінійного SVM. Практичне використання продемонстровано у консольному режимі (пакетна перевірка) та через веб-інтерфейс для інтерактивного аналізу повідомлення. Експериментальна оцінка на тестовому наборі SAPC+SMS показала accuracy 98.2%, precision 97.0%, recall 95.5% та F1 96.2%; у порівнянні з базовим наївним баєсовським класифікатором отримано вищу якість класифікації (NB: близько 94% точності та нижчий precision).

Description

Citation

Endorsement

Review

Supplemented By

Referenced By