Розробка комп’ютерної системи автоматичного виявлення спаму на основі методу опорних векторів (SVM)
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Магістерська робота присвячена розв’язанню актуальної задачі розробки комп’ютерної системи автоматичного виявлення спаму на основі методу опорних векторів (SVM).
У роботі виконано системний аналіз предметної області антиспам-фільтрації, розглянуто типові канали й ознаки спаму та узагальнено сучасні підходи до протидії. На підставі порівняльних міркувань обґрунтовано вибір методу опорних векторів (SVM) як базового класифікатора для задачі бінарної текстової класифікації у високовимірному просторі ознак.
Розроблено програмне рішення на Python 3.9, у якому реалізовано повний конвеєр обробки: очищення тексту, нормалізація шаблонів (<URL>, <EMAIL>, <NUM>), токенізація зі стоп-фільтрацією і стемінгом, формування векторного представлення на основі TF–IDF (уніграми/біграми) та застосування лінійного SVM. Практичне використання продемонстровано у консольному режимі (пакетна перевірка) та через веб-інтерфейс для інтерактивного аналізу повідомлення.
Експериментальна оцінка на тестовому наборі SAPC+SMS показала accuracy 98.2%, precision 97.0%, recall 95.5% та F1 96.2%; у порівнянні з базовим наївним баєсовським класифікатором отримано вищу якість класифікації (NB: близько 94% точності та нижчий precision).
