Розробка комп’ютерної системи класифікації електронної пошти на основі нейронних мереж згорткових архітектур (CNN) та трансформерної моделі BERT
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Магістерська робота присвячена розв’язанню актуальної науково-прикладної задачі розробки комп’ютерної системи автоматичної класифікації електронної пошти з використанням глибоких нейронних мереж. У роботі виконано ґрунтовний аналіз предметної області автоматичної фільтрації електронної пошти, розглянуто основні типи небажаних повідомлень, канали їх розповсюдження та характерні ознаки. На підставі порівняльного аналізу обґрунтовано доцільність використання трансформерної моделі BERT як засобу отримання контекстних семантичних представлень тексту у поєднанні зі згортковою нейронною мережею для виділення локальних мовних патернів.
Розроблено програмну систему мовою Python із використанням сучасних бібліотек машинного та глибокого навчання. Реалізовано повний конвеєр обробки електронних листів, що включає парсинг та очищення тексту, нормалізацію даних, токенізацію за допомогою WordPiece, формування контекстних ембедінгів BERT, згорткову обробку ознак і фінальну класифікацію.
Експериментальні дослідження проведено з використанням відкритих корпусів електронної пошти (Enron-Spam, Ling-Spam, SpamAssassin).
Оцінювання якості класифікації виконано за метриками Accuracy, Precision, Recall та F1-мірою. Отримані результати підтвердили високу ефективність запропонованої гібридної моделі та її перевагу над базовими підходами, що свідчить про доцільність застосування глибоких нейронних мереж в задачах захисту електронної пошти.
