Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python

Кострець Віталій Володимирович

Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python

Files

Primary 6_Пояснювальна_записка.pdf (1.95 MB)

2-3_Завдання.pdf (312.14 KB)

1_Титульна_сторінка.pdf (348.96 KB)

Date

2025

Authors

Кострець Віталій Володимирович

Abstract

У даній дипломній роботі представлено розробку та дослідження інформаційної системи для автоматизованого виявлення спаму в українськомовних текстових повідомленнях на основі донавченої моделі BERT (bert-base-multilingual-cased). Описано процес формування та калібрування збалансованого корпусу даних обсягом близько 40 000 повідомлень, що включав збір, ручну верифікацію та аугментацію даних шляхом перекладу та генерації. Детально розглянуто алгоритм препроцесингу тексту, адаптований до специфіки української мови, що включає обробку URL, контактних даних та спеціальних токенів. Проведено донавчання класифікаційної моделі та її експериментальне тестування на незалежній вибірці, за результатами якого модель продемонструвала високі показники ефективності: точність – 99%, повнота для класу "спам" – 100%, F1-міра – 99.01%. Розроблено кінцевий програмний продукт у вигляді автономного Python-модуля та створено демонстраційний застосунок для ілюстрації його роботи.

Keywords

детекція спаму, обробка природної мови, NLP, BERT, машинне навчання, препроцесинг тексту, класифікація тексту, українська мова.

URI

https://repo.nung.edu.ua/handle/123456789/9747

Collections

Комп'ютерна інженерія, бакалавр, 2025

Full item page

Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By