Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python
| dc.contributor.author | Кострець Віталій Володимирович | |
| dc.date.accessioned | 2025-06-23T19:22:58Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | У даній дипломній роботі представлено розробку та дослідження інформаційної системи для автоматизованого виявлення спаму в українськомовних текстових повідомленнях на основі донавченої моделі BERT (bert-base-multilingual-cased). Описано процес формування та калібрування збалансованого корпусу даних обсягом близько 40 000 повідомлень, що включав збір, ручну верифікацію та аугментацію даних шляхом перекладу та генерації. Детально розглянуто алгоритм препроцесингу тексту, адаптований до специфіки української мови, що включає обробку URL, контактних даних та спеціальних токенів. Проведено донавчання класифікаційної моделі та її експериментальне тестування на незалежній вибірці, за результатами якого модель продемонструвала високі показники ефективності: точність – 99%, повнота для класу "спам" – 100%, F1-міра – 99.01%. Розроблено кінцевий програмний продукт у вигляді автономного Python-модуля та створено демонстраційний застосунок для ілюстрації його роботи. | |
| dc.identifier.uri | https://repo.nung.edu.ua/handle/123456789/9747 | |
| dc.subject | детекція спаму | |
| dc.subject | обробка природної мови | |
| dc.subject | NLP | |
| dc.subject | BERT | |
| dc.subject | машинне навчання | |
| dc.subject | препроцесинг тексту | |
| dc.subject | класифікація тексту | |
| dc.subject | українська мова. | |
| dc.title | Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python | |
| dc.type | Thesis |
Files
Original bundle
1 - 3 of 3
License bundle
1 - 1 of 1
Loading...
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description:
