Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
У даній дипломній роботі представлено розробку та дослідження інформаційної системи для автоматизованого виявлення спаму в українськомовних текстових повідомленнях на основі донавченої моделі BERT (bert-base-multilingual-cased). Описано процес формування та калібрування збалансованого корпусу даних обсягом близько 40 000 повідомлень, що включав збір, ручну верифікацію та аугментацію даних шляхом перекладу та генерації. Детально розглянуто алгоритм препроцесингу тексту, адаптований до специфіки української мови, що включає обробку URL, контактних даних та спеціальних токенів. Проведено донавчання класифікаційної моделі та її експериментальне тестування на незалежній вибірці, за результатами якого модель продемонструвала високі показники ефективності: точність – 99%, повнота для класу "спам" – 100%, F1-міра – 99.01%. Розроблено кінцевий програмний продукт у вигляді автономного Python-модуля та створено демонстраційний застосунок для ілюстрації його роботи.
