Розробка програми виявлення спаму в текстових повідомленнях на основі трансформерної моделі Multilingual BERТ засобами мови Python

Abstract

У даній дипломній роботі представлено розробку та дослідження інформаційної системи для автоматизованого виявлення спаму в українськомовних текстових повідомленнях на основі донавченої моделі BERT (bert-base-multilingual-cased). Описано процес формування та калібрування збалансованого корпусу даних обсягом близько 40 000 повідомлень, що включав збір, ручну верифікацію та аугментацію даних шляхом перекладу та генерації. Детально розглянуто алгоритм препроцесингу тексту, адаптований до специфіки української мови, що включає обробку URL, контактних даних та спеціальних токенів. Проведено донавчання класифікаційної моделі та її експериментальне тестування на незалежній вибірці, за результатами якого модель продемонструвала високі показники ефективності: точність – 99%, повнота для класу "спам" – 100%, F1-міра – 99.01%. Розроблено кінцевий програмний продукт у вигляді автономного Python-модуля та створено демонстраційний застосунок для ілюстрації його роботи.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By