Моделі та методи обробки мовних складових в системах комп'ютерного зору

Abstract

Мета магістерської роботи - розробка, дослідження та реалізація моделей і методів обробки мовних складових для систем комп’ютерного зору, які забезпечують формування мультимодального представлення ознак об’єкту мовлення. Об’єкт дослідження - процеси обробки мовних сигналів у системах комп’ютерного зору, які реалізують взаємозв’язок між аудіо- та візуальними модальностями. Предмет дослідження - моделі, методи та алгоритми обробки мовних складових, що використовуються для формування, аналізу та синтезу візуальних образів на основі глибоких нейронних мереж. Результати дослідження В роботі розроблено методологію мультимодальної генерації зображення обличчя за голосом, яка базується на глибоких нейронних мережах та принципах кросмодального навчання. Висновок Розроблено архітектурне рішення на основі фреймворку Vec2Face, яке дозволяє здійснювати генерацію обличчя мовця за голосом з високим рівнем схожості. Отримано результати щодо узгодження латентних ознак різних модальностей у єдиному навчальному середовищі, що підвищує точність ідентифікації.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By