Використання методу головних компонент (PCA) та генетичних алгоритмів для відбору релевантних класифікаційних ознак мережевого трафіку
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
У роботі розглянуто проблему високої розмірності даних у задачах класифікації мережевого трафіку в системах виявлення вторгнень. Показано, що наявність надлишкових, корельованих та шумових ознак негативно впливає на якість і стабільність моделей машинного навчання, а також призводить до зростання обчислювальної складності.
Запропоновано гібридний метод відбору інформативних ознак, який поєднує критерій взаємної інформації, метод головних компонент та генетичний алгоритм. Взаємна інформація використовується для первинного ранжування та відбору найбільш релевантних ознак, PCA - для зменшення кореляцій і формування компактного латентного простору, а генетичний алгоритм - для оптимізації підмножини компонент з урахуванням якості класифікації.
Експериментальні дослідження проведено на датасетах UNSW-NB15 та NSL-KDD із використанням класифікатора Random Forest. Отримані результати показали, що застосування взаємної інформації з 40–60 ознаками дозволяє зберегти або перевищити рівень метрик F1-score та ROC-AUC базової моделі при зменшенні кількості ознак у 3–5 разів і скороченні часу навчання на 20–30 %. Показано, що PCA не є доцільною як самостійний метод зменшення розмірності у задачах IDS, однак є ефективною як проміжний етап у гібридному підході. Генетичний алгоритм забезпечує максимальне стиснення простору ознак - з 196 до 5 компонент - що робить модель придатною для використання у ресурсно обмежених середовищах, зокрема edge- та IoT-системах.
Практична цінність роботи полягає у можливості інтеграції розробленого методу у сучасні системи виявлення вторгнень з метою підвищення їх продуктивності та масштабованості.
