Н. Омецинська; Т. Юсипів

Автор(и)

Н. Омецинська Таврійський національний університет імені В. І. Вернадського
Т. Юсипів Київський національний університет імені Тараса Шевченка

Ключові слова:

нейронні мережі, кластеризація, великі дані, мета-навчання, K-Means, Gaussian Mixture Models

Анотація

Анотація. У статті розглядається актуальна проблема відсутності універсального алгоритму кластеризації, здатного стабільно ефективно працювати з довільними великими неоднорідними наборами даних без попереднього знання їхньої внутрішньої структури. Показано, що класичні методи – K-Means, DBSCAN, ієрархічна агломеративна кластеризація та моделі суміші гаусівських розподілів – забезпечують високу якість лише на вузькому класі задач через суттєві відмінності у формі, розмірах, щільності кластерів, рівні шуму та розмірності простору ознак. З урахуванням того, що частка немаркованих даних у корпоративних сховищах сягає 80–90 %, ручний підбір і налаштування алгоритмів стає економічно невиправданим і технічно трудомістким процесом. Запропоновано та реалізовано універсальну адаптивну модель автоматичної кластеризації AutoCluster, яка працює повністю автономно і складається з етапів автоматичного вилучення мета-ознак датасету, прогнозування найбільш перспективних алгоритмів за допомогою мета-моделі, цілеспрямованої оптимізації їхніх гіперпараметрів та остаточного вибору найкращого рішення за комбінованою внутрішньою метрикою якості. Експериментальна перевірка проведена в середовищі Python на 18 різнопланових датасетах, що включають як класичні бенчмарки, так і великомасштабні реальні набори даних із сотнями тисяч об’єктів. Запропонована модель досягла середнього значення Adjusted Rand Index 0.819, перевищивши найкращий окремий базовий алгоритм на 15.7 % та модуль auto-sklearn clustering на 18.9 %. У 71.7 % випадків AutoCluster показала результат не гірший за найкращий окремий метод, при цьому середній час виконання склав менше 1.5 хвилини навіть для датасетів обсягом до півмільйона об’єктів. Розроблена модель є легко розширюваною та готовою до промислового використання. Отримані результати підтверджують можливість переходу від ручного експертного підбору методів кластеризації до повністю автоматизованого, відтворюваного та масштабного рішення, що має високу практичну цінність у задачах сегментації клієнтів, виявлення аномалій, побудови рекомендаційних систем, біоінформатики та аналізу великих потокових даних.

Розробка ефективної моделі автоматичної кластеризації великих неоднорідних вхідних даних

Автор(и)

Ключові слова:

Анотація

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Мова

ISSN

Швидка навігація