Розробка ефективної моделі автоматичної кластеризації великих неоднорідних вхідних даних

Автор(и)

  • Н. Омецинська Таврійський національний університет імені В. І. Вернадського
  • Т. Юсипів Київський національний університет імені Тараса Шевченка

Ключові слова:

нейронні мережі, кластеризація, великі дані, мета-навчання, K-Means, Gaussian Mixture Models

Анотація

Анотація. У статті розглядається актуальна проблема відсутності універсального алгоритму кластеризації, здатного стабільно ефективно працювати з довільними великими неоднорідними наборами даних без попереднього знання їхньої внутрішньої структури. Показано, що класичні методи – K-Means, DBSCAN, ієрархічна агломеративна кластеризація та моделі суміші гаусівських розподілів – забезпечують високу якість лише на вузькому класі задач через суттєві відмінності у формі, розмірах, щільності кластерів, рівні шуму та розмірності простору ознак. З урахуванням того, що частка немаркованих даних у корпоративних сховищах сягає 80–90 %, ручний підбір і налаштування алгоритмів стає економічно невиправданим і технічно трудомістким процесом. Запропоновано та реалізовано універсальну адаптивну модель автоматичної кластеризації AutoCluster, яка працює повністю автономно і складається з етапів автоматичного вилучення мета-ознак датасету, прогнозування найбільш перспективних алгоритмів за допомогою мета-моделі, цілеспрямованої оптимізації їхніх гіперпараметрів та остаточного вибору найкращого рішення за комбінованою внутрішньою метрикою якості. Експериментальна перевірка проведена в середовищі Python на 18 різнопланових датасетах, що включають як класичні бенчмарки, так і великомасштабні реальні набори даних із сотнями тисяч об’єктів. Запропонована модель досягла середнього значення Adjusted Rand Index 0.819, перевищивши найкращий окремий базовий алгоритм на 15.7 % та модуль auto-sklearn clustering на 18.9 %. У 71.7 % випадків AutoCluster показала результат не гірший за найкращий окремий метод, при цьому середній час виконання склав менше 1.5 хвилини навіть для датасетів обсягом до півмільйона об’єктів. Розроблена модель є легко розширюваною та готовою до промислового використання. Отримані результати підтверджують можливість переходу від ручного експертного підбору методів кластеризації до повністю автоматизованого, відтворюваного та масштабного рішення, що має високу практичну цінність у задачах сегментації клієнтів, виявлення аномалій, побудови рекомендаційних систем, біоінформатики та аналізу великих потокових даних.

##submission.downloads##

Опубліковано

2025-12-19

Як цитувати

Омецинська, Н., & Юсипів, Т. (2025). Розробка ефективної моделі автоматичної кластеризації великих неоднорідних вхідних даних. Академічні візії, (50). вилучено із https://www.academy-vision.org/index.php/av/article/view/2520

Номер

Розділ

Соціальні та поведінкові науки