Реферат: Разработка программы кластеризации сложноструктурированных данных на базе платформы weka

А.А. РАСКИН

Научные руководители – П.И. РУДАКОВ, к.т.н., доцент

Национальный исследовательский ядерный университет «МИФИ»

РАЗРАБОТКА ПРОГРАММЫ КЛАСТЕРИЗАЦИИ
СЛОЖНОСТРУКТУРИРОВАННЫХ ДАННЫХ
НА БАЗЕ ПЛАТФОРМЫ WEKA

Рассматривается архитектура платформы WEKA, изменения, необходимые для кластеризации сложноструктурированных данных и основные проблемы, связанные с этими изменениями.

В настоящее время особенно актуальной является задача автоматического анализа информации, в том числе данных со сложной структурой, существенно затрудняющей анализ. Примером таких данных является цепочка событий или объектов (например, история посещения пользователем интернет-сайта). Большинство аналитических средств работают с простыми реляционными схемами. Некоторые пакеты анализа данных предоставляют возможность проводить обработку данных более сложной структуры, но не обеспечивают при этом должной гибкости настройки алгоритмов[1]. Это приводит к возникновению задачи самостоятельной реализации необходимых алгоритмов. Одной из наиболее популярных платформ для реализации алгоритмов в области Data Mining является платформа WEKA[2].

Мы постараемся изложить основные сложности, возникающие при использовании платформы WEKA в качестве базы для разработки собственного модуля загрузки исходных данных и модуля кластеризации данных. В результате изменений в коде программа должна будет загружать, обрабатывать и проводить кластеризацию данных со сложной структурой. В качестве алгоритма кластеризации будет использоваться алгоритм k-средних, а в качестве меры близости – расстояние Левенштейна. При этом должна существовать возможность изменения меры близости независимо от алгоритма кластеризации и добавления атрибутов к исходным данным (без принципиального изменения их структуры).

На рис.1 приведены частичные структурные схемы классов платформы WEKA, связанных с процессом загрузки данных и кластеризации. При сравнении двух диаграмм видно, что реализация программы кластеризации для данных со сложной структурой влечет за собой существенные изменения платформы и модификацию существующих классов.

Рис. 1. Структурная схема платформы (исходная - слева, измененая - справа)

Таким образом, внесение существенных изменений (например, изменение исходной структуры данных) в платформу WEKA требует значительных временных затрат и делает программу несовместимой с другим ПО, разработанным на той же платформе. Это вызвано большим количеством классов напрямую использующих свойства классов, отвечающих за хранение исходных данных (Instance, Instances), что приводит к необходимости их модификации при изменении структуры данных.

На сегодняшний день нет решения проблемы взаимосвязи алгоритма и структуры данных, т.к. алгоритмы кластеризации и метрики расстояния между объектами зависят от данных, их полноты, структуры и природы. Поэтому, нам представляется, что, решение описанных выше проблем лежит в области разработки более гибкой связи между классами, содержащими информацию, и классами, отвечающими за их обработку.

Список литературы

MacLennan J. Data Mining with Microsoft SQL Server 2008 / MacLennan J., Cravat B., Tang Z. – Wiley, 2008.

Bouckaert R. WEKA – Experience with a Java Open-Source Project. / Bouckaert R. // Journal of Machine Learning Research – 2011 – p.2533-2541.

еще рефераты

Еще работы по разное

Реферат по разное

Приказ Верховного главнокомандующего №227 «Ни шагу назад!». Б. Прорыв блокады Ленинграда

18 Сентября 2013

Реферат по разное

10 класс Период правления Екатерины II

18 Сентября 2013

Реферат по разное

Концепция счастья в современной экономической теории

18 Сентября 2013

Реферат по разное

Кинетика растворения триоксида урана в 30 ном тбф в углеводороном разбавителе, насыщенном азотной кислотой

18 Сентября 2013