Реферат: Удк 007. 5: 519. 216. 3 Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях

УДК 007.5:519.216.3

ОПЫТ ПРИМЕНЕНИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В КОМПАРАТИВИСТСКИХ И ТИПОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

(на материале созданной в ИЯ РАН БД “ЯЗЫКИ МИРА”)*

В.Н.Поляков 1, А.А.Савельев2, В.Д.Соловьев2

В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета R. Обоснована адекватность применяемого аппарата для типологических и компаративистских исследований.

Введение

На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса – БД «Языки Мира». Разработка концепции базы данных была начата практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н.Ярцевой. В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. За время выполнения этого проекта было создано три версии программного обеспечения (для DOS, для Windows и для Web). При этом информационное содержание БД сохранило в целом первоначально заложенную концепцию.

В настоящее время работы над БД ведутся в рамках Российского научно-образовательного центра по лингвистике им. Бодуэна де Куртенэ при Казанском государственном университете. База данных размещена в Интернете по адресу: www.dblang.ru и доступна в тестовом режиме.

По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний.

Эта база данных является уникальной по объему и широте охвата языков. Как правило, типологические базы данных содержат описания языков по очень ограниченному списку параметров, относящихся к определенной сфере языка, часто даже по одному единственному параметру. Единственной, кроме нашей, базой данных, содержащей широкое описания языков является The World Atlas of Language Structures, созданная под руководством Бернара Комри (Лейпциг) и др. Однако и в ней языки описаны всего по 131 признаку.

В последующих разделах статьи будут описаны результаты первых статистических исследований, выполненных с использованием БД “Языки мира”.

1. Структура базы данных

БД содержит описание следующих языковым семьям и группам языков: Австронезийские – 1 яз., Алтайские — 74 яз., Аустроазиатские – 2 яз., Афразийские – 9 яз., Кавказские – 39 яз., Индоевропейские — 145 яз., Китайско-тибетские – 2 яз., Палеоазиатские –17 яз., Уральские – 15 яз., Хуррито-урартские – 2 яз., Эламодравидские – 1 яз., Языки-изоляты – 7 яз. (айнский, бурушаски, гуннов, нивхский, шумерский, юкагирский).

При кодировке признаков было принято следующее решение – использовать двоичную логику, либо язык обладает данным признаком, либо нет. Этот подход ориентирован на дальнейшие статистические исследования языков. Он радикально отличается от принятого в The World Atlas of Language Structures. Рассмотрим этот вопрос на примере падежей. The World Atlas of Language Structures содержит единственный признак, относящийся к падежам – ‘падежный синкретизм’. Под синкретизмом понимается возможность выражения одним падежом нескольких значений. По этому параметру любой язык может принять одно из следующих 4 значений: ‘нет падежей’, ‘только ядерные падежи’, ‘ядерные и неядерные падежи’, ‘нет синкретизма’. В нашей базе данных информация о падежах представлена в 103 признаках. Для каждого из существующих в языках мира падежей и возможных синкретических комбинаций введен отдельный параметр. Это хорошо характеризует степень подробности описания языков в нашей базе данных.

2. Первый этап статистических исследований

Одной из задач анализа всей совокупности языков является внешнее представление их взаимосвязей, основанное на наборах признаков. Наиболее распространенным методом такого сопоставления является вычисление некоторой меры сходства или различия. Результаты сопоставления, представленные в виде матриц сходства, в свою очередь служат исходными данными для выявления структуры, образуемой языками как объектами пространства признаков. Под структурой здесь понимается в первую очередь выявление и представление близости языков и наличие градиентов – постепенных переходов от одних языков к другим в пространстве признаков, которые могут содержать важную информацию для их сопоставительного анализа.

Интересно, что использование двоичных признаков для описания языков с точки зрения возникающих при этом задач имеет сходство с исследованием видового состава растительных сообществ с использованием флористических списков. В этом случае аналогом площадки описания является язык, а аналогом списка присутствующих видов – список имеющихся у него признаков. Для каждого языка доля присутствующих признаков составляет лишь небольшую часть от всей совокупности признаков, также как и доля видов растений, встретившихся на данной площадке, составляет лишь небольшую часть от всех возможных видов. Одним из авторов подобные методы активно применялись при анализе растительных сообществ [Савельев, 2004].

Существует аналогия между языками и описаниями растительных сообществ, а так же общие проблему с вычислением мер сходства: относительно небольшое количество признаков (со значением ‘true’) у каждого языка, разная степень информативности признаков, которая может быть обусловлена как их слишком большой распространенностью, так и уникальностью, разная степень подробности описания для различных языков, и т. д., которые создают дополнительные трудности при их сопоставлении. Кроме того, априорно неизвестно какую информацию несет каждый конкретный совпадающий признак в паре языков: информацию о непосредственном генетическом родстве этой пары, информацию о дальнем родстве (имеют общего родственника), или информацию о контактах между языками и заимствовании. Для преодоления этих трудностей были предложены различные меры сходства, в том числе ориентированные на использование именно двоичных признаков. Кроме того, для выявления и представления структуры объектов в пространстве признаков здесь разработаны и используются различные методы ординации, т.е. представления объектов в пространстве низкой размерности, обычно на плоскости.

Табл.1.

2

ВЕНГЕРСКИЙ

26

МОНГОРСКИЙ

3

ФИНСКИЙ

27

ЭСТОНСКИЙ

4

АССАМСКИЙ

28

МАКЕДОНСКИЙ

5

ДАРИ

29

НЕМЕЦКИЙ

6

ИТЕЛЬМЕНСКИЙ

30

БЕНГАЛЬСКИЙ

7

ПОРТУГАЛЬСКИЙ

31

РУМЫНСКИЙ

8

ГРУЗИНСКИЙ

32

ЛЕЗГИНСКИЙ

9

БУРУШАСКИ

33

РУССКИЙ

10

АККАДСКИЙ

34

КОРЯКСКИЙ

11

НОРВЕЖСКИЙ

35

ПЕРСИДСКИЙ

12

АНГЛИЙСКИЙ

36

ТАДЖИКСКИЙ

13

ИСЛАНДСКИЙ

37

ЧУКОТСКИЙ

14

БУРЯТСКИЙ

38

ТУРКМЕНСКИЙ

15

АЗЕРБАЙДЖАНСКИЙ

39

ТАТАРСКИЙ

16

ВЕПССКИЙ

40

ИСПАНСКИЙ

17

ХАНТЫЙСКИЙ

41

ИТАЛЬЯНСКИЙ

18

ТУРЕЦКИЙ

42

ГАЛИСИЙСКИЙ

19

БИРМАНСКИЙ

43

АБХАЗСКИЙ

20

АРМЯНСКИЙ

44

БЕЛОРУССКИЙ

21

БАГВАЛИНСКИЙ

45

БОЛГАРСКИЙ

22

АГУЛЬСКИЙ

46

ДАТСКИЙ

23

МОГОЛЬСКИЙ

47

НИВХСКИЙ

24

КАЛМЫЦКИЙ

48

ШУГНАНСКИЙ

25

БАШКИРСКИЙ

49

ПОЛЬСКИЙ

Наиболее известным способом ординации, основанным на использовании матрицы расстояний, является неметрическое многомерное шкалирование, отображающее объекты в пространство низкой размерности таким образом, что в нем Евклидовы расстояния между образами объектов пропорциональны расстояниям в исходной матрице. Это позволяет представить на плоскость «взаимоположение» объектов. Такие методы ординации основаны на вычислительных процедурах линейной алгебры, и известны достаточно давно. Кроме использования расстояний, существуют и другие методы ординации, объединяемые общим названием анализ соответствия, и позволяющие анализировать таблицы признаков с большим количеством нулей. Кроме представления структуры самих объектов, такой анализ позволяет выявлять структуру признаков и связь признаков с объектами [Legendre, 1998].

На первом этапе было отобрано 48 языков, таб.1. По техническим причинам нумерация, используемая на последующих рисунках, начата с № 2. Для них были рассчитаны расстояния, выполнена ординация и рассчитаны ошибки ординации. Все вычисления осуществлялись с помощью профессионального статистического пакета R [R, 2006 ], являющего, фактически, международным стандартом для проведения статистических исследований.

Рис.1. Пример ординации

Для оценки качества полученной ординации, т.е. соответствия расстояний в матрице и Евклидовых расстояний на ординационной плоскости, используются как методы визуализации, так и численные

Рис.2. График Шепарда для ординации рисунка 1

характеристики. Наиболее распространенной численной характеристикой является STRESS, вычисляемая по формуле:

, где суммирование ведется по всем парам объектов, есть исходная мера различия (расстояние) между i -м и j -м объектами (языками), а — Евклидово расстояние между i -м и j -м объектами на ординационной плоскости. Результаты вычисления STRESS для различных методов вычисления расстояния показали, что ни один из методов вычисления расстояний не дает существенно лучших результатов. В нижеследующей таблице для каждого метода слева указывается его STRESS. Рассматривались различные метрики — включенные в систему R (начиная с manhattan) и предложенные авторами статьи.

Для визуальной оценки качества ординации используется график Шепарда, в котором по горизонтали откладывается расстояние в исходноей матрице, а по вертикали – монотонная регрессия на него Евклидовых расстояний на ординационной плоскости. Если все точки лежат на ломаной, представляющей монотонную (неубывающую) регрессию, то ординаци сохранияет отношение «не больше» для расстояний: если , то и .

Табл.2

Additiv-all-all-all

18,0

horn

14,3

Additiv-all-True-all

20,3

mountford

20,0

Additiv-Fact-all-all

19,4

jaccard

14,3

Additiv-Fact-True-all

22,6

Binomial

20,1

Additiv-Klass-all-All

19,7

morisita

36,2

Additiv-Klass-False-All

24,2

raup

36,2

Additiv-Klass-True-All

18,5

bray

14,3

manhattan

20,3

euclidean

19,8

kulczynski

18,2

canberra

14,3

gower

19,8

Для содержательной оценки полученных ординаций предложен следующий подход. Языки, относящиеся к одной близкородственной группе языков (в данной выборке это славянские, германские, романские, иранские, тюркские, монгольские, уральские, северокавказские, палеоазиатские) должны располагаться на ординационной плоскости компактно. По этому критерию наилучшие результаты дает мера близости Additive-Fact-all-all. На рисунке 1 как раз и представлена ординация по этой мере.

Можно обратить внимание на следующие явно выделяющиеся данные на рис.1. На периферии оказались следующие языки: №19 – бирманский язык — принадлежит далеко отстоящему семейству языков (сино-тибетских), №47 – нивхский язык – изолят, его происхождение не известно, №46 – датский язык, как оказалось, его описание содержит ошибки (это, в частности указывает на одно из возможных применений данного метода – поиск ошибок), №33 – русский язык оказался описан слишком подробно – “переописан”.

Другим методом, совмещающим кластеризацию и ординацию, является использование непараметрических методов, относящихся к так называемым топографическим отображениям, и основанным на самоорганизации. Сюда относятся нейронные сети Кохонена (саморганизующиеся карты свойств), совмещающие классификацию методом к-средних с ординацией на плоскости [Kohonen, 1997], и генеративные топографические отображения, совмещающие нечеткую классификацию на основе Гауссовых смесей распределений с отображением классов в подпространство низкой размерности (например, на плоскость) [Bishop, 1998].

В результате применения метода нейронных сетей Кохонена с использованием всех признаков и Евклидового расстояния, был получен результат самоорганизации, представленный на рисунке 3. Для обучения использовалась нейронная сеть Кохонена SOM, топологически организованная в виде прямоугольной решетки из 7х7=49 классов. Для более полного представления о структуре классов при выводе использовалось отображение Сэммона центров классов, кроме того, вместо топологического соседства на рисунке показано минимальное остовое дерево классов. Отсутствие «перекрещиваний» в отображении Сэммона для минимального остового дерева интерпретируется как результат хорошей ординации, т.е. положения классов на ординационной плоскости соответствуют расстояниям в пространстве признаков.

Рис.3. Кластеризация языков нейронной сетью Кохонена

Размеры классов показывают результаты калибровки полученной ординации с использованием 48 выделенных языков (калибровка осуществляется классификацией языков методом ближайшего соседа). Размер символа класса пропорционален числу отнесенных к нему языков; классы, к которым не отнесен ни один язык, показаны черными точками.

Нейронная сеть правильно объединила уральские языки (34 класс), алтайские (близкорасположенные классы 40 и 41), имеется хорошая корреляция германских языков с классом 49 и некоторые другие. В то же время ряд решений, например, помещение лезгинского языка в одну группу с германскими явно ошибочно. Требуется дальнейшая работа по настройке сети.

3. Заключение

Создание базы данных “Языки мира” позволяет применить к лингвистическим задачам совершенно новый класс методов – многомерное шкалирование, кластеризация, в том числе, с использованием нейронных сетей и др. Анализ результатов первых статистических исследований показывает, что, в целом, они хорошо улавливают близость языков. Наилучшие результаты получаются при применении ординации методом нелинейного многомерного шкалирования.

Данные методы могут быть использованы в компаративистских и типологических исследованиях, в частности, для уточнения генетической близости языков. Требуются дальнейшие исследования по тонкой калибровке применяемых методов.

Список литературы

[Савельев, 2004] Савельев А.А. Моделирование пространственной структуры растительного покрова (геоинфомационный подход) / Казань: Казанский государственный университет, 2004.-247с.

[Bishop, 1998] Bishop C.M. GTM: the Generative Topographic Mapping / C.M.Bishop, M. Svensen, C.K.I.Williams // Neural Computation. — 1998. — №10 (1). — P.215-234.

[Kohonen, 1997] Kohonen T. Self-organization and Associative Memory / T. Kohonen. — New York: Springer-Verlag, 1997, 428 p.

[Legendre, 1998] Legendre L. Numerical ecology / L.Legendre, P.Legendre. — Amsterdam: Elsevier Science, 1998. — 853 p.

[R, 2006] R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL www.R-project.org.


* Работа выполнена при финансовой поддержке Минобрнауки РФ (госконтракт № 02.438.11.7015)

1 125009, г . Москва, Б. Кисловский пер., д. 1/12, стр. 1, polyakovvn@ misis. ru

2 420008, Казань, ул. Кремлевская, д.18, КГУ, solovyev@ mi. ru

еще рефераты
Еще работы по остальным рефератам