Реферат: Проблема грамматического инварианта Ф. М. Достоевского в атрибуции анонимных и псевдонимных статей журнала "Время" (1861-1863)
Проблема грамматического инварианта Ф.М. Достоевского в атрибуции анонимных и псевдонимных статей журнала "Время" (1861-1863)В данной работе исследуется стиль публицистических и литературно-критических статей Ф.М. Достоевского с целью установления устойчивого авторского инварианта. Используются методы прикладного статистического анализа: компонентный анализ, метод иерархического кластерного анализа, метод корреляционных плеяд.
Введение
В нашем университете предприняты исследования по формально-грамматическому и статистическому анализу текстов Ф.М. Достоевского, в частности, ставится и решается проблема определения на основе данного анализа авторства некоторых анонимных статей 60-х годов 19 века [1].
Все известные сегодня методы атрибуции вызывают справедливые возражения исследователей. Нет бесспорных методик определения авторства. Нередки попытки, когда анонимные и псевдонимные статьи ошибочно приписываются широко известным авторам. Подчас неправомерно устанавливаются параметры распределения случайных величин в статистических методах.
Целью нашей работы является, во-первых, поиск устойчивых инвариантов авторского стиля в публицистических и литературно-критических статьях Достоевского; во-вторых, сравнить полученный инвариант с результатами формально-грамматического и статистического анализа анонимных и псевдонимных текстов, опубликованных в журналах «Время» и «Эпоха» (1861-1865), сделать предварительные выводы о принадлежности того или иного литературного текста перу Достоевского.
Исходные данные
При помощи разработанных модулей программной системы «Атрибуция» [1] создана электронная база данных, содержащая полный синтаксический и грамматический анализ текстов статей из журналов «Время» и «Эпоха».
Выборочные характеристики из базы данных представлены в четырех таблицах: «Тексты Достоевского» (1), «Тексты для атрибуции» (2), «Чужие тексты» (3), «Дополнительные тексты» (4).
Таб.1. Тексты Достоевского:
Номер
Название статьи
Имя файла
число слов
средняя длина слова
число предложений
средняя длина предложения
процент предложений, длиной меньше 6
001
Введение
00_vved1
13073
5,554730892
774
16,89018059
16,49484
002
Г. -бов и вопрос об искусстве
01_bov1
10937
5,76117754
529
20,67485809
11,75373134
003
Книжность и грамотность (ст. 1) (без цитат)
02knig1
5772
5,711192131
375
15,37333298
19,36339523
004
Книжность и грамотность (ст. 2) (без цитат)
O3_knig2_1
11666
5,629264355
672
17,36011887
18,37037037
005
Последние литературные явления (ст. 5) (без цитат)
04_posl1
3286
5,49147892
206
15,88834953
18,18181818
006
Петербургские сновидения в стихах и прозе
Petson
6624
5,526569843
476
13,91596603
22,08333
007
Объявление об подписке на журнал "Время" на 1862г.
Podp62_1
1276
5,434169292
89
14,33707905
14,44444444
008
Объявление об подписке на журнал "Время" на 1863г.
Podp63_1
2574
5,446386814
173
14,87861252
17,91907514
009
Объявление об издании журнала "Время" с 1861г. I
Obiavl_1_1
1880
6,076063633
106
17,73584938
5,607476636
010
Заключение и чудесное бегство Жака Казановы
kazan1
405
6,18024683
32
12,65625
12,5
011
Три рассказа Эдгара По
Po
564
6,207446575
34
16,58823586
14,28571
012
Собор Парижской Богоматери. Роман В. Гюго (предисловие)
SOB
646
6,032507896
31
20,83870888
19,35483871
013
Литературная истерика
Litist1
329
5,80851078
21
15,66666698
19,04761905
014
Образцы чистосердечия
ObrChis1
3916
5,836823463
296
13,22972965
30,87248322
015
Ответ Русскому Вестнику
OtvRV1
5350
5,854766369
335
15,97014904
17,5074184
016
По поводу элегической заметки "Русского Вестника"
PoPov1
5608
5,485378265
381
14,71916008
21,52230971
017
Свисток и Русский Вестник
Svistok1
4304
5,656598568
267
16,11985016
23,79182156
018
Щекотливый вопрос
ShecVop1
261
6,12643671
23
11,347826
17,39130435
Таб.2. Тексты для атрибуции:
100
Объявление о подписке журнала "Время" с 1861 г. II
Ob1_2
337
6,501483917
61
5,524590015
55,73771
101
Объявление от редакции журнала "Время"
Obiavl3
128
6,546875
6
21,33333397
16,66666667
102
Вопрос об университетах (без цитат)
05_VoprUn1
5517
6,100054264
336
16,4196434
14,49704142
103
Гаваньские чиновники в домашнем быту
chinov1
3232
5,679145813
201
16,00497437
15,34653465
104
Фельетон «Разные разности»
feljeton1
3602
5,915047169
231
15,59307384
11,20689655
105
Магдалина. Драма Ф. Геббеля I
Magda1
319
6,423197269
22
14,5
22,72727273
106
Магдалина. Драма Ф. Геббеля II
Magdal2
185
5,756756783
12
15,41666698
8,333333333
107
Голос за петербургского Дон-Кихота
Golos1
1316
5,659574509
72
18,27777863
18,91891892
108
Критические вариации на разные темы
KritVar
2764
5,923661232
136
20,3235302
5,109489051
109
Подводный камень
PodKam1
3537
5,69748354
256
13,81640625
24,32432432
110
Самоновейший отрицатель
SamOtr1
485
5,863917351
38
12,76315784
44,73684211
111
Мери Бартон. I
MeriB1
63
6,111111164
3
21
0
112
Мери Бартон. II
MeriB2
402
5,935323238
16
25,125
31,25
113
Нечто о Шиллере. I
Schil1
119
5,773109436
9
13,22222233
0
114
Нечто о Шиллере. II
Schil2
309
5,420711994
24
12,875
29,16666667
115
Внутренние новости. I
Vnytnov1
4370
6,036384583
168
26,01190567
16,07142857
116
Внутренние новости. II
Vnytnov2
832
6,207932472
43
19,3488369
32,55813953
117
Задняя обложка
ZadObl1
425
6,174117565
25
17
4
118
Вместо фельетона
VmestoF
4482
5,357429504
240
18,67499924
20,74688797
119
Рассказы Н.В. Успенского
RaskazU1
3358
5,635199547
174
19,29885101
13,71428571
120
Дворянин, желающий быть крестьянином
Dvorjanin1
2126
5,976481438
80
26,23749924
9,756097561
121
Девятнадцатый нумер "Дня"
19№D
1169
5,68691206
76
15,3815794
21,51898734
122
Полемический случай с "Основой" и "Сионом"
Polem1
854
5,989461422
27
31,62962914
10,71428571
123
Два лагеря теоретиков
2 lag
2660
5,837594032
111
23,44144058
3,571428571
124
Выставка в Академии художеств за 1860-61 годы. I
Выставка1
2517
5,895113468
142
17,72535133
7,638888889
125
Выставка в Академии художеств за 1860-61 годы. II
Выставка2
2217
6,200721741
124
17,87903214
8,8
126
Выставка в Академии художеств за 1860-61 годы. III
Выставка3
2019
6,10054493
107
18,8691597
7,339449541
Таб.3. Чужие тексты:
201
Последние литературные явления (ст. 5) (цитаты)
04_posl2
935
6,164705753
55
17
23,21428571
202
Объявление об подписке журнала "Время" с 1861г. II
Obiavl_1_2
654
6,328746319
102
6,411764622
50,98039216
203
Объявление об издании журнала "Время" с 1861г. II
Obiavl2_2
429
6,319347382
61
7,032786846
40,98360656
204
Стихотворения А.С. Хомякова
Homiakov
2023
6,04448843
88
22,94318199
5,681818182
Таб.4. Дополнительные тексты:
301
Книжность и грамотность (ст. 1)
02_knig
5890
5,707979679
386
15,25906754
20,36082
302
Последние литературные явления (ст. 5)
04_posl(new)
4287
5,649171829
263
16,30038071
20
303
Вопрос об университетах
05_VoprUn
5531
6,097089291
339
16,31563377
14,95601173
304
Книжность и грамотность (ст. 2)
O3_knig2
14094
5,717894077
777
18,13899612
17,77493606
305
Введение (первая половина)
00_vved1(half1)
6698
5,563899517
343
19,52769661
16,27906977
306
Введение (вторая половина)
00_vved1(half2)
6375
5,545097828
431
14,79118347
16,66666667
307
Г. -бов и вопрос об искусстве (первая половина)
01_bov1(half1)
5423
5,874423981
261
20,77777863
9,848484848
308
Г. -бов и вопрос об искусстве (вторая половина)
01_bov1(half2)
5514
5,649800301
268
20,57462692
13,60294118
309
Книжность и грамотность (ст. 1) (первая половина)
02_knig(half1)
3015
5,656384945
210
14,35714245
27,96208531
310
Книжность и грамотность (ст. 1) (вторая половина)
02_knig(half2)
2875
5,762086868
176
16,33522797
11,29943503
311
Книжность и грамотность (ст. 2) (первая половина)
O3_knig2(half1)
7162
5,564088345
379
18,89709854
17,10526316
312
Книжность и грамотность (ст. 2) (вторая половина)
O3_knig2(half2)
6932
5,876803398
398
17,41708565
18,4079602
Надо отметить, что последние 8 статей (с 305 по 312 номер) – это разделенные примерно на 2 равные части 4 статьи с соответствующими названиями. Это сделано для более точной оценки авторского инварианта, так как разумно предположить, что внутри одной статьи инвариант должен соблюдаться – иначе не имеет смысла рассуждать об инварианте между разными статьями.
На данном этапе исследования нами сделаны предположения, что инвариантом может являться распределение частей речи на первых трех и последних трех позициях предложений. Таким образом, при помощи специальных подпрограмм из базы данных произведений для каждой статьи были получены частотные таблицы частей речи для указанных 6 позиций предложения. Модуль «Грамматический анализ» позволяет выявлять 16 частей речи, поэтому каждая статья в нашем исследовании имеет 96 признаков (6 позиций по 16 признаков).
Надо сказать, что отсутствуют четкие и однозначные статистические критерии установления авторства, поэтому в целях экспериментальной проверки будут использованы различные методы: экспертный метод, компонентный анализ, метод ближайшего и дальнего соседа, метод корреляционных плеяд.
Экспертный метод
Естественно, что полученные данные требовали первичной обработки, чтобы определиться с дальнейшей стратегией исследования. Для этой цели были получены графики распределений частей речи для каждого произведения. Далее экспертной группой было проведено визуальное исследование, результатом которого является разбитие множества статей на группы, обладающими визуально схожими признаками. К сожалению, данный метод не позволил различить тексты Достоевского от текстов других авторов. Важным результатом данного метода является то, что распределение частей речи на последней позиции предложения одинаково практически на всех графиках, то есть последняя позиция предложения может быть исключена из дальнейшего рассмотрения, так как она не является индивидуальным стилистическим признаком.
Компонентный анализ
Так как число признаков очень велико (96), то естественно подвергнуть исходные статистические данные компонентному анализу, с целью снижения размерности исходного признакового пространства. В основе компонентного анализа (анализа главных компонент) лежат 2 идеи:
Естественно рассматривать лишь те переменные, значения которых, переходя от объекта к объекту, выявляют наибольшую изменчивость;
Вместо исходных, непосредственно измеренных признаков целесообразно рассматривать меньшее количество новых признаков, которые являются производными от исходных .
В основном процедура выделения главных компонент подобна вращению, в котором дисперсия исходного пространства переменных стремится к максимуму: критерий (цель) вращения заключается в максимальной дисперсии (изменчивости) "новой" переменной (фактора) при минимальном разбросе вокруг нее. После того, как найдена линия, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. Далее в анализе главных компонент после того, как выделен первый фактор, определяется следующие факторы, в которых остаточная вариация (разброс данных вокруг первой прямой) максимальна, и т.д. Таким образом, факторы последовательно выделяются один за другим.
Определим формально суть компонентного анализа: пусть имеется группа объектов (текстов статей) {aj}, j=1,…,N. На каждом объекте существует набор характеристик (X1j, X2j,….Xnj), которые меняются от объекта к объекту. Предварительно исходные данные необходимо привести к стандартному виду, то есть произвести операции центрирования и нормирования:
- приведенные исходные факторы
, i = 1,…,n — среднее по признаку.
Вводя комбинированный фактор , где сi– const (i = 1,…,n), можно предположить, что у F большая информативность, чем Z1…Zn. Комбинированные факторы, для которых дисперсия принимает максимальное значение и i =1…n, называют главными факторами (компонентами).
Далее составляется задача поиска такого набора коэффициентов сi, i=1…n таких, что модуль вектора - максимален, при условии равенства единице суммы квадратов коэффициентов. Решение такой задачи сводится к нахождению собственных чисел матрицы Грамма.
Таким образом, алгоритм компонентного анализа состоит в следующем:
Ввод исходных данных.
Стандартизация (центрирование и нормирование) X→Z.
Расчет элементов матрицы Грамма , где k,s = 1…n – матрицы статистических оценок коэффициентов корреляции.
Расчет собственных чисел и собственных векторов матрицы Грамма.
Анализ главных компонент: ג1≥ ג2≥… גn.
5.1. Главные компоненты: , k = 1…n. Где - собственные вектора матрицы Грамма.
5.2. Вклады главных компонент в общую дисперсию:
Обычно берут 2-3 главных компоненты так, чтобы их вклады были > 95%.
Интерпретация результатов.
Исходными данными нашей задачи была матрица размеров 61х95, где 61 – число обрабатываемых статей, а 95 - число признаков. На самом деле число признаков должно быть 96, но один из них был исключен из рассмотрения, так как для всех объектов его значение равнялось нулю.
Были получены следующие результаты. Для первых трех главных компонент вклад в общую дисперсию был равен 25%, что не позволяет выявить те переменные, которые проявляют изменчивость при переходе от одного объекта к другому. Для сохранения в размере 95% информативности статистических данных необходим переход к учету 59 переменных.
Результаты компонентного анализа без 16 последних признаков (части речи, стоящих на последней позиции в предложениях) оказались также несущественны: вклад первых трех главных компонент – чуть более 27%.
Таким образом, результатом применения метода главных компонент является то, что для того чтобы сохранить информативность данных, необходимо сократить число признаков примерно на 30%. Из этого следует, что не существует единого фактора, который бы мог существенно влиять на результаты исследования, которое будет продолжено с использованием других методик.
Метод иерархической кластеризации.
Метод иерархической кластеризации - один из методов кластерного анализа. Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.
Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) "ослабляется" критерий того, какие объекты являются уникальными, а какие нет. Другими словами, понижается порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, связывается вместе всё большее и большее число объектов и агрегируется (объединяется) все больше и больше кластеров, состоящих из различающихся элементов. На последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) можно видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их. Можно использовать различные формы расстояния между объектами. В нашем исследовании мы использовали 2 меры:
Евклидова мера:
Мера Чебышева (Колмогорова):
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, можно связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, используется "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. В качестве альтернативного метода можно использовать объекты в кластерах, которые находятся дальше остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существуют и другие методы объединения кластеров [3,4].
Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров. В итоге кластеры имеют тенденцию быть представленными длинными "цепочками".
^ Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод хорошо разбивает объекты на группы, когда они происходят на самом деле из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.
В нашем исследовании были использованы следующие методы: методы ближайшего и дальнего соседа с евклидовой мерой и мерой Чебышева. Результаты можно представить в виде следующей таблицы:
Шаг
Ближайший сосед
Дальний сосед
Евклидова мера
Мера Чебышева
Евклидова мера
Мера Чебышева
Расс- тояние
С1
С2
Расс- тояние
С1
С2
Расс- тояние
С1
С2
Расс- тояние
С1
С2
60
6,82E-05
303
102
0,00321
303
102
6,82E-05
303
102
0,00321
303
102
59
0,000228
301
003
0,006462
301
003
0,000228
301
003
0,006462
301
003
58
0,002656
304
004
0,013712
304
004
0,002656
304
004
0,013712
304
004
57
0,011963
001
306
0,043592
004
311
0,011963
001
306
0,047884
003
310
56
0,015078
004
312
0,045256
003
310
0,016348
004
311
0,049956
302
005
55
0,01596
311
312
0,048771
311
312
0,018424
003
310
0,050617
001
306
54
0,018355
003
310
0,049459
309
310
0,022654
302
005
0,050784
004
311
53
0,018692
305
306
0,049956
302
005
0,023851
002
307
0,052656
002
305
52
0,019656
309
310
0,050617
001
306
0,038443
102
312
0,061016
016
017
51
0,022654
302
005
0,052656
002
305
0,045276
016
308
0,064932
015
308
50
0,023851
5002
307
0,058776
305
312
0,046684
006
305
0,066843
307
312
49
0,024463
307
308
0,060414
102
312
0,054376
306
308
0,069127
006
310
48
0,032455
306
308
0,061016
016
017
0,056157
307
312
0,074061
119
118
47
0,032532
308
312
0,06129
310
312
0,058881
017
310
0,0767
102
305
46
0,034904
5006
312
0,061861
006
312
0,063971
015
305
0,082369
103
115
45
0,036806
102
312
0,062188
017
306
0,064648
115
124
0,090421
204
126
44
0,03985
310
312
0,062291
306
312
0,066593
119
118
0,095604
108
124
43
0,042699
5016
312
0,063283
307
312
0,069653
109
305
0,098807
017
308
42
0,043462
5015
312
0,064091
308
312
0,074532
103
310
0,098928
305
312
41
0,045743
5017
312
0,064932
015
312
0,074987
104
124
0,104592
109
117
40
0,048403
5005
312
0,070432
005
312
0,079212
005
311
0,10486
005
311
39
0,052418
119
312
0,074061
119
118
0,08177
204
126
0,104911
309
310
38
0,053468
5014
312
0,078039
103
312
0,082072
123
312
0,105988
007
306
37
0,055201
109
312
0,078289
118
312
0,083115
100
202
0,107381
104
126
36
0,058285
103
312
0,079937
123
312
0,089586
118
308
0,121864
121
123
35
0,05984
118
312
0,082369
115
312
0,096922
305
310
0,121958
118
306
34
0,063698
5007
312
0,082928
124
312
0,104026
007
308
0,122994
115
125
33
0,064648
115
124
0,085188
014
312
0,111458
108
312
0,127413
120
124
32
0,066067
123
312
0,088252
008
312
0,115481
121
009
0,134815
100
202
31
0,066333
104
124
0,089027
109
312
0,115786
008
309
0,136667
107
012
30
0,068557
124
312
0,090421
204
126
0,123353
308
309
0,138158
117
310
29
0,077458
5008
312
0,091406
007
312
0,123592
124
126
0,138266
014
312
28
0,079108
126
312
0,092377
104
126
0,130433
310
311
0,146389
008
308
27
0,08177
204
312
0,095604
108
312
0,143854
014
311
0,14921
009
311
26
0,083115
100
202
0,097246
126
312
0,14806
120
125
0,152163
125
126
25
0,086498
120
312
0,104592
117
312
0,159224
011
312
0,155451
306
308
24
0,089035
108
312
0,109568
009
312
0,17118
125
126
0,16
013
122
23
0,090209
009
312
0,115215
125
312
0,181211
117
309
0,160854
123
124
22
0,095615
125
312
0,117918
121
312
0,18166
009
312
0,165517
011
116
21
0,110736
107
312
0,12079
120
312
0,184222
107
311
0,17381
310
311
20
0,113346
117
312
0,124935
011
312
0,209096
202
203
0,182222
202
203
19
0,115481
121
312
0,126441
107
312
0,248629
201
126
0,193268
110
312
18
0,117898
011
312
0,12766
013
312
0,26341
309
311
0,206848
124
126
17
0,161228
201
312
0,134815
100
202
0,269341
311
312
0,208571
010
012
16
0,181756
202
203
0,135926
012
312
0,308734
018
012
0,212869
308
311
15
0,200823
012
312
0,140672
122
312
0,366037
012
116
0,232533
116
311
14
0,214064
110
312
0,142187
201
312
0,382951
013
312
0,238095
126
312
13
0,22138
122
312
0,142361
110
312
0,412816
122
126
0,24
122
012
12
0,227136
013
312
0,148148
202
203
0,465008
126
312
0,276622
201
018
11
0,231298
018
312
0,157895
116
312
0,5344
116
312
0,286408
012
312
10
0,235473
116
312
0,160134
018
312
0,581195
010
312
0,294118
105
114
9
0,276994
010
312
0,161905
010
312
0,69035
110
113
0,308891
311
312
8
0,294433
114
312
0,214685
112
312
0,690577
114
312
0,374677
113
018
7
0,409063
113
312
0,218161
105
312
0,913483
105
312
0,394332
018
312
6
0,43661
105
312
0,232459
114
312
0,923048
106
203
0,444444
112
312
5
0,441908
203
312
0,237548
113
312
0,965208
112
113
0,470588
114
312
4
0,450941
112
312
0,295866
203
312
1,373561
203
312
0,5
203
101
3
0,54854
106
312
0,31016
106
312
1,514195
101
113
0,545455
106
101
2
1,060618
101
312
0,423529
101
312
1,95922
113
312
0,666667
111
101
1
1,546602
111
312
0,490196
111
312
2,640955
111
312
0,7
101
312
В графе «Расстояние» показан квадрат расстояния между объектами, либо между объектом и группой объектов, либо между группами объектов. При объединении двух объектов (групп объектов), образуемой новой группе присваивался максимальный номер из этих двух объектов (групп). Графы «С1» и «С2» - показывают соответственно, какие объекты объединяются на данном шаге. Жирным шрифтом выделены те значения расстояний, между которыми наиболее максимальный разрыв. Таким образом, оптимальным вариантом сечения объектов на классы является значение расстояния между этими выделенными значениями. Из представленной таблицы видно, что в методе ближайшего соседа половины 4 разрезанных статей объединяются уже на начальных шагах, в отличие от метода дальнего соседа. Следовательно, применение метода ближайшего соседа выглядит предпочтительнее, чем метод дальнего соседа.
Следующая таблица показывает группу объектов, которые не попадают в основную группу, и следовательно, могут считаться объектами, имеющими далекое сходство с объектами основной группы:
Ближайший сосед
Дальний сосед
Евклидова мера
Мера Чебышева
Евклидова мера
Мера Чебышева
100,101, 105, 106, 111, 112, 113, 202, 203
100, 101, 105, 106, 111
112, 113, 114, 202, 203
100, 101, 105, 106, 110
111, 112, 113, 202, 203
018, 100, 101, 105, 106,111,
112, 113, 114, 201, 202, 203
Можно заметить, что имеется тенденция к объединению некоторых атрибутируемых статей со статьями, явно не принадлежащими Достоевскому. Необходимы дальнейшие исследования для уточнения полученных результатов.
^ Метод корреляционных плеяд
Метод корреляционных плеяд предназначен для нахождения таких групп объектов - "плеяд", когда корреляционная связь, т.е. сумма модулей коэффициентов корреляции между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (межплеядная) - мала. По корреляционной матрице объектов формируется чертеж - граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, образуют плеяду. Дальнейшее изложение использованного метода дается согласно [3].
Рассмотрим корреляционную матрицу , исходных объектов.
В данном варианте корреляционных плеяд предполагается упорядочивать объекты и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.
Упорядочение производится на основании принципа максимального корреляционного пути: все объектов связываются при помощи линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находят наибольший по абсолютной величине коэффициент корреляции, например (коэффициенты на главной диагонали матрицы, равные единице, не рассматриваются).
Рисуем кружки, соответствующие параметрам и , и над связью между ними пишем значение . Затем, исключив , находим наибольший коэффициент в m-ом столбце матрицы (это соответствует нахождению признака, который наиболее сильно после "связан" с , и наибольший коэффициент в l-ой строке матрицы (это соответствует нахождению признака, наиболее сильно после "связанного" с ). Из найденных таким образом двух коэффициентов корреляции выбирается наибольший - пусть это будет . Рисуем кружок , соединяем его с кружком и проставляем значение . Затем находим объекты, наиболее связанные с , и , и выбираем из найденных коэффициентов корреляции наибольший. Пусть это будет . Требуем, чтобы на каждом шаге появлялся новый объект, поэтому объекты, уже изображенные на чертеже, исключаются, следовательно, .
Далее рисуем кружок, соответствующий , и соединяем его с и т.д. На каждом шаге находятся параметры, наиболее связанные с двумя последними рассмотренными параметрами, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после -го шага; граф оказывается состоящим из кружков, соединенных ребром. Затем задается пороговое значение , а все ребра, соответствующие меньшим, чем , коэффициентам корреляции, исключаются из графа.
Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что в данном варианте метода корреляционных плеяд допускается построение только незамкнутых графов.
Для исходных данных была построена корреляционная матрица объектов. Результаты применения данного метода можно свести в следующую таблицу:
Пороговое значение
0.9
0.87
Выбывшие из основной
группы
010, 012, 013, 018, 100, 101,
105, 106, 110, 112, 113,
114, 116, 122, 202, 203
012, 018, 100, 101, 105,
106, 112, 113, 114, 116,
202, 203
Дальнейшее увеличение порогового значения влечет за собою исключение из основной группы статей, автором которых бесспорно является Ф.М. Достоевский. Результаты применения этого метода оказались аналогичными результатам методов иерархической кластеризации. К сожалению, как и раньше, в основной группе остались статьи, которые не принадлежат Ф.М. Достоевскому.
Заключение
Применение методов прикладного статистического анализа дает следующий результат: выделяется группа объектов, которые практически в каждом методе стоят особняком и имеют слабые связи с объектами основной группы. Это следующие статьи: 100, 101, 105, 106, 111, 112, 113, 202, 203. Одним из объяснений этому может служить то, что объемы данных статей достаточно малы. В число устойчиво атрибутируемых Достоевскому статей по всем методикам попадает принадлежащая А. Григорьеву статья «Стихотворения А. С. Хомякова». Таким образом, попытка выбрать указанные выше признаки в качестве устойчивого авторского инварианта стиля Достоевского не увенчалась успехом. Необходимо проверить по данной методике не только каждое предложение текста, но и провести подобные расчеты для первого и последнего предложения каждого абзаца, а также по отдельности для каждого первого и каждого последнего предложения абзаца. Следующим этапом исследований будет подключение дополнительных грамматических признаков, таких как, например, число, падеж, род, наклонение и т.п.
Литература:
Сидоров Ю.В., Леонтьев А.А., Рогов А.А., Захаров В.Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. Четвертая Санкт-Петербургская Ассамблея молодых ученых и специалистов. Тезисы докладов. СПб., 1999, стр. 66.
Гейр Хетсо. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах “Время” и “Эпоха”^ . SOLUM FORLAG A.S.: OSLO 1986.
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М., издательское объединение «ЮНИТИ», 1998.
Мандель И.Д. Кластерный анализ. М., «Финансы и статистика», 1988.- 176 с.
Батов В.И. Другому как понять тебя?.- М.:Знание,1991.-45с.
Степанов А. Эвристика стиля - атрибуция авторства.//Литературная учеба.-1998.-N2.-С.155-160
Шварц Л.С. К вопросу о применении специальных средств для атрибуции текстов.//Системы специальной коммуникации в современном русском языке: Сб.науч.тр..-Днепропетровск,1990.-С.121-127.
Марусенко М.А. Атрибуция анонимных и псевдоанонимных литературных произведений методами распознавания образов. Л.: Издательство Ленинградского университета, 1990, 168с.
еще рефераты
Еще работы по разное
Реферат по разное
Абросимова Ольга Витальевна, преподаватель цмк «Хоровое дирижирование» гоу спо «Вольское музыкальное училище им. В. В. Ковалева (техникум)»
18 Сентября 2013
Реферат по разное
Эстрадный вокал как средство развития музыкальных способностей
18 Сентября 2013
Реферат по разное
Порада дорожче золота
18 Сентября 2013
Реферат по разное
Вадим Аванесов: Проблема демаркации педагогических измерений
18 Сентября 2013