Реферат: Проблема грамматического инварианта Ф. М. Достоевского в атрибуции анонимных и псевдонимных статей журнала "Время" (1861-1863)

Проблема грамматического инварианта Ф.М. Достоевского в атрибуции анонимных и псевдонимных статей журнала "Время" (1861-1863)

В данной работе исследуется стиль публицистических и литературно-критических статей Ф.М. Достоевского с целью установления устойчивого авторского инварианта. Используются методы прикладного статистического анализа: компонентный анализ, метод иерархического кластерного анализа, метод корреляционных плеяд.
Введение
В нашем университете предприняты исследования по формально-грамматическому и статистическому анализу текстов Ф.М. Достоевского, в частности, ставится и решается проблема определения на основе данного анализа авторства некоторых анонимных статей 60-х годов 19 века [1].

Все известные сегодня методы атрибуции вызывают справедливые возражения исследователей. Нет бесспорных методик определения авторства. Нередки попытки, когда анонимные и псевдонимные статьи ошибочно приписываются широко известным авторам. Подчас неправомерно устанавливаются параметры распределения случайных величин в статистических методах.

Целью нашей работы является, во-первых, поиск устойчивых инвариантов авторского стиля в публицистических и литературно-критических статьях Достоевского; во-вторых, сравнить полученный инвариант с результатами формально-грамматического и статистического анализа анонимных и псевдонимных текстов, опубликованных в журналах «Время» и «Эпоха» (1861-1865), сделать предварительные выводы о принадлежности того или иного литературного текста перу Достоевского.
Исходные данные
При помощи разработанных модулей программной системы «Атрибуция» [1] создана электронная база данных, содержащая полный синтаксический и грамматический анализ текстов статей из журналов «Время» и «Эпоха».

Выборочные характеристики из базы данных представлены в четырех таблицах: «Тексты Достоевского» (1), «Тексты для атрибуции» (2), «Чужие тексты» (3), «Дополнительные тексты» (4).


Таб.1. Тексты Достоевского:


Номер

Название статьи

Имя файла

число слов

средняя длина слова

число предложений

средняя длина предложения

процент предложений, длиной меньше 6

001

Введение

00_vved1

13073

5,554730892

774

16,89018059

16,49484

002

Г. -бов и вопрос об искусстве

01_bov1

10937

5,76117754

529

20,67485809

11,75373134

003

Книжность и грамотность (ст. 1) (без цитат)

02knig1

5772

5,711192131

375

15,37333298

19,36339523

004

Книжность и грамотность (ст. 2) (без цитат)

O3_knig2_1

11666

5,629264355

672

17,36011887

18,37037037

005

Последние литературные явления (ст. 5) (без цитат)

04_posl1

3286

5,49147892

206

15,88834953

18,18181818

006

Петербургские сновидения в стихах и прозе

Petson

6624

5,526569843

476

13,91596603

22,08333

007

Объявление об подписке на журнал "Время" на 1862г.

Podp62_1

1276

5,434169292

89

14,33707905

14,44444444

008

Объявление об подписке на журнал "Время" на 1863г.

Podp63_1

2574

5,446386814

173

14,87861252

17,91907514

009

Объявление об издании журнала "Время" с 1861г. I

Obiavl_1_1

1880

6,076063633

106

17,73584938

5,607476636

010

Заключение и чудесное бегство Жака Казановы

kazan1

405

6,18024683

32

12,65625

12,5

011

Три рассказа Эдгара По

Po

564

6,207446575

34

16,58823586

14,28571

012

Собор Парижской Богоматери. Роман В. Гюго (предисловие)

SOB

646

6,032507896

31

20,83870888

19,35483871

013

Литературная истерика

Litist1

329

5,80851078

21

15,66666698

19,04761905

014

Образцы чистосердечия

ObrChis1

3916

5,836823463

296

13,22972965

30,87248322

015

Ответ Русскому Вестнику

OtvRV1

5350

5,854766369

335

15,97014904

17,5074184

016

По поводу элегической заметки "Русского Вестника"

PoPov1

5608

5,485378265

381

14,71916008

21,52230971

017

Свисток и Русский Вестник

Svistok1

4304

5,656598568

267

16,11985016

23,79182156

018

Щекотливый вопрос

ShecVop1

261

6,12643671

23

11,347826

17,39130435


Таб.2. Тексты для атрибуции:


100

Объявление о подписке журнала "Время" с 1861 г. II

Ob1_2

337

6,501483917

61

5,524590015

55,73771

101

Объявление от редакции журнала "Время"

Obiavl3

128

6,546875

6

21,33333397

16,66666667

102

Вопрос об университетах (без цитат)

05_VoprUn1

5517

6,100054264

336

16,4196434

14,49704142

103

Гаваньские чиновники в домашнем быту

chinov1

3232

5,679145813

201

16,00497437

15,34653465

104

Фельетон «Разные разности»

feljeton1

3602

5,915047169

231

15,59307384

11,20689655

105

Магдалина. Драма Ф. Геббеля I

Magda1

319

6,423197269

22

14,5

22,72727273

106

Магдалина. Драма Ф. Геббеля II

Magdal2

185

5,756756783

12

15,41666698

8,333333333

107

Голос за петербургского Дон-Кихота

Golos1

1316

5,659574509

72

18,27777863

18,91891892

108

Критические вариации на разные темы

KritVar

2764

5,923661232

136

20,3235302

5,109489051

109

Подводный камень

PodKam1

3537

5,69748354

256

13,81640625

24,32432432

110

Самоновейший отрицатель

SamOtr1

485

5,863917351

38

12,76315784

44,73684211

111

Мери Бартон. I

MeriB1

63

6,111111164

3

21

0

112

Мери Бартон. II

MeriB2

402

5,935323238

16

25,125

31,25

113

Нечто о Шиллере. I

Schil1

119

5,773109436

9

13,22222233

0

114

Нечто о Шиллере. II

Schil2

309

5,420711994

24

12,875

29,16666667

115

Внутренние новости. I

Vnytnov1

4370

6,036384583

168

26,01190567

16,07142857

116

Внутренние новости. II

Vnytnov2

832

6,207932472

43

19,3488369

32,55813953

117

Задняя обложка

ZadObl1

425

6,174117565

25

17

4

118

Вместо фельетона

VmestoF

4482

5,357429504

240

18,67499924

20,74688797

119

Рассказы Н.В. Успенского

RaskazU1

3358

5,635199547

174

19,29885101

13,71428571

120

Дворянин, желающий быть крестьянином

Dvorjanin1

2126

5,976481438

80

26,23749924

9,756097561

121

Девятнадцатый нумер "Дня"

19№D

1169

5,68691206

76

15,3815794

21,51898734

122

Полемический случай с "Основой" и "Сионом"

Polem1

854

5,989461422

27

31,62962914

10,71428571

123

Два лагеря теоретиков

2 lag

2660

5,837594032

111

23,44144058

3,571428571

124

Выставка в Академии художеств за 1860-61 годы. I

Выставка1

2517

5,895113468

142

17,72535133

7,638888889

125

Выставка в Академии художеств за 1860-61 годы. II

Выставка2

2217

6,200721741

124

17,87903214

8,8

126

Выставка в Академии художеств за 1860-61 годы. III

Выставка3

2019

6,10054493

107

18,8691597

7,339449541


Таб.3. Чужие тексты:


201

Последние литературные явления (ст. 5) (цитаты)

04_posl2

935

6,164705753

55

17

23,21428571

202

Объявление об подписке журнала "Время" с 1861г. II

Obiavl_1_2

654

6,328746319

102

6,411764622

50,98039216

203

Объявление об издании журнала "Время" с 1861г. II

Obiavl2_2

429

6,319347382

61

7,032786846

40,98360656

204

Стихотворения А.С. Хомякова

Homiakov

2023

6,04448843

88

22,94318199

5,681818182


Таб.4. Дополнительные тексты:


301

Книжность и грамотность (ст. 1)

02_knig



5890

5,707979679

386

15,25906754

20,36082

302

Последние литературные явления (ст. 5)

04_posl(new)


4287

5,649171829

263

16,30038071

20

303

Вопрос об университетах

05_VoprUn

5531

6,097089291

339

16,31563377

14,95601173

304

Книжность и грамотность (ст. 2)

O3_knig2

14094

5,717894077

777

18,13899612

17,77493606

305

Введение (первая половина)

00_vved1(half1)

6698

5,563899517

343

19,52769661

16,27906977

306

Введение (вторая половина)

00_vved1(half2)

6375

5,545097828

431

14,79118347

16,66666667

307

Г. -бов и вопрос об искусстве (первая половина)

01_bov1(half1)

5423

5,874423981

261

20,77777863

9,848484848

308

Г. -бов и вопрос об искусстве (вторая половина)

01_bov1(half2)

5514

5,649800301

268

20,57462692

13,60294118

309

Книжность и грамотность (ст. 1) (первая половина)

02_knig(half1)

3015

5,656384945

210

14,35714245

27,96208531

310

Книжность и грамотность (ст. 1) (вторая половина)

02_knig(half2)

2875

5,762086868

176

16,33522797

11,29943503

311

Книжность и грамотность (ст. 2) (первая половина)

O3_knig2(half1)

7162

5,564088345

379

18,89709854

17,10526316

312

Книжность и грамотность (ст. 2) (вторая половина)

O3_knig2(half2)

6932

5,876803398

398

17,41708565

18,4079602



Надо отметить, что последние 8 статей (с 305 по 312 номер) – это разделенные примерно на 2 равные части 4 статьи с соответствующими названиями. Это сделано для более точной оценки авторского инварианта, так как разумно предположить, что внутри одной статьи инвариант должен соблюдаться – иначе не имеет смысла рассуждать об инварианте между разными статьями.

На данном этапе исследования нами сделаны предположения, что инвариантом может являться распределение частей речи на первых трех и последних трех позициях предложений. Таким образом, при помощи специальных подпрограмм из базы данных произведений для каждой статьи были получены частотные таблицы частей речи для указанных 6 позиций предложения. Модуль «Грамматический анализ» позволяет выявлять 16 частей речи, поэтому каждая статья в нашем исследовании имеет 96 признаков (6 позиций по 16 признаков).

Надо сказать, что отсутствуют четкие и однозначные статистические критерии установления авторства, поэтому в целях экспериментальной проверки будут использованы различные методы: экспертный метод, компонентный анализ, метод ближайшего и дальнего соседа, метод корреляционных плеяд.


Экспертный метод


Естественно, что полученные данные требовали первичной обработки, чтобы определиться с дальнейшей стратегией исследования. Для этой цели были получены графики распределений частей речи для каждого произведения. Далее экспертной группой было проведено визуальное исследование, результатом которого является разбитие множества статей на группы, обладающими визуально схожими признаками. К сожалению, данный метод не позволил различить тексты Достоевского от текстов других авторов. Важным результатом данного метода является то, что распределение частей речи на последней позиции предложения одинаково практически на всех графиках, то есть последняя позиция предложения может быть исключена из дальнейшего рассмотрения, так как она не является индивидуальным стилистическим признаком.


Компонентный анализ


Так как число признаков очень велико (96), то естественно подвергнуть исходные статистические данные компонентному анализу, с целью снижения размерности исходного признакового пространства. В основе компонентного анализа (анализа главных компонент) лежат 2 идеи:


Естественно рассматривать лишь те переменные, значения которых, переходя от объекта к объекту, выявляют наибольшую изменчивость;

Вместо исходных, непосредственно измеренных признаков целесообразно рассматривать меньшее количество новых признаков, которые являются производными от исходных .


В основном процедура выделения главных компонент подобна вращению, в котором дисперсия исходного пространства переменных стремится к максимуму: критерий (цель) вращения заключается в максимальной дисперсии (изменчивости) "новой" переменной (фактора) при минимальном разбросе вокруг нее. После того, как найдена линия, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных. Далее в анализе главных компонент после того, как выделен первый фактор, определяется следующие факторы, в которых остаточная вариация (разброс данных вокруг первой прямой) максимальна, и т.д. Таким образом, факторы последовательно выделяются один за другим.

Определим формально суть компонентного анализа: пусть имеется группа объектов (текстов статей) {aj}, j=1,…,N. На каждом объекте существует набор характеристик (X1j, X2j,….Xnj), которые меняются от объекта к объекту. Предварительно исходные данные необходимо привести к стандартному виду, то есть произвести операции центрирования и нормирования:

- приведенные исходные факторы


, i = 1,…,n — среднее по признаку.


Вводя комбинированный фактор , где сi– const (i = 1,…,n), можно предположить, что у F большая информативность, чем Z1…Zn. Комбинированные факторы, для которых дисперсия принимает максимальное значение и i =1…n, называют главными факторами (компонентами).

Далее составляется задача поиска такого набора коэффициентов сi, i=1…n таких, что модуль вектора - максимален, при условии равенства единице суммы квадратов коэффициентов. Решение такой задачи сводится к нахождению собственных чисел матрицы Грамма.


Таким образом, алгоритм компонентного анализа состоит в следующем:

Ввод исходных данных.

Стандартизация (центрирование и нормирование) X→Z.

Расчет элементов матрицы Грамма , где k,s = 1…n – матрицы статистических оценок коэффициентов корреляции.

Расчет собственных чисел и собственных векторов матрицы Грамма.

Анализ главных компонент: ג1≥ ג2≥… גn.

5.1. Главные компоненты: , k = 1…n. Где - собственные вектора матрицы Грамма.

5.2. Вклады главных компонент в общую дисперсию:

Обычно берут 2-3 главных компоненты так, чтобы их вклады были > 95%.

Интерпретация результатов.


Исходными данными нашей задачи была матрица размеров 61х95, где 61 – число обрабатываемых статей, а 95 - число признаков. На самом деле число признаков должно быть 96, но один из них был исключен из рассмотрения, так как для всех объектов его значение равнялось нулю.

Были получены следующие результаты. Для первых трех главных компонент вклад в общую дисперсию был равен 25%, что не позволяет выявить те переменные, которые проявляют изменчивость при переходе от одного объекта к другому. Для сохранения в размере 95% информативности статистических данных необходим переход к учету 59 переменных.

Результаты компонентного анализа без 16 последних признаков (части речи, стоящих на последней позиции в предложениях) оказались также несущественны: вклад первых трех главных компонент – чуть более 27%.

Таким образом, результатом применения метода главных компонент является то, что для того чтобы сохранить информативность данных, необходимо сократить число признаков примерно на 30%. Из этого следует, что не существует единого фактора, который бы мог существенно влиять на результаты исследования, которое будет продолжено с использованием других методик.


Метод иерархической кластеризации.


Метод иерархической кластеризации - один из методов кластерного анализа. Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево.

Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) "ослабляется" критерий того, какие объекты являются уникальными, а какие нет. Другими словами, понижается порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, связывается вместе всё большее и большее число объектов и агрегируется (объединяется) все больше и больше кластеров, состоящих из различающихся элементов. На последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) можно видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их. Можно использовать различные формы расстояния между объектами. В нашем исследовании мы использовали 2 меры:

Евклидова мера:

Мера Чебышева (Колмогорова):

На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров. Здесь имеются различные возможности: например, можно связать два кластера вместе, когда любые два объекта в двух кластерах ближе друг к другу, чем соответствующее расстояние связи. Другими словами, используется "правило ближайшего соседа" для определения расстояния между кластерами; этот метод называется методом одиночной связи. Это правило строит "волокнистые" кластеры, т.е. кластеры, "сцепленные вместе" только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. В качестве альтернативного метода можно использовать объекты в кластерах, которые находятся дальше остальных пар объектов друг от друга. Этот метод называется метод полной связи. Существуют и другие методы объединения кластеров [3,4].

Одиночная связь (метод ближайшего соседа). Как было описано выше, в этом методе расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Это правило должно, в известном смысле, нанизывать объекты вместе для формирования кластеров. В итоге кластеры имеют тенденцию быть представленными длинными "цепочками".

^ Полная связь (метод наиболее удаленных соседей). В этом методе расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Этот метод хорошо разбивает объекты на группы, когда они происходят на самом деле из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод непригоден.

В нашем исследовании были использованы следующие методы: методы ближайшего и дальнего соседа с евклидовой мерой и мерой Чебышева. Результаты можно представить в виде следующей таблицы:





Шаг

Ближайший сосед

Дальний сосед

Евклидова мера

Мера Чебышева

Евклидова мера

Мера Чебышева

Расс- тояние

С1

С2

Расс- тояние

С1

С2

Расс- тояние

С1

С2

Расс- тояние

С1

С2

60

6,82E-05

303

102

0,00321

303

102

6,82E-05

303

102

0,00321

303

102

59

0,000228

301

003

0,006462

301

003

0,000228

301

003

0,006462

301

003

58

0,002656

304

004

0,013712

304

004

0,002656

304

004

0,013712

304

004

57

0,011963

001

306

0,043592

004

311

0,011963

001

306

0,047884

003

310

56

0,015078

004

312

0,045256

003

310

0,016348

004

311

0,049956

302

005

55

0,01596

311

312

0,048771

311

312

0,018424

003

310

0,050617

001

306

54

0,018355

003

310

0,049459

309

310

0,022654

302

005

0,050784

004

311

53

0,018692

305

306

0,049956

302

005

0,023851

002

307

0,052656

002

305

52

0,019656

309

310

0,050617

001

306

0,038443

102

312

0,061016

016

017

51

0,022654

302

005

0,052656

002

305

0,045276

016

308

0,064932

015

308

50

0,023851

5002

307

0,058776

305

312

0,046684

006

305

0,066843

307

312

49

0,024463

307

308

0,060414

102

312

0,054376

306

308

0,069127

006

310

48

0,032455

306

308

0,061016

016

017

0,056157

307

312

0,074061

119

118

47

0,032532

308

312

0,06129

310

312

0,058881

017

310

0,0767

102

305

46

0,034904

5006

312

0,061861

006

312

0,063971

015

305

0,082369

103

115

45

0,036806

102

312

0,062188

017

306

0,064648

115

124

0,090421

204

126

44

0,03985

310

312

0,062291

306

312

0,066593

119

118

0,095604

108

124

43

0,042699

5016

312

0,063283

307

312

0,069653

109

305

0,098807

017

308

42

0,043462

5015

312

0,064091

308

312

0,074532

103

310

0,098928

305

312

41

0,045743

5017

312

0,064932

015

312

0,074987

104

124

0,104592

109

117

40

0,048403

5005

312

0,070432

005

312

0,079212

005

311

0,10486

005

311

39

0,052418

119

312

0,074061

119

118

0,08177

204

126

0,104911

309

310

38

0,053468

5014

312

0,078039

103

312

0,082072

123

312

0,105988

007

306

37

0,055201

109

312

0,078289

118

312

0,083115

100

202

0,107381

104

126

36

0,058285

103

312

0,079937

123

312

0,089586

118

308

0,121864

121

123

35

0,05984

118

312

0,082369

115

312

0,096922

305

310

0,121958

118

306

34

0,063698

5007

312

0,082928

124

312

0,104026

007

308

0,122994

115

125

33

0,064648

115

124

0,085188

014

312

0,111458

108

312

0,127413

120

124

32

0,066067

123

312

0,088252

008

312

0,115481

121

009

0,134815

100

202

31

0,066333

104

124

0,089027

109

312

0,115786

008

309

0,136667

107

012

30

0,068557

124

312

0,090421

204

126

0,123353

308

309

0,138158

117

310

29

0,077458

5008

312

0,091406

007

312

0,123592

124

126

0,138266

014

312

28

0,079108

126

312

0,092377

104

126

0,130433

310

311

0,146389

008

308

27

0,08177

204

312

0,095604

108

312

0,143854

014

311

0,14921

009

311

26

0,083115

100

202

0,097246

126

312

0,14806

120

125

0,152163

125

126

25

0,086498

120

312

0,104592

117

312

0,159224

011

312

0,155451

306

308

24

0,089035

108

312

0,109568

009

312

0,17118

125

126

0,16

013

122

23

0,090209

009

312

0,115215

125

312

0,181211

117

309

0,160854

123

124

22

0,095615

125

312

0,117918

121

312

0,18166

009

312

0,165517

011

116

21

0,110736

107

312

0,12079

120

312

0,184222

107

311

0,17381

310

311

20

0,113346

117

312

0,124935

011

312

0,209096

202

203

0,182222

202

203

19

0,115481

121

312

0,126441

107

312

0,248629

201

126

0,193268

110

312

18

0,117898

011

312

0,12766

013

312

0,26341

309

311

0,206848

124

126

17

0,161228

201

312

0,134815

100

202

0,269341

311

312

0,208571

010

012

16

0,181756

202

203

0,135926

012

312

0,308734

018

012

0,212869

308

311

15

0,200823

012

312

0,140672

122

312

0,366037

012

116

0,232533

116

311

14

0,214064

110

312

0,142187

201

312

0,382951

013

312

0,238095

126

312

13

0,22138

122

312

0,142361

110

312

0,412816

122

126

0,24

122

012

12

0,227136

013

312

0,148148

202

203

0,465008

126

312

0,276622

201

018

11

0,231298

018

312

0,157895

116

312

0,5344

116

312

0,286408

012

312

10

0,235473

116

312

0,160134

018

312

0,581195

010

312

0,294118

105

114

9

0,276994

010

312

0,161905

010

312

0,69035

110

113

0,308891

311

312

8

0,294433

114

312

0,214685

112

312

0,690577

114

312

0,374677

113

018

7

0,409063

113

312

0,218161

105

312

0,913483

105

312

0,394332

018

312

6

0,43661

105

312

0,232459

114

312

0,923048

106

203

0,444444

112

312

5

0,441908

203

312

0,237548

113

312

0,965208

112

113

0,470588

114

312

4

0,450941

112

312

0,295866

203

312

1,373561

203

312

0,5

203

101

3

0,54854

106

312

0,31016

106

312

1,514195

101

113

0,545455

106

101

2

1,060618

101

312

0,423529

101

312

1,95922

113

312

0,666667

111

101

1

1,546602

111

312

0,490196

111

312

2,640955

111

312

0,7

101

312


В графе «Расстояние» показан квадрат расстояния между объектами, либо между объектом и группой объектов, либо между группами объектов. При объединении двух объектов (групп объектов), образуемой новой группе присваивался максимальный номер из этих двух объектов (групп). Графы «С1» и «С2» - показывают соответственно, какие объекты объединяются на данном шаге. Жирным шрифтом выделены те значения расстояний, между которыми наиболее максимальный разрыв. Таким образом, оптимальным вариантом сечения объектов на классы является значение расстояния между этими выделенными значениями. Из представленной таблицы видно, что в методе ближайшего соседа половины 4 разрезанных статей объединяются уже на начальных шагах, в отличие от метода дальнего соседа. Следовательно, применение метода ближайшего соседа выглядит предпочтительнее, чем метод дальнего соседа.

Следующая таблица показывает группу объектов, которые не попадают в основную группу, и следовательно, могут считаться объектами, имеющими далекое сходство с объектами основной группы:


Ближайший сосед

Дальний сосед

Евклидова мера

Мера Чебышева

Евклидова мера

Мера Чебышева

100,101, 105, 106, 111, 112, 113, 202, 203

100, 101, 105, 106, 111

112, 113, 114, 202, 203

100, 101, 105, 106, 110

111, 112, 113, 202, 203

018, 100, 101, 105, 106,111,

112, 113, 114, 201, 202, 203

Можно заметить, что имеется тенденция к объединению некоторых атрибутируемых статей со статьями, явно не принадлежащими Достоевскому. Необходимы дальнейшие исследования для уточнения полученных результатов.
^ Метод корреляционных плеяд

Метод корреляционных плеяд предназначен для нахождения таких групп объектов - "плеяд", когда корреляционная связь, т.е. сумма модулей коэффициентов корреляции между параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (межплеядная) - мала. По корреляционной матрице объектов формируется чертеж - граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, образуют плеяду. Дальнейшее изложение использованного метода дается согласно [3].

Рассмотрим корреляционную матрицу , исходных объектов.

В данном варианте корреляционных плеяд предполагается упорядочивать объекты и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.

Упорядочение производится на основании принципа максимального корреляционного пути: все объектов связываются при помощи линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находят наибольший по абсолютной величине коэффициент корреляции, например (коэффициенты на главной диагонали матрицы, равные единице, не рассматриваются).

Рисуем кружки, соответствующие параметрам и , и над связью между ними пишем значение . Затем, исключив , находим наибольший коэффициент в m-ом столбце матрицы (это соответствует нахождению признака, который наиболее сильно после "связан" с , и наибольший коэффициент в l-ой строке матрицы (это соответствует нахождению признака, наиболее сильно после "связанного" с ). Из найденных таким образом двух коэффициентов корреляции выбирается наибольший - пусть это будет . Рисуем кружок , соединяем его с кружком и проставляем значение . Затем находим объекты, наиболее связанные с , и , и выбираем из найденных коэффициентов корреляции наибольший. Пусть это будет . Требуем, чтобы на каждом шаге появлялся новый объект, поэтому объекты, уже изображенные на чертеже, исключаются, следовательно, .

Далее рисуем кружок, соответствующий , и соединяем его с и т.д. На каждом шаге находятся параметры, наиболее связанные с двумя последними рассмотренными параметрами, а затем выбирается один из них, соответствующий большему коэффициенту корреляции. Процедура заканчивается после -го шага; граф оказывается состоящим из кружков, соединенных ребром. Затем задается пороговое значение , а все ребра, соответствующие меньшим, чем , коэффициентам корреляции, исключаются из графа.

Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что в данном варианте метода корреляционных плеяд допускается построение только незамкнутых графов.

Для исходных данных была построена корреляционная матрица объектов. Результаты применения данного метода можно свести в следующую таблицу:


Пороговое значение

0.9

0.87

Выбывшие из основной

группы

010, 012, 013, 018, 100, 101,

105, 106, 110, 112, 113,

114, 116, 122, 202, 203

012, 018, 100, 101, 105,

106, 112, 113, 114, 116,

202, 203


Дальнейшее увеличение порогового значения влечет за собою исключение из основной группы статей, автором которых бесспорно является Ф.М. Достоевский. Результаты применения этого метода оказались аналогичными результатам методов иерархической кластеризации. К сожалению, как и раньше, в основной группе остались статьи, которые не принадлежат Ф.М. Достоевскому.

Заключение

Применение методов прикладного статистического анализа дает следующий результат: выделяется группа объектов, которые практически в каждом методе стоят особняком и имеют слабые связи с объектами основной группы. Это следующие статьи: 100, 101, 105, 106, 111, 112, 113, 202, 203. Одним из объяснений этому может служить то, что объемы данных статей достаточно малы. В число устойчиво атрибутируемых Достоевскому статей по всем методикам попадает принадлежащая А. Григорьеву статья «Стихотворения А. С. Хомякова». Таким образом, попытка выбрать указанные выше признаки в качестве устойчивого авторского инварианта стиля Достоевского не увенчалась успехом. Необходимо проверить по данной методике не только каждое предложение текста, но и провести подобные расчеты для первого и последнего предложения каждого абзаца, а также по отдельности для каждого первого и каждого последнего предложения абзаца. Следующим этапом исследований будет подключение дополнительных грамматических признаков, таких как, например, число, падеж, род, наклонение и т.п.


Литература:



Сидоров Ю.В., Леонтьев А.А., Рогов А.А., Захаров В.Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. Четвертая Санкт-Петербургская Ассамблея молодых ученых и специалистов. Тезисы докладов. СПб., 1999, стр. 66.

Гейр Хетсо. Принадлежность Достоевскому: к вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах “Время” и “Эпоха”^ . SOLUM FORLAG A.S.: OSLO 1986.

Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М., издательское объединение «ЮНИТИ», 1998.

Мандель И.Д. Кластерный анализ. М., «Финансы и статистика», 1988.- 176 с.

Батов В.И. Другому как понять тебя?.- М.:Знание,1991.-45с.

Степанов А. Эвристика стиля - атрибуция авторства.//Литературная учеба.-1998.-N2.-С.155-160

Шварц Л.С. К вопросу о применении специальных средств для атрибуции текстов.//Системы специальной коммуникации в современном русском языке: Сб.науч.тр..-Днепропетровск,1990.-С.121-127.

Марусенко М.А. Атрибуция анонимных и псевдоанонимных литературных произведений методами распознавания образов. Л.: Издательство Ленинградского университета, 1990, 168с.



еще рефераты
Еще работы по разное