Реферат: Комплексная статистическая обработка экспериментальных данных

Министерствообразования и науки Украины

Пояснительнаязаписка

к курсовойработе

по дисциплинеСтатистика

Комплекснаястатистическая обработка экспериментальных данных


Реферат

 

Объектом исследованияданной работы является комплексный анализ сгенерированных выборок случайных величин и подбор их закона распределения.

Целью работы является изучение методов и приемов анализастатистической информации, получение навыков и опыта работы в пакете STATISTICA.

В данной работе применялись широко используемыестатистические методы обработки и анализа данных.

Результатом работыявляется освоение методов обработки данных статистического наблюдения, иханализа с помощью обобщающих показателей, установление теоретических законовраспределения случайных величин и доказательство адекватности этих законов.

Данную курсовую работуможно использовать в качестве наглядного пособияпо обработке статистических данных для различных учебных целей и задач.


Задание на курсовой проект

 

По специальносгенерированному имитатору получить последовательности случайных чисел двухтипов:

а) />,

где /> – номер варианта,

/> - номер измерения случайной величины,

/> – случайное число, возвращаемое при обращении кстандартной функции выбранного языка программирования – датчику случайныхчисел.

б) />.

Для исследованийпредусмотреть следующие объёмы измерений для каждой из случайных величин: 100,200, …, 1000 (объёмы выборок).

Произвести статистическийанализ каждой из полученных выборок для двух случайных величин в следующейпоследовательности:

а) найти размахварьирования;

б) определитьцелесообразное количество групп по формуле Стерджесса, построить группировку иинтервальный ряд;

в) привести графическоеизображение полигона частот, гистограммы, кумуляты и эмпирической функциираспределения;

г) вычислить ипроанализировать точечные оценки /> и /> для простого и интервального рядов; построить ипроанализировать зависимость величины точечной оценки от объема выборки и отномера эксперимента (10 выборок для объема выборки 1000);

д) построитьдоверительные интервалы для /> и />, используя различные значения доверительнойвероятности (0,9; 0,95; 0,975; 0,995; 0,999) и проанализировать зависимостьдлины доверительного интервала от объёма выборки и от величины доверительнойвероятности;

е) вычислить ипроанализировать медиану, коэффициент вариации, коэффициент асимметрии иэксцесс, моду; проанализировать зависимости числовых характеристик от объемавыборки;

ж) оценить однородностькаждой из выборок, используя:

1) коэффициент вариации;

2) метод />-статистик Ирвина.

з) определить, близки лик нормальному распределению полученные эмпирические распределения на основе:

1) анализа числовыххарактеристик положения и вариации;

2) на основе критериясогласия Пирсона;

и) по виду гистограммвыдвинуть гипотезу о предполагаемых законах распределений исследуемых случайныхвеличин, определить оценки параметров предполагаемых распределений (методмоментов и максимального правдоподобия) и проверить гипотезу о законераспределения по критерию Пирсона.


Введение

Сдавних пор человечество осуществляло учет многих сопутствующих егожизнедеятельности явлений и предметов, а также связанных с ними вычислений.Люди получали разносторонние, хотя и различающиеся полнотой сведения наразличных этапах общественного развития. Данные учитывались повседневно впроцессе принятия хозяйственных решений, а в обобщенном виде и нагосударственном уровне – при определении направления экономической и социальнойполитики, характера внешнеполитической деятельности.

Выполняя самыеразнообразные функции сбора, систематизации и анализа сведений, характеризующихэкономическое и социальное развитие общества, статистика всегда играла рольглавного поставщика факторов для управленческих, научно-исследовательских иприкладных практических нужд различного рода структур, организаций и населения.Роль статистики в нашей жизни настолько значительна, что люди, часто незадумываясь и не осознавая, постоянно используют элементы статистическойметодологии в повседневной практике.

Применяя статистические методы в экономических исследованиях,можно осуществлять стратегическое планирование, а также анализировать ипрогнозировать рыночную конъюнктуру, уменьшая степень неопределенности вотношении внешнего окружения.

С увеличением объемовинформации, становится актуальным вопрос ее компьютерной обработки. Получениенавыков обработки и анализа экспериментальных данных с помощью компьютера,например, в пакете STATISTICA даетвозможность получить полную информацию об исследуемом объекте и найтиоптимальное решение конкретной поставленной задачи.


1. Генерация исходных данных

В данной курсовой работе вместо статистического наблюденияиспользуются случайные величины, сгенерированные по следующим формулам:

1) непрерывная случайная величина X, определяемая по формуле 1.1;

/> (1.1)

2) непрерывная случайная величина У, определяемая по формуле1.2.

/> (1.2)

где />, /> - значения случайной величины X и У в различных опытах;

/> - случайное число, равномерно распределенное наотрезке [0, 1], возвращаемое при обращении к стандартной функции на выбранномязыке программирования к датчику случайных чисел;  Для генерации исходныхданных были использованы следующие методы:

1) Для случайной величины /> в окне Variable в поле Long Name была введена формула 1.3:

/> (1.3)

2) Для случайной величины /> был создан программный имитатор в модуле STATISTICA BASIC. Реализация алгоритма генерации данных в модуле STATISTICA BASIC приведена в приложении А.

В результате былиполучены выборки, объемом 100, 200…1000 значений для каждой из случайныхвеличин.


2. Первичная обработка результатов наблюдения

 

2.1 Построение вариационного ряда

Вариационный ряд — упорядоченные по возрастанию значенияпризнака.

Построение вариационного ряда в пакете STATISTICA производилось следующим образом:

в модуле Basic Statistics and Tables: Analysis → Frequencytables → кнопка Variables для выбора переменной → отметили All distinct values → ОК.

Размах варьирования /> – абсолютная величина разности между максимальным /> и минимальным /> значениями (вариантами) изучаемого признака:

/> (2.1)

Построение размахаварьирования в пакете STATISTICA производилось следующим образом:

в модуле Basic Statistics and Tables:Analysis → Descriptive statistics → Variables (выбрать переменную) → нажали Box & whisker plotfor all variables → выбралиMedian / Quart. / Range → ОК.

Значения размахаварьирования для заданных выборок в таблице 2.1.

Таблица 2.1 – Размахварьирования для заданных выборок

/>

/>

Выборка

/>

/>

/>

/>

/>

/>

100 25,201 6,993 18,209 28,805 2,429 26,376 500 25,110 6,984 18,126 33,695 0,196 33,499 1000 25,237 6,711 18,466 33,962 -1,574 35,536

Случайная величина /> имеет меньший размах, чем случайная величина />.

2.2 Группировкастатистических данных

Число групп определяется по формуле Стерджесса (2.2):

/>, (2.2)

где /> – количество групп;

/> – объем выборки.

После определения числа групп следует определить интервалыгруппировки — значения варьирующего признака, лежащие в определенных границах.Величина равного интервала определяется по формуле (2.3):

(2.3)

  />,

где /> – число групп интервалов,

/> – размах выборки .

Ниже приведены значениячисла групп интервалов для всех выборок:

При />: />.

При />: />.

При />:/>.

При />:/>.

При />: />.

При />:/>.

При />:/>.

При />:/>.

При />: />.

При />: />.

Построение интервальногоряда в пакете STATISTICA производилось следующим образом:

а) Analysis→Frequency tables→Variables(выбрали переменную);

б) установили количествоинтервалов в “No. of exact intervals”, посчитанных по формуле Стерджесса;

в) установили флажки вDisplay options:

- Cumulativefrequencies – накопленные частоты;

- Percentages — частости;

- Cumulativepercentages – накопленные частости.

Интервальные ряды покаждой выборке для случайных величин X и Y приведены в таблицах 2.2-2.7 иД.1-Д.14.

Таблица 2.2 — Интервальный ряд СВ /> при />

Частота Кумул. частота Процент Кумул. процент 5,475289<x<=8,510050 8 8 8,00000 8,0000 8,510050<x<=11,54481 15 23 15,00000 23,0000 11,54481<x<=14,57957 16 39 16,00000 39,0000 14,57957<x<=17,61433 18 57 18,00000 57,0000 17,61433<x<=20,64909 20 77 20,00000 77,0000 20,64909<x<=23,68385 13 90 13,00000 90,0000 23,68385<x<=26,71862 10 100 10,00000 100,0000

Таблица 2.3 — Интервальный ряд СВ /> при />

Частота Кумул. частота Процент Кумул. процент 5,850935<x<=8,116734 25 25 5,00000 5,0000 8,116734<x<=10,38253 62 87 12,40000 17,4000 10,38253<x<=12,64833 64 151 12,80000 30,2000 12,64833<x<=14,91413 55 206 11,00000 41,2000 14,91413<x<=17,17993 70 276 14,00000 55,2000 17,17993<x<=19,44573 64 340 12,80000 68,0000 19,44573<x<=21,71153 74 414 14,80000 82,8000 21,71153<x<=23,97733 59 473 11,80000 94,6000 23,97733<x<=26,24313 27 500 5,40000 100,0000

Таблица 2.4 — Интервальный ряд СВ /> при />

Частота Кумул. частота Процент Кумул. процент 5,745344<x<=7,797069 50 50 5,00000 5,0000 7,797069<x<=9,848795 106 156 10,60000 15,6000 9,848795<x<=11,90052 134 290 13,40000 29,0000 11,90052<x<=13,95225 88 378 8,80000 37,8000 13,95225<x<=16,00397 117 495 11,70000 49,5000 16,00397<x<=18,05570 121 616 12,10000 61,6000 18,05570<x<=20,10742 107 723 10,70000 72,3000 20,10742<x<=22,15915 117 840 11,70000 84,0000 22,15915<x<=24,21087 111 951 11,10000 95,1000 24,21087<x<=26,26260 49 1000 4,90000 100,0000

Таблица 2.5 — Интервальный ряд СВ /> при />

Частота Кумул. Процент Кумул. 0,231076<x<=4,627075 1 1 1,00000 1,0000 4,627075<x<=9,023072 6 7 6,00000 7,0000 9,023072<x<=13,41907 20 27 20,00000 27,0000 13,41907<x<=17,81507 31 58 31,00000 58,0000 17,81507<x<=22,21107 22 80 22,00000 80,0000 22,21107<x<=26,60706 17 97 17,00000 97,0000 26,60706<x<=31,00306 3 100 3,00000 100,0000

Таблица 2.6 — Интервальный ряд СВ /> при />

Частота Кумул. Процент Кумул. -1,89766<x<=2,289667 2 2 0,40000 0,4000 2,289667<x<=6,476997 21 23 4,20000 4,6000 6,476997<x<=10,66433 59 82 11,80000 16,4000 10,66433<x<=14,85166 125 207 25,00000 41,4000 14,85166<x<=19,03899 147 354 29,40000 70,8000 19,03899<x<=23,22632 99 453 19,80000 90,6000 23,22632<x<=27,41365 39 492 7,80000 98,4000 27,41365<x<=31,60098 7 499 1,40000 99,8000

Таблица 2.7 — Интервальный ряд СВ /> при />

Частота Кумул. Процент Кумул. -3,54794<x<=0,400491 5 5 0,50000 0,5000 0,400491<x<=4,348925 9 14 0,90000 1,4000 4,348925<x<=8,297359 61 75 6,10000 7,5000 8,297359<x<=12,24579 177 252 17,70000 25,2000 12,24579<x<=16,19423 279 531 27,90000 53,1000 16,19423<x<=20,14266 267 798 26,70000 79,8000 20,14266<x<=24,09110 154 952 15,40000 95,2000 24,09110<x<=28,03953 38 990 3,80000 99,0000 28,03953<x<=31,98797 8 998 0,80000 99,8000 31,98797<x<=35,93640 2 1000 0,20000 100,0000

2.3 Графическоеизображение рядов распределения

Графическое изображениеинтервальных рядов включает построения полигона частот, гистограммы и кумуляты.

В пакете STATISTICAпостроение полигона происходит следующим образом:

а) Analysis → Frequency tables →Variables (выбрать переменную);

б) установить количествоинтервалов в “No. of exact intervals”;

в) Frequency tables →Count;

г) нажать правую кнопкумыши и из выпадающего списка выбрать “Custom Graphs”;

д) 2D Graphs → Graph Type →Line Plot. [1]

Построение кумуляты:

а)Analysis→ Frequency tables → Variables (выбрать переменную);

б) установить количествоинтервалов в “No. of exact intervals”;

в) Frequency tables → Cumul.Count;

г) нажать правую кнопкумыши и выбрать “Custom Graphs”;

д) 2D Graphs → Graph Type →Line Plot (Bar />).

Построение гистограммыпроисходит следующим образом:

а) Analysis → Frequency tables →Variables (выбрать переменную);

б) установить количествоинтервалов в “No. of exact intervals”;

в) Frequency tables → Percent;

г) нажать правую кнопкумыши и из выпадающего списка выбрать “Custom Graphs”;

д) 2D Graphs → Graph Type →Bar />

2.4 Точечные оценкисредних показателей

Точечная оценка математического ожидания по вариационномуряду вычисляется по формуле (2.4):

(2.4)

  />

где /> – значения элементов выборки.

Оценка дисперсии по вариационному ряду вычисляется по формуле(2.5).

/>

(2.5)

 

Вычисление оценки математического ожидания по интервальномувариационному ряду осуществляется по формуле (2.6):

(2.6)

  />

где />– середина />-го интервала;

/> – статистическая вероятность(частость) попадания в />-тый интервал.

Оценка дисперсии для интервального ряда вычисляется поформуле (2.7):

(2.7)

  />

Вычисление точечных оценок по вариационному ряду в пакете STATISTICA:

Analysis → Descriptive statistics →Categorization → Number of intervals (установить количество интервалов) → More statistics → Mean, Variance. [2]

Значения точечных оценокматематического ожидания и дисперсии для простого и интервального рядовприведены в таблице 2.8.

Таблица 2.8 – Оценкиматематического ожидания и дисперсии

Выборка Математическое ожидание Дисперсия Простой ряд Интервальный ряд Простой ряд Интервальный ряд

/>(/>)

16,254 16,279 27,849 28,517

/>(/>)

16,189 16,174 26,259 26,598

/>(/>)

15,950 16,006 27,608 28,330

/>(/>)

16,668 16,936 31,125 31,113

/>(/>)

15,989 16,007 30,406 31,242

/>(/>)

15,792 15,740 27,059 28,636

Из приведенных данныхвидно, что полученные оценки математического ожидания и дисперсии повариационному (простому) и интервальному рядам имеют близкие значения. Причем,чем больше объем выборки, тем более точный результат. От номера эксперимента,то есть от количества испытаний величины точечной оценки не зависят. Это виднона рисунках 2.25 – 2.32.

/>

Рисунок 2.25 — Зависимость /> от объема выборки для />

/>

Рисунок 2.26 — Зависимость /> от объема выборки для />


/>

Рисунок 2.27 — Зависимость /> от объема выборки для />

/>

Рисунок 2.28 — Зависимость /> от объема выборки для />

/>

Рисунок 2.29 — Зависимость /> от номера эксперимента по />


/>

Рисунок 2.30 — Зависимость /> от номера эксперимента по />

/>

Рисунок 2.31 — Зависимость /> от номера эксперимента по />

/>

Рисунок 2.32 — Зависимость /> от номера эксперимента по />


В таблице 2.9 приведеныоценки математического ожидания и дисперсии, вычисленные для 10 выборок по 1000элементов в каждой для случайной величины /> и случайной величины />.

Таблица 2.9 – Точечныеоценки выборок из 1000 элементов для /> и />

/>

/>

Выборка

/>

/>

/>

/>

1 15,792 27,832 15,754 27,421 2 16,193 29,501 16,283 29,650 3 16,076 29,006 15,900 28,716 4 16,052 28,884 16,096 26,124 5 15,968 28,508 15,947 30,983 6 16,212 28,710 16,163 29,956 7 16,215 28,747 16,030 30,011 8 15,945 27,243 16,428 29,069 9 16,080 28,103 16,054 28,265 10 15,853 28,369 15,980 28,913

2.5 Доверительныеинтервалы

Для того чтобы оценить достоверность оценок, вводят понятиедоверительный интервал и доверительная вероятность.

(2.7)

  Доверительный интервалдля математического ожидания определяется по формуле (2.7):

/>

где /> – математическоеожидание генеральной совокупности;

/> - доверительная вероятность;

/> - оценка математическогоожидания;

 (2.8)

  /> - величина доверительногоинтервала, вычисляется по формуле (2.8):

/>

где /> - квантиль нормальногораспределения, получается обратным интерполированием из таблицы для функциираспределения стандартного нормального закона. Вычисляется по формуле (2.9).

 (2.10)

 

 (2.9)

  />

/> - оценка дисперсии, вычисляетсяпо формуле (2.10).

/>

Доверительный интервалдля дисперсии определяется по формуле (2.11).

 (2.12)

  />,

/>

где /> – дисперсия генеральнойсовокупности;

/> – оценка дисперсии.

/> – квантиль нормальногораспределения.

Оценка стандартногоотклонения в зависимости от закона распределения случайной величины имеетразличное значение.

Для нормального законараспределения эта величина будет равна:

/>


Для равномерного:

/>

Ниже в таблицах 2.10-2.21приведены доверительные интервалы математического ожидания исследуемых выборок.

-точный метод

Таблица 2.10 — Доверительные интервалы для СВ />, />

/>

15,378 17,130

/>

15,207 17,301

/>

15,053 17,455

/>

14,739 17,769

/>

14,481 18,027

-грубый метод

Таблица 2.11 –Доверительные интервалы для СВ />, />

/>

15,376 17,132

/>

15,207 17,301

/>

15,058 17,450

/>

14,753 17,755

/>

14,508 18,000

-точный метод

Таблица 2.12 — Доверительные интервалы для СВ />, />

/>

15,811 16,566

/>

15,738 16,639

/>

15,673 16,704

/>

15,542 16,835

/>

15,408 16,940

-грубый метод

Таблица 2.13 –Доверительные интервалы для СВ />, />

/>

15,795 16,553

/>

15,722 16,626

/>

15,657 16,691

/>

15,526 16,822

/>

15,420 16,928

-точный метод

Таблица 2.14 — Доверительные интервалы для СВ />, />

/>

15,677 16,224

/>

15,624 16,276

/>

15,577 16,323

/>

15,483 16,418

/>

15,447 16,565

-грубый метод

Таблица 2.15 –Доверительные интервалы для СВ />, />

/>

15,729 16,283

/>

15,676 16,336

/>

15,629 16,383

/>

15,533 16,479

/>

15,456 16,556

-точный метод

Таблица 2.16 –Доверительные интервалы для СВ />, />

/>

15,742 17,595

/>

15,561 17,775

/>

15,399 17,938

/>

15,066 18,270

/>

15,084 18,788

-грубый метод

Таблица 2.17 –Доверительные интервалы для СВ />, />

/>

16,018 17,854

/>

15,843 18,029

/>

15,687 18,185

/>

15,369 18,503

/>

15,112 18,760

-точный метод

Таблица 2.18 – Доверительныеинтервалы для СВ />, />

/>

15,583 16,396

/>

15,505 16,474

/>

15,435 16,544

/>

15,294 16,685

/>

15,177 16,837

-грубый метод


Таблица 2.19 –Доверительные интервалы для СВ />, />

/>

15,596 16,418

/>

15,517 16,497

/>

15,447 16,567

/>

15,305 16,709

/>

15,190 16,824

-точный метод

Таблица 2.20 –Доверительные интервалы для СВ />, />

/>

15,521 16,063

/>

15,469 16,115

/>

15,423 16,161

/>

15,329 16,255

/>

15,178 16,302

-грубый метод

Таблица 2.21 –Доверительные интервалы для СВ />, />

/>

15,462 16,018

/>

15,408 16,072

/>

15,361 16,119

/>

15,264 16,216

/>

15,187 16,293

Длины доверительныхинтервалов для математического ожидания при различных уровнях доверительнойвероятности приведены в таблице 2.22.

Таблица 2.22 – Длиныдоверительных интервалов

Длина интервала

/>

/>

/>

/>

/>

/>(/>)

1,752 2,094 2,402 3,03 3,546

/>(/>)

0,755 0,901 1,031 1,293 1,532

/>(/>)

0,547 0,652 0,746 0,935 1,118

/>(/>)

1,853 2,214 2,539 3,204 3,704

/>(/>)

0,813 0,969 1,109 1,391 1,66

/>(/>)

0,542 0,646 0,738 0,926 1,124

В таблицах 2.23 – 2.34 указаныдоверительные интервалы дисперсии исследуемых выборок.

-точный метод

Таблица 2.23 –Доверительные интервалы для СВ />, />

/>

25,059 32,793

/>

24,452 33,693

/>

23,926 34,524

/>

22,914 36,280

/>

22,095 37,873

-грубый метод

Таблица 2.24 –Доверительные интервалы для СВ />, />

/>

26,084 30,950

/>

25,619 31,415

/>

25,205 31,829

/>

24,362 32,672

/>

23,681 33,353

-точный метод


Таблица 2.25 – Доверительныеинтервалы для СВ />, />

/>

23,373 30,586

/>

22,807 31,426

/>

22,316 32,201

/>

21,372 33,838

/>

20,608 35,324

-грубый метод

Таблица 2.26 –Доверительные интервалы для СВ />, />

/>

24,329 28,867

/>

23,895 29,301

/>

23,508 29,688

/>

22,722 30,474

/>

22,088 31,108

-точный метод

Таблица 2.27 –Доверительные интервалы для СВ />, />

/>

22,258 29,128

/>

21,719 29,928

/>

21,252 30,666

/>

20,354 32,225

/>

19,626 33,640

-грубый метод

Таблица 2.28 –Доверительные интервалы для СВ />, />

/>

23,169 27,491

/>

22,756 27,904

/>

22,388 28,272

/>

21,639 29,021

/>

21,035 29,625

-точный метод

Таблица 2.29 –Доверительные интервалы для СВ />, />

/>

27,340 35,779

/>

26,678 36,761

/>

26,104 37,667

/>

25,000 39,582

/>

24,106 41,321

-грубый метод

Таблица 2.30 –Доверительные интервалы для СВ />, />

/>

28,459 33,767

/>

27,951 34,275

/>

27,499 34,727

/>

26,579 35,647

/>

25,837 36,389

-точный метод

Таблица 2.31 –Доверительные интервалы для СВ />, />

/>

26,575 34,777

/>

25,931 35,732

/>

25,374 36,613

/>

24,301 38,474

/>

23,431 40,164

-грубый метод

Таблица 2.32 –Доверительные интервалы для СВ />, />

/>

27,662 32,822

/>

27,168 33,316

/>

26,729 33,755

/>

25,835 34,649

/>

25,114 35,370

-точный метод

Таблица 2.33 –Доверительные интервалы для СВ />, />

/>

25,163 32,930

/>

24,554 33,834

/>

24,026 34,668

/>

23,010 36,431

/>

22,187 38,031

-грубый метод

Таблица 2.34 –Доверительные интервалы для СВ />, />

/>

26,193 31,079

/>

25,726 31,546

/>

25,310 31,962

/>

24,463 32,809

/>

23,780 33,492

В таблице 2.35 показаноизменение длины доверительного интервала для дисперсии в зависимости от объемавыборки и величины доверительной вероятности.


Таблица 2.35 – Длиныдоверительных интервалов

Величина интервала

/>

/>

/>

/>

/>

/>(/>)

7,734 9,241 10,598 13,366 15,778

/>(/>)

7,213 8,619 9,885 12,466 14,716

/>(/>)

4,322 5,148 5,884 7,382 8,590

/>(/>)

8,439 10,083 11,563 14,582 17,215

/>(/>)

8,202 9,801 11,239 14,173 16,733

/>(/>)

7,767 9,280 10,642 13,421 15,844

Анализируя полученныеданные можно заметить, что при увеличении уровня доверительной вероятностиувеличивается величина доверительного интервала, а при увеличении объемавыборки она уменьшается. Это справедливо как для доверительных интерваловматематического ожидания, так и для дисперсии. [3]

2.6 Другие точечныеоценки интервального ряда (мода, медиана, коэффициент вариации, коэффициентасимметрии, эксцесс)

Модой в вариационном рядуявляется наиболее часто встречающееся значение признака.

Мода по интервальномуряду вычисляется по формуле (2.13):

/> (2.13)

где /> – левая граница модального интервала (модальнымназывается интервал, имеющий наибольшую частость);

/> – величина интервала группировки;

/> – частота модального интервала;

/> – частота интервала,предшествующего модальному;

/> – частота интервала, следующегоза модальным.

Медиана – серединноенаблюдение в выборке длиной n.

При нечетном n медиана в вариационном ряду естьзначение ряда с номером />.

При четном n медиана есть полусумма значений сномерами /> и/>. Винтервальном ряду для нахождения медианы применяется формула (2.14):

(2.14)

  />

где /> – нижняя граница медианного интервала (медианнымназывается интервал, накопленная частота которого превышает половину общейсуммы частот);

/> – величина интервала группировки;

/> – частота медианного интервала;

/>– накопленная частота интервала, предшествующегомедианному.

Коэффициент вариациивычисляется по формуле (2.15):

(2.15)

  />

На основе моментатретьего порядка (смотри формулу 2.16) выборочный коэффициент асимметрии находитсяпо формуле (2.17):


(2.16)

  />

(2.17)

  />

С помощью момента четвертого порядкахарактеризуют свойство рядов распределения, называемое эксцессом. Показательэксцесса для ранжированного ряда находится по формуле (2.18).

(2.18)

  />

Вычисление точечныхоценок по вариационному ряду в пакете STATISTICA происходит следующим образом:

Analysis →Descriptive statistics:

а) Categorization → Number ofintervals (установить количество интервалов);

б) нажать кнопку More statistics → откроется окно Statistics, где можно выбрать следующиепоказатели:

-  Mean – выборочное среднее;

-  Median – медиана;

-  Standard Deviation – стандартное отклонение среднегозначения;

-  Variance – выборочнаядисперсия;

-  Skewness – выборочный коэффициент асимметрии;

-  Kurtosis – выборочныйкоэффициент эксцесса;

в) выбрать необходимыепараметры и нажать ОК.

Значения медианы,коэффициента вариации, коэффициента ассиметрии и эксцесса приведены в таблице2.36.


Таблица 2.36 — Медиана,коэффициент вариации, коэффициент ассиметрии и эксцесс

Выборка Медиана Коэф. ассиметрии Эксцесс Коэф. вариации

/>(/>)

16,587 -0,009 -1,017 0,326

/>(/>)

16,501 -0,058 -1,160 0,317

/>(/>)

16,119 0,007 -1,192 0,329

/>(/>)

16,531 -0,086 -0,449 0,335

/>(/>)

16,013 -0,022 -0,138 0,345

/>(/>)

15,795 -0,080 0,170 0,329

Анализируя полученные данные, можно сказать, что обеслучайные величины имеют практически симметричное распределение, т. к.коэффициенты асимметрии всех выборок близки к нулю,

Случайная величина /> имеет более пологое распределение (эксцесс для всехее выборок имеет отрицательное значение). А эксцесс выборок случайной величины /> практически равен нулю, т.е. «крутизна»распределения случайной величины Yблизка к нормальному распределению.

2.7 Оценкаоднородности выборки

Любая исследуемая совокупность содержит как значенияпризнаков, сложившихся под влиянием факторов, непосредственно характерных дляанализируемой совокупности, так и значения признаков, полученных подвоздействием иных факторов, не характерных для основной совокупности.

Совокупность считается однородной, если коэффициент вариациине превышает 33% (для распределений, близких к нормальному). [4]

Из таблицы 2.36 видно, что однородными можно считать выборкислучайной величины /> при /> равном 100, 500, 1000 и /> при n равном 1000.

Однородность выборкиможно проверить, также используя метод Ирвина, основанный на определении />-статистики. При его использовании выявлениеаномальных наблюдений производится по формуле (2.19).

(2.19)

  />

где /> – упорядоченная (по возрастанию или по убыванию)исследуемая совокупность;

/> – значение ряда;

/>– предыдущее значение ряда;

/> – среднеквадратическое отклонение.

Если расчетное значениепревысит уровень критического, то оно признается аномальным.

Произведя соответствующиерасчёты в Microsoft Excel мы убедились, что ни одно из расчётных значений непревышает уровень критического значения. Это значит, что все выборки случайныхвеличин /> и /> – однородны.

2.8 Проверка нормальности эмпирического распределения

 

2.8.1 Проверка нормальности эмпирического распределения наоснове анализа точечных оценок числовых характеристик

Если среднее арифметическое,медиана и мода имеют близкие значения, это указывает на вероятное соответствиеизучаемого распределения нормальному закону. Для нормального распределениякоэффициент асимметрии и эксцесса равны нулю, а для равномерного эксцесс равен-1,2.

В таблице 2.37 приведеныданные для проверки вышеуказанных утверждений.

Таблица 2.37 – Анализчисловых характеристик положения и вариации

равномерный закон (СВ />)

нормальный закон (СВ />)

выборка

/>

/>

/>

выборка

/>

/>

100 16,254 16,587 -0,009 -1,017 100 16,668 16,531 -0,449 200 16,369 15,840 0,034 -1,264 200 15,688 15,703 0,712 300 16,355 16,335 -0,092 -1,270 300 15,696 15,655 0,472 400 15,658 15,581 0,056 -1,254 400 16,770 16,954 -0,196 500 16,189 16,501 -0,058 -1,160 500 15,989 16,013 -0,138 600 16,048 15,897 -0,022 -1,158 600 16,049 16,008 -0,077 700 15,964 15,956 -0,017 -1,159 700 16,319 16,576 -0,128 800 15,867 15,649 0,072 -1,218 800 15,990 16,082 0,172 900 16,132 16,028 -0,022 -1,243 900 15,885 15,749 -0,092 1000 15,950 16,119 0,007 -1,192 1000 15,792 15,795 0,170

Анализируя полученныеданные, можно сделать вывод о том что значения медианы и среднегоарифметического для выборок случайной величины /> и /> имеют практически равное значение.Для выборки /> значение коэффициента ассиметрии, адля выборки случайной величины /> значение эксцесса практически равно0. Для случайной величины /> значение эксцесса практически -1,2.Таким образом, все это свидетельствует о близости распределения случайнойвеличины /> нормальному распределению, аслучайной величины /> равномерному.

2.9 Определение закона распределения случайных величин

 

2.9.1 Определение закона распределения случайной величины повиду гистограммы

По виду гистограмм, приведенных на рисунках 2.19-2.21 делаемпредположение о том, что случайная величина /> подчиняется равномерному закону распределения, аслучайная величина /> соответствует нормальному законураспределения, что можно увидеть на рисунках 2.22-2.24.

2.9.2 Определение оценок параметров распределений

Метод моментов

Метод моментовзаключается в том, что определенное количество статистических начальных и (или)центральных моментов приравнивается к соответствующим теоретическим моментамраспределения случайной величины. Уравнения метода показано в формуле (2.23).

(2.23)

  />

(2.24)

  где /> – теоретическийначальный момент />-того порядка для непрерывнойслучайной величины, вычисляется по формуле (2.24):

/>.

/> – статистическая оценкасоответствующего теоретического момента />-того порядка, вычисляется по формуле (2.25):

(2.25)

  />.

/> – теоретический центральный момент s-того порядка, вычисляется по формуле(2.26):


(2.26)

  />.

/> – статистическая оценкатеоретического центрального момента />-того порядка, вычисляется по формуле (2.27):

(2.27)

  />.

Из системы (2.23)находятся параметры распределения. Число уравнений в системе зависит отколичества неизвестных параметров. Для нормального и равномерного законов,система должна содержать два уравнения, для экспоненциального – одно.

Для равномерного законараспределения система (2.23) принимает вид (2.28):

/>

(2.28)

  />/>

Из системы 2.28 нужнонайти параметры /> и />.

В таблице 2.38 приведенызначения этих параметров, найденные методом моментов и методом максимальногоправдоподобия.

Таблица 2.38 – Значенияпараметров /> и />

/>(метод

моментов)

/>(метод максимального

правдоподобия)

∆/>

/>(метод

моментов)

/>(метод максимального

правдоподобия)

∆/>

/>

6,993 6,996 0,003 25,201 25,542 0,341

/>

6,984 7,313 0,329 25,110 25,065 0,045

/>

6,711 6,849 0,138 25,237 25,051 0,186

Из таблицы видно, чтозначения параметров, найденные разными методами, практически совпадают. Этоподтверждает, что случайная величина /> распределена по равномерному закону.

Метод максимальногоправдоподобия

По методу максимальногоправдоподобия, строится так называемая функция правдоподобия (2.29):

(2.29)

  />

где    /> – выборка,

/> – вектор параметров.

Необходимо найти такиезначения вектора />, чтобы функция /> достигала максимума. Для этого строят системуправдоподобия (2.30), содержащую частные производные от функции правдоподобияпо всем переменным, приравненные к нулю. Для упрощения вычислений переходят кфункции />, равной логарифму натуральному от />:

(2.30)

  /> .

Оценки параметров, получаемыеиз этой системы, называют оценками максимального правдоподобия.

Для равномерного законафункция правдоподобия будет иметь вид (2.31)


(2.31)

  />

где /> и /> – параметры распределения.

Данная функция будетдостигать максимума при условии (2.32):

/>

Судя по полученнымоценкам параметров распределения, можно сделать вывод, что наше предположениебыло верно изначально и случайная величина /> действительно распределена равномерно.

2.10 Проверка нормальности эмпирического распределения наоснове критериев согласия Пирсона

Для проверки гипотезы осоответствии эмпирического распределения нормальному закону распределениянеобходимо ввести нулевую гипотезу, которая будет проверяться по критериюПирсона.

/>: генеральная совокупность распределена по нормальномузакону.

В качестве мерырасхождения для критерия /> выбирается величина, равнаявзвешенной сумме квадратов отклонений статистической вероятности отсоответствующей теоретической вероятности, рассчитанных по нормальному законутеоретического распределения /> вычисляется по формуле (2.20)

(2.20)

  />

где />– частота попадания вi-тый интервал;

/> – объем выборки;

/> – теоретическая вероятность попадания i-тый интервал:

/>

(2.21)

  .

Общая схема применениякритерия />:

1. Определение мерырасхождения по формуле 2.20;

2. Задание уровнязначимости />;

3. Определение числастепеней свободы /> по формуле 2.22.

/>, (2.22)

где /> – количество интервалов в интервальном ряду;

/> – число налагаемых связей, равное числу параметров

предполагаемого законараспределения

4. Область принятия основнойгипотезы:

/>.

Выполнение в пакетеSTATISTICA.

В модуле Nonparametric Statistics (непараметрическая статистика), Distribution Fitting. В поле Continuous Distributions представлены непрерывные распределения, а в поле Discrete Distributions — дискретные распределения (законраспределения выбираем дважды щелкнув на его название мышью) ® Variable (выбрать переменную) ® в поле Plot distribution выбираем Frequency distribution (частоты распределения) ® в поле Kolmogorov-Smirnov test ставим No → установимнеобходимые параметры числа интервалов, верхней и нижней границ, среднего идисперсии → Graph. Результатыпроверки соответствия гипотезы приведены в таблице 2.39 и показаны на рисунках2.41-2.46

Таблица 2.39 – Значения /> и χ2крит для случайныхвеличин /> и/>

Выборка

/>

/>

/>

Гипотеза />

/>(/>)

4 9,49 7,53 Принимается

/>(/>)

4 9,49 11,815 Отвергается

/>(/>)

5 11,1 11,95 Отвергается

/>(/>)

5 11,1 25,54 Отвергается

/>(/>)

6 12,59 45,51 Отвергается

/>(/>)

6 12,59 39,83 Отвергается

/>(/>)

6 12,59 48,77 Отвергается

/>(/>)

7 14,1 40,81 Отвергается

/>(/>)

7 14,1 49,97 Отвергается

/>(/>)

7 14,1 76,75 Отвергается

/>(/>)

4 9,49 2,04 Принимается

/>(/>)

4 9,49 2,12 Принимается

/>(/>)

5 11,1 2,78 Принимается

/>(/>)

5 11,1 2,99 Принимается.

/>(/>)

6 12,59 3,15 Принимается

/>(/>)

6 12,59 4,61 Принимается

/>(/>)

6 12,59 5,07 Принимается

/>(/>)

7 14,1 5,86 Принимается

/>(/>)

7 14,1 6,32 Принимается

/>(/>)

7 14,1 7,16 Принимается

На основе полученныхданных можно сделать вывод, что случайная величина /> распределена по нормальномузакону, а случайная величина /> не распределена по нормальномузакону.

Анализируя получившиесяграфики, делаем вывод, что случайная величина /> распределена по равномерному закону, а случайная величина/> – по нормальному.


Заключение

В ходе курсовой работыбыли освоены методы обработки данных статистического наблюдения, их анализа спомощью обобщающих показателей, установление теоретических законовраспределения случайных величин и доказательство адекватности этих законов.Также в результатевыполнения данной работы мы приобрели навыки и опыт работы в пакете STATISTICА.

В ходе анализа данных,были сделаны выводы, что основной частью статистического анализа являетсявыявление закона распределения случайной величины, а также, выявление основныхфакторов, оказывающих влияние на качество оцениваемых параметров законараспределения (длина выборки, её однородность, величина доверительнойвероятности). Был произведен статистический анализ каждой из полученных в ходегенерации выборок данных двух случайных величин, был найден закон ихраспределения. Рассмотрены основные числовые характеристики положения и вариациинормального и равномерного закона.

Полученный опыт работы состатистическими данными и методами их обработки на компьютере позволит гораздобыстрее и эффективнее применять эти методы обработки информации в повседневнойжизни, в частности, для экономических исследований и разработок.


Перечень ссылок

случайный величина интервальный выборка

1. Теориястатистики: Учебник / Под ред. проф. Р. А. Шмойловой. — 3-е изд., перераб. -М.:Финансы и статистика, 2000. — 560 с.

2. Елисеева И. И.,Юзбашев М. М. Общая теория статистики: Учебник / Под ред. чл.-корр. РАН И. И.Елисеевой. – М.: Финансы и статистика, 1998. – 365 с.: ил.

3.  Смирнов Н.В., Дунин-Барковский И.В.Курс теории вероятностей и математической статистики для техническихприложений. – М.: Наука, 1969. – 509 с.

4.  Гурман В.Е. Теория вероятностей и математическаястатистика. Учеб. пособие для втузов. Изд. 5-е перераб. и доп. – М.: Высш.школа, 1977. – 397 с.

5.  Кремер Н.Ш. Теория вероятностей иматематическая статистика. – М.: Unity,2000. – 544 с.

6.  Вентцель Е.С. Теория вероятностей. –М.: Наука, 1969. – 576 с.

7. Боровиков В. STATISTICA: искусство анализа данных накомпьютере. Для профессионалов. — СПб.: Питер, 2001. — 656 с.


Приложение А

Генерация исходных данныхСВ /> в пакете STATISTICA

Dim ADS AsSpreadsheet

Dim STBReportAs Report

Dim SUM AsDouble

Dim LOOP_CASEAs Double

Dim I AsDouble

Sub Main

Set ADS =ActiveDataSet

Set STBReport= Reports.New

For LOOP_CASE= 1 To NCASES(ADS)

For I = 1 To n

SUM = 0

For L = 1 To300

SUM = SUM +Uniform(1)

Next L

ADS.Value(LOOP_CASE, 1) = N * ((1 / 15) * SUM — 9)

Next I

NEXT_CASE:

Next LOOP_CASE

End Sub


Приложение Б

Интервальные ряды для СВ /> и />

Таблица Д.1 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,289175<x<=8,355050 14,000 14,000 7,000 7,000 8,355050<x<=11,42093 34,000 48,000 17,000 24,000 11,42093<x<=14,48680 33,000 81,000 16,500 40,500 14,48680<x<=17,55268 33,000 114,000 16,500 57,000 17,55268<x<=20,61855 29,000 143,000 14,500 71,500 20,61855<x<=23,68443 23,000 166,000 11,500 83,000 23,68443<x<=26,75030 34,000 200,000 17,000 100,000

Таблица Д.2 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,502861<x<=8,114160 25,000 25,000 8,333 8,333 8,114160<x<=10,72546 37,000 62,000 12,333 20,667 10,72546<x<=13,33676 40,000 102,000 13,333 34,000 13,33676<x<=15,94806 39,000 141,000 13,000 47,000 15,94806<x<=18,55936 39,000 180,000 13,000 60,000 18,55936<x<=21,17066 41,000 221,000 13,667 73,667 21,17066<x<=23,78195 51,000 272,000 17,000 90,667 23,78195<x<=26,39325 28,000 300,000 9,333 100,000

Таблица Д.3 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,555859<x<=8,176674 33,000 33,000 8,250 8,250 8,176674<x<=10,79749 69,000 102,000 17,250 25,500 10,79749<x<=13,41830 54,000 156,000 13,500 39,000 13,41830<x<=16,03912 54,000 210,000 13,500 52,500 16,03912<x<=18,65993 51,000 261,000 12,750 65,250 18,65993<x<=21,28075 58,000 319,000 14,500 79,750 21,28075<x<=23,90156 54,000 373,000 13,500 93,250 23,90156<x<=26,52238 27,000 400,000 6,750 100,000

Таблица Д.4 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,616825<x<=7,918099 42,000 42,000 7,000 7,000 7,918099<x<=10,21937 60,000 102,000 10,000 17,000 10,21937<x<=12,52065 79,000 181,000 13,167 30,167 12,52065<x<=14,82192 78,000 259,000 13,000 43,167 14,82192<x<=17,12319 75,000 334,000 12,500 55,667 17,12319<x<=19,42447 69,000 403,000 11,500 67,167 19,42447<x<=21,72574 92,000 495,000 15,333 82,500 21,72574<x<=24,02701 70,000 565,000 11,667 94,167 24,02701<x<=26,32829 35,000 600,000 5,833 100,000

Таблица Д.5 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,638499<x<=7,943963 48,000 48,000 6,857 6,857 7,943963<x<=10,24943 80,000 128,000 11,429 18,286 10,24943<x<=12,55489 80,000 208,000 11,429 29,714 12,55489<x<=14,86035 100,000 308,000 14,286 44,000 14,86035<x<=17,16582 91,000 399,000 13,000 57,000 17,16582<x<=19,47128 83,000 482,000 11,857 68,857 19,47128<x<=21,77675 94,000 576,000 13,429 82,286 21,77675<x<=24,08221 89,000 665,000 12,714 95,000 24,08221<x<=26,38767 35,000 700,000 5,000 100,000

Таблица Д.6 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,746050<x<=7,794074 50,000 50,000 6,250 6,250 7,794074<x<=9,842099 87,000 137,000 10,875 17,125 9,842099<x<=11,89012 88,000 225,000 11,000 28,125 11,89012<x<=13,93815 110,000 335,000 13,750 41,875 13,93815<x<=15,98617 77,000 412,000 9,625 51,500 15,98617<x<=18,03420 84,000 496,000 10,500 62,000 18,03420<x<=20,08222 83,000 579,000 10,375 72,375 20,08222<x<=22,13025 77,000 656,000 9,625 82,000 22,13025<x<=24,17827 96,000 752,000 12,000 94,000 24,17827<x<=26,22630 48,000 800,000 6,000 100,000

Таблица Д.7 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 5,747041<x<=7,795948 46,000 46,000 5,111 5,111 7,795948<x<=9,844855 118,000 164,000 13,111 18,222 9,844855<x<=11,89376 93,000 257,000 10,333 28,556 11,89376<x<=13,94267 84,000 341,000 9,333 37,889 13,94267<x<=15,99158 107,000 448,000 11,889 49,778 15,99158<x<=18,04048 85,000 533,000 9,444 59,222 18,04048<x<=20,08939 108,000 641,000 12,000 71,222 20,08939<x<=22,13830 88,000 729,000 9,778 81,000 22,13830<x<=24,18720 108,000 837,000 12,000 93,000 24,18720<x<=26,23611 63,000 900,000 7,000 100,000

Таблица Д.8 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -3,85839<x<=1,661475 2,000 2,000 1,000 1,000 1,661475<x<=7,181336 7,000 9,000 3,500 4,500 7,181336<x<=12,70120 47,000 56,000 23,500 28,000 12,70120<x<=18,22106 79,000 135,000 39,500 67,500 18,22106<x<=23,74092 54,000 189,000 27,000 94,500 23,74092<x<=29,26078 8,000 197,000 4,000 98,500 29,26078<x<=34,78064 3,000 200,000 1,500 100,000

Таблица Д.9 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -3,50252<x<=1,766314 2,000 2,000 0,667 0,667 1,766314<x<=7,035144 13,000 15,000 4,333 5,000 7,035144<x<=12,30397 63,000 78,000 21,000 26,000 12,30397<x<=17,57280 106,000 184,000 35,333 61,333 17,57280<x<=22,84163 91,000 275,000 30,333 91,667 22,84163<x<=28,11046 21,000 296,000 7,000 98,667 28,11046<x<=33,37929 3,000 299,000 1,000 99,667 33,37929<x<=38,64812 1,000 300,000 0,333 100,000

Таблица Д.10 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. 1,299935<x<=5,325310 5,000 5,000 1,250 1,250 5,325310<x<=9,350685 31,000 36,000 7,750 9,000 9,350685<x<=13,37606 63,000 99,000 15,750 24,750 13,37606<x<=17,40143 117,000 216,000 29,250 54,000 17,40143<x<=21,42681 109,000 325,000 27,250 81,250 21,42681<x<=25,45218 55,000 380,000 13,750 95,000 25,45218<x<=29,47756 16,000 396,000 4,000 99,000 29,47756<x<=33,50293 4,000 400,000 1,000 100,000

Таблица Д.11 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -1,98797<x<=1,772650 1,000 1,000 0,167 0,167 1,772650<x<=5,533271 12,000 13,000 2,000 2,167 5,533271<x<=9,293892 54,000 67,000 9,000 11,167 9,293892<x<=13,05451 100,000 167,000 16,667 27,833 13,05451<x<=16,81513 166,000 333,000 27,667 55,500 16,81513<x<=20,57576 154,000 487,000 25,667 81,167 20,57576<x<=24,33638 88,000 575,000 14,667 95,833 24,33638<x<=28,09700 17,000 592,000 2,833 98,667 28,09700<x<=31,85762 8,000 600,000 1,333 100,000

Таблица Д.12 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -2,68355<x<=1,245110 2,000 2,000 0,286 0,286 1,245110<x<=5,173768 10,000 12,000 1,429 1,714 5,173768<x<=9,102425 41,000 53,000 5,857 7,571 9,102425<x<=13,03108 149,000 202,000 21,286 28,857 13,03108<x<=16,95974 180,000 382,000 25,714 54,571 16,95974<x<=20,88840 178,000 560,000 25,429 80,000 20,88840<x<=24,81705 102,000 662,000 14,571 94,571 24,81705<x<=28,74571 31,000 693,000 4,429 99,000 28,74571<x<=32,67437 7,000 700,000 1,000 100,000

Таблица Д.13 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -1,52038<x<=2,421483 4,000 4,000 0,500 0,500 2,421483<x<=6,363342 37,000 41,000 4,625 5,125 6,363342<x<=10,30520 69,000 110,000 8,625 13,750 10,30520<x<=14,24706 185,000 295,000 23,125 36,875 14,24706<x<=18,18892 231,000 526,000 28,875 65,750 18,18892<x<=22,13078 175,000 701,000 21,875 87,625 22,13078<x<=26,07264 75,000 776,000 9,375 97,000 26,07264<x<=30,01449 20,000 796,000 2,500 99,500 30,01449<x<=33,95635 3,000 799,000 0,375 99,875 33,95635<x<=37,89821 1,000 800,000 0,125 100,000

Таблица Д.14 — Интервальный ряд СВ />, />

Частота Кумул. Процент Кумул. -1,06170<x<=2,578305 3,000 3,000 0,333 0,333 2,578305<x<=6,218309 36,000 39,000 4,000 4,333 6,218309<x<=9,858313 71,000 110,000 7,889 12,222 9,858313<x<=13,49832 171,000 281,000 19,000 31,222 13,49832<x<=17,13832 277,000 558,000 30,778 62,000 17,13832<x<=20,77832 176,000 734,000 19,556 81,556 20,77832<x<=24,41833 110,000 844,000 12,222 93,778 24,41833<x<=28,05833 47,000 891,000 5,222 99,000 28,05833<x<=31,69833 7,000 898,000 0,778 99,778 31,69833<x<=35,33834 2,000 900,000 0,222 100,000
еще рефераты
Еще работы по экономике