Реферат: Комплексная статистическая обработка экспериментальных данных
Министерствообразования и науки Украины
Пояснительнаязаписка
к курсовойработе
по дисциплинеСтатистика
Комплекснаястатистическая обработка экспериментальных данных
Реферат
Объектом исследованияданной работы является комплексный анализ сгенерированных выборок случайных величин и подбор их закона распределения.
Целью работы является изучение методов и приемов анализастатистической информации, получение навыков и опыта работы в пакете STATISTICA.
В данной работе применялись широко используемыестатистические методы обработки и анализа данных.
Результатом работыявляется освоение методов обработки данных статистического наблюдения, иханализа с помощью обобщающих показателей, установление теоретических законовраспределения случайных величин и доказательство адекватности этих законов.
Данную курсовую работуможно использовать в качестве наглядного пособияпо обработке статистических данных для различных учебных целей и задач.
Задание на курсовой проект
По специальносгенерированному имитатору получить последовательности случайных чисел двухтипов:
а) />,
где /> – номер варианта,
/> - номер измерения случайной величины,
/> – случайное число, возвращаемое при обращении кстандартной функции выбранного языка программирования – датчику случайныхчисел.
б) />.
Для исследованийпредусмотреть следующие объёмы измерений для каждой из случайных величин: 100,200, …, 1000 (объёмы выборок).
Произвести статистическийанализ каждой из полученных выборок для двух случайных величин в следующейпоследовательности:
а) найти размахварьирования;
б) определитьцелесообразное количество групп по формуле Стерджесса, построить группировку иинтервальный ряд;
в) привести графическоеизображение полигона частот, гистограммы, кумуляты и эмпирической функциираспределения;
г) вычислить ипроанализировать точечные оценки /> и /> для простого и интервального рядов; построить ипроанализировать зависимость величины точечной оценки от объема выборки и отномера эксперимента (10 выборок для объема выборки 1000);
д) построитьдоверительные интервалы для /> и />, используя различные значения доверительнойвероятности (0,9; 0,95; 0,975; 0,995; 0,999) и проанализировать зависимостьдлины доверительного интервала от объёма выборки и от величины доверительнойвероятности;
е) вычислить ипроанализировать медиану, коэффициент вариации, коэффициент асимметрии иэксцесс, моду; проанализировать зависимости числовых характеристик от объемавыборки;
ж) оценить однородностькаждой из выборок, используя:
1) коэффициент вариации;
2) метод />-статистик Ирвина.
з) определить, близки лик нормальному распределению полученные эмпирические распределения на основе:
1) анализа числовыххарактеристик положения и вариации;
2) на основе критериясогласия Пирсона;
и) по виду гистограммвыдвинуть гипотезу о предполагаемых законах распределений исследуемых случайныхвеличин, определить оценки параметров предполагаемых распределений (методмоментов и максимального правдоподобия) и проверить гипотезу о законераспределения по критерию Пирсона.
Введение
Сдавних пор человечество осуществляло учет многих сопутствующих егожизнедеятельности явлений и предметов, а также связанных с ними вычислений.Люди получали разносторонние, хотя и различающиеся полнотой сведения наразличных этапах общественного развития. Данные учитывались повседневно впроцессе принятия хозяйственных решений, а в обобщенном виде и нагосударственном уровне – при определении направления экономической и социальнойполитики, характера внешнеполитической деятельности.
Выполняя самыеразнообразные функции сбора, систематизации и анализа сведений, характеризующихэкономическое и социальное развитие общества, статистика всегда играла рольглавного поставщика факторов для управленческих, научно-исследовательских иприкладных практических нужд различного рода структур, организаций и населения.Роль статистики в нашей жизни настолько значительна, что люди, часто незадумываясь и не осознавая, постоянно используют элементы статистическойметодологии в повседневной практике.
Применяя статистические методы в экономических исследованиях,можно осуществлять стратегическое планирование, а также анализировать ипрогнозировать рыночную конъюнктуру, уменьшая степень неопределенности вотношении внешнего окружения.
С увеличением объемовинформации, становится актуальным вопрос ее компьютерной обработки. Получениенавыков обработки и анализа экспериментальных данных с помощью компьютера,например, в пакете STATISTICA даетвозможность получить полную информацию об исследуемом объекте и найтиоптимальное решение конкретной поставленной задачи.
1. Генерация исходных данных
В данной курсовой работе вместо статистического наблюденияиспользуются случайные величины, сгенерированные по следующим формулам:
1) непрерывная случайная величина X, определяемая по формуле 1.1;
/> (1.1)
2) непрерывная случайная величина У, определяемая по формуле1.2.
/> (1.2)
где />, /> - значения случайной величины X и У в различных опытах;
/> - случайное число, равномерно распределенное наотрезке [0, 1], возвращаемое при обращении к стандартной функции на выбранномязыке программирования к датчику случайных чисел; Для генерации исходныхданных были использованы следующие методы:
1) Для случайной величины /> в окне Variable в поле Long Name была введена формула 1.3:
/> (1.3)
2) Для случайной величины /> был создан программный имитатор в модуле STATISTICA BASIC. Реализация алгоритма генерации данных в модуле STATISTICA BASIC приведена в приложении А.
В результате былиполучены выборки, объемом 100, 200…1000 значений для каждой из случайныхвеличин.
2. Первичная обработка результатов наблюдения
2.1 Построение вариационного ряда
Вариационный ряд — упорядоченные по возрастанию значенияпризнака.
Построение вариационного ряда в пакете STATISTICA производилось следующим образом:
в модуле Basic Statistics and Tables: Analysis → Frequencytables → кнопка Variables для выбора переменной → отметили All distinct values → ОК.
Размах варьирования /> – абсолютная величина разности между максимальным /> и минимальным /> значениями (вариантами) изучаемого признака:
/> (2.1)
Построение размахаварьирования в пакете STATISTICA производилось следующим образом:
в модуле Basic Statistics and Tables:Analysis → Descriptive statistics → Variables (выбрать переменную) → нажали Box & whisker plotfor all variables → выбралиMedian / Quart. / Range → ОК.
Значения размахаварьирования для заданных выборок в таблице 2.1.
Таблица 2.1 – Размахварьирования для заданных выборок
/>
/>
Выборка/>
/>
/>
/>
/>
/>
100 25,201 6,993 18,209 28,805 2,429 26,376 500 25,110 6,984 18,126 33,695 0,196 33,499 1000 25,237 6,711 18,466 33,962 -1,574 35,536Случайная величина /> имеет меньший размах, чем случайная величина />.
2.2 Группировкастатистических данных
Число групп определяется по формуле Стерджесса (2.2):
/>, (2.2)
где /> – количество групп;
/> – объем выборки.
После определения числа групп следует определить интервалыгруппировки — значения варьирующего признака, лежащие в определенных границах.Величина равного интервала определяется по формуле (2.3):
(2.3)
/>,где /> – число групп интервалов,
/> – размах выборки .
Ниже приведены значениячисла групп интервалов для всех выборок:
При />: />.
При />: />.
При />:/>.
При />:/>.
При />: />.
При />:/>.
При />:/>.
При />:/>.
При />: />.
При />: />.
Построение интервальногоряда в пакете STATISTICA производилось следующим образом:
а) Analysis→Frequency tables→Variables(выбрали переменную);
б) установили количествоинтервалов в “No. of exact intervals”, посчитанных по формуле Стерджесса;
в) установили флажки вDisplay options:
- Cumulativefrequencies – накопленные частоты;
- Percentages — частости;
- Cumulativepercentages – накопленные частости.
Интервальные ряды покаждой выборке для случайных величин X и Y приведены в таблицах 2.2-2.7 иД.1-Д.14.
Таблица 2.2 — Интервальный ряд СВ /> при />
Частота Кумул. частота Процент Кумул. процент 5,475289<x<=8,510050 8 8 8,00000 8,0000 8,510050<x<=11,54481 15 23 15,00000 23,0000 11,54481<x<=14,57957 16 39 16,00000 39,0000 14,57957<x<=17,61433 18 57 18,00000 57,0000 17,61433<x<=20,64909 20 77 20,00000 77,0000 20,64909<x<=23,68385 13 90 13,00000 90,0000 23,68385<x<=26,71862 10 100 10,00000 100,0000Таблица 2.3 — Интервальный ряд СВ /> при />
Частота Кумул. частота Процент Кумул. процент 5,850935<x<=8,116734 25 25 5,00000 5,0000 8,116734<x<=10,38253 62 87 12,40000 17,4000 10,38253<x<=12,64833 64 151 12,80000 30,2000 12,64833<x<=14,91413 55 206 11,00000 41,2000 14,91413<x<=17,17993 70 276 14,00000 55,2000 17,17993<x<=19,44573 64 340 12,80000 68,0000 19,44573<x<=21,71153 74 414 14,80000 82,8000 21,71153<x<=23,97733 59 473 11,80000 94,6000 23,97733<x<=26,24313 27 500 5,40000 100,0000Таблица 2.4 — Интервальный ряд СВ /> при />
Частота Кумул. частота Процент Кумул. процент 5,745344<x<=7,797069 50 50 5,00000 5,0000 7,797069<x<=9,848795 106 156 10,60000 15,6000 9,848795<x<=11,90052 134 290 13,40000 29,0000 11,90052<x<=13,95225 88 378 8,80000 37,8000 13,95225<x<=16,00397 117 495 11,70000 49,5000 16,00397<x<=18,05570 121 616 12,10000 61,6000 18,05570<x<=20,10742 107 723 10,70000 72,3000 20,10742<x<=22,15915 117 840 11,70000 84,0000 22,15915<x<=24,21087 111 951 11,10000 95,1000 24,21087<x<=26,26260 49 1000 4,90000 100,0000Таблица 2.5 — Интервальный ряд СВ /> при />
Частота Кумул. Процент Кумул. 0,231076<x<=4,627075 1 1 1,00000 1,0000 4,627075<x<=9,023072 6 7 6,00000 7,0000 9,023072<x<=13,41907 20 27 20,00000 27,0000 13,41907<x<=17,81507 31 58 31,00000 58,0000 17,81507<x<=22,21107 22 80 22,00000 80,0000 22,21107<x<=26,60706 17 97 17,00000 97,0000 26,60706<x<=31,00306 3 100 3,00000 100,0000Таблица 2.6 — Интервальный ряд СВ /> при />
Частота Кумул. Процент Кумул. -1,89766<x<=2,289667 2 2 0,40000 0,4000 2,289667<x<=6,476997 21 23 4,20000 4,6000 6,476997<x<=10,66433 59 82 11,80000 16,4000 10,66433<x<=14,85166 125 207 25,00000 41,4000 14,85166<x<=19,03899 147 354 29,40000 70,8000 19,03899<x<=23,22632 99 453 19,80000 90,6000 23,22632<x<=27,41365 39 492 7,80000 98,4000 27,41365<x<=31,60098 7 499 1,40000 99,8000Таблица 2.7 — Интервальный ряд СВ /> при />
Частота Кумул. Процент Кумул. -3,54794<x<=0,400491 5 5 0,50000 0,5000 0,400491<x<=4,348925 9 14 0,90000 1,4000 4,348925<x<=8,297359 61 75 6,10000 7,5000 8,297359<x<=12,24579 177 252 17,70000 25,2000 12,24579<x<=16,19423 279 531 27,90000 53,1000 16,19423<x<=20,14266 267 798 26,70000 79,8000 20,14266<x<=24,09110 154 952 15,40000 95,2000 24,09110<x<=28,03953 38 990 3,80000 99,0000 28,03953<x<=31,98797 8 998 0,80000 99,8000 31,98797<x<=35,93640 2 1000 0,20000 100,00002.3 Графическоеизображение рядов распределения
Графическое изображениеинтервальных рядов включает построения полигона частот, гистограммы и кумуляты.
В пакете STATISTICAпостроение полигона происходит следующим образом:
а) Analysis → Frequency tables →Variables (выбрать переменную);
б) установить количествоинтервалов в “No. of exact intervals”;
в) Frequency tables →Count;
г) нажать правую кнопкумыши и из выпадающего списка выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type →Line Plot. [1]
Построение кумуляты:
а)Analysis→ Frequency tables → Variables (выбрать переменную);
б) установить количествоинтервалов в “No. of exact intervals”;
в) Frequency tables → Cumul.Count;
г) нажать правую кнопкумыши и выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type →Line Plot (Bar />).
Построение гистограммыпроисходит следующим образом:
а) Analysis → Frequency tables →Variables (выбрать переменную);
б) установить количествоинтервалов в “No. of exact intervals”;
в) Frequency tables → Percent;
г) нажать правую кнопкумыши и из выпадающего списка выбрать “Custom Graphs”;
д) 2D Graphs → Graph Type →Bar />
2.4 Точечные оценкисредних показателей
Точечная оценка математического ожидания по вариационномуряду вычисляется по формуле (2.4):
(2.4)
/>где /> – значения элементов выборки.
Оценка дисперсии по вариационному ряду вычисляется по формуле(2.5).
/>
(2.5)
Вычисление оценки математического ожидания по интервальномувариационному ряду осуществляется по формуле (2.6):
(2.6)
/>где />– середина />-го интервала;
/> – статистическая вероятность(частость) попадания в />-тый интервал.
Оценка дисперсии для интервального ряда вычисляется поформуле (2.7):
(2.7)
/>Вычисление точечных оценок по вариационному ряду в пакете STATISTICA:
Analysis → Descriptive statistics →Categorization → Number of intervals (установить количество интервалов) → More statistics → Mean, Variance. [2]
Значения точечных оценокматематического ожидания и дисперсии для простого и интервального рядовприведены в таблице 2.8.
Таблица 2.8 – Оценкиматематического ожидания и дисперсии
Выборка Математическое ожидание Дисперсия Простой ряд Интервальный ряд Простой ряд Интервальный ряд/>(/>)
16,254 16,279 27,849 28,517/>(/>)
16,189 16,174 26,259 26,598/>(/>)
15,950 16,006 27,608 28,330/>(/>)
16,668 16,936 31,125 31,113/>(/>)
15,989 16,007 30,406 31,242/>(/>)
15,792 15,740 27,059 28,636Из приведенных данныхвидно, что полученные оценки математического ожидания и дисперсии повариационному (простому) и интервальному рядам имеют близкие значения. Причем,чем больше объем выборки, тем более точный результат. От номера эксперимента,то есть от количества испытаний величины точечной оценки не зависят. Это виднона рисунках 2.25 – 2.32.
/>
Рисунок 2.25 — Зависимость /> от объема выборки для />
/>
Рисунок 2.26 — Зависимость /> от объема выборки для />
/>
Рисунок 2.27 — Зависимость /> от объема выборки для />
/>
Рисунок 2.28 — Зависимость /> от объема выборки для />
/>
Рисунок 2.29 — Зависимость /> от номера эксперимента по />
/>
Рисунок 2.30 — Зависимость /> от номера эксперимента по />
/>
Рисунок 2.31 — Зависимость /> от номера эксперимента по />
/>
Рисунок 2.32 — Зависимость /> от номера эксперимента по />
В таблице 2.9 приведеныоценки математического ожидания и дисперсии, вычисленные для 10 выборок по 1000элементов в каждой для случайной величины /> и случайной величины />.
Таблица 2.9 – Точечныеоценки выборок из 1000 элементов для /> и />
/>
/>
Выборка/>
/>
/>
/>
1 15,792 27,832 15,754 27,421 2 16,193 29,501 16,283 29,650 3 16,076 29,006 15,900 28,716 4 16,052 28,884 16,096 26,124 5 15,968 28,508 15,947 30,983 6 16,212 28,710 16,163 29,956 7 16,215 28,747 16,030 30,011 8 15,945 27,243 16,428 29,069 9 16,080 28,103 16,054 28,265 10 15,853 28,369 15,980 28,9132.5 Доверительныеинтервалы
Для того чтобы оценить достоверность оценок, вводят понятиедоверительный интервал и доверительная вероятность.
(2.7)
Доверительный интервалдля математического ожидания определяется по формуле (2.7):/>
где /> – математическоеожидание генеральной совокупности;
/> - доверительная вероятность;
/> - оценка математическогоожидания;
(2.8)
/> - величина доверительногоинтервала, вычисляется по формуле (2.8):/>
где /> - квантиль нормальногораспределения, получается обратным интерполированием из таблицы для функциираспределения стандартного нормального закона. Вычисляется по формуле (2.9).
(2.10)
(2.9)
/>/> - оценка дисперсии, вычисляетсяпо формуле (2.10).
/>
Доверительный интервалдля дисперсии определяется по формуле (2.11).
(2.12)
/>,/>
где /> – дисперсия генеральнойсовокупности;
/> – оценка дисперсии.
/> – квантиль нормальногораспределения.
Оценка стандартногоотклонения в зависимости от закона распределения случайной величины имеетразличное значение.
Для нормального законараспределения эта величина будет равна:
/>
Для равномерного:
/>
Ниже в таблицах 2.10-2.21приведены доверительные интервалы математического ожидания исследуемых выборок.
-точный метод
Таблица 2.10 — Доверительные интервалы для СВ />, />
/>
15,378 17,130/>
15,207 17,301/>
15,053 17,455/>
14,739 17,769/>
14,481 18,027-грубый метод
Таблица 2.11 –Доверительные интервалы для СВ />, />
/>
15,376 17,132/>
15,207 17,301/>
15,058 17,450/>
14,753 17,755/>
14,508 18,000-точный метод
Таблица 2.12 — Доверительные интервалы для СВ />, />
/>
15,811 16,566/>
15,738 16,639/>
15,673 16,704/>
15,542 16,835/>
15,408 16,940-грубый метод
Таблица 2.13 –Доверительные интервалы для СВ />, />
/>
15,795 16,553/>
15,722 16,626/>
15,657 16,691/>
15,526 16,822/>
15,420 16,928-точный метод
Таблица 2.14 — Доверительные интервалы для СВ />, />
/>
15,677 16,224/>
15,624 16,276/>
15,577 16,323/>
15,483 16,418/>
15,447 16,565-грубый метод
Таблица 2.15 –Доверительные интервалы для СВ />, />
/>
15,729 16,283/>
15,676 16,336/>
15,629 16,383/>
15,533 16,479/>
15,456 16,556-точный метод
Таблица 2.16 –Доверительные интервалы для СВ />, />
/>
15,742 17,595/>
15,561 17,775/>
15,399 17,938/>
15,066 18,270/>
15,084 18,788-грубый метод
Таблица 2.17 –Доверительные интервалы для СВ />, />
/>
16,018 17,854/>
15,843 18,029/>
15,687 18,185/>
15,369 18,503/>
15,112 18,760-точный метод
Таблица 2.18 – Доверительныеинтервалы для СВ />, />
/>
15,583 16,396/>
15,505 16,474/>
15,435 16,544/>
15,294 16,685/>
15,177 16,837-грубый метод
Таблица 2.19 –Доверительные интервалы для СВ />, />
/>
15,596 16,418/>
15,517 16,497/>
15,447 16,567/>
15,305 16,709/>
15,190 16,824-точный метод
Таблица 2.20 –Доверительные интервалы для СВ />, />
/>
15,521 16,063/>
15,469 16,115/>
15,423 16,161/>
15,329 16,255/>
15,178 16,302-грубый метод
Таблица 2.21 –Доверительные интервалы для СВ />, />
/>
15,462 16,018/>
15,408 16,072/>
15,361 16,119/>
15,264 16,216/>
15,187 16,293Длины доверительныхинтервалов для математического ожидания при различных уровнях доверительнойвероятности приведены в таблице 2.22.
Таблица 2.22 – Длиныдоверительных интервалов
Длина интервала/>
/>
/>
/>
/>
/>(/>)
1,752 2,094 2,402 3,03 3,546/>(/>)
0,755 0,901 1,031 1,293 1,532/>(/>)
0,547 0,652 0,746 0,935 1,118/>(/>)
1,853 2,214 2,539 3,204 3,704/>(/>)
0,813 0,969 1,109 1,391 1,66/>(/>)
0,542 0,646 0,738 0,926 1,124В таблицах 2.23 – 2.34 указаныдоверительные интервалы дисперсии исследуемых выборок.
-точный метод
Таблица 2.23 –Доверительные интервалы для СВ />, />
/>
25,059 32,793/>
24,452 33,693/>
23,926 34,524/>
22,914 36,280/>
22,095 37,873-грубый метод
Таблица 2.24 –Доверительные интервалы для СВ />, />
/>
26,084 30,950/>
25,619 31,415/>
25,205 31,829/>
24,362 32,672/>
23,681 33,353-точный метод
Таблица 2.25 – Доверительныеинтервалы для СВ />, />
/>
23,373 30,586/>
22,807 31,426/>
22,316 32,201/>
21,372 33,838/>
20,608 35,324-грубый метод
Таблица 2.26 –Доверительные интервалы для СВ />, />
/>
24,329 28,867/>
23,895 29,301/>
23,508 29,688/>
22,722 30,474/>
22,088 31,108-точный метод
Таблица 2.27 –Доверительные интервалы для СВ />, />
/>
22,258 29,128/>
21,719 29,928/>
21,252 30,666/>
20,354 32,225/>
19,626 33,640-грубый метод
Таблица 2.28 –Доверительные интервалы для СВ />, />
/>
23,169 27,491/>
22,756 27,904/>
22,388 28,272/>
21,639 29,021/>
21,035 29,625-точный метод
Таблица 2.29 –Доверительные интервалы для СВ />, />
/>
27,340 35,779/>
26,678 36,761/>
26,104 37,667/>
25,000 39,582/>
24,106 41,321-грубый метод
Таблица 2.30 –Доверительные интервалы для СВ />, />
/>
28,459 33,767/>
27,951 34,275/>
27,499 34,727/>
26,579 35,647/>
25,837 36,389-точный метод
Таблица 2.31 –Доверительные интервалы для СВ />, />
/>
26,575 34,777/>
25,931 35,732/>
25,374 36,613/>
24,301 38,474/>
23,431 40,164-грубый метод
Таблица 2.32 –Доверительные интервалы для СВ />, />
/>
27,662 32,822/>
27,168 33,316/>
26,729 33,755/>
25,835 34,649/>
25,114 35,370-точный метод
Таблица 2.33 –Доверительные интервалы для СВ />, />
/>
25,163 32,930/>
24,554 33,834/>
24,026 34,668/>
23,010 36,431/>
22,187 38,031-грубый метод
Таблица 2.34 –Доверительные интервалы для СВ />, />
/>
26,193 31,079/>
25,726 31,546/>
25,310 31,962/>
24,463 32,809/>
23,780 33,492В таблице 2.35 показаноизменение длины доверительного интервала для дисперсии в зависимости от объемавыборки и величины доверительной вероятности.
Таблица 2.35 – Длиныдоверительных интервалов
Величина интервала/>
/>
/>
/>
/>
/>(/>)
7,734 9,241 10,598 13,366 15,778/>(/>)
7,213 8,619 9,885 12,466 14,716/>(/>)
4,322 5,148 5,884 7,382 8,590/>(/>)
8,439 10,083 11,563 14,582 17,215/>(/>)
8,202 9,801 11,239 14,173 16,733/>(/>)
7,767 9,280 10,642 13,421 15,844Анализируя полученныеданные можно заметить, что при увеличении уровня доверительной вероятностиувеличивается величина доверительного интервала, а при увеличении объемавыборки она уменьшается. Это справедливо как для доверительных интерваловматематического ожидания, так и для дисперсии. [3]
2.6 Другие точечныеоценки интервального ряда (мода, медиана, коэффициент вариации, коэффициентасимметрии, эксцесс)
Модой в вариационном рядуявляется наиболее часто встречающееся значение признака.
Мода по интервальномуряду вычисляется по формуле (2.13):
/> (2.13)
где /> – левая граница модального интервала (модальнымназывается интервал, имеющий наибольшую частость);
/> – величина интервала группировки;
/> – частота модального интервала;
/> – частота интервала,предшествующего модальному;
/> – частота интервала, следующегоза модальным.
Медиана – серединноенаблюдение в выборке длиной n.
При нечетном n медиана в вариационном ряду естьзначение ряда с номером />.
При четном n медиана есть полусумма значений сномерами /> и/>. Винтервальном ряду для нахождения медианы применяется формула (2.14):
(2.14)
/>где /> – нижняя граница медианного интервала (медианнымназывается интервал, накопленная частота которого превышает половину общейсуммы частот);
/> – величина интервала группировки;
/> – частота медианного интервала;
/>– накопленная частота интервала, предшествующегомедианному.
Коэффициент вариациивычисляется по формуле (2.15):
(2.15)
/>На основе моментатретьего порядка (смотри формулу 2.16) выборочный коэффициент асимметрии находитсяпо формуле (2.17):
(2.16)
/>(2.17)
/>С помощью момента четвертого порядкахарактеризуют свойство рядов распределения, называемое эксцессом. Показательэксцесса для ранжированного ряда находится по формуле (2.18).
(2.18)
/>Вычисление точечныхоценок по вариационному ряду в пакете STATISTICA происходит следующим образом:
Analysis →Descriptive statistics:
а) Categorization → Number ofintervals (установить количество интервалов);
б) нажать кнопку More statistics → откроется окно Statistics, где можно выбрать следующиепоказатели:
- Mean – выборочное среднее;
- Median – медиана;
- Standard Deviation – стандартное отклонение среднегозначения;
- Variance – выборочнаядисперсия;
- Skewness – выборочный коэффициент асимметрии;
- Kurtosis – выборочныйкоэффициент эксцесса;
в) выбрать необходимыепараметры и нажать ОК.
Значения медианы,коэффициента вариации, коэффициента ассиметрии и эксцесса приведены в таблице2.36.
Таблица 2.36 — Медиана,коэффициент вариации, коэффициент ассиметрии и эксцесс
Выборка Медиана Коэф. ассиметрии Эксцесс Коэф. вариации/>(/>)
16,587 -0,009 -1,017 0,326/>(/>)
16,501 -0,058 -1,160 0,317/>(/>)
16,119 0,007 -1,192 0,329/>(/>)
16,531 -0,086 -0,449 0,335/>(/>)
16,013 -0,022 -0,138 0,345/>(/>)
15,795 -0,080 0,170 0,329Анализируя полученные данные, можно сказать, что обеслучайные величины имеют практически симметричное распределение, т. к.коэффициенты асимметрии всех выборок близки к нулю,
Случайная величина /> имеет более пологое распределение (эксцесс для всехее выборок имеет отрицательное значение). А эксцесс выборок случайной величины /> практически равен нулю, т.е. «крутизна»распределения случайной величины Yблизка к нормальному распределению.
2.7 Оценкаоднородности выборки
Любая исследуемая совокупность содержит как значенияпризнаков, сложившихся под влиянием факторов, непосредственно характерных дляанализируемой совокупности, так и значения признаков, полученных подвоздействием иных факторов, не характерных для основной совокупности.
Совокупность считается однородной, если коэффициент вариациине превышает 33% (для распределений, близких к нормальному). [4]
Из таблицы 2.36 видно, что однородными можно считать выборкислучайной величины /> при /> равном 100, 500, 1000 и /> при n равном 1000.
Однородность выборкиможно проверить, также используя метод Ирвина, основанный на определении />-статистики. При его использовании выявлениеаномальных наблюдений производится по формуле (2.19).
(2.19)
/>где /> – упорядоченная (по возрастанию или по убыванию)исследуемая совокупность;
/> – значение ряда;
/>– предыдущее значение ряда;
/> – среднеквадратическое отклонение.
Если расчетное значениепревысит уровень критического, то оно признается аномальным.
Произведя соответствующиерасчёты в Microsoft Excel мы убедились, что ни одно из расчётных значений непревышает уровень критического значения. Это значит, что все выборки случайныхвеличин /> и /> – однородны.
2.8 Проверка нормальности эмпирического распределения
2.8.1 Проверка нормальности эмпирического распределения наоснове анализа точечных оценок числовых характеристик
Если среднее арифметическое,медиана и мода имеют близкие значения, это указывает на вероятное соответствиеизучаемого распределения нормальному закону. Для нормального распределениякоэффициент асимметрии и эксцесса равны нулю, а для равномерного эксцесс равен-1,2.
В таблице 2.37 приведеныданные для проверки вышеуказанных утверждений.
Таблица 2.37 – Анализчисловых характеристик положения и вариации
равномерный закон (СВ />)
нормальный закон (СВ />)
выборка/>
/>
/>
выборка/>
/>
100 16,254 16,587 -0,009 -1,017 100 16,668 16,531 -0,449 200 16,369 15,840 0,034 -1,264 200 15,688 15,703 0,712 300 16,355 16,335 -0,092 -1,270 300 15,696 15,655 0,472 400 15,658 15,581 0,056 -1,254 400 16,770 16,954 -0,196 500 16,189 16,501 -0,058 -1,160 500 15,989 16,013 -0,138 600 16,048 15,897 -0,022 -1,158 600 16,049 16,008 -0,077 700 15,964 15,956 -0,017 -1,159 700 16,319 16,576 -0,128 800 15,867 15,649 0,072 -1,218 800 15,990 16,082 0,172 900 16,132 16,028 -0,022 -1,243 900 15,885 15,749 -0,092 1000 15,950 16,119 0,007 -1,192 1000 15,792 15,795 0,170Анализируя полученныеданные, можно сделать вывод о том что значения медианы и среднегоарифметического для выборок случайной величины /> и /> имеют практически равное значение.Для выборки /> значение коэффициента ассиметрии, адля выборки случайной величины /> значение эксцесса практически равно0. Для случайной величины /> значение эксцесса практически -1,2.Таким образом, все это свидетельствует о близости распределения случайнойвеличины /> нормальному распределению, аслучайной величины /> равномерному.
2.9 Определение закона распределения случайных величин
2.9.1 Определение закона распределения случайной величины повиду гистограммы
По виду гистограмм, приведенных на рисунках 2.19-2.21 делаемпредположение о том, что случайная величина /> подчиняется равномерному закону распределения, аслучайная величина /> соответствует нормальному законураспределения, что можно увидеть на рисунках 2.22-2.24.
2.9.2 Определение оценок параметров распределений
Метод моментов
Метод моментовзаключается в том, что определенное количество статистических начальных и (или)центральных моментов приравнивается к соответствующим теоретическим моментамраспределения случайной величины. Уравнения метода показано в формуле (2.23).
(2.23)
/>(2.24)
где /> – теоретическийначальный момент />-того порядка для непрерывнойслучайной величины, вычисляется по формуле (2.24):/>.
/> – статистическая оценкасоответствующего теоретического момента />-того порядка, вычисляется по формуле (2.25):
(2.25)
/>./> – теоретический центральный момент s-того порядка, вычисляется по формуле(2.26):
(2.26)
/>./> – статистическая оценкатеоретического центрального момента />-того порядка, вычисляется по формуле (2.27):
(2.27)
/>.Из системы (2.23)находятся параметры распределения. Число уравнений в системе зависит отколичества неизвестных параметров. Для нормального и равномерного законов,система должна содержать два уравнения, для экспоненциального – одно.
Для равномерного законараспределения система (2.23) принимает вид (2.28):
/>
(2.28)
/>/>Из системы 2.28 нужнонайти параметры /> и />.
В таблице 2.38 приведенызначения этих параметров, найденные методом моментов и методом максимальногоправдоподобия.
Таблица 2.38 – Значенияпараметров /> и />
/>(метод
моментов)
/>(метод максимального
правдоподобия)
∆/>
/>(метод
моментов)
/>(метод максимального
правдоподобия)
∆/>
/>
6,993 6,996 0,003 25,201 25,542 0,341/>
6,984 7,313 0,329 25,110 25,065 0,045/>
6,711 6,849 0,138 25,237 25,051 0,186Из таблицы видно, чтозначения параметров, найденные разными методами, практически совпадают. Этоподтверждает, что случайная величина /> распределена по равномерному закону.
Метод максимальногоправдоподобия
По методу максимальногоправдоподобия, строится так называемая функция правдоподобия (2.29):
(2.29)
/>где /> – выборка,
/> – вектор параметров.
Необходимо найти такиезначения вектора />, чтобы функция /> достигала максимума. Для этого строят системуправдоподобия (2.30), содержащую частные производные от функции правдоподобияпо всем переменным, приравненные к нулю. Для упрощения вычислений переходят кфункции />, равной логарифму натуральному от />:
(2.30)
/> .Оценки параметров, получаемыеиз этой системы, называют оценками максимального правдоподобия.
Для равномерного законафункция правдоподобия будет иметь вид (2.31)
(2.31)
/>где /> и /> – параметры распределения.
Данная функция будетдостигать максимума при условии (2.32):
/>
Судя по полученнымоценкам параметров распределения, можно сделать вывод, что наше предположениебыло верно изначально и случайная величина /> действительно распределена равномерно.
2.10 Проверка нормальности эмпирического распределения наоснове критериев согласия Пирсона
Для проверки гипотезы осоответствии эмпирического распределения нормальному закону распределениянеобходимо ввести нулевую гипотезу, которая будет проверяться по критериюПирсона.
/>: генеральная совокупность распределена по нормальномузакону.
В качестве мерырасхождения для критерия /> выбирается величина, равнаявзвешенной сумме квадратов отклонений статистической вероятности отсоответствующей теоретической вероятности, рассчитанных по нормальному законутеоретического распределения /> вычисляется по формуле (2.20)
(2.20)
/>где />– частота попадания вi-тый интервал;
/> – объем выборки;
/> – теоретическая вероятность попадания i-тый интервал:
/>
(2.21)
.Общая схема применениякритерия />:
1. Определение мерырасхождения по формуле 2.20;
2. Задание уровнязначимости />;
3. Определение числастепеней свободы /> по формуле 2.22.
/>, (2.22)
где /> – количество интервалов в интервальном ряду;
/> – число налагаемых связей, равное числу параметров
предполагаемого законараспределения
4. Область принятия основнойгипотезы:
/>.
Выполнение в пакетеSTATISTICA.
В модуле Nonparametric Statistics (непараметрическая статистика), Distribution Fitting. В поле Continuous Distributions представлены непрерывные распределения, а в поле Discrete Distributions — дискретные распределения (законраспределения выбираем дважды щелкнув на его название мышью) ® Variable (выбрать переменную) ® в поле Plot distribution выбираем Frequency distribution (частоты распределения) ® в поле Kolmogorov-Smirnov test ставим No → установимнеобходимые параметры числа интервалов, верхней и нижней границ, среднего идисперсии → Graph. Результатыпроверки соответствия гипотезы приведены в таблице 2.39 и показаны на рисунках2.41-2.46
Таблица 2.39 – Значения /> и χ2крит для случайныхвеличин /> и/>
Выборка/>
/>
/>
Гипотеза />
/>(/>)
4 9,49 7,53 Принимается/>(/>)
4 9,49 11,815 Отвергается/>(/>)
5 11,1 11,95 Отвергается/>(/>)
5 11,1 25,54 Отвергается/>(/>)
6 12,59 45,51 Отвергается/>(/>)
6 12,59 39,83 Отвергается/>(/>)
6 12,59 48,77 Отвергается/>(/>)
7 14,1 40,81 Отвергается/>(/>)
7 14,1 49,97 Отвергается/>(/>)
7 14,1 76,75 Отвергается/>(/>)
4 9,49 2,04 Принимается/>(/>)
4 9,49 2,12 Принимается/>(/>)
5 11,1 2,78 Принимается/>(/>)
5 11,1 2,99 Принимается./>(/>)
6 12,59 3,15 Принимается/>(/>)
6 12,59 4,61 Принимается/>(/>)
6 12,59 5,07 Принимается/>(/>)
7 14,1 5,86 Принимается/>(/>)
7 14,1 6,32 Принимается/>(/>)
7 14,1 7,16 ПринимаетсяНа основе полученныхданных можно сделать вывод, что случайная величина /> распределена по нормальномузакону, а случайная величина /> не распределена по нормальномузакону.
Анализируя получившиесяграфики, делаем вывод, что случайная величина /> распределена по равномерному закону, а случайная величина/> – по нормальному.
Заключение
В ходе курсовой работыбыли освоены методы обработки данных статистического наблюдения, их анализа спомощью обобщающих показателей, установление теоретических законовраспределения случайных величин и доказательство адекватности этих законов.Также в результатевыполнения данной работы мы приобрели навыки и опыт работы в пакете STATISTICА.
В ходе анализа данных,были сделаны выводы, что основной частью статистического анализа являетсявыявление закона распределения случайной величины, а также, выявление основныхфакторов, оказывающих влияние на качество оцениваемых параметров законараспределения (длина выборки, её однородность, величина доверительнойвероятности). Был произведен статистический анализ каждой из полученных в ходегенерации выборок данных двух случайных величин, был найден закон ихраспределения. Рассмотрены основные числовые характеристики положения и вариациинормального и равномерного закона.
Полученный опыт работы состатистическими данными и методами их обработки на компьютере позволит гораздобыстрее и эффективнее применять эти методы обработки информации в повседневнойжизни, в частности, для экономических исследований и разработок.
Перечень ссылок
случайный величина интервальный выборка
1. Теориястатистики: Учебник / Под ред. проф. Р. А. Шмойловой. — 3-е изд., перераб. -М.:Финансы и статистика, 2000. — 560 с.
2. Елисеева И. И.,Юзбашев М. М. Общая теория статистики: Учебник / Под ред. чл.-корр. РАН И. И.Елисеевой. – М.: Финансы и статистика, 1998. – 365 с.: ил.
3. Смирнов Н.В., Дунин-Барковский И.В.Курс теории вероятностей и математической статистики для техническихприложений. – М.: Наука, 1969. – 509 с.
4. Гурман В.Е. Теория вероятностей и математическаястатистика. Учеб. пособие для втузов. Изд. 5-е перераб. и доп. – М.: Высш.школа, 1977. – 397 с.
5. Кремер Н.Ш. Теория вероятностей иматематическая статистика. – М.: Unity,2000. – 544 с.
6. Вентцель Е.С. Теория вероятностей. –М.: Наука, 1969. – 576 с.
7. Боровиков В. STATISTICA: искусство анализа данных накомпьютере. Для профессионалов. — СПб.: Питер, 2001. — 656 с.
Приложение А
Генерация исходных данныхСВ /> в пакете STATISTICA
Dim ADS AsSpreadsheet
Dim STBReportAs Report
Dim SUM AsDouble
Dim LOOP_CASEAs Double
Dim I AsDouble
Sub Main
Set ADS =ActiveDataSet
Set STBReport= Reports.New
For LOOP_CASE= 1 To NCASES(ADS)
For I = 1 To n
SUM = 0
For L = 1 To300
SUM = SUM +Uniform(1)
Next L
ADS.Value(LOOP_CASE, 1) = N * ((1 / 15) * SUM — 9)
Next I
NEXT_CASE:
Next LOOP_CASE
End Sub
Приложение Б
Интервальные ряды для СВ /> и />
Таблица Д.1 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,289175<x<=8,355050 14,000 14,000 7,000 7,000 8,355050<x<=11,42093 34,000 48,000 17,000 24,000 11,42093<x<=14,48680 33,000 81,000 16,500 40,500 14,48680<x<=17,55268 33,000 114,000 16,500 57,000 17,55268<x<=20,61855 29,000 143,000 14,500 71,500 20,61855<x<=23,68443 23,000 166,000 11,500 83,000 23,68443<x<=26,75030 34,000 200,000 17,000 100,000Таблица Д.2 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,502861<x<=8,114160 25,000 25,000 8,333 8,333 8,114160<x<=10,72546 37,000 62,000 12,333 20,667 10,72546<x<=13,33676 40,000 102,000 13,333 34,000 13,33676<x<=15,94806 39,000 141,000 13,000 47,000 15,94806<x<=18,55936 39,000 180,000 13,000 60,000 18,55936<x<=21,17066 41,000 221,000 13,667 73,667 21,17066<x<=23,78195 51,000 272,000 17,000 90,667 23,78195<x<=26,39325 28,000 300,000 9,333 100,000Таблица Д.3 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,555859<x<=8,176674 33,000 33,000 8,250 8,250 8,176674<x<=10,79749 69,000 102,000 17,250 25,500 10,79749<x<=13,41830 54,000 156,000 13,500 39,000 13,41830<x<=16,03912 54,000 210,000 13,500 52,500 16,03912<x<=18,65993 51,000 261,000 12,750 65,250 18,65993<x<=21,28075 58,000 319,000 14,500 79,750 21,28075<x<=23,90156 54,000 373,000 13,500 93,250 23,90156<x<=26,52238 27,000 400,000 6,750 100,000Таблица Д.4 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,616825<x<=7,918099 42,000 42,000 7,000 7,000 7,918099<x<=10,21937 60,000 102,000 10,000 17,000 10,21937<x<=12,52065 79,000 181,000 13,167 30,167 12,52065<x<=14,82192 78,000 259,000 13,000 43,167 14,82192<x<=17,12319 75,000 334,000 12,500 55,667 17,12319<x<=19,42447 69,000 403,000 11,500 67,167 19,42447<x<=21,72574 92,000 495,000 15,333 82,500 21,72574<x<=24,02701 70,000 565,000 11,667 94,167 24,02701<x<=26,32829 35,000 600,000 5,833 100,000Таблица Д.5 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,638499<x<=7,943963 48,000 48,000 6,857 6,857 7,943963<x<=10,24943 80,000 128,000 11,429 18,286 10,24943<x<=12,55489 80,000 208,000 11,429 29,714 12,55489<x<=14,86035 100,000 308,000 14,286 44,000 14,86035<x<=17,16582 91,000 399,000 13,000 57,000 17,16582<x<=19,47128 83,000 482,000 11,857 68,857 19,47128<x<=21,77675 94,000 576,000 13,429 82,286 21,77675<x<=24,08221 89,000 665,000 12,714 95,000 24,08221<x<=26,38767 35,000 700,000 5,000 100,000Таблица Д.6 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,746050<x<=7,794074 50,000 50,000 6,250 6,250 7,794074<x<=9,842099 87,000 137,000 10,875 17,125 9,842099<x<=11,89012 88,000 225,000 11,000 28,125 11,89012<x<=13,93815 110,000 335,000 13,750 41,875 13,93815<x<=15,98617 77,000 412,000 9,625 51,500 15,98617<x<=18,03420 84,000 496,000 10,500 62,000 18,03420<x<=20,08222 83,000 579,000 10,375 72,375 20,08222<x<=22,13025 77,000 656,000 9,625 82,000 22,13025<x<=24,17827 96,000 752,000 12,000 94,000 24,17827<x<=26,22630 48,000 800,000 6,000 100,000Таблица Д.7 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 5,747041<x<=7,795948 46,000 46,000 5,111 5,111 7,795948<x<=9,844855 118,000 164,000 13,111 18,222 9,844855<x<=11,89376 93,000 257,000 10,333 28,556 11,89376<x<=13,94267 84,000 341,000 9,333 37,889 13,94267<x<=15,99158 107,000 448,000 11,889 49,778 15,99158<x<=18,04048 85,000 533,000 9,444 59,222 18,04048<x<=20,08939 108,000 641,000 12,000 71,222 20,08939<x<=22,13830 88,000 729,000 9,778 81,000 22,13830<x<=24,18720 108,000 837,000 12,000 93,000 24,18720<x<=26,23611 63,000 900,000 7,000 100,000Таблица Д.8 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -3,85839<x<=1,661475 2,000 2,000 1,000 1,000 1,661475<x<=7,181336 7,000 9,000 3,500 4,500 7,181336<x<=12,70120 47,000 56,000 23,500 28,000 12,70120<x<=18,22106 79,000 135,000 39,500 67,500 18,22106<x<=23,74092 54,000 189,000 27,000 94,500 23,74092<x<=29,26078 8,000 197,000 4,000 98,500 29,26078<x<=34,78064 3,000 200,000 1,500 100,000Таблица Д.9 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -3,50252<x<=1,766314 2,000 2,000 0,667 0,667 1,766314<x<=7,035144 13,000 15,000 4,333 5,000 7,035144<x<=12,30397 63,000 78,000 21,000 26,000 12,30397<x<=17,57280 106,000 184,000 35,333 61,333 17,57280<x<=22,84163 91,000 275,000 30,333 91,667 22,84163<x<=28,11046 21,000 296,000 7,000 98,667 28,11046<x<=33,37929 3,000 299,000 1,000 99,667 33,37929<x<=38,64812 1,000 300,000 0,333 100,000Таблица Д.10 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. 1,299935<x<=5,325310 5,000 5,000 1,250 1,250 5,325310<x<=9,350685 31,000 36,000 7,750 9,000 9,350685<x<=13,37606 63,000 99,000 15,750 24,750 13,37606<x<=17,40143 117,000 216,000 29,250 54,000 17,40143<x<=21,42681 109,000 325,000 27,250 81,250 21,42681<x<=25,45218 55,000 380,000 13,750 95,000 25,45218<x<=29,47756 16,000 396,000 4,000 99,000 29,47756<x<=33,50293 4,000 400,000 1,000 100,000Таблица Д.11 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -1,98797<x<=1,772650 1,000 1,000 0,167 0,167 1,772650<x<=5,533271 12,000 13,000 2,000 2,167 5,533271<x<=9,293892 54,000 67,000 9,000 11,167 9,293892<x<=13,05451 100,000 167,000 16,667 27,833 13,05451<x<=16,81513 166,000 333,000 27,667 55,500 16,81513<x<=20,57576 154,000 487,000 25,667 81,167 20,57576<x<=24,33638 88,000 575,000 14,667 95,833 24,33638<x<=28,09700 17,000 592,000 2,833 98,667 28,09700<x<=31,85762 8,000 600,000 1,333 100,000Таблица Д.12 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -2,68355<x<=1,245110 2,000 2,000 0,286 0,286 1,245110<x<=5,173768 10,000 12,000 1,429 1,714 5,173768<x<=9,102425 41,000 53,000 5,857 7,571 9,102425<x<=13,03108 149,000 202,000 21,286 28,857 13,03108<x<=16,95974 180,000 382,000 25,714 54,571 16,95974<x<=20,88840 178,000 560,000 25,429 80,000 20,88840<x<=24,81705 102,000 662,000 14,571 94,571 24,81705<x<=28,74571 31,000 693,000 4,429 99,000 28,74571<x<=32,67437 7,000 700,000 1,000 100,000Таблица Д.13 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -1,52038<x<=2,421483 4,000 4,000 0,500 0,500 2,421483<x<=6,363342 37,000 41,000 4,625 5,125 6,363342<x<=10,30520 69,000 110,000 8,625 13,750 10,30520<x<=14,24706 185,000 295,000 23,125 36,875 14,24706<x<=18,18892 231,000 526,000 28,875 65,750 18,18892<x<=22,13078 175,000 701,000 21,875 87,625 22,13078<x<=26,07264 75,000 776,000 9,375 97,000 26,07264<x<=30,01449 20,000 796,000 2,500 99,500 30,01449<x<=33,95635 3,000 799,000 0,375 99,875 33,95635<x<=37,89821 1,000 800,000 0,125 100,000Таблица Д.14 — Интервальный ряд СВ />, />
Частота Кумул. Процент Кумул. -1,06170<x<=2,578305 3,000 3,000 0,333 0,333 2,578305<x<=6,218309 36,000 39,000 4,000 4,333 6,218309<x<=9,858313 71,000 110,000 7,889 12,222 9,858313<x<=13,49832 171,000 281,000 19,000 31,222 13,49832<x<=17,13832 277,000 558,000 30,778 62,000 17,13832<x<=20,77832 176,000 734,000 19,556 81,556 20,77832<x<=24,41833 110,000 844,000 12,222 93,778 24,41833<x<=28,05833 47,000 891,000 5,222 99,000 28,05833<x<=31,69833 7,000 898,000 0,778 99,778 31,69833<x<=35,33834 2,000 900,000 0,222 100,000