Лекция: Проверка выпадов (артефактов).
Нормированное отклонение помогает определить выпады, или артефакты, т. е. такие записанные значения признака, которые резко отличаются от всех других значений признака в группе. Проверка артефактов должна проводиться всегда перед началом обработки полученных первичных данных. Если подтвердится, что резко выделяющееся значение действительно не может относиться к объектам данной группы, и попало в записи вследствие ошибок внимания, следует такой артефакт исключить из обработки.
Проверка артефактов может производиться по критерию, равному нормированному отклонению выпада:
где:
Т – критерий выпада;
– выделяющееся значение признака (или очень большое или очень малое);
μ, s – средняя и сигма, рассчитанные для группы, включающей артефакт;
Tst – стандартные значения критерия выпадов, определяемых по таблице 7.3.
Если Т ≥ Tst, то анализируемое значение признака является артефактом. Альтернатива Т < Tst не позволяет исключить из анализа значение признака.
Табулированные данные таблицы 7.3 можно аппроксимировать следующей функцией: Tst = 0,287×ln(n) + 1,714
Однофакторный дисперсионный комплекс. Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером, который открыл закон распределения отношения средних квадратов (дисперсий).Дисперсионный анализ широко используется для планирования эксперимента и статистической обработки его данных. Если в недалеком прошлом считали, что роль математика состоит лишь в анализе экспериментальных данных, то работы Р. А. Фишера коренным образом изменили эту точку зрения, и в настоящее время статистическое планирование опыта в соответствии с требованиями дисперсионного анализа и математическая интерпретация результатов: непременные условия успешного получения ответов на вопросы, интересующие экспериментатора. Статистически обоснованный план эксперимента определяет и метод математического анализа результатов. Поэтому современный эксперимент нельзя правильно спланировать, не зная основ дисперсионного анализа.При дисперсионном анализе одновременно обрабатывают данные нескольких выборок (вариантов), составляющих единый статистический комплекс, оформленный в виде специальной рабочей таблицы. Структура статистического комплекса и его последующий анализ определяются схемой и методикой эксперимента.Сущностью дисперсионного анализа является расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части – компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F–критерию.Если обрабатывают однофакторные статистические комплексы, состоящие из нескольких независимых выборок, например
l–вариантов в вегетационном опыте, то общая изменчивость результативного признака, измеряемая общей суммой квадратов СY, расчленяется на два компонента: варьирование между выборками (вариантами) СV и внутри выборок Cz, Следовательно, в общей форме изменчивость признака может быть представлена выражением:
Здесь вариация между выборками (вариантами) представляет ту часть общей дисперсии, которая обусловлена действием изучаемых факторов, а дисперсия внутри выборок характеризует случайное варьирование изучаемого признака, т. е. ошибку эксперимента.
Общее число степеней свободы (N – 1) также расчленяется на две части – степени свободы для вариантов (l – 1) и для случайного варьирования (N – l);
Суммы квадратов отклонений по данным эксперимента – статистического комплекса сl-вариантами – обычно находят в такой последовательности. При общем числе наблюденийN определяются суммы по вариантам V и общая сумма всех наблюдений ΣХ. Затем вычисляются:
1 корректирующий фактор (поправка)
2 общая сумма квадратов
3 сумму квадратов для вариантов
4 сумму квадратов для ошибки
Две последние суммы квадратов СY и CZ делятся на соответствующие им степени свободы, т. е. приводятся к сравниваемому виду – одной степени свободы вариации. В результате получают два средних квадрата:
вариантов
и ошибки
Эти средние квадраты и используют в дисперсионном анализе для оценки значимости действия изучаемых факторов. Оценка проводится путем сравнения дисперсии вариантов с дисперсией ошибки по критерию Фишера:
.
Таким образом, за базу – единицу сравнения принимают средний квадрат случайной дисперсии, которая определяет случайную ошибку эксперимента. При этом проверяемой нулевой гипотезой служит предположение: все выборочные средние являются оценками одной генеральной средней и, следовательно, различия между ними несущественны. Если Fфакт < Fтеop, то нулевая гипотеза Но: d = 0 не отвергается; между всеми выборочными средними нет существенных различий и на этом проверка заканчивается. Нулевая гипотеза отвергается, когда Fфакт ≥ Fтеop.
В этом случае дополнительно проводят оценку, между какими средними имеются значимые различия.
Теоретическое значение критерия F для принятого в исследовании уровня значимости находят по таблицам приложений с учетом числа степеней свободы для дисперсии вариантов и случайной дисперсии. В большинстве случаев избирают 5%–ный, а при более строгом подходе 1%–ный или даже 0,1%–ный уровень значимости.
30.Средняя и сигма суммарной группы Иногда бывает необходимо определить среднюю и сигму для суммарного распределения, составленного из нескольких распределений. При этом известны не сами распределения, а только их средние и сигмы.Средняя и сигма в таких случаях находятся по следующим формулам:
где:
ni – численность отдельных объединяемых групп;
μi – средняя арифметическая каждой объединяемой группы;
si – сигма каждой объединяемой группы.
Разнообразие объектов, составляющих группу, – основное свойство всякой совокупности. Знание закономерностей, по которым формируется разнообразие признака в группе, имеет большое практическое и научное значение.
В малочисленных группах трудно подметить какую–либо закономерность в разнообразии данных. Обычно все значения бывают различны, повторяются без всякой видимой закономерности.
Многофакторный дисперсионный комплекс. Ясное представление о математической модели дисперсионного анализа облегчает понимание необходимых вычислительных операций, особенно при обработке данных многофакторных опытов, в которых больше источников варьирования, чем в простых, однофакторных опытах. Например, в двухфакторном опыте, поставленном методом обычных повторений, сумма квадратов для вариантов CV расчленяется на три, а в трехфакторном – на семь компонентов. Общая сумма квадратов для этих опытов будет представлена следующими выражениями (в скобках указаны суммы квадратов для изучаемых факторов A, В, С и их взаимодействия):
CY = (СА + СВ + САB) + СZ
CY = (СА + СВ + СC + САB+ САC + СBC+ СABC) + СZ
Соответственно указанным компонентам варьирования результативного признака разлагают и общее число степеней свободы.
Многофакторный дисперсионный комплекс – это совокупность исходных наблюдений, позволяющих статистически оценить действие и взаимодействие нескольких изучаемых факторов на изменчивость результативного признака. Эффект взаимодействия составляет ту часть общего варьирования, которая вызвана различным действием одного фактора при разных градациях другого. Специфическое действие сочетаний в эксперименте выявляется тогда, когда при одной градации первого фактора второй действует слабо или угнетающе, а при другой градации он проявляется сильно и стимулирует развитие результативного признака.
В эксперименте часто эффект от совместного применения изучаемых факторов больше (синергизм) или меньше (антагонизм) суммы эффектов от раздельного применения каждого из них. Следовательно, существует взаимодействие факторов: в первом случае положительное, а во втором – отрицательное. Когда факторы не взаимодействуют, прибавка от совместного применения их равна сумме прибавок от раздельного воздействия (аддитивизм).
Дисперсионный анализ данных многофакторного комплекса проводится в два этапа. Первый этап – разложение общей вариации результативного признака на варьирование вариантов и остаточное: CY = CV + CZ. На втором этапе сумма квадратов отклонения для вариантов разлагается на компоненты, соответствующие источникам варьирования – главные эффекты изучаемых факторов и их взаимодействия. В двухфакторном опыте:
CV = CA + СB + CAB,
в трехфакторном:
CV = CA + СB + СC + CAB + CAC + CBC + CABC.
Дисперсионный анализ двухфакторного анализа по изучению градаций фактора А (число вариантов lA) и градаций фактора В (число вариантов lB), проведенного в n повторностях, осуществляется в следующие этапы:
1 Определяются суммы и средние по вариантам, общая сумма и средний урожай по опыту.
2 Вычисляются общая сумма квадратов отклонений, сумма квадратов для вариантов и остатка:
N = lA × lB × n;
Для вычисления сумм квадратов по факторам А, В и взаимодействию АВ составляется вспомогательная таблица, в которую записываются суммы по вариантам. Суммируя цифры, находятся суммы А, суммы В и вычисляются суммы квадратов отклонений для главных эффектов и взаимодействия.
Сумма квадратов для фактора А:
при (lА – 1) степенях свободы.
Сумма квадратов для фактора В:
при (lВ – 1) степенях свободы.
Сумма квадратов для взаимодействия АВ находится по разности:
при (lА – 1)×(lВ – 1) степенях свободы.
31. Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения. Для больших выборок (n > 100) вычисляют еще два статистических показателя.
Скошенность кривой называется асимметрией:
(7.12)
Правосторонняя асимметрия – отрицательна, левосторонняя – положительна.
Отклонение крутизны называют эксцессом:
(7.13)
Эксцесс положителен при островершинной кривой, отрицателен при плосковершинной.