Лекция: Проверка выпадов (артефактов).

Нормированное отклонение помогает определить выпады, или артефакты, т. е. такие записанные значения признака, которые резко отличаются от всех других значений признака в группе. Проверка артефактов должна проводиться всегда перед началом обработки полученных первичных данных. Если подтвердится, что резко выделяющееся значение действительно не может относиться к объектам данной группы, и попало в записи вследствие ошибок внимания, следует такой артефакт исключить из обработки.

Проверка артефактов может производиться по критерию, равному нормированному отклонению выпада:

где:

Т – критерий выпада;

– выделяющееся значение признака (или очень большое или очень малое);

μ, s – средняя и сигма, рассчитанные для группы, включающей артефакт;

Tst – стандартные значения критерия выпадов, определяемых по таблице 7.3.

Если Т ≥ Tst, то анализируемое значение признака является артефактом. Альтернатива Т < Tst не позволяет исключить из анализа значение признака.

Табулированные данные таблицы 7.3 можно аппроксимировать следующей функцией: Tst = 0,287×ln(n) + 1,714

Однофакторный дисперсионный комплекс. Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером, который открыл закон распределения отношения средних квадратов (дисперсий).Дисперсионный анализ широко используется для планирования эксперимента и статистической обработки его данных. Если в недалеком прошлом считали, что роль математика состоит лишь в анализе экспериментальных данных, то работы Р. А. Фишера коренным образом изменили эту точку зрения, и в настоящее время статистическое планирование опыта в соответствии с требованиями дисперсионного анализа и математическая интерпретация результатов: непременные условия успешного получения ответов на вопросы, интересующие экспериментатора. Статистически обоснованный план эксперимента определяет и метод математического анализа результатов. Поэтому современный эксперимент нельзя правильно спланировать, не зная основ дисперсионного анализа.При дисперсионном анализе одновременно обрабатывают данные нескольких выборок (вариантов), составляющих единый статистический комплекс, оформленный в виде специальной рабочей таблицы. Структура статистического комплекса и его последующий анализ определяются схемой и методикой эксперимента.Сущностью дисперсионного анализа является расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части – компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F–критерию.Если обрабатывают однофакторные статистические комплексы, состоящие из нескольких независимых выборок, например
l–вариантов в вегетационном опыте, то общая изменчивость результативного признака, измеряемая общей суммой квадратов СY, расчленяется на два компонента: варьирование между выборками (вариантами) СV и внутри выборок Cz, Следовательно, в общей форме изменчивость признака может быть представлена выражением:

Здесь вариация между выборками (вариантами) представляет ту часть общей дисперсии, которая обусловлена действием изучаемых факторов, а дисперсия внутри выборок характеризует случайное варьирование изучаемого признака, т. е. ошибку эксперимента.

Общее число степеней свободы (N – 1) также расчленяется на две части – степени свободы для вариантов (l – 1) и для случайного варьирования (N – l);

Суммы квадратов отклонений по данным эксперимента – статистического комплекса сl-вариантами – обычно находят в такой последовательности. При общем числе наблюденийN определяются суммы по вариантам V и общая сумма всех наблюдений ΣХ. Затем вычисляются:

1 корректирующий фактор (поправка)

2 общая сумма квадратов

3 сумму квадратов для вариантов

4 сумму квадратов для ошибки

Две последние суммы квадратов СY и CZ делятся на соответствующие им степени свободы, т. е. приводятся к сравниваемому виду – одной степени свободы вариации. В результате получают два средних квадрата:

вариантов

и ошибки

Эти средние квадраты и используют в дисперсионном анализе для оценки значимости действия изучаемых факторов. Оценка проводится путем сравнения дисперсии вариантов с дисперсией ошибки по критерию Фишера:

.

Таким образом, за базу – единицу сравнения принимают средний квадрат случайной дисперсии, которая определяет случайную ошибку эксперимента. При этом проверяемой нулевой гипотезой служит предположение: все выборочные средние являются оценками одной генеральной средней и, следовательно, различия между ними несущественны. Если Fфакт < Fтеop, то нулевая гипотеза Но: d = 0 не отвергается; между всеми выборочными средними нет существенных различий и на этом проверка заканчивается. Нулевая гипотеза отвергается, когда Fфакт ≥ Fтеop.

В этом случае дополнительно проводят оценку, между какими средними имеются значимые различия.

Теоретическое значение критерия F для принятого в исследовании уровня значимости находят по таблицам приложений с учетом числа степеней свободы для дисперсии вариантов и случайной дисперсии. В большинстве случаев избирают 5%–ный, а при более строгом подходе 1%–ный или даже 0,1%–ный уровень значимости.

 

 

30.Средняя и сигма суммарной группы Иногда бывает необходимо определить среднюю и сигму для суммарного распределения, составленного из нескольких распределений. При этом известны не сами распределения, а только их средние и сигмы.Средняя и сигма в таких случаях находятся по следующим формулам:

где:

ni – численность отдельных объединяемых групп;

μi – средняя арифметическая каждой объединяемой группы;

si – сигма каждой объединяемой группы.

Разнообразие объектов, составляющих группу, – основное свойство всякой совокупности. Знание закономерностей, по которым формируется разнообразие признака в группе, имеет большое практическое и научное значение.

В малочисленных группах трудно подметить какую–либо закономерность в разнообразии данных. Обычно все значения бывают различны, повторяются без всякой видимой закономерности.

Многофакторный дисперсионный комплекс. Ясное представление о математической модели дисперсионного анализа облегчает понимание необходимых вычислительных операций, особенно при обработке данных многофакторных опытов, в которых больше источников варьирования, чем в простых, однофакторных опытах. Например, в двухфакторном опыте, поставленном методом обычных повторений, сумма квадратов для вариантов CV расчленяется на три, а в трехфакторном – на семь компонентов. Общая сумма квадратов для этих опытов будет представлена следующими выражениями (в скобках указаны суммы квадратов для изучаемых факторов A, В, С и их взаимодействия):

CY = (СА + СВ + САB) + СZ

CY = (СА + СВ + СC + САB+ САC + СBC+ СABC) + СZ

Соответственно указанным компонентам варьирования результативного признака разлагают и общее число степеней свободы.

Многофакторный дисперсионный комплекс – это совокупность исходных наблюдений, позволяющих статистически оценить действие и взаимодействие нескольких изучаемых факторов на изменчивость результативного признака. Эффект взаимодействия составляет ту часть общего варьирования, которая вызвана различным действием одного фактора при разных градациях другого. Специфическое действие сочетаний в эксперименте выявляется тогда, когда при одной градации первого фактора второй действует слабо или угнетающе, а при другой градации он проявляется сильно и стимулирует развитие результативного признака.

В эксперименте часто эффект от совместного применения изучаемых факторов больше (синергизм) или меньше (антагонизм) суммы эффектов от раздельного применения каждого из них. Следовательно, существует взаимодействие факторов: в первом случае положительное, а во втором – отрицательное. Когда факторы не взаимодействуют, прибавка от совместного применения их равна сумме прибавок от раздельного воздействия (аддитивизм).

Дисперсионный анализ данных многофакторного комплекса проводится в два этапа. Первый этап – разложение общей вариации результативного признака на варьирование вариантов и остаточное: CY = CV + CZ. На втором этапе сумма квадратов отклонения для вариантов разлагается на компоненты, соответствующие источникам варьирования – главные эффекты изучаемых факторов и их взаимодействия. В двухфакторном опыте:

CV = CA + СB + CAB,

в трехфакторном:

CV = CA + СB + СC + CAB + CAC + CBC + CABC.

Дисперсионный анализ двухфакторного анализа по изучению градаций фактора А (число вариантов lA) и градаций фактора В (число вариантов lB), проведенного в n повторностях, осуществляется в следующие этапы:

1 Определяются суммы и средние по вариантам, общая сумма и средний урожай по опыту.

2 Вычисляются общая сумма квадратов отклонений, сумма квадратов для вариантов и остатка:

N = lA × lB × n;

Для вычисления сумм квадратов по факторам А, В и взаимодействию АВ составляется вспомогательная таблица, в которую записываются суммы по вариантам. Суммируя цифры, находятся суммы А, суммы В и вычисляются суммы квадратов отклонений для главных эффектов и взаимодействия.

Сумма квадратов для фактора А:

при (lА – 1) степенях свободы.

Сумма квадратов для фактора В:

при (lВ – 1) степенях свободы.

Сумма квадратов для взаимодействия АВ находится по разности:

при (lА – 1)×(lВ – 1) степенях свободы.


31. Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения. Для больших выборок (n > 100) вычисляют еще два статистических показателя.

Скошенность кривой называется асимметрией:

(7.12)

Правосторонняя асимметрия – отрицательна, левосторонняя – положительна.

Отклонение крутизны называют эксцессом:

(7.13)

Эксцесс положителен при островершинной кривой, отрицателен при плосковершинной.

еще рефераты
Еще работы по биологии