Реферат: Как любому представителю естественных наук, химику необходимо уметь проводить статистическую обработку и анализ полученных экспериментальных данных

Как любому представителю естественных наук, химику необходимо уметь проводить статистическую обработку и анализ полученных экспериментальных данных. Какие же процедуры статистики чаще всего встречаются в химической практике? Когда мы проводим несколько параллельных определений и затем вычисляем среднее арифметическое – это есть уже статистическая процедура –процедура получения приближенной оценки неизвестного нам генерального среднего. Для грамотного представления своих результатов в статье, дипломе или курсовой работе необходимо указать погрешность измерения, что наиболее корректно можно сделать, вычислив доверительный интервал полученного значения, т.е. интервал, который с большой вероятностью покрывает неизвестное нам «истинное» значение измеряемой величины. Вычисление доверительного интервала, безусловно, является статистической процедурой.

Довольно часто результаты химического эксперимента аппроксимируют некоторой функцией, например, прямой линией. Оставляя пока в стороне вопрос об МНК, который также является статистическим методом, хочу обратить ваше внимание на то обстоятельство, что чаще всего аппроксимация данных не является самоцелью, а интерес представляют численные значения коэффициентов полученного уравнения.

Так, получив температурную зависимость константы равновесия в виде прямой линии в координатах lnK – 1/T, мы можем из значений коэффициентов уравнения регрессии оценить значения энтальпии и энтропии реакции. Из температурной зависимости константы скорости некоторых реакций можем найти энергию активации, а коэффициенты уравнения, описывающего зависимость константы диссоциации от ионной силы раствора, необходимы для расчета константы при различных значениях ионной силы.

Получив оценку какой-либо величины, исследователь обычно задается вопросом: какова точность этой оценки? Поэтому второй очень часто встречающейся в практике химика статистической задачей является аппроксимация экспериментальных данных некоторой функцией и построение доверительных интервалов для полученных коэффициентов уравнения.

Прежде, чем разбирать способы решения статистических задач, вспомним основные знания о случайных величинах и функциях распределения, полученные в курсе теории вероятностей.

В экспериментах нас обычно интересуют величины, имеющие числовое выражение. Если измеряемая характеристика зависит от действия неконтролируемых случайных факторов, ее называют случайной величиной. В химии чаще всего мы имеем дело с непрерывными случайными величинами, возможные значения которых сплошь заполняют некоторый интервал, как например, измеряемые в эксперименте значения температуры, давления, концентрации реагентов.

Нельзя точно предсказать значение случайной величины в том или другом опыте, однако, можно найти вероятность попадания ее значений в любой заданный интервал.

Плотностью распределения вероятностей случайной величины  в точке x называется предел отношения вероятности попадания  в интервал x-x+x к ширине этого интервала. Если этот предел существует в любой точке, то для таких случайных величин можно выделить дифференциал вероятности dP.

Зная дифференциал вероятности, можно найти вероятность попадания значения  в любой интервал (x1, x2).

Каждая случайная величина характеризуется распределением вероятностей на множестве своих значений.

Пусть X - случайная величина, принимающая вещественные значения, “a” – вещественное число, например, 0. На рисунке слева показан пример графика функции плотности вероятности, обозначаемой обычно f. Функцией плотности распределения вероятности (Probability Density) непрерывной случайной величины X называют f(x) такую, что площадь под кривой слева от a (на рисунке закрашена синим) равна вероятности для случайной величины принять значение, не превышающее a.

Из определения функции плотности вероятности следует, что f(x) неотрицательна для всех x, а интеграл, от этой функции, взятый по всему интервалу возможных значений случайной величины, равен 1.

На рисунке справа – пример графика функции распределения F(x) случайной величины X. Cumulative Distribution Function, сокращенно - CDF. Это кумулятивная, накопленная функция. Ее значение в точке “a” равно вероятности для случайной величины принять значение, меньшее “a”

Функция распределения и плотность вероятности связаны следующим соотношением:

Из определения ясно, что F (x) монотонно возрастает (не убывает) с ростом x и стремится к пределу, равному единице.

Если известна функция распределения случайной величины, можно вычислить некоторые характеристики распределения. В таблице приведены формулы расчета математического ожидания M(X) для непрерывной случайной величины X с плотностью распределения f(x). Математическое ожидание называют также генеральным средним случайной величины X (mean) и обычно обозначают греческой буквой . Генеральная дисперсия (dispersion) D(X) случайной величины X определяется как математическое ожидание квадрата отклонений случайной величины от генерального среднего. Генеральным среднеквадратичным отклонением или стандартным отклонением (Std. deviation) случайной величины называют квадратный корень из дисперсии - (X).

На практике нам, как правило, неизвестен закон распределения, и мы имеем дело лишь с результатами измерений – выборкой из генеральной совокупности. Полученные из наблюденных значений выборочные характеристики случайной величины служат оценками для неизвестных нам характеристик генеральной совокупности.

^ Выборочное среднее (average) случайной величины X - среднее арифметическое полученных измерений - служит оценкой генерального среднего. Выборочная дисперсия (variance) S2(X) случайной величины X служит оценкой генеральной дисперсии. Корень квадратный из выборочной дисперсии S(x) называется выборочным среднеквадратичным (стандартным) отклонением (deviation). Стандартной ошибкой (Std. error) называют величину выборочной дисперсии, деленную на квадратный корень из объема выборки (числа измерений).

Проведем несколько серий измерений одной и той же величины, т.е., выражаясь статистическим языком, получим несколько выборок из одной генеральной совокупности и вычислим для каждой из них выборочные среднее и дисперсию. На рисунке приведены значения выборочного среднего и выборочного стандартного отклонения, полученные для 10 выборок объемом n=50 из одной генеральной совокупности. Как видно из рисунка, значения среднего арифметического из 50 измерений, различны в разных сериях измерений. То же можно сказать и о выборочных стандартных отклонениях.

Таким образом, выборочные оценки параметров распределения случайной величины также являются случайными величинами со своими законами распределения.

Пусть случайная величина X распределена нормально с параметрами  и . Посмотрим, каким законам распределения подчиняются случайные величины, функционально связанные с Х.

Если из Х вычесть его мат. ожидание и поделить на стандартное отклонение, то полученная случайная величина распределена также нормально с мат. ожиданием, равным нулю и дисперсией, равной единице. Это стандартное нормальное распределение.

Выборочное среднее, рассчитанное по выборке объема n, распределено нормально с тем же мат ожиданием, что и X и с дисперсией в n раз меньшей. Стандартное отклонение выборочного среднего равно сигма, деленная на квадратный корень из n.

Распределение Стьюдента (t-распределение) имеет величина, полученная из нормального распределения вычитанием мат. ожидания и делением на выборочное стандартное отклонение. Распределение Стьюдента имеет один параметр: число степеней свободы, равное n-1, где n – объем выборки.

Еще одно важное в статистике распределение – распределение Фишера. Его можно определить, как отношение выборочных дисперсий двух нормально распределенных величин. Распределение Фишера имеет 2 параметра: степени свободы для числителя и знаменателя – n-1, m-1. здесь n и m – объем выборок из X и Y соответственно.

В англоязычной литературе степени свободы обычно обозначаются сокращением d.f. – degrees of freedom.

На следующем слайде приведены примеры нескольких распределений. На рисунках слева – графики функций плотности вероятности, на рисунках справа – функция распределения.

Нормальное распределение.

График функции плотности нормального распределения симметричен относительно точки x=. Параметр  характеризует положение максимума графика функции на числовой оси, параметр  характеризует степень сжатия (растяжения) графика плотности вдоль оси x.

Распределение Стьюдента.

Функция плотности распределения вероятностей стьюдентовой случайной величины симметрична относительно x=0, она качественно напоминает функцию стандартного нормального распределения, но отличается более “массивными” хвостами (т.е. медленнее убывает).

F- распределение или распределение Фишера является асимметричным и определено только для неотрицательных значений.

Критической точкой (квантилем) случайной величины, имеющей функцию распределения F(x), называется корень xp уравнения F(x)=p, т.е. xp есть вещественное число, такое, что для случайной величины вероятность принять значение, не превышающее xp равна p. Как следует из определения плотности вероятности на графике функции плотности распределения вероятности p соответствует площадь под кривой слева от xp . Тогда площадь правого синего хвостика равна =1-p.

На рисунке справа видно, как, задав некоторое число xp, мы можем по функции распределения (Cumulative Distribution Function – CDF) найти вероятность, с которой случайная величина не превысит это заданное число. По обратной функции (inverse CDF) можно, задав вероятность р, определить число xp, которое с заданной вероятностью p не превысит случайная величина

К сожалению, как в статистических таблицах, так и в программных пакетах реализованы разные подходы, и при пользовании ими приходится разбираться, как организована таблица или программа.

Для обозначения вероятности p, соответствующей квантилю xp, иногда используют термин “площадь левого хвоста” (в англоязычных программах – Lower Tail Area). В некоторых компьютерных статистических программах можно по значению xp вычислить также и  – площадь под кривой плотности распределения справа от xp, равную 1-p. В англоязычных программах этой величине соответствует термин Upper Tail Area.

Если нам нужно найти значение квантиля xpпо заданной вероятности, то в программе Statgraphics нужно – что вполне логично - ввести значение p, но вот в EXCEL – ввести требуется значение  = 1-p

Для “двусторонних” распределений, таких как нормальное и Стьюдента, чаще всего требуется найти 2 значения x, такие, что с вероятностью p случайная величина X лежит между ними. Если (как чаще всего и бывает) нас интересует симметричный случай, то нам необходимо найти xa= x/2 и xb= x1-/2. Для 95-процентного интервала нам нужно найти на оси x две точки, которые отрежут от площади под кривой справа и слева две области площадью 2.5% каждая., т.е. квантили для p=0.025 и p=0.975. Для распределения Стьюдента, в силу симметрии функции относительно точки x=0, эти значения равны по модулю и противоположны по знаку, поэтому можно искать только один квантиль: x0.975. Во многих программах для этой ситуации предназначена опция “двусторонний” (в английском варианте Two-tailed). Однако и в этом случае в разных таблицах и в разных пакетах – увы! – реализованы разные подходы. Так, в пакете Statgraphics нужно ввести значение 0.975, а в EXCEL – 0.05.

При написании статей, отчетов необходимо правильно представлять результаты измерений. Важным требованием является указание точности результатов. Наиболее корректным способом представления данных является приведение доверительного интервала для измеренных величин. Что же означает запись x=30.5 +/- 0.2?

Пусть измеряется случайная величина X, про которую известно, лишь то, что она подчиняется нормальному закону, и имеются n результатов параллельных измерений X. Из выборки можем оценить выборочное среднее и среднеквадратичное отклонение s. Запишем Стьюдентову случайную величину

и построим для нее p-процентный доверительный интервал.

Из рисунка видно, что площадь под центральной частью графика функции плотности распределения равна p, а площадь каждого из двух закрашенных хвостов = /2, где  = 1-p. Пусть строим 95% доверительный интервал. Тогда р=0.95, а площади хвостов по 0.025 каждая. Очевидно, что границей левого хвоста является квантиль t-распределения t0.025. Площадь хвоста справа также равна 0.025, следовательно, площадь под кривой слева от граничной точки - 0.975, а сама граничная точка является квантилем t-распределения t0.975. Заметим, что t0.025 и t0.975 равны по модулю и противоположны по знаку.

Преобразуя двойное неравенство, получим интервал, которому с вероятностью р принадлежит неизвестное нам математическое ожидание случайной величины X.

Из выражения для ширины доверительного интервала следует, что увеличение объема выборки должно приводить к уменьшению ширины доверительного интервала, поскольку в знаменателе стоит корень из n. Но это лишь одна из причин, по которым стараются по возможности увеличить число параллельных определений. На рисунке видно, что с ростом n, а, следовательно, и числа степеней свободы, пик функции Стьюдента становится выше и уже; при этом значение квантиля t0.975 «подтягивается» ближе к центру распределения. На рисунке справа показано, как меняется значение квантиля t0.975, с изменением числа степеней свободы. Для двух параллельных определений, т.е. для числа степеней свободы равного 1, значение стандартной ошибки умножается на 12.7, для 3-х параллельных (ст.свободы = 2) уже только на 4.3, при дальнейшем росте объема выборки сомножитель t асимптотически приближается к значению 1.96.

еще рефераты

Еще работы по разное

Реферат по разное

Задачи для самостоятельной работы Алгоритм принятия решения о выборе критерия для сопоставлений

18 Сентября 2013

Реферат по разное

Тарас Васильевич Шевченко

18 Сентября 2013

Реферат по разное

Развитие музыкальных способностей

18 Сентября 2013

Реферат по разное

Особенности формирования музыкальных способностей детей дошкольного возраста средствами ритмопластики

18 Сентября 2013