Реферат: Множественная регрессия и корреляция

/>Множественная регрессия и корреляция

Пусть требуется построить линейную модель зависимостинекоторого выходного экономического показателя />,называемого объясняемой переменной от набора входных показателей />, называемых объясняющимипеременными. Основным методом построения таких моделей является методнаименьших квадратов, смысл которого состоит в том, чтобы подобрать параметрымодели, минимизирующие суммы квадратов отклонений модельных значенийобъясняемой переменной от истинных значений. Метод наименьших квадратовреализован во всех статистических пакетах программ, а также в средствахстатистического пакета Анализа данных Microsoft Excel.

Пусть /> - /> наблюдений объясняемойпеременной, а /> - /> наблюдений /> объясняющих переменных. Задача состоит в построении по данной выборке линейной модели зависимостиобъясняемой переменной от вектора объясняющих переменных.

/>.

Здесь /> –коэффициенты модели, которые надо определить, а /> -ошибка измерения модели.

Для адекватной работы метода наименьших квадратов требуетсявыполнение следующих гипотез:

1. />. (спецификация модели).

2. /> -детерминированные величины, причемв матрице

столбцы линейно независимые, т.е. ранг этой матрицы равен />.

3. /> - случайная величина,удовлетворяющая условиям

3а. />, математическоеожидание ошибки равно нулю;

3b. />, дисперсияошибки не зависит от номера наблюдения;

3с. />, т.е. ошибкиразных наблюдений не зависят друг от друга.

Справедлива теорема Гаусса-Маркова, что при этих условияхметод наименьших квадратов дает наилучшую в некотором смысле модель. Еслинекоторые из условий не выполняются, то приходится использовать более сложныеметоды.

В результате применения метода наименьших квадратов находятсяоценки коэффициентов модели />. Поэтим оценкам и по значениям объясняющих переменных /> строятсямодельные значения объясняемой переменной />.Обозначим через /> отклонениеистинного значения объясняемой переменной от модельного для />-го наблюдения (/>). Качество моделиоценивается через сумму квадратов отклонений модели

/>.

/> ( error sum of squares) называется суммой квадратовошибок.

Метод наименьших квадратов состоит в том, что среди всехвозможных наборов коэффициентов модели находится набор, минимизирующий />.

Если все коэффициенты модели, кроме константы />, равны нулю, то /> - среднему значениюобъясняемой переменной. Тогда сумма квадратов отклонений равна

/>.

/> ( total sum of squares) называется общей суммойквадратов.

За счет того, что не все коэффициенты модели равны нулю,сумма квадратов отклонений уменьшается. В соответствии с этим величина

означает объясненную сумму квадратов (regression sum ofsquares).

После получения оценок /> необходимоопределить, все ли из них значимо отличаются от нуля, так как, если коэффициентравен нулю, это означает, что соответствующая объясняющая переменная неучаствует в модели. Коэффициент значим, если гипотезу его равенства нулю надоотвергнуть. Соответственно значимостью коэффициента называется вероятность того,что его знак совпадает со знаком его оценки.

Для полученной модели необходимо уметь определять, можно лиотбросить несколько входящих в нее объясняющих переменных или добавитьпеременные, не входящие в модель. С этой целью, проводят тест для определениякакая модель лучше – «длинная» или «короткая». Также необходимо проверятьоднородность модели для разных наборов переменных. Для этого предназначен тестЧоу. Для оценки адекватности модели надо проверять тесты на выполнение условийтеоремы Гаусса-Маркова.

/>Тест на выбор «длинной» или«короткой» регрессии

Данный тест используется для отбора наиболее существенныхобъясняющих переменных. Например, переход от большого числа исходныхпоказателей состояния анализируемой системы к меньшему числу наиболееинформативных переменных может быть обусловлен дублированием информации,доставляемой сильно взаимосвязанными признаками или неинформативностьюпризнаков, мало меняющихся при переходе от одного объекта к другому. Так, еслидве какие-либо объясняющие переменные сильно коррелированы с результирующимпоказателем /> и друг сдругом, то часто бывает достаточно включения в модель одной из них, адополнительным вкладом от включения другой можно пренебречь.

Пусть />.Предположим, что модель не зависит от последних /> объясняющихпеременных и их можно исключить из модели. Это соответствует гипотезе

/>,

т.е. последние /> коэффициентов/> равны />.

Тест по проверке данной гипотезы состоит в следующем:

1. Построить по МНК «длинную» (unrestricted) регрессию повсем параметрам /> и найти для нее />.

2. Используя МНК, построить «короткую» (restricted) регрессиюпо первым /> параметрам /> и найти для нее />.

3. Вычислить F-статистику:

4. Найти критическую точку распределения Фишера при выбранномуровне значимости />: />.

5. Если />, тогипотеза />отвергается, т.е. следуетиспользовать «длинную» модель.

Если />, то гипотеза /> принимается, т.е. лучше«короткая» модель.

/>Тест Чоу на однородность зависимостиобъясняемой переменной от объясняющих

На практике нередки случаи, когда имеются две выборки парзначений зависимой и объясняющей переменных />.Например, одна выборка пар значений переменных объемом /> получена при однихусловиях, а другая, объемом />, — при несколько измененных условиях. Необходимо выяснить, действительно ли двевыборки однородны в регрессионном смысле? Другими словами, можно ли объединитьдве выборки в одну и рассматривать единую модель регрессии /> по /> (гипотеза />)?

Для проверки гипотезы />применяетсятест Чоу (Chow), состоящий в следующем:

1. Используя МНК, построить модель по выборке объемом /> и найти для нее />.

2. Пусть есть основание предполагать, что вся выборка состоитиз двух подвыборок объемами /> и /> соответственно. Для каждойиз них строится линейная регрессия./> - суммаквадратов отклонений значений />отрегрессионных значений />, посчитанных попервой подвыборке, /> – суммаквадратов отклонений значений />отрегрессионных значений />, посчитанных повторой подвыборке.

3. Вычислить F – статистику:

/> ,

где /> –число объясняющих переменных модели.

4. Найти критическую точку распределения Фишера при выбранномуровне значимости />.

5. Если />, то мыможем объединить две выборки в одну. Если />,то необходимо использовать две модели.

/>Тесты на гетероскедастичность

Гомоскедастичность – дисперсия каждого отклонения />одинаковадля всех значений />.

Гетероскедастичность – дисперсия объясняемой переменной (следовательно, ислучайных ошибок) непостоянна.

В тестах на гетероскедастичность проверяется основнаягипотеза /> (т.е. модельгомоскедастична) против альтернативной гипотезы />:не /> (т.е. модель гетероскедастична).

/>Тест Гольдфельда – Куандта (Goldfeld- Quandt)

Этот тест применяется, как правило, когда есть предположениео прямой зависимости дисперсии ошибок от величины некоторой объясняющейпеременной, входящей в модель.

Предполагается, что /> имеетнормальное распределение. Тест включает в себя следующие шаги:

1. Упорядочить данные по убыванию (или по возрастанию) тойнезависимой переменной, относительно которой есть подозрение нагетероскедастичность.

2. Исключить /> средних(в этом упорядочении) наблюдений (/>, где /> – общее количествонаблюдений).

3. Провести две независимых регрессии первых />наблюдений и последних /> наблюдений и найти,соответственно, /> и />. Из /> и /> выбираем большую и меньшуювеличины, соответственно, /> и />.

4. Составить статистику /> инайти по распределению Фишера />, где /> – число объясняющихпеременных модели.

5. Если />, тогипотеза />отвергается, т.е. модельгетероскедастична, а если />, тогипотеза /> принимается, т.е. модельгомоскедастична.

/>Тест Бреуша – Пагана (Breusch — Pagan)

Этот тест применяется в тех случаях, когда предполагается,что дисперсии /> зависят отнекоторых дополнительных переменных. Пусть />, />. Тест состоит в следующем:

1. Провести обычную регрессию и получить />. (Для этого в диалоговомокне Регрессия установить флажок на функцию Остатки)

2. Построить оценку />.

3. Провести регрессию /> и найти для нееобъясненную часть вариации />.

4. Построить статистику />.

5. Если />(где p– число переменных, от которых зависит />),то имеет место гетероскедастичность.

Если />, то — гомоскедастичность.

/> — критическая точка распределения /> (хи-квадрат) при выбранномуровне значимости />, для нахождениякоторой выполнить следующую последовательность действий: fx/> Статистические/> ХИ2ОБР

/>Тест Дарбина – Уотсона(Darbin-Watson) на наличие автокорреляции

Этот тест используется для обнаружения автокорреляции первогопорядка, т.е. проверяется некоррелированность не любых, а только соседнихвеличин />. Соседними обычносчитаются соседние во времени (при рассмотрении временных рядов) или повозрастанию объясняющей переменной /> значения/>.

Гипотеза />(автокорреляцияотсутствует).

Общая схема критерия Дарбина – Уотсона следующая:

1. По эмпирическим данным построить уравнение регрессии поМНК и определить значения отклонений /> длякаждого наблюдения t (t = 1, 2, …, n).

2. Рассчитать статистику DW:

3. По таблице критических точек распределения Дарбина–Уотсона для заданного уровня значимости />,числа наблюдений /> и количестваобъясняющих переменных /> определить двазначения: /> - нижняя граница и /> - верхняя граница (таблица2).

Полный вариант таблицы приведен в разделеМатематико-статистические таблицы (Таблица5. Значения dH и dB критерия Дарбина—Уотсона на уровнезначимости  = 0,05 (n — число наблюдений, р — число объясняющихпеременных). множественный корреляциярегрессия

Таблица 2.

Статистика Дарбина – Уотсона, уровень значимости 0,05

1 2 3 4 5