Реферат: Эконометрика
1. Эконометрика как наука. Понятиевзаимосвязи между случайными величинами. Ковариация и коэффициент корреляции.Эконометрическая модель
«Эконометрика позволяетпроводить количественный анализ реальных экономических явлений, чтобыохарактеризовать их типичное поведение. Выделяют 2 вида статистического анализазависимостей:
1. Корреляционный анализ– позволяет оценить значимость и силу взаимосвязи, без указания вида зависимости
2. Регрессионный анализ –позволяет оценить и проанализировать формулу зависимости одной переменной отдругих.
Коэффициент ковариациипоказывает направленность взаимосвязи между двумя переменными. Являетсясостоятельной, смещенной оценкой.
Коэффициент корреляциипоказывает направленность и силу(!) взаимосвязи между двумя переменными. Значениякоэффициента корреляции:
— Близкие к 0 –свидетельствуют об отсутствии линейной взаимосвязи
— Близкие к (+1) – осильной прямой взаимосвязи
— Близкие к (–1) – осильной обратной взаимосвязи
Эконометрическая модель –это математическое описание экономического явления, отражающее наиболее важные егочерты. Модель упрощает, идеализирует изучаемое явление. О правильностипостроенной модели можно судить по близкому соответствию результатовмоделирования и фактических данных.
Общим моментом для любыхэконометрических моделей является разбиение зависимой переменной на две части:объясненную и случайную, и є – случайная составляющая. Y=f(x)+E
2. Понятие регрессии.Модель парной линейной регрессии. Диаграмма рассеяния и проблема выбора линиирегрессии. Природа случайного члена регрессии
Регрессионныйанализ – позволяет оценить и проанализировать формулу зависимости одной переменнойот других.
Линейная парная модель
/>
Уравнениерегрессии:
y = β0 + β1x + ε
β1 –показывает, на сколько изменится значение зависимой переменной y при изменении объясняющей переменнойx на единицу.
β0 –показывает среднее значение зависимой переменной y при нулевом значении объясняющей переменной x. Не всегда имеет экономическийсмысл. (компонент)
/>
Проблемавыбора линии заключаеться в том, что надо её максимально описать зависимость,чтобы по минимуму были отклонения.
Природаслучайного члена регрессионной модели
1.Невключение объясняющих переменных
2.Неправильная функциональная спецификация модели
3.Случайность поведения рассматриваемых объектов
4.Ошибки измерения
3. Метод наименьшихквадратов. Вывод формул метода наименьших квадратов для парного случая. Сутьметода, графическое представление, условия применения
Метод наименьшихквадратов — метод нахождения оптимальных параметров линейной регрессии, таких,что сумма квадратов ошибок (регрессионных остатков) минимальна.
Метод заключается вминимизации евклидова расстояния /> между двумя векторами — векторомвосстановленных значений зависимой переменной и вектором фактических значенийзависимой переменной.
Применение. Задача методанаименьших квадратов состоит в выборе вектора />, минимизирующегоошибку />.
Метод наименьшихквадратов имеет следующие преимущества:
— не требуется знаниязакона распределения случайного возмущения
— дает оценки по крайнеймере состоятельные
— в случае нормальногораспределения случайного возмущения оценки параметров линейной моделинесмещенные и эффективные
Formula: />
4.Свойства оценок коэффициентов регрессии, полученных с помощью метода наименьшихквадратов. Теорема Гаусса-Маркова — формулировка, смысл теоремы. УсловияГаусса-Маркова и последствия их нарушения
Теорема Гаусса—Маркова
оценки по обычному методунаименьших квадратов являются не только несмещенными оценками коэффициентоврегрессии, но и наиболее эффективными в том случае, если выполнены условияГаусса—Маркова. С другой стороны, если условия Гаусса—Маркова не выполнены, то,вообще говоря, можно найти оценки, которые будут более эффективными посравнению с оценками, полученными обычным методом наименьших квадратов. Вданной работе не приводится общее рассмотрение этих вопросов. Тем не менее втом случае, если условия Гаусса—Маркова для остаточного члена выполнены,коэффициенты регрессии, построенной обычным методом наименьших квадратов, будутнаилучшими линейными несмещенными оценками (best linear unbiased estimators,или BLUE): несмещенными, как уже было показано; линейными, так как они являютсялинейными функциями значений у; наилучшими, так как они являются наиболееэффективными в классе всех несмещенных линейных оценок. Теорема Гаусса—Марковадоказывает это (краткое изложение, не использующее матричной алгебры, дано вработе Дж. Томаса
длятого чтобы регрессионный анализ, основанный на обычном методе наименьшихквадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворятьчетырем условиям, известным как условия Гаусса—Маркова.
1-еусловие Гаусса—Маркова: E(Ut) = 0 для всех наблюдений. Первое условие состоит втом, что математическое ожидание случайного члена в любом наблюдении должнобыть равно нулю. Иногда случайный член будет положительным, иногда отрицательным,но он не должен иметь систематического смещения ни в одном из двух возможныхнаправлений. Vipolnjaetsja avtomaticeski,esli urava soderzit konstantu
2-еусловие Гаусса—Маркова: pop. var (u) постоянна для всех наблюдений. Второеусловие состоит в том, что дисперсия случайного члена должна быть постоянна длявсех наблюдений. Иногда случайный член будет больше, иногда меньше, однако недолжно быть априорной причины для того, чтобы он порождал большую ошибку водних наблюдениях, чем в других. Одна из задач регрессионного анализа состоит воценке стандартного отклонения случайного члена. Если рассматриваемое условиене выполняется, то коэффициенты регрессии, найденные по обычному методунаименьших квадратов, будут неэффективны. Narushenie privodit k geteroskedasticnosti
3- еусловие Это условиепредполагает отсутствие систематической связи между значениями случайного членав любых двух наблюдениях. Например, если случайный член велик и положителен водном наблюдении, это не должно обусловливать систематическую тенденцию к тому,что он будет большим и положительным в следующем наблюдении (или большим иотрицательным, или малым и положительным, или малым и отрицательным). Случайныечлены должны быть абсолютно независимы друг от друга. Narushenie privodit k avtokorreljacii
4-еусловие случайный член должен быть распределен независимо от объясняющихпеременных В большинствеглав книги мы будем в сущности использовать более сильное предположение о том,что объясняющие переменные не являются стохастическими, т. е. не имеютслучайной составляющей. Значение любой независимой переменной в каждомнаблюдении должно считаться экзогенным, полностью определяемым внешнимипричинами, не учитываемыми в уравнении регрессии. Если это условие выполнено,то теоретическая ковариация между независимой переменной и случайным членомравна нулю. Дело в том, что если случайный член и нормально распределен, то также будут распределены и коэффициенты регрессии.
Предположениео нормальности основывается на центральной предельной теореме. В сущности,теорема утверждает, что если случайная величина является общим результатомвзаимодействия большого числа других случайных величин, ни одна из которых неявляется доминирующей, то она будет иметь приблизительно нормальноераспределение, даже если отдельные составляющие не имеют нормальногораспределения.
5.Понятие качества регрессии, коэффициент детерминации, скорректированныйкоэффициент детерминации
Коэффициент детерминации (R2) Это оценка качества — этоквадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признакаобъясняется влиянием независимых переменных. Формула для вычислениякоэффициента детерминации:
/>
где yi — выборочные данные, а fi —соответствующие им значения модели.
Коэффициентпринимает значения из интервала [0;1]. Чем ближезначение к 1 тем ближе модель к эмпирическим наблюдениям. R2<50% Построенные при такихусловиях регрессионные модели имеют низкое практическое значение.
Значение R2 монотонновозрастает с ростом числа переменных (регрессоров) в регрессии, что зачастую неозначает улучшения качества предсказания. Потому правильнее использоватьскорректированный коэффициент детерминации, учитывающий число использованныхрегрессоров и корректировать коэффициент множественной детерминации на потерюстепеней свободы вариации.
6. Модельмножественной регрессии. Смысл коэффициентов множественной регрессии. Матричныйвид регрессии, метода наименьших квадратов и теоремы Гаусса-Маркова. Выводформул метода наименьших квадратов в матричном виде
Идея множественнойрегрессии состоит в том, что зависимая переменная определяется более чем однойобъясняющей переменной. Общий вид множественной регрессии:
/>
Коэф. Регрессиипоказывают насколько изменится значение зависимой переменной y, если значение соответствующейнезависимой переменной изменится на 1, при условии, что все остальныепеременные останутся неизменными.
Матричная форма записи
Пусть имеется выборка из п наблюдений, а модель включает k peгреccopов и константу. Введем обозначения:
Y=/> — вектор-столбец наблюдений (размерности п)
X=/>— матрица значений регрессоров (размерности п на k+1)
/> — вектор-столбец неизвестных параметров, (размерности k+1)
/> — вектор-столбец случайных ошибок, (размерности п)
Тогда множественную линейную регрессионную модель можнозаписать, в матричной форме:
/>
Метод наименьших квадратов
Необходимо найти методом наименьших квадратов оценкинеизвестных параметров β.
Они определяются исходя из условия минимизации суммыквадратов остатков по компонентам вектора β.
/>
7. Проверкагипотез в модели регрессии. Проверка гипотезы о коэффициенте регрессии.Значимость коэффициента, p-значение. Доверительный интервал для коэффициентоврегрессии
Частона практике необходимо ответить на вопрос: значимо ли отличается коэффициентрегрессии от определенного значения С.
Схематестирования гипотезы (критерий Стьюдента) выглядит следующим образом:
Н0:β = С – нулевая гипотеза
H1:β ≠ С – альтернативная гипотеза
• ВычисляютсяМНК-оценки коэффициентов регрессии и их стандартные ошибки
• Рассчитываетсянаблюдаемое значение статистики t: tнабл
• Выбираетсятребуемый уровень надежности γ (95%, 99%,99,9%) и находится критическоезначение статистики Стьюдента с соответствующим количеством степеней свободы:tкрит
• Если |tнабл| >tкрит (по модулю), то нулевая гипотеза отвергается в пользу альтернативной,если нет – нулевая гипотеза не отвергается.
P-значение
Частоудобнее рассматривать непосредственно вероятность того, что наблюдаемоезначение не превысит критическое: P-значениеили p-value – это вероятность принятия гипотезы, т.е. если p-значение <уровня значимости, который равен 0,01; 0,05 или 0,10 (чаще всего это 0,05), тонулевая гипотеза Н0 – отвергается. Часто проверяется гипотеза H0: β = 0, которую в этомслучае называют гипотезой о незначимости коэффициента.
Доверительныеинтервалы для коэффициентов регрессии
Доверительный интервал –это вычисленный на данных интервал, который с заданной вероятностью покрываетинтересующий нас неизвестный параметр генеральной совокупности. В его основеиспользуется стандартная ошибка оцениваемого параметра.
Приведенныйинтервал называют γ-процентным (90-, 95- или 99-процентным) доверительныминтервалом для истинного значения коэффициента β.
8. Проверкагипотез в модели регрессии. Общая линейная гипотеза. Гипотеза о качестверегрессионной модели. Сравнение длинной и короткой регрессий. Тест Чоу
Общая линейная гипотеза
ГипотезуHβ = r называют общей линейной гипотезой. Линейные гипотезы обычно вытекают из знанийэкспериментатора или его предположений относительно возможных моделей. Проблемасравнения двух подвыборок является частным случаем общей линейной гипотезы.
Гипотеза о качестверегрессионной модели ниодин регрессор не оказывает влияние на зависимую переменную. Гипотеза о равенстве нулю каждого изкоэффициентов регрессии в отдельности Н0: bi=0. Для этого вычисляетсяР-значение. Здесь следует подчеркнуть, что принятие Hо (высокое Р-значение) ещене говорит о том, что рассматриваемый признак xi нужно исключить из модели.Этого делать нельзя, поскольку суждение о ценности данного признака можетвыноситься, исходя из анализа совокупного взаимодействия в модели всехпризнаков. Поэтому высокое p-значение служит только «сигналом» о возможнойнеинформативности того или иного признака. Дляпроверки значимости модели регрессии используется F-критерий Фишера.
Сравнение длинной икороткой регрессий. Рассчитываем F-статистику и если это значение превышаеткритическое – делаем выбор в пользу неограниченной (длинной) регрессии, иначе –в пользу ограниченной (короткой).
Тест Чоу. Тест наравенство коэффициентов регрессии в двух выборках, называют тестом Чоу. Нулеваягипотеза проверяется с помощью F-статистики для гипотезы о том, чтокоэффициенты при всех добавленных переменных равны нулю.Выборку делят на части,у различных интервалов различный У, строят много интервалов, который наиболеезначим по тесту Чоу, где используют сумму квадратов остатков модели длян-подмножеств.
9. Нелинейныерегрессионные модели. Построение нелинейной модели. Оценивание эластичности спомощью регрессионной модели
Pri mnogoobrazii ekonomrpocessov casto zavisimostj budet nelinejnoj (spros,elasticnostj). Для оценки параметровнелинейных моделей используются два подхода. Первый подход основан налинеаризации модели и заключается в том, что с помощью подходящихпреобразований исходных переменных исследуемую зависимость представляют в виде линейногосоотношения между преобразованными переменными. Второй подход обычно применяетсяв случае, когда подобрать соответствующее линеаризующее преобразование неудается. В этом случае применяются методы нелинейной оптимизации на основеисходных переменных. Таким образом, функции, которые показывают изменение однойпеременной от другой в процентах или в несколько раз являются функциями,отражающими эластичность.
10. Сравнениерегрессионных моделей. Тест Бокса-Кокса, процедура Зарембки
1. КритерийХоэла. Estj dve pohozie modeli, Строят тестовую линейную зависимостьв виде уравнения в параметрической форме. Проверка сводится к оценке в уравнении углового коэффициента .Если значимо положителен (1), от модели />отказываются впользу второй модели />. Если незначимоположителен (<1), то нельзя определить, какая из моделей лучше.Критерий Хоэла называется несимметричным, так как онможет использоваться только при >0.
2. КритерийВильяма и Клута.Для сравнения двух регрессионных моделей, которые, по крайней мере,первоначально представляются равноценными, можно использовать симметричныйкритерий Вильяма и Клута. Проверка осуществляется путем оценки параметра в тестовом уравнении корреляция регрессиягетероскедастичность логарифмирование
Sravnivaemaljternativnie modeli po R2, esli odinakovie, to Тогда следует применять стандартную процедуру в виде тестаБокса — Кокса/>. Если нужно всего лишь сравнить модели сиспользованием результативного фактора и его логарифма в виде вариантазависимой переменой, то применяют вариант теста Зарембки/>- eto сравнения среднеквадратичной ошибки(СКО)/> в линейной и логарифмической моделях. Соответствующаяпроцедура включает следующие шаги.
1. Вычисляетсясреднее геометрическое значений у в выборке, совпадающее с экспонентой среднегоарифметического значений логарифма от у.
2. Пересчитываютсянаблюдения у таким образом, что они делятся на полученное на первом шагезначение.
3. Оцениваетсярегрессия для линейной модели с использованием пересчитанных значений у вместоисходных значений у и для логарифмической модели с использованием логарифма отпересчитанных значений у. Теперь значения СКО для двух регрессий сравнимы, ипоэтому модель с меньшей суммой квадратов отклонений обеспечивает лучшеесоответствие с истинной зависимостью наблюденных значений.
4. Для проверкитого, что одна из моделей не обеспечивает значимо лучшее соответствие, можноиспользовать произведение 1/2 числа наблюдений на логарифм отношения значенийСКО в пересчитанных регрессиях с последующим взятием абсолютного значения этойвеличины. Такая статистика имеет распределение χ2 с одной степенью свободы(обобщение нормального распределения).
11. Спецификациярегрессионной модели. Ошибки спецификации модели – включение незначимых иневключение значимых переменных. Замещающие переменныеВозможныеошибки спецификации регрессионной модели:
— Невключение значимых переменных
— Включение незначимых переменных
Невключениезначимых переменных
• (–)Смещенность оценок коэффициентов регрессии
• (–)Смещенность оценки дисперсии ошибок регрессии
• (+)Меньшая вариация оценок коэффициентов регрессии
Включениенезначимых переменных
• (+)Несмещенность оценок коэффициентов регрессии
• (+)Несмещенность оценки дисперсии ошибок регрессии
• (–)Большая вариация оценок коэффициентов регрессии
Замещающиепеременные, причины:
1.Необходимость показателя не была учтена при составлении выборки
2.Переменная трудноизмерима (например, уровень образования)
3.Сбор данных о переменной x1 требует значительных затрат
Приоценивании модели без переменной x1 полученные оценки будут смешенными.
Последствияиспользования замещающих переменных:
1.Оценки коэффициентов при переменных x2,…, xk становятся несмещенными
2.Стандартные ошибки и t-статистики коэффициентов te ze
3. R2имеет такое же значение, как и при оценивании с переменной x1
4.Коэффициент β1 нельзя оценить (оценивается только β1δ1), но егостандартная ошибка и t-статистика позволяет оценить значимость x1
5.Получить оценку свободного члена модели невозможно (но она часто и не особенноважна) последствия справедливы приблизительно
12.Мультиколлениарность в регрессионной модели: понятие, причины, последствия
Мультиколлинеарность— это понятие, котороеиспользуется для описания проблемы, когда нестрогая линейная зависимость междуобъясняющими переменными приводит к получению ненадежных оценок регрессии.Оценка любой регрессии будет страдать от нее в определенной степени, еслитолько все независимые переменные не окажутся абсолютно некоррелированными.
Различныеметоды, которые могут быть использованы для смягчения мультиколлинеарности,делятся на две категории: к первой категории относятся попытки повысить степеньвыполнения четырех условий, обеспечивающих надежность оценок регрессии; ковторой категории относится использование внешней информации, но можно привнести или усилитьавтокорреляцию, но она может быть нейтрализована. Кроме того, можно привнести (илиусилить) смещение, вызванное ошибками измерения, если поквартальные данныеизмерены с меньшей точностью, чем соответствующие ежегодные данные.
13. Включениекачественных признаков с регрессионную модель: фиктивные переменные,множественные фиктивные переменные, перекрестные фиктивные переменные
Качественныефакторы включаются в эконометрические модели с помощью фиктивных переменных. Подфиктивной переменной понимают переменную, которая равна 1 для конкретной частивыборочной совокупности, и 0 — для оставшейся части.
Переменные,полученные путем перемножения с фиктивными, обычно называют перекрестнымификтивными переменными.
Множественныефиктивные переменные – фиктивные переменные, которые принима.т не 2, а болеезначений.
Достаточночасто качественные объясняющие переменные принимают не два, а несколько (m) значений.
14. Прогнозирование спомощью регрессионной модели. Точечный и интервальный прогнозы
Прогноз получают путемподстановки в регрессионное уравнение Y = a0 + a1x.
Здесь a0, a1 — параметры,которые оцениваются из статистических данных.Они называются коэффициентами регрессии.
В случае же совместноговлияния на Y нескольких факторов (x1, x2, ..., xn) уравнение принимает вид
Y = a0 + a1x1 +… +anxn.
В первом случае имеемпарную Р., во втором — множественную) переменных. Результат представляет собойоценку среднего значения зависимой переменной при данных уровняхфактор-аргументов. Для уравнения регрессии обычно определяют доверительныеинтервалы, которые также можно использовать в прогнозировании.
точечный прогноз — прогноз,которым указывается единственное значение прогнозируемого показателя.Конкретное значение.
интервальный прогноз — прогноз,которым указывается не единственное значение прогнозируемого показателя(или вектор значений), а некоторый интервал. Пример И. п.: “Населениегорода N. составит в 2000 г. от 30 до 35 тыс. человек”.
15. Нарушение условиягомоскедастичности: гетероскедастичность, автокорреляция
Гетероскедастичность иавтокорреляция это нарушения условия гомоскедастичности (второго и третьегоусловия Гаусса-Маркова). Обычнорассматривают два варианта нарушения условия гомоскедастичности:
1. Ошибки имеют различнуюдисперсию для различных наблюдений — Гетероскедастичность. Гетероскедастичность – «неодинаковыйразброс» теоретическое распределение случайного члена является разным дляразличных наблюдений в выборке
Например,если рассматривать зависимость расходов на отдых от заработной платы, тологично предполагать, что разброс будет выше для более обеспеченных людей.
2.Ошибки имеют постоянную дисперсию, но неявляются независимыми Данное явлениеносит название автокорреляции
Общийслучай простое преобразования для того, чтобы добиться гомоскедастичности Вобщем случае:
1.Рассчитывают МНК-оценки коэффициентов регрессии
2.Находят остатки ei и их квадраты ei2
3.Находят логарифмы квадратов остатков ln(ei2)
4.Рассчитывают регрессию ln(ei2)
5.Получают прогноз ln(ei2)прог
6.Находят веса наблюдений wi= exp(ln(ei2)прог)
7.Полученные веса wi используют во взвешенном методе наименьших квадратов
Последствиягетероскедастичности и автокорреляции приводит к неэффективности получаемыхкоэфициентов регресии (но они остаются несмещенны) и к неправильному расчетунаблюдаемых t и F-статистик.
16. Обобщенный методнаименьших квадратов, теорема Айткена
Применениеобычного метода наименьших квадратов при нарушении условия гомоскедастичностиприводит к следующим отрицательным последствиям:
1.оценки неизвестных коэффициентов β неэффективны, то есть существуют другиеоценки, которые являются несмещенными и имеют меньшую дисперсию.
2.стандартные ошибки коэффициентов регрессии будут занижены, а, следовательно, t-статистики – завышены, и будет получено неправильное представление о точностиуравнения регрессии.
Обобщенныйметод наименьших квадратов
Рассмотримметод оценивания при нарушении условия гомоскедастичности, матрица имеет видβ= (ХТ Ω-1 Х)-1 ХТ Ω-1у
Расчётнеизвестных коэффициентов регрессии по данной формуле называют обобщённымметодом наименьших квадратов (ОМНК).
ТеоремаАйткена: при нарушении предположения гомоскедастичности оценки, полученныеобобщенным методом наименьших квадратов, являются несмещенными и наиболееэффективными (имеющими наименьшую вариацию). На практике матрица Ωпрактически никогда не известна. Поэтому часто пытаются каким-либо методомоценить оценки матрицы Ω и использовать их для оценивания. Этот методносит название доступного обобщенного метода наименьших квадратов.
17. Тесты нагетероскедастичность: Спирмена, Бреуша-Пагана, Уайта, Голдфельда-Квандта
Ранговая корреляция. Тестранговой корреляции Спирмена
• Ранг наблюдения переменной- номер наблюдения переменной в упорядоченной по возрастаниюпоследовательности.
• Тест ранговой корреляции Спирмена тестна гетероскедастичность, устанавливающий, что стандартное отклонениеостаточного члена регрессии имеет нестрогую линейную зависимость с объясняющейпеременной.
При выполнении тестаранговой корреляции Спирмена предполагается, что дисперсия случайного членабудет либо увеличиваться, либо уменьшаться по мере увеличения x, и поэтому врегрессии, оцениваемой с помощью МНК, абсолютные величины остатков и значения хбудут коррелированны. Данные по х и остатки упорядочиваются. Если предположить, чтосоответствующий коэффициент корреляции генеральной совокупности равен нулю,т.е. гетероскедастичность отсутствует, то коэффициент ранговой корреляции имеетнормальное распределение с математическим ожиданием 0 и дисперсией 1/(n — 1) вбольших выборках.
Тест Голдфелда-Квандта
• Наиболеепопулярным формальным критерием является критерий, предложенный С. Голдфелдом иР. Квандтом.
• При проведениипроверки по этому критерию предполагается, что стандартное отклонениераспределения вероятностей u пропорционально значению х в этом наблюдении.
• Предполагаетсятакже, что случайный член распределен нормально и не подвержен автокорреляции.
• Иными словами тестГолдфелда- Квандта — тест на гетероскедастичность, устанавливающий, чтостандартное отклонение остаточного члена регрессии растет, когда растетобъясняющая переменная.
• Все n наблюденийв выборке упорядочиваются по величине х, после чего оцениваются отдельныерегрессии для первых n’ и для последних n’ наблюдений;
• Средние (n- 2n’) наблюденийотбрасываются.
• Еслипредположение относительно природы гетероскедастичности верно, то дисперсия и впоследних n’ наблюдениях будет больше, чем в первых n’, и это будет отражено всумме квадратов остатков в двух указанных «частных» регрессиях.
• Обозначим суммыквадратов остатков в регрессиях для первых n’ и последних n’ наблюденийсоответственно через RSS1, и RSS2,
• рассчитаемотношение RSS2/RSS1, которое имеет распределение F с (n’ — k — 1 ) и (n’ — k — 1) степенями свободы, где k -число объясняющих переменных в регрессионномуравнении.
• МетодГолдфелда-Квандта может также использоваться для проверки на гетероскедастичностьпри предположении, что σ, обратно пропорционально х,.
• Используется таже процедура, что и описанная выше, но тестовой статистикой теперь являетсяпоказатель RSS1/RSS2, который вновь имеет F-распределение с ( n’- k — 1) и (n’- k -1) степенями свободы.
• Обозначим суммыквадратов остатков в регрессиях для первых n’ и последних n’ наблюденийсоответственно через RSS1, и RSS2,
• рассчитаемотношение RSS2/RSS1, которое имеет распределение F с (n’ — k — 1 ) и (n’ — k — 1) степенями свободы, где k -число объясняющих переменных в регрессионномуравнении
• Таким образом,тест Голдфелда-Квандта состоит из трех этапов:
1. все наблюдения ввыборке упорядочиваются по возрастанию х.
2. берутся первые ипоследние n наблюдений (треть от всех), оцениваются две различные регрессии и находятсяRSS1 и RSS2
3. Для отношенияRSS2/RSS1, проводят тест Фишера с (n’ — k — 1) верхними и (n’ — k — 1) нижнимистепенями свободы, где k — количество объясняющих переменных в регрессиях.
Тест Бреуш-Пагана
Тест применим в предположении,что: Дисперсии зависят от некоторых дополнительных переменных:
1. Строится уравнениерегрессии: и вычисляются остатки:
2. Вычисляют оценкудисперсии остатков:
3. Строят вспомогательноеуравнение регрессии
4. Для вспомогательногоуравнения регрессии определяют объясненную часть вариации RSS.
5. Находим тестовуюстатистику:
6. Если верна гипотеза H0:гомоскедастичность остатков, то статистика BP имеет распределение. Т.е. оналичии гетероскедастичности остатков на уровне значимости a свидетельствует:
Замечания
При гетероскедастичностьможет быть скорректирована:
Тест Уайта
Предполагается, чтодисперсии связаны с объясняющими переменными в виде: />
Т.к. дисперсиинеизвестны, то их заменяют оценками квадратов отклонений ei2.
Алгоритм применения (напримере трех переменных)
1. Строится уравнениерегрессии: и вычисляются остатки.
2. Оценивают вспомогательноеуравнение регрессии:
3. Определяют извспомогательного уравнения тестовую статистику
4. Проверяют общуюзначимость уравнения с помощью критерия c2.
Замечания
Тест Уайта является болееобщим чем тест Голдфелда-Квандта.
Неудобство использованиятеста Уайта: Если отвергается нулевая гипотеза о наличии гомоскедастичности тонеясно, что делать дальше.
18. Коррекциягетероскедастичности: логарифмирование, взвешенная регрессия, общий случай
Часто наличиегетероскедастичности в остатках регрессии свидетельствует о неправельнойспецификации модели.
Рассмотрим две модели –линейную
yi = ß0 +ß1xi + εi
и логарифмическую
yi =eßoxiß1eεi
В линейной моделислучайный член присудствует в аддитивной форме, а в логарифмической модели – вмультипликативной.
Мультипликативная формаотражает более сильное влияние случайного члена для больших значенийрегрессоров и более слабое – для маленьких.
Следовательно, если влинейной модели наблюдается такой вид гетероскедастичности, то вполне возможно,что в логарифмической модели гетероскедастичности не будет.
/>
Логарифмическая регрессияне всегда позволяет избавится от гетероскедастичности. Кроме того,логарифмическая модель не всегдя удовлетворяет целям исследования (требуетсяоценить зависимость в абсолютных величнах, а не эластичность)
В этих случаях используютдругой подход – взвешенную регрессию.
Рассмотрим модель
yi = ß0 +ß1xi + εi
Пусть в моделепресудствует гетероскедастичность
D(εi) =σi2
И нам известно точноезначения дисперсий ошибок модели σi2
(далее идут формулы ирешения, не думаю что их придется расписывать, поэтому не буду забивать вашисветлые головы всякими решениями)
После всех вычеслений… такимобразом случайный член модели имеет постоянную дисперсию (по расчетам она равна1 ), следовательно обычные МНК-оценки неизвестных коэфицентов будутнесмещенными и эффективными.
На практике дисперсииошибок почти никогда не бывает. Однако иногда можно предположить, что σi2 пропорциональны некоторой переменной zi.
/>
Тогда в качестве весов наблюденийследует использовать величину 1/zi:
/>
Дисперсия случайногочлена такой модели также постоянна
/>
Достаточно часто вкачестве переменной, взаимосвязанной с дисперсией случайного члена можноиспользовать регрессор:
σi = λxi
в этом случае взвешеннаямодель имеет вид:
/>
Коэфицент ß1 в преобразованной моделисоответствует свободному члену.
ОбщийслучайПодобрать простоепреобразование для того, чтобы добиться гомоскедастичности удается не всегда.
В общем случае используютследующую процедуру
1. РасчитываютсяМНК-оценки коэффицентов регресии
2. Находят остатки еi и их квадраты
3. Находят логарифмыотстатков
4. Расчитываютрегрессию
5. Плучают прогноз
6. Находят весанаблюдений wi
7. Полученные веса wi используют во взвешенном методенаименьших квадратов
19. Коррекциягетероскедастичности: логарифмирование, взвешенная регрессия, общий случай
/>
Часто наличиегетероскедастичности в остатках регрессии свидетельствует о неправельнойспецификации модели. Если в линейной модели наблюдается такой видгетероскедастичности, то вполне возможно, что в логарифмической моделигетероскедастичности не будет.
Логарифмическая регрессияне всегда позволяет избавится от гетероскедастичности. Кроме того,логарифмическая модель не всегдя удовлетворяет целям исследования (требуетсяоценить зависимость в абсолютных величнах, а не эластичность)
В этих случаях используютдругой подход – взвешенную регрессию. Пусть в моделе пресудствуетгетероскедастичность D(εi) = σi2 Послевсех вычеслений случайный член модели имеет постоянную дисперсию, следовательнообычные МНК-оценки неизвестных коэфицентов будут несмещенными и эффективными.На практике дисперсии ошибок почти никогда не бывает.
Общий случай
Подобрать простоепреобразование для того, чтобы добиться гомоскедастичности удается не всегда. Вобщем случае используют следующую процедуру
ü Расчитываются МНК-оценки коэффицентоврегресии
ü Находят остатки еi и их квадраты
ü Находят логарифмы отстатков
ü Расчитывают регрессию
ü Плучают прогноз
ü Находят веса наблюдений wi
ü Полученные веса wi используют во взвешенном методе наименьших квадратов
20. Автокорреляция:понятие, виды, последствия
Автокорреляция — случайные члены регрессии в разных наблюденияхявляются зависимыми. Автокорреляцияприводит к неэффективности получаемых МНК-оценок и к неправильному расчетунаблюдаемых t и F-статистик и ошибочным решениям при тестировании гипотез. Первый тип автокорреляции –положительная автокорреляция.-это когда после положительных ошибок болеевероятны положительные ошибки, после отрицательных – отрицательные. То естьошибки имеют тенденция к сохранению своего знака. Противоположный случай –это отрицательнойавтокорреляцией: когда после положительных ошибок более вероятны отрицательныеошибки, после отрицательных – положительные.
Виды автокорреляции:
А. первого порядка:Ошибка зависит от ее значений в предыдущие p периодов времени и от случайногочлена μt (называемого инновацией в момент времени t).
Автокорреляцией соскользящим средним q-oго порядка, обозначаемойMA(q), то есть ошибка в моментвремени t зависит от инноваций в текущий и предыдущие q моментов времени.Автокорреляция со скользящим средним первого порядка, MA(1):
Последствияавтокорреляции:
Потеря эффективностиоценок
Смещение дисперсии
t- и F-статистики неправильные.
20. Автокорреляция:тест Дарбина-Уотсона, исправление автокорреляции
Обнаружениеавтокорреляции:
1. Графический метод.
2. Метод рядов.
3. Специальные тесты.
Большинство тестов наналичие автокорреляции в модели основаны на идеи: если корреляция есть у ошибок/>t, то она будет и в остаткахрегрессионной модели еt. Наиболеераспространённый тест для обнаружения автокорреляции первого порядка: тестДарбина- Уотсона. Он основан на dстатистике: сравнивается среднеквадратичная разность соседних значений сдисперсией остатков.
Для процесса первогопорядка:
/>
Формула:
/> ,
для больших выборок d=2-2p
Статистика Д-Уприменяется для проверки нулевой гипотезы о том, что в ряду не существуеткорреляции первого порядка (автокорреляции) между коэффициентами. Сутьпроверки: в сравнении расчетных значений d с критическими значениями изтаблицы. Результат проверки:
P -> 0 d->2 Нет автокорреляции P -> 1 d->0 Положительная автокорреляция P -> -1 d->4 Отрицательная автокорреляцияЕсли автокорреляцияотсутствует, то />, и значение d должно быть близкимк 2. При наличии положительной автокорреляции d, будет меньше 2; приотрицательной автокорреляции d будет больше 2.
Критическое значение dпри данном уровне значимости зависит от количества объясняющих переменных вуравнении регрессии и от количества наблюдений. К сожалению, оно зависит еще иот конкретных значений, принимаемых объясняющими переменными. Поэтомуневозможно составить таблицу с точными критическими значениями для всехвозможных выборок.
/>
Тест Д-У ловит толькоопределённую автокорреляцию t от t-1. Поэтому существуют промежуткинеопределённости, где мы не можем утверждать есть автокорреляция или нет. Дляуменьшения промежутка неопределённости нудно увеличить число наблюдений.
Ограничения:
1. Тест не предназначендля обнаружения других видов автокорреляции (более чем первого).
2. В модели долженприсутствовать свободный член.
3. Данные должны иметьодинаковую периодичность (не должно быть пропусков в наблюдениях).
Устранениеавтокорреляции.
Если р известно:/>, где/>t инновация, которая патологическитоже может содержать ошибку, но мы считаем. что она ошибку не содержит. Т.к.ошибка в данный момент времени зависит от ошибки в предыдущий момент времени,можно её исправить, сдвинув все ошибки на 1 момент времени назад новойпеременной. Если р известно, то применение обобщённого метода наименьшихквадратов позволяет получить несмещенные, эффективные оценки неизвестныхкоэффициентов регрессии… Матрица выглядит следующим образом: главная диагональ=1, вторая =р, далее pn*var(/>t ), и т.д. Проблема автокорреляцииустранена. На практике значения коэффициента автокорреляции r обычно неизвестны и его оцениваютдругим способом.
Если р неизвестно: Нужноумножить уравнение />t -1 на ρ и вычесть из />t., т.е. />
Полученная модель будетэквивалентна модели со случайным членом. Примечание: модель содержит значениерегрессора и зависимой переменной в предыдущий момент времени.
21. Временныеряды, характеристики временных рядов, декомпозиция
Временно́й ряд— это упорядоченная (по времени)последовательность значений некоторой произвольной переменной величины. Каждоеотдельное значение данной переменной называется отсчётом временного ряда. Темсамым, временной ряд существенным образом отличается от простой выборки данных.
Ана́лизвременны́х рядо́в — совокупность математико-статистических методов анализа,предназначенных для выявления структуры временных рядов и для их прогноза.
Временныеряды состоят из двух элементов:
a. периода времени;
b. числовых значенийтого или иного показателя, называемых уровнями ряда.
Временныеряды классифицируются по следующим признакам:
· по формепредставления уровней
· по характерувременного параметра: моментные и интервальные временные ряды.
· по расстояниюмежду датами и интервалами времени выделяют полные (равноотстоящие) – когдадаты регистрации или окончания периодов следуют друг за другом с равнымиинтервалами и неполные (неравноотстоящие) – когда принцип равных интервалов несоблюдается.
· временные рядыбывают детерминированными и случайными: первые получают на основе значенийнекоторой неслучайной функции (ряд последовательных данных о количестве дней вмесяцах); вторые есть результат реализации некоторой случайной величины.
· в зависимости отналичия основной тенденции выделяют стационарные ряды – в которых среднее значениеи дисперсия постоянны и нестационарные – содержащие основную тенденциюразвития.
· Типичным примеромвременного ряда можно назвать биржевой курс, при анализе которого пытаютсяопределить основное направление развития (тенденцию или тренда).
22. Стохастическиерегрессоры. Двухшаговый метод наименьших квадратов. Тест Хаусмана
Невсегда допустимо, что регрессоры не являются случайными величинами (и,соответственно, некоррелированы со случайным членом модели). Возможные причины:
1.Приизмерении значений регрессоров допускается возможность случайных ошибок (ошибокизмерения) 2.В состав регрессоров входят лаги зависимой переменной, которыеявляются случайными величинами.
Рассмотримсначала ситуацию, когда регрессоры являются стохастическими, но невзаимосвязаны со случайным членом модели:
Cov(Xj,ε)= 0, j=1,…, k
Пустьтакже матрица X имеет полный ранг (то есть ни одна из реализаций случайной матрицыне имеет линейно зависимых столбцов). В этом случае выполняются условияГаусса-Маркова, а, следовательно, обычный метод наименьших квадратов позволяетполучить несмещенные эффективные оценки неизвестных параметров модели. Еслиусловие независимости регрессоров и случайного члена модели не выполняется, тооценки, полученные с помощью метода наименьших квадратов, будут:
1.Смещенными
2.Несостоятельными
Однимиз возможных вариантов получения более хороших оценок параметров моделиявляется использование инструментальных переменных
Двухшаговый методнаименьших квадратов (ДМНК)/> использует следующую центральную идею: на основеприведенной формы модели/> получают для сверхидентифицируемогоуравнения теоретические значения эндогенных переменных/>,содержащихся в правой части уравнения. Затем они подставляются вместофактических значений и применяют обычный МНК/> к структурнойформе сверхидентифицируемого уравнения. В свою очередь, сверхидентифицируемаяструктурная модель может быть двух типов: либо все уравнения системысверхидентифицируемы, либо же система содержит наряду со сверхидентифицируемымии точно идентифицируемые уравнения. В первом случае, если все уравнения системысверхидентифицируемые, для оценки структурных коэффициентов каждого уравненияиспользуется ДМНК. Если в системе есть точно идентифицируемые уравнения, тоструктурные коэффициенты по ним находятся из системы приведенных уравнений.
Напервом шаге с помощью обычного метода наименьших квадратов оценивают зависимостьX от Z:
Прогнозныезначения этой модели используются на втором шаге, для получения оценокнеизвестных коэффициентов. Таким образом, необходимо выбрать между возможнонесостоятельными, но эффективными МНК-оценками, и неэффективными, но состоятельнымиИП-оценками.
/>
Выбормежду такими двумя оценками осуществляется на основе теста Хаусмана.
/>
Даннаястатистика имеет распределение Хи-квадрат с m степенями свободы (m – количествоинструментальных переменных) χ2(m) при выполнении нулевой гипотезы оботсутствии корреляции между регрессорами и случайным членом.
Соответственно, еслинаблюдаемое значение статистики не превысит критическое, то нулевая гипотеза неотклоняется и следует предпочесть обычные МНК-оценки, в противном случае – ИП-оценки.