Реферат: Пособие состоит из двух самостоятельных разделов

Введение

Данное пособие появилось как результат факультатива и спецкурса, прочитанных автором для студентов экономического факультета Новосибирского университета в 1996 г. Пособие состоит из двух самостоятельных разделов.

Раздел I основан на факультативе “Некоторые эконометрические методы” (совместно с Н. Ибрагимовым). Факультатив предназначался в основном для студентов 2-го курса, которые только начинали слушать вводный курс эконометрии. Поэтому для понимания раздела не требуется серьезного знакомства с эконометрической теорией. Исключение составляют дополнительные параграфы, посвященные популярной в настоящее время теме единичных корней и коинтеграции.

Раздел II представляет собой переработанный материал спецкурса “Метод максимального правдоподобия в эконометрии”. Это цельный продвинутый курс, рассчитанный на студентов, хорошо знакомых с классическими эконометрическими методами. Метод максимального правдоподобия составляет теоретическую основу большей части эконометрии. Знание его необходимо для понимания современной экономической литературы. В этом пособии продемонстрировано применение ММП к некоторым базовым видам моделей, что позволяет познакомиться с возможностями метода и научиться основным приемам. Главное внимание уделено теории тестирования и методов оценивания. Полученные навыки должны помочь, если такая необходимость возникнет в ходе исследований, самостоятельно разрабатывать методы оценивания и тестирования для моделей других видов.

Основой для изложения метода максимального правдоподобия и его применений послужила книга R. Davidson & J.G. MacKinnon, ^ Estimation and Inference in Econometrics. Многие подходы и обозначения совпадают. Данное пособие, однако, не является простым переложением этой книги. Книга Дэвидсона и Мак-Киннона предназначена для изучения курса эконометрии в целом, а пособие делает акцент именно на одном этом методе. Кроме того, при написании пособия использованы другие учебники и оригинальные статьи из научных журналов. Поэтому рассматривается ряд тем и методов, которые отсутствуют у Дэвидсона и Мак-Киннона. Материал изложен так, как это было удобнее с точки зрения целей данного пособия. Доказательства основных свойств оценок ММП (состоятельности, асимптотической эффективности и асимптотической нормальности) не приводятся. Их можно найти в учебниках по математической статистике.

Хотя второй раздел ни в коем случае не претендует на математическую строгость, однако является гораздо менее простым, чем первый раздел. Широко используется аппарат матричной алгебры и матричного анализа. Используемые правила матричных операций особо выделены в тексте раздела.

В целом пособие дополняет имеющуюся на русском языке литературу по эконометрическим методам.

Оглавление

I. Некоторые эконометрические методы 7

Функциональная форма регрессионной модели 8

Тестирование правильности спецификации регрессионной модели 8

Линейные и нелинейные модели 9

Выбор между альтернативными функциональными формами 13

Фиктивные переменные как регрессоры 15

Общие соображения 15

Использование фиктивных переменных для проверки однородности наблюдений и прогнозирования 17

Использование фиктивных переменных в моделях с временными рядами 19

Спектральный анализ и регрессия 21

Модели с качественной зависимой переменной 22

Модели с бинарной зависимой переменной 22

Модель выбора. Пробит и логит 23

Оценка качества модели и проверка гипотез 24

Множественные модели с качественными зависимыми переменными 26

Динамическая спецификация регрессионной модели 27

Модель распределенного лага 28

Динамические регрессионные модели. Авторегрессионная модель с распределенным лагом 30

Интегрированные процессы, ложная регрессия и коинтеграция 33

Стационарные и нестационарные случайные процессы. 33

Ложная регрессия 35

Тестирование стационарности 38

Коинтеграция. Регрессии с интегрированными переменными 43

Оценивание коинтеграционной регрессии: подход Энгла-Грейнджера 45

Коинтеграция в динамических системах: подход Йохансена 46

Литература по единичным корням и коинтеграции 50

^ II. Метод максимального правдоподобия в эконометрии 52

Базовые понятия 53

Характеристика ММП. 57

Связь ММП с МНК. Квази-МП методы. 58

Связь гессиана и матрицы вкладов в градиент с информационной матрицей 59

Гессиан и информационная матрица 59

Матрица вкладов в градиент и информационная матрица 60

Вычисление информационной матрицы 61

Распределение градиента и оценок максимального правдоподобия 62

Асимптотическое распределение градиента и оценок максимального правдоподобия 62

Выборочная оценка распределения градиента и оценок максимального правдоподобия 63

Численные методы нахождения оценок максимального правдоподобия 65

ММП и проверка гипотез 67

Асимптотическое распределение и аcимптотическая эквивалентность трех классических статистик 67

Соотношения между статистиками 71

Модели с дискретной зависимой переменной 73

Модели с бинарной зависимой переменной (логит и пробит) 73

Пуассонова регрессия 76

Обобщенный метод наименьших квадратов 77

Регрессии с неодинаковой дисперсией и тестирование гетероскедастичности 80

Взвешенный метод наименьших квадратов 80

Проверка гипотезы о наличии гетероскедастичности известного вида 80

Регрессия с мультипликативной гетероскедастичностью 82

Нелинейная регрессия. Метод Гаусса-Ньютона 83

Оценивание регрессии с AR-ошибкой 84

Нелинейная регрессия с пропущенным первым наблюдением 85

Оценивание регрессии с AR(1)-ошибкой полным методом максимального правдоподобия 85

Регрессия с MA-ошибкой 87

Оценивание регрессия с MA(1)-процессом в ошибке полным методом максимального правдоподобия 87

Оценивание регрессии с MA-ошибкой нелинейным МНК 88

Регрессия с ARCH-процессом в ошибке 89

Якобиан преобразования плотности распределения в функции правдоподобия 93

Функция правдоподобия модели типа e = f (Y,q 1) 93

Преобразование зависимой переменной. Модель Бокса-Кокса 94

Тест на нормальность 95

Регрессия с ошибками во всех переменных 97

Внешне не связанные регрессионные уравнения 99

Системы одновременных уравнений 103

FIML 104

LIML 106

^ Использованная литература 108

Предметный указатель 110

^ I. Некоторые эконометрические методы Функциональная форма регрессионной модели
Необходимость изменить функциональную форму модели возникает, если неверна одна из следующих гипотез, выполнение которых требуется для того, чтобы обычный метод наименьших квадратов (ОМНК) в применении к регрессионной модели Y i=X ib+ e i(i = 1,..., N) давал хорошие результаты: 1

1. Ошибки имеют нулевое математическое ожидание, или, что то же самое, мат. ожидание зависимой переменной является линейной комбинацией регрессоров:

E(ei) = 0, E(Y i) = X ib .

2. Ошибки гомоскедастичны, т. е. имеют одинаковую дисперсию для всех наблюдений:

V(ei2) = E(ei2) = s2.
^ Тестирование правильности спецификации регрессионной модели

Рис. 1
Если ошибка имеет ненулевое мат. ожидание, то оценки ОМНК окажутся смещенными. Другими словами, в ошибке осталась детерминированная (неслучайная) составляющая, которая может быть функцией входящих в модель регрессоров, что и означает, что функциональная форма выбрана неверно. Заметить эту ошибку спецификации можно на глаз с помощью графиков остатков по “подозрительным” переменным: регрессорам и их функциям (в т. ч. произведениям разных регрессоров), расчетным значениям и их функциям. Остатки дают представления об ошибках, поэтому они должны в правильно заданной регрессии иметь везде нулевое среднее. Если остатки (e), например, для каких-то значений некоторой переменной Z в среднем больше нуля, а для каких-то – меньше, то это служит признаком неправильно специфицированной модели (см. Рис. 1).

Похожим образом обнаруживается и гетероскедастичность (отсутствие гомоскедастичности). Она проявляется в том, что разброс остатков меняется в зависимости от некоторой переменной Z (см. Рис. 2)

Рис. 2
Дисперсия ошибок может меняться в зависимости от регрессоров и их функций, расчетных значений и их функций. Формальный тест можно провести с помощью вспомогательной регрессии — регрессии квадратов остатков по “подозрительным” переменным и константе. Соответствующая статистика — обычная F-статистика для гипотезы о равенстве нулю коэффициентов при всех переменных кроме константы, выдаваемая любым статистическим пакетом.

Ошибки в спецификации функциональной формы обнаруживаются также тестами на автокорреляцию остатков, такими как статистика Дарбина-Уотсона, если наблюдения упорядочены по каком-либо признаку, например, по порядку возрастания одного из регрессоров. Понятно, что это тест неформальный.
^ Линейные и нелинейные модели
Линейная форма модели в целом является более предпочтительной. Линейные модели оцениваются более простым методом наименьших квадратов. При выполнении некоторого набора гипотез оценки ОМНК для линейной модели обладают рядом хороших свойств, не выполняющихся для оценок нелинейной модели, это же относится к распределениям оценок и различных статистик.

В линейной регрессионной модели мат. ожидание зависимой переменной — это линейная комбинация регрессоров с неизвестными коэффициентами, которые и являются оцениваемыми параметрами модели. Такая модель является линейной по виду. В матричной форме ее можно записать как Y = Xb + e. Не обязательно, чтобы влияющие на Y факторы входили в модель линейно. Регрессорами могут быть любые точно заданные (не содержащие неизвестных параметров) функции исходных факторов – это не меняет свойств ОМНК. Важно, чтобы модель была линейной по параметрам. Бывает, что модель записана в виде, который нелинеен по параметрам, но преобразованием уравнения регрессии и переобозначением параметров можно привести ее к линейному виду. Такую модель называют внутренне линейной.

Поясним введенные понятия на примерах. Модель Y = a + b X1X2 + e нелинейна по X1 и X2, но линейна по параметрам, и можно сделать замену X = X1X2, так что модель примет линейный вид: Y = a + b X + e . Модель Y = exp (a + bx + e) нелинейна по виду, но сводится к линейной логарифмированием обеих частей: lnY =a + b x + e . В этой новой модели зависимой переменной будет уже lnY. Модель Y = (a – 1)(b + X ) + e нелинейна по параметрам a и b, но сводится к линейной заменой параметров a = (a – 1) b и b = a – 1. Тогда Y = a + b X + e .

Для применения метода наименьших квадратов важно, чтобы ошибка была аддитивной, то есть, чтобы зависимая переменная являлась суммой своего математического ожидания и ошибки. Об этом следует помнить, производя преобразования модели. Например, модель Y = a X b + e нельзя преобразовать в линейную по параметрам с аддитивной ошибкой. Аналогичную модель с мультипликативной ошибкой Y = a Xbe можно преобразовать к виду lnY = lna + b lnX + lne или = + b + где = lnY, = lna, =lnX, = lne. Однако следует отметить, что вследствие преобразования распределение ошибки изменилось. Если оказывается нормально распределенной, это значит, что e имела логнормальное распределение.

Экономическая теория оперирует моделями разных типов. Некоторые из них дают регрессионные уравнения линейного вида, некоторые – нелинейного. Рассмотрим это на примере однородных производственных функций. Самая популярная производственная функция – функция Кобба-Дугласа – легко приводится к линейному виду логарифмированием:

Y = a Kb L1–b Þ

lnY – lnL = lna + b (lnK – lnL),

где Y – выпуск продукции, K — капитал, L — труд.

Функция с постоянной эластичностью замены (ПЭЗ) дает внутренне нелинейное уравнение регрессии:

Y =a (bKr + (1–b)Lr)1/r.

Достаточно гладкую функцию вблизи некоторой точки можно разложить в ряд Тейлора, получив тем самым линейную форму модели. Так, при r ® 0 функция с постоянной эластичностью замены совпадает с функцией Кобба-Дугласа. Если же приблизить функцию ПЭЗ в точке r = 0 разложением в ряд Тейлора до членов первого порядка, то получается так называемая транслоговая производственная функция:

lnY – lnL = lna + b (lnK – lnL) + g (lnK – lnL)2,

где g = rb(1–b).

Разложение в ряд Тейлора дает полиномиальную форму модели. В полиномиальную регрессионную модель могут входить не только первые степени исходных переменных, но и их одночлены различных степеней: степени этих переменных и члены взаимодействия (произведения степеней двух или более различных переменных).

Может случиться: что “истинная” модель бывает настолько нелинейной, что полиномиальное приближение становится неудовлетворительным — количество оцениваемых параметров было бы слишком большим. Тогда приходится пожертвовать удобствами ОМНК и использовать нелинейный МНК или другие методы. Есть также много других причин, по которым предпочтительнее использовать внутренне нелинейную функциональную форму. Например, функция ПЭЗ, рассмотренная выше, включает в себя как частные случаи при разных значениях параметра r сразу несколько популярных видов производственных функций: функцию Кобба-Дугласа, линейную функцию (с полной взаимозаменяемостью факторов) и функцию леонтьевского типа (с полной взаимодополняемостью факторов). Оценив ее, можно сделать вывод о том, к какому из этих трех видов ближе “истинная” функция.

Кроме натуральных степеней исходных переменных можно использовать и другие функции от них. Это и уже встречавшиеся выше логарифмы и т. п.: lnX, , 1/X, e X, 1/(1+e–X) (логиста) и др. Интересной функцией является преобразование Бокса-Кокса: . При a ® 0 она стремится к lnX. При других значениях это некоторая степень X (с точностью до линейного преобразования). В этом отношении преобразование Бокса-Кокса схоже с функцией ПЭЗ. Оно также похоже на нее в том отношении, что дает внутренне нелинейную модель. Обычно исследователь обладает достаточной свободой при выборе функциональной формы модели. Но важно, чтобы при этом не нарушались те условия, которые необходимы для хорошей работы применяемых методов оценивания. Нужно не забывать проводить проверку правильности спецификации модели и исправлять модель, когда получена плохая диагностика, например, добавлять одночлены более высоких степеней в полиномиальную модель.

Рассмотрим, как может помочь изменение функциональной формы в борьбе с гетероскедастичностью. Многие экономические переменные таковы, что размер отклонений, с ними связанных, зависит от величины этих переменных (например, пропорционален), а величина эта в выборке колеблется в широких пределах (изменяется в несколько раз). Возникающая при этом гетероскедастичность снижает эффективность оценок параметров. Объяснить потерю эффективности можно следующим образом. В методе наименьших квадратов все наблюдения выступают в одинаковых "весовых категориях", и поэтому в оценках непропорционально мало используется информация от наблюдений с меньшей дисперсией. Тем самым происходит потеря информации. Поэтому, например, нехорошо в регрессию включать временные ряды для номинальных показателей, если в рассматриваемой стране высокая инфляция, или использовать непреобразованную модель в случае выборки стран, в которой есть и большие, и малые страны (США наряду с Исландией). Обычно применяют два вида преобразований. Рассмотрим их на примере функции потребительского спроса кейнсианского типа: C = aI +bX + e, где C — потребление, I — доход, X — символизирует прочие факторы. Разумно предположить, что среднеквадратическое отклонение ошибки прямо пропорционально I.

1) Нормирование. Пронормировать рассматриваемую модель можно, разделив ее на I :

C/I = a +b X/I + e/I .

Можно использовать для нормировки (взвешивания) и переменную, не входящую в модель. Обозначим ее N:

C/N = a +b X/N + e/N .

Нормирование равнозначно использованию взвешенного метода наименьших квадратов. Как веса для номинальных величин можно использовать уровень цен, получив тем самым реальные величины. Как веса для стран можно использовать население, получив тем самым среднедушевые показатели (потребление на душу населения и т. п.).

2) Логарифмирование. Прологарифмировав уравнение C = aI + e при C можно получить следующее линейное приближение:

lnC = lna + lnI + e/aI .

Вряд ли можно привести теоретические возражения и против того, чтобы сразу использовать линейную в логарифмах модель (эта форма модели сокращенно называется логлинейной), например,

lnC = a + b lnI + e .

"Кандидатами" на логарифмирование в первую очередь служат те переменные, которые заведомо могут принимать только положительные значения. Один из их признаков, это то, что, как правило, интересуются относительными приростами таких переменных, а не абсолютными приростами. В экономике это следующие величины: физические объемы благ, цены, стоимостные показатели, различные индексы.

Как итог, перечислим основные функциональные формы регрессионной модели (без учета ошибки) с примерами.

Функциональная форма

Пример

Линейная

Y = a0 +a1X2 +a1X2

Полиномиальная

Y = a0 + a1X + a2X 2 + a3X 3

Y = a0 + a1X1 + a2X2 + a11X12 + a22X22 +a12X1 X2

Логлинейная

(линейная в логарифмах)

lnY = a0 +a1lnX

Мультипликативная

Y = a0 X1a1 X2a2

Нормированная

Y/N = a0 +a1X/N

Возможны различные комбинации этих форм. Например, часто встречается полулогарифмическая форма:

lnY = a + bX, или Y = a + blnX,

или lnY = a +b lnX + g Z.
^ Выбор между альтернативными функциональными формами
Самый распространенный способ выбора между альтернативными моделями — выбор на основе точности подбора. В качестве показателя точности подбора обычно используется коэффициент детерминации (R2). Не следует забывать, что этот показатель можно использовать для сравнения только моделей с одной и той же зависимой переменной. Чтобы учитывать при выборе простоту модели, делают поправку на количество регрессоров. Это дает коэффициент детерминации скорректированный на количество степеней свободы (2).

Оценки метода наименьших квадратов являются одновременно и оценками метода максимального правдоподобия. Поэтому предлагается сравнивать модели на основе максимума логарифмической функции правдоподобия (). Если учесть при этом количество наблюдений (N) и ввести “штраф” за большое количество регрессоров (k), то получится информационный критерий Акаике (Akaike information criterion):

AIC = –2/N (– k).

Чем меньше AIC, тем лучшей считается модель.

Существует и другой подход к выбору между моделями. Одна из моделей предполагается истинной, т.е. принимается за нулевую гипотезу, и тестируется против некоторой альтернативной гипотезы, спецификация которой зависит от альтернативной модели. По сути дела, осуществляется тестирование функциональной формы “нулевой” модели.

Если одна из моделей является частным случаем другой модели (англ. nested), то в качестве “нулевой” берется более узкая модель, а альтернативой служит более широкая. В случае линейной регрессии применяется соответствующая F-статистика, а в случае нелинейной — одна из c2-статистик: статистика Вальда, множителя Лагранжа или отношения правдоподобия. Если же модели не входят одна в другую (nonnested), то любая из них принимается за нулевую и дополняется за счет информации, содержащейся в другой модели, так, чтобы “нулевая” модель была частным случаем этой расширенной. Здесь уже можно применить один из вышеупомянутых тестов. Если нулевая гипотеза отвергается, то это означает, что альтернативная модель содержит какую-то информацию, не содержащуюся в “нулевой” модели.

Тестов такого рода предложено очень много. Опишем только концептуально наиболее простые.

Сначала рассмотрим случай, когда обе сравниваемые модели линейны и зависимая переменная одна и та же. J-тест заключается в том, что в “нулевую” модель добавляется в качестве еще одного регрессора расчетные значения из альтернативной модели. Проверяется гипотеза о равенстве коэффициента при дополнительном регрессоре нулю с помощью соответствующей t-статистики.

Похожий тест состоит в том, что в “нулевую” модель добавляют из альтернативной модели все те регрессоры, которые не содержатся в нулевой и проверяют гипотезу о равенстве коэффициентов при дополнительных регрессорах нулю с помощью соответствующей F-статистики. В этом тесте обе сравниваемые модели содержатся в расширенной модели.

Один из тестов для сравнения моделей с разными зависимыми переменными — РE-тест. Пусть две сравниваемые модели заданы следующими уравнениями:

Y 1 = f1 (Y) = X1b1 + e1 ,

Y 2 = f2 (Y) = X2b2 + e2 .

Например, fi (Y) = Y, fi(Y) = lnY или fi (Y) = Y/W ("взвешенная" зависимая переменная). В “нулевую” модель в РE-тесте добавляется регрессор, равный разности расчетных значений из альтернативной модели и приведенных к тому же виду расчетных значений из “нулевой” модели. Так, в первую модель нужно добавить

X2 2 – f2 (f1 –1(X1 1)) = 2 – f2 (f1 –1(1)).

Пусть, к примеру, f1 (Y) = Y, а f2 (Y) = ln(Y). Тогда в первую модель добавляют – ln(), а во вторую — – exp().

Если отвергаются обе модели, то это должно означать, что каждая из них содержит информацию, не содержащуюся в другой, и следует попытаться как-то соединить две модели в одну. Если обе модели не отвергаются, то это означает, что с точки зрения данного теста они эквивалентны.
^ Фиктивные переменные как регрессоры Общие соображения
Термин “фиктивные переменные” используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная — это индикаторная переменная, отражающая качественную характеристику. Чаще всего применяются бинарные фиктивные переменные, принимающие два значения, 0 и 1, в зависимости от определенного условия. Например, в результате опроса группы людей 0 может означать, что опрашиваемый — мужчина, а 1 — женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.

Фиктивные переменные, будучи экзогенными, не создают каких-либо трудностей при применении ОМНК. Фиктивные переменные являются эффективным инструментом построения регрессионных моделей и проверки гипотез.

Пример. (Проверка гипотезы о равенстве средних в двух выборках в предположении равенства дисперсий)

Нулевая гипотеза состоит в том, что случайные величины в двух выборках имеют одинаковое математическое ожидание. Альтернативная гипотеза состоит в том, что математические ожидания равны только в пределах выборок, но не между выборками. Предполагается, что величины нормально распределены и дисперсии одинаковы для всех наблюдений. Объединим две выборки в одну. Пусть Yi — вектор наблюдений для данной величины, Di — фиктивная переменная принимающая значение 0 для первой выборки и 1 для второй выборки. Тогда для проверки гипотезы оценим регрессионную модель:

Yi = a + bDi + e i.

Нулевая гипотеза: b = 0. Альтернативная гипотеза: b ¹ 0. Такую гипотезу можно проверить с помощью t-статистики для коэффициента b. будет оценкой мат. ожидания для первой выборки, + для второй.

– – –

Предположим, что математическое ожидание зависимой переменной в регрессии увеличивается на некоторую фиксированную величину, если выполняется определенное условие. Пусть, например для выборки предприятий одной отрасли оценивается производственная функция Кобба-Дугласа. Есть гипотеза, что для частных предприятий в этой отрасли производство при тех же труде и капитале выше, чем для государственных. Введем переменную Di, которая принимает значение 0 для государственных предприятий и 1 для частных. Регрессионное уравнение будет иметь вид:

lnYi – ln L i = a0 + a1Di + b (ln Ki – ln L i).

Если коэффициент a1 значимо положителен, то гипотезу нельзя отвергнуть.

Еще одна область применения фиктивных переменных — когда предполагается, что коэффициенты при “значащих” переменных меняются в зависимости от некоторого условия.

Пусть в приведенной модели b = b0 для гос. предприятий и b = b 1 для частных. Тогда модель запишется в виде:

lnYi – ln L i = a0 + a1Di + b0 (ln Ki – ln L i) +

+ (b 1 – b0) Di (lnKi – ln L i).

Заменив параметры, получаем линейную относительно параметров модель.

В регрессионное уравнение может войти несколько фиктивных переменных. Рассмотрим два условия: A и B. Пусть ^ D — индикатор условия A (D= 1, если выполнено условие A, и 0 — если нет), D — индикатор условия B. Тогда D= DD — индикатор одновременного выполнения условий A и B. Эти три переменные будут точно описывать, в каком состоянии находится “мир” для данного наблюдения. Следует отметить, что четвертая фиктивная переменная (индикатор того, что одновременно не выполнены условия A и B) будет излишней в регрессии, уже включающей константу. Если ее добавить в регрессию, то матрица регрессоров будет вырожденной.

Дисперсионный анализ с фиксированными эффектами может быть сведен к регрессионному анализу с фиктивными регрессорами. Проверке гипотез с помощью ковариационного анализа будет соответствовать проверка гипотезы о равенстве нулю коэффициентов при соответствующей группе фиктивных переменных.
^ Использование фиктивных переменных для проверки однородности наблюдений и прогнозирования
Приведенную выше модель для двух типов предприятий

lnYi – ln L i = a0 + a1Di + b0 (ln Ki – ln L i) + (b 1 – b0) Di (lnKi – ln L i).

можно использовать для проверки гипотезы о том, что коэффициенты регрессии разные для гос. предприятий и для частных. Гипотеза проверяется с помощью F-теста на добавление переменных Di и Di (lnKi – ln L i).

В общем случае пусть наблюдения разбиты на две группы — I 1 и I 2. Матрица регрессоров X распадается на две матрицы регрессоров X 1 и X 2 соответственно, а зависимая переменная Y — на Y 1 и Y 2 соответственно. Нулевая гипотеза состоит в том, что наблюдения порождены моделью Y = Xb + e. Альтернативная гипотеза состоит в том, что первая группа наблюдений порождена моделью Y 1 = X 1b 1 + e 1, а вторая группа наблюдений — моделью Y 2 = X 2b 2 + e 2, причем b 1 ¹b 2.

Введем фиктивную переменную D, такую что Di=0 при iÎI 1 и Di=1 при iÎI 2. Если все ошибки имеют одинаковую дисперсию, то гипотезу можно проверить с помощью регрессии Y по Z=[X XD]. Здесь XD обозначает прямое произведение матрицы X на D, так что i-я строка матрицы Z равна Zi = [Xi, DiXi].

Тест на равенство коэффициентов регрессии в двух выборках, называют тестом Чоу. Нулевая гипотеза проверяется с помощью F-статистики для гипотезы о том, что коэффициенты при всех добавленных переменных равны нулю.

Еще одно использование фиктивных переменных — проверка гипотезы о том, что некоторое наблюдение принадлежит к той же выборке, что и все остальные наблюдения. Пусть i* — номер этого наблюдения. Введем фиктивную переменную D, такую что Di=0 при i¹ i* и Di*=1. Добавим эту переменную в исходную регрессию. Нужной нам статистикой будет F- или t-статистика для гипотезы о том, что коэффициент при добавленной переменной равен нулю. Если нулевая гипотеза отвергается, то соответствующее наблюдение следует считать выбросом. Назовем этот тест тестом для выбросов.

Тот же тест можно провести для небольшой группы наблюдений I *. Требуется добавить регрессию по одной фиктивной переменной описанного вида для каждого из наблюдений iÎI *. Нужной нам статистикой будет F-статистика для гипотезы о том, что коэффициенты при всех добавленных переменных одновременно равны нулю.

Фиктивные переменные, которые равны нулю для всех наблюдений кроме одного, обладают тем свойством, что при добавлении их в регрессию соответствующий остаток зануляется.

Если в тесте Чоу одна из двух выборок содержит мало наблюдений (не больше количества регрессоров), то остатки в этой выборке должны занулиться при применении ОМНК. В этом случае тест Чоу совпадает с описанным только что тестом для выбросов.

Рассмотрим теперь использование фиктивных переменных для прогнозирования. Пусть мы оценили некоторую регрессию (Y=Xb+e) и у нас имеются дополнительные наблюдения, для которых известна матрица регрессоров (X *), но неизвестны значения зависимой переменной (Y *). Предсказания находятся по формуле X *, где — оценки ОМНК из регрессии Y по X. Эти предсказания можно найти с помощью следующей регрессионной модели:

= +.

Вместо неизвестной зависимой переменной здесь стоят нули, и добавлены фиктивные переменные, каждая из которых равна нулю для соответственного добавочного наблюдения. Оценки b будут совпадать с , а оценки b * будут равны = – X *, то есть будут равны предсказаниям со знаком минус. Стандартные ошибки предсказаний будут равны стандартным ошибкам оценок , полученным из той же регрессии.

Пусть теперь Y * становятся известными. Интересно было бы проверить, насколько фактические значения отличаются от предсказанных. Оказывается, можно воспользоваться аналогичной регрессией, в которой слева вместо нулей стоят Y *:

= +.

Оценки коэффициентов при фиктивных переменных в этом случае будут равны ошибкам предсказаний = Y * – X *. Тест на адекватность предсказаний проводится как тест на одновременное равенство коэффициентов при фиктивных переменных нулю: b *=0. Очевидно, что этот тест совпадает с тестом для выбросов.
^ Использование фиктивных переменных в моделях с временными рядами
В регрессионных моделях с временными рядами используется три основных вида фиктивных переменных:

1) Переменные-индикаторы принадлежности наблюдения к определенному периоду — для моделирования скачкообразных структурных сдвигов. Границы периода (моменты “скачков”) должны быть установлены из априорных соображений. Например, 1, если наблюдение принадлежит периоду 1941-45 гг. и 0 в противном случае. Это пример использования для моделирования временного структурного сдвига. Постоянный структурный сдвиг моделируется переменной равной 0 до определенного момента времени и 1 для всех наблюдений после этого момента времени.

2) Сезонные переменные — для моделирования сезонности. Сезонные переменные принимают разные значения в зависимости от того, какому месяцу или кварталу года или какому дню недели соответствует наблюдение.

3) Линейный временной тренд — для моделирования постепенных плавных структурных сдвигов. Эта фиктивная переменная показывает, какой промежуток времени прошел от некоторого “нулевого” момента времени до того момента, к которому относится данное наблюдение (координаты данного наблюдения на временной шкале). Если промежутки времени между последовательными наблюдениями одинаковы, то временной тренд можно составить из номеров наблюдений.

Фиктивные переменные помогают отразить тот факт, что коэффициенты линейной регрессии могут меняться во времени. В простейшем случае изменяется константа, а тем самым и мат. ожидание зависимой переменной.

Пусть исходная модель имеет вид Yt = a + b Xt + et и предполагается, что a линейно зависит от фиктивной переменной Ft: at = a0 + a1 Ft. Тогда уравнение изменится следующим образом: Yt = a0 + a1 Ft + b Xt + e t, оставаясь линейным по параметрам.

Коэффициенты при значащих переменных тоже могут быть подвержены изменениям. Проинтерпретировать это можно так, что сила их влияния на независимую переменную меняется со временем.

Например, в рассмотренном уравнении может быть bt = b0 + b 1 Ft. Тогда Yt = a + b0 Xt + b 1 Ft Xt + e. Эта модель также остается линейной по параметрам. Коэффициент b 1 показывает, как исходный коэффициент b зависит от времени. С помощью соответствующей t-статистики можно проверить гипотезу, что b1 = 0 (b не меняется со временем).

Можно предложить следующий тест на стабильность коэффициентов модели во времени. Для его проведения нужно добавить в уравнения произведения всех исходных регрессоров и фиктивной переменной. Например, в модель Yt = a + b 1 Xt1 + b2 Xt2 + e следует добавить регрессоры Ft, Xt1Ft и Xt2Ft. Если коэффициенты при добавочных переменных значимы в совокупности (применяем F-статистику), то нельзя отвергнуть гипотезу о том, что коэффициенты изменяются со временем.

Тест Чоу представляет собой частный случай описанного теста. Для временных рядов тест Чоу — это тест на то, что в определенный момент времени произошло скачкообразное изменение коэффициентов регрессии.

Временной тренд отличается от бинарных фиктивных переменных тем, что имеет смысл использовать его степени: t2 , t3 и т. д. Они помогают моделировать гладкий, но нелинейный тренд. (Бинарную переменную нет смысла возводить в степень, потому что в результате получится та же самая переменная.)

Можно также комбинировать три указанных вида фиктивных переменных, создавая переменные “взаимодействия” соответствующих эффектов. Пусть Y — квартальные данные по некоторому показателю. Его поведение можно смоделировать, представляя мат. ожидание как комбинацию линейного тренда и сезонности.

Yt = a0 + a1t + b 1 Qt1 + b 2 Qt2 + b 3 Qt3 + g1 Qt1t + g2 Qt2 t + g3 Qt3 t + e t,

где t — тренд, Q i — квартальные сезонные переменные

Qtj =

Qt4 не нужно вводить в эту регрессию, так как есть константа, а Qt4 t не нужно вводить в регрессию, так как есть временной тренд t.

Если все gj ¹ 0, то это означает, что структура сезонности линейно изменяется со временем.

Комбинация рассмотренных фиктивных переменных позволяет моделировать еще один эффект — изменение наклона тренда с определенного момента. Помимо тренда в регрессию следует тогда ввести следующую переменную: в начале выборки до некоторого момента времени она равна 0, а вторая ее часть представляет собой временной тренд (1, 2, 3 и т. д. в случае одинаковых интервалов между наблюдениями).

Регрессионные модели с фиктивными переменными являются альтернативой ARIMA-моделям и регрессионным моделям с AR- или MA-процессом в ошибке. В первом случае изменение мат. ожидания во времени можно назвать детерминированным трендом, во втором — стохастическим (строго говоря термин “стохастический тренд” употребляют только по отношению к нестационарным процессам). Решить, какой вид модели применять, сложно. Дело в том, что трудно отличить (в случае малых выборок), когда случайная величина имеет линейный детерминированный тренд со стационарными отклонениями от него, а когда она формируется нестационарным авторегрессионным процессом. То же самое верно для выбора способа моделирования сезонности.

Использование фиктивных переменных имеет следующие преимущества:

1) Интервалы между наблюдениями не обязательно должны быть одинаковыми. В выборке могут быть пропущенные наблюдения.

2) Коэффициенты при фиктивных переменных легко интерпретировать, они наглядно представляют структуру динамического процесса.

3) Для оценивания модели не приходится выходить за рамки классического метода наименьших квадратов.
^ Спектральный анализ и регрессия
Спектральный анализ можно осуществить с помощью гармонических фиктивных переменных (гармонического тренда). Пусть рассматриваются помесячные данные. Тогда сезонные колебания можно моделировать, используя следующий набор фиктивных переменных:

Stk= sin(2pt/k), Ctk= cos(2pt/k), k=1, ... , 6.

При k=1 период колебаний равен 12 месяцам, при k=2 — 6 месяцам, при k=3 — 4 месяцам, при k=5 — 2,4 месяцам, при k=6 — 2 месяцам.

Включение в регрессию полного набора (k=1,..., 6) рассматриваемых переменных эквивалентно включению набора месячных бинарных фиктивных переменных (Mtj = 1, если j-й месяц и 0 в противном случае). Гармонические переменные следует применять в том случае, если предполагается, что сезонность может быть гладкой. В этом случае высокочастотные гармоники (с коротким периодом) не включают в регрессию, например, берут только k=1, 2.

Одна из возможных содержательных интерпретаций такого подхода состоит в том, что гармоники с более длинным периодом моделируют долгосрочные (перманентные) эффекты, а с коротким — краткосрочные.
^ Модели с качественной зависимой переменной
Модели с качественной за

еще рефераты

Еще работы по разное

Реферат по разное

В. А. Акимов начальник Всероссийского научно-исследовательского института по проблемам гражданской обороны и чрезвычайных ситуаций

18 Сентября 2013

Реферат по разное

Развитие музыкально-пластических способностей дошкольников

18 Сентября 2013

Реферат по разное

Как любому представителю естественных наук, химику необходимо уметь проводить статистическую обработку и анализ полученных экспериментальных данных

18 Сентября 2013

Реферат по разное

Задачи для самостоятельной работы Алгоритм принятия решения о выборе критерия для сопоставлений

18 Сентября 2013