|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Линейные регрессионные модели с гетероскедастичными и автокоррелированными остаткамиИтак, при исследовании остатков ei должно проверяться наличие следующих пяти предпосылок МНК: 1) случайный характер остатков; 2) нулевая средняя величина остатков, не зависящая от х i; 3) гомоскедастичность – дисперсия каждого отклонения ei одинакова для всех значений х i; 4) отсутствие автокорреляции остатков – значения остатков ei распределены независимо друг от друга; 5) остатки подчиняются нормальному распределению. Если распределение случайных остатков ei не соответствует некоторым предпосылкам МНК, то следует корректировать модель. В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии. Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью. Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок. Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность. Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3). Поступления налогов в бюджет (y i – млн.руб.) в зависимости от численности работающих (х i – тыс.чел). Таблица 5.3
По выборочным данным строим уравнение регрессии ŷх = – 4,565 + 1,178 х. Теоретические значения ŷх и отклонения от них фактических значений ei приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины ei обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги: - упорядочить n наблюдений по мере возрастания переменной х (выполнено); - исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12; - разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.); - определить остаточные суммы квадратов для первой (S1) и второй (S2) групп и найти их отношение R=S2:S1. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков. Таблица 5.4.
Величина R=2638,4: 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности. Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию. Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции. Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие. 1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок. 2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться. 3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его. В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели. Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции reiej между ei и ej, где ei – остатки текущих наблюдений, ej – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между ei и ej, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19). Таблица 5.5.
σei =15.1347, σej =14,7663 и в соответствие с (2.1) reiej =(48,5311 – (–0,2842)(–0,7949))/15,1347/14,7663=0,2161, что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков. Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.
5.6. Обобщенный метод наименьших квадратов. Метод Главных Компонент. При нарушении гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов (метод OLD – Ordinary Least Squares) заменять обобщенным методом GLS(Generalized Least Squares). Он применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Суть метода заключается в том, что подбираются коэффициенты Кi, такие, что σ2ei =σ2 ·Кi, где σ2ei – дисперсия ошибки при конкретном i–ом значении фактора; σ2 – постоянная дисперсия ошибки при соблюдении предпосылки о гомоскедастичности остатков; Кi – коэффициент пропорциональности, меняющийся с изменением величины фактора. Уравнение парной регрессии при этом принимает вид у i/ = a0/ + a1 х i/ +ei. По отношению к обычной регрессии уравнение с новыми, преобразованными переменными представляют собой взвешенную регрессию, в которой переменные у и х взяты с весами 1/ . Аналогичный подход применяют и для множественной регрессии, уравнение с преобразованными переменными принимает вид у / =a0/ +a1 х 1/ +a2 х 2/ +…+am х m/ +e. (5.1) Параметры такой модели зависят от концепции, принятой для коэффициента пропорциональности К. В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки ei пропорциональны значениям фактора. Пусть, например, у – издержки производства, х 1 – объем продукции, х 2 – основные производственные фонды, х 3 – численность работников, тогда уравнение у =a0 +a1 х 1 +a2 х 2 + a3 х 3 +e является моделью издержек производства с объемными факторами. Предполагая, что σ2ei пропорциональна квадрату численности работников (т.е. = х 3), получим в качестве результативного признака затраты на одного работника (у / х 3), а в качестве факторов производительность труда (х 1/ х 3) и фондовооруженность труда (х 2/ х 3). Соответственно трансформированная модель примет вид у / х 3 =a3 +a1 х 1/ х 3 +a2 х 2/ х 3 +e, где вычисленные параметры a3, a1, a2 численно не совпадают с аналогичными параметрами предыдущей модели. Кроме того, коэффициенты регрессии меняют экономическое содержание: из показателей силы связи, характеризующих среднее изменение издержек производства с изменением абсолютного значения соответствующего фактора на единицу, они фиксируют теперь среднее изменение затрат на работника в зависимости от изменения производительности труда на единицу; и в зависимости от изменения фондовооруженности труда на единицу. Если же предположить, что в первоначальной модели дисперсия остатков пропорциональна квадрату объема продукции, получаем уравнение регрессии у / х 1 =a1 +a2 х 2/ х 1 +a3 х 3/ х 1 +e, где у / х 1 – затраты на единицу продукции, х 2/ х 1 – фондоемкость продукции, х 3/ х 1 – трудоемкость продукции. Переход к относительным величинам существенно снижает вариацию фактора и соответственно уменьшает дисперсию ошибки. Метод Главных Компонент (Principal Components Analysis, PCA) – один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном в 1901 г. Он применяется для: 1) наглядного представления данных; 2) обеспечения лаконизма моделей, упрощения счета и интерпретации; 3) сжатия объемов хранимой информации. Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена-Лоэва или преобразованием Хотеллинга. Другие способы уменьшения размерности данных – это метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, поиск наилучшей проекции, нейросетевые методы «узкого горла», самоорганизующиеся карты Кохонена и др. Задача анализа главных компонент, имеет, как минимум, четыре базовых версии: - аппроксимировать данные линейными многообразиями меньшей размерности; - найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (т.е. среднеквадратичное уклонение от среднего значения) максимален; - найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально; - для данной многомерной случайной величины построить такое ортогональное преобразование координат, что в результате корреляции между отдельными координатами обратятся в ноль. Подробнее о методе главных компонент см. [9,10].
5.7.Прогнозирование. Доверительный интервал прогноза. Расчеты и проверка достоверности полученных оценок коэффициентов регрессии не являются самоцелью, это лишь необходимый промежуточный этап. Основное – это использование модели для анализа и прогноза поведения изучаемого экономического явления. Прогноз осуществляется подстановкой значения фактора х в полученную формулу регрессии. Используем полученное в примере 2.1 уравнение регрессии для прогноза объема товарооборота. Пусть намечается открытие магазина с численностью работников х =140 чел., тогда достаточно обоснованный объем товарооборота следует установить по уравнению ŷ (х)= –0,974 + 0,01924×140=1,72 млрд. руб. Доверительный интервал для прогностического значения у (х)= a0+a1 х определяется по формуле , (5.2) где tp – критическая граница распределения Стьюдента с n – 2 степенями свободы, соответствующая уровню значимости р. Для получения доверительного интервала воспользуемся выражением (5.2). Выберем уровень значимости 5%. Число степеней свободы у нас 8 – 2 = 6, тогда по таблице распределения Стьюдента (приложение 1) находим t0.05(6)=2,447. s=Ö 0,008=0,089, следовательно, с вероятностью 95% истинные значения объемов товарооборота будут лежать в пределах 1,72 – 2,447×0,048< y (x)<1,72+2,447×0,048, или 1,60< y (x)<1,84.
5.8. Практический блок Пример. Построить модель связи между указанными факторами, проверить её адекватность, осуществить точечный и интервальный прогноз методом экстраполяции. 1. Построить диаграмму рассеяния в EXCEL и сделать предварительное заключение о наличии связи.
Таблица 5.6 Диаграмма 5.1
Вывод: Из диаграммы 5.1 видно, что связь между факторами x и y прямая сильная линейная связь. 2. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами х и у. Таблица 5.7
2.1.Проверим тесноту связи между факторами: ; Вывод: связь сильная. 2.2.Проверим статистическую значимость по критерию Стьюдента: 1)Критерий Стьюдента: tвыб<=tкр 2)Но: r=0 tкр=2,31 tвыб=rвыб* Вывод: таким образом поскольку tвыб=5,84<tкр=2,31, то с доверительной вероятностью 90% нулевая гипотеза отвергается, это указывает на наличие сильной линейной связи. 3. Полагая, что связь между факторами х и у может быть описана линейной функцией, используя процедуру метода наименьших квадратов, запишите систему нормальных уравнений относительно коэффициентов линейного уравнения регрессии. Любым способом рассчитайте эти коэффициенты. Последовательно подставляя в уравнение регрессии из графы (2) табл.5.7, рассчитаем значения и заполним графу (7) табл.5.7.
4. Для полученной модели связи между факторами Х и У рассчитайте среднюю ошибку аппроксимации. Сделайте предварительное заключение приемлемости полученной модели. Для расчета заполним 8-ую и 9-ую графу табл.5.7. <Екр=12% Вывод: модель следует признать удовлетворительной. 5. Проверьте значимость коэффициента уравнения регрессии a1 на основе t-критерия Стьюдента. Решение: Таблица 5.8
Статистическая проверка:
6. Проверьте адекватность модели (уравнения регрессии) в целом на основе F-критерия Фишера-Снедекора. Решение: Процедура статистической проверки: :модель не адекватна Вывод: т.к. Fвыб.>Fкр., то с доверительной вероятностью 95% нулевая гипотеза отвергается (т.е. принимается альтернативная). Изучаемая модель адекватна и может быть использована для прогнозирования и принятия управленческих решений.
7. Рассчитайте эмпирический коэффициент детерминации. Решение: (таб. 3) -показывает долю вариации. Вывод: т.е. 80% вариации объясняется фактором, включенным в модель, а 20% не включенными в модель факторами.
8. Рассчитайте корреляционное отношение. Сравните полученное значение с величиной линейного коэффициента корреляции. Решение: Эмпирическое корреляционное отношение указывает на тесноту связи между двумя факторами для любой связи, если связь линейная, то , т.е. коэффициент корреляции совпадает с коэффициентом детерминации. 9. Выполните точечный прогноз для . Решение:
10-12. Рассчитайте доверительные интервалы для уравнения регрессии и для результирующего признака при доверительной вероятности =90%. Изобразите в одной системе координат: а) исходные данные, б) линию регрессии, в) точечный прогноз, г) 90% доверительные интервалы. Сформулируйте общий вывод относительно полученной модели. Решение: -математическое ожидание среднего. Для выполнения интервального прогноза рассматриваем две области. 1) для y из области изменения фактора x доверительные границы для линейного уравнения регрессии рассчитывается по формуле: 2) для прогнозного значения доверительный интервал для рассчитывается по формуле: Исходные данные: 1) n=10 2) t=2,31(таб.) 3) 4) 5) : 27,91 42,56 57,02 66,72 6) 19,334-4,222)=1,53. Таблица 5.9
Вывод: поскольку 90% точек наблюдения попало в 90% доверительный интервал, данная модель и ее доверительные границы могут использоваться для прогнозирования с 90% доверительной вероятностью. Контрольные вопросы 1. Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками. 2. Виды автокорреляции и их краткая характеристика. 3. Автокорреляция в остатках и порядок её обнаружения. 4. Виды автокорреляции в остатках. 5. Порядок использования критерия Дарбина-Уотсона. 6. Автокорреляция в исходных данных и порядок определения её наличия. 7. Методы устранения влияния автокорреляции на результаты прогнозирования. 8. Обобщенный метод наименьших квадратов (ОМНК). 9. Что понимается под гомоскедастичностью? 10. Как проверяется гипотеза о гомоскедастичности ряда остатков? 11. Оценка качества регрессии. Проверка адекватности и достоверности модели. 12. Значимость коэффициентов регрессии (критерий Стъюдента). 13. Дисперсионный анализ. Проверка достоверности модели связи (по F-критерию Фишера). 14. Коэффициенты и индексы корреляции. Мультиколлениарность. 15. Оценка значимости корреляции. Детерминация. 16. Средняя ошибка аппроксимации. 17. Принятие решений на основе уравнений регрессии. 18. В каких задачах эконометрики используется распределение Фишера? 19. Таблицы каких распределений используются при оценке качества линейной регрессии? 20. Каковы особенности практического применения регрессионных моделей? 21. Как осуществляется прогнозирование экономических показателей с использованием моделей линейной регрессии? 22. Как можно оценить «естественный» уровень безработицы с использованием модели линейной регрессии? 23. В каких случаях необходимо уточнение линейной регрессионной модели и как оно осуществляется? 24. Когда необходимо выведение из рассмотрения незначимых объясняющих переменных и добавление новых переменных? Задания и задачи 1. Имеются данные о деятельности крупнейших компаний США в 2006г.
Задание: Рассчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов. Дайте сравнительную оценку силы связи факторов с результатом с помощью коэффициентов эластичности. Рассчитайте матрицы парных коэффициентов корреляции и на их основе отберите информативные факторы в модель. Постройте модель только с информативными факторами и оцените ее параметры. Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений. Рассчитайте ошибки и доверительный интервал прогноза для 2. Имеются данные о деятельности крупнейших компаний США в 2006г.
Задание: Рассчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов. Дайте сравнительную оценку силы связи факторов с результатом с помощью коэффициентов эластичности. Рассчитайте матрицы парных и частных коэффициентов корреляции и на их основе отберите информативные факторы в модель. Постройте модель только с информативными факторами и оцените ее параметры. Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений. Рассчитайте ошибки и доверительный интервал прогноза для уровня значимости 5 или 10% (α = 0,05; α = 0,10). Оцените полученные результаты, выводы оформите в аналитической записке. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.045 сек.) |