Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Методы устранения мультиколлинеарности

Читайте также:

Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным знакам коэффициентов регрессии.

При построении прогноза на основе модели регрессии с мультиколлинеарными факторами необходимо оценивать ситуацию по величине ошибки прогноза. Если её величина является удовлетворительной, то модель можно использовать, несмотря на мультиколлинеарность. Если же величина ошибки прогноза большая, то устранение мультиколлинеарных факторов из модели регрессии является одним из методов повышения точности прогноза.

К основным способам устранения мультиколлинеарности в модели множественной регрессии относятся:

1) один из наиболее простых способов устранения мультиколлинеарности состоит в получении дополнительных данных. Однако на практике в некоторых случаях реализация данного метода может быть весьма затруднительна;

2) способ преобразования переменных, например, вместо значений всех переменных, участвующих в модели (и результативной в том числе) можно взять их логарифмы:

lny=β0+β1lnx1+β2lnx2+ε.

Однако данный способ также не способен гарантировать полного устранения мультиколлинеарности факторов;

Если рассмотренные способы не помогли устранить мультиколлинеарность факторов, то переходят к использованию смещённых методов оценки неизвестных параметров модели регрессии, или методов исключения переменных из модели множественной регрессии.

Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge).

При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:

где ln – единичная матрица.

Результатом применения гребневой регрессии является уменьшение стандартных ошибок коэффициентов модели множественной регрессии по причине их стабилизации к определённому числу.

Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.

Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода заключается в сокращении числа факторных переменных до наиболее существенно влияющих факторов. Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.

Метод пошагового включения переменных состоит в выборе из всего возможного набора факторных переменных именно те, которые оказывают существенное влияние на результативную переменную.

Метод пошагового включения осуществляется по следующему алгоритму:

1) из всех факторных переменных в модель регрессии включаются те переменные, которым соответствует наибольший модуль линейного коэффициента парной корреляции с результативной переменной;

2) при добавлении в модель регрессии новых факторных переменных проверяется их значимость с помощью F-критерия Фишера. При том выдвигается основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии. Обратная гипотеза состоит в утверждении о целесообразности включения факторной переменной xk в модель множественной регрессии. Критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k 1 =1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров. Наблюдаемое значение F-критерия рассчитывается по формуле:

где q – число уже включённых в модель регрессии факторных переменных.

При проверке основной гипотезы возможны следующие ситуации.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии отвергается. Следовательно, включение данной переменной в модель множественной регрессии является обоснованным.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии принимается. Следовательно, данную факторную переменную можно не включать в модель без ущерба для её качества

3) проверка факторных переменных на значимость осуществляется до тех пор, пока не найдётся хотя бы одна переменная, для которой не выполняется условие Fнабл›Fкрит.

23Нелинейная регрессия ().

Если м/д экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих функций.

Различают два класса:

1.нелинейные функции по переменным, но линейные по параметрам (гипербола,парабола,логарифмическая); 2.нелинейные и по переменным и по параметрам(степенная, показательная, экспоненциальная), сложнее привести к виду линейной.

В первом случае – нет сложностей с оценкой параметров. Они определяются как и в линейной с помощью МНК.

Сведение к линейной форме: Ex: Дана парабола y=a0+a1x+a2x²+e Заменив х=х1 и х²=х2 получим двухфакторное уравнение линейной регрессии. у=а0+а1х1+а2х2+е

Нелинейными по оцениваемым параметрам моделями регрессииназываются модели, в которых результативная переменная yi нелинейно зависит от коэффициентов модели β0…βn.

К моделям регрессии, нелинейными по оцениваемым параметрам, относятся:

1) степенная функция:

2) показательная или экспоненциальная функция:

3) логарифмическая парабола:

4) экспоненциальная функция:

5) обратная функция:

6) кривая Гомперца:

7) логистическая функция или кривая Перла-Рида:

Кривыми насыщения называются показательная, логарифмическая и экспоненциальная функции, т. к. будущий прирост результативной переменной зависит от уже достигнутого уровня функции.

Кривые насыщения применяются для характеристики явлений и процессов, величина роста которых является ограниченной величиной (например, в демографии).

Определение. S-образными кривыми называются кривая Гомперца и кривая Перла-Рида. Данные кривые представляют собой кривые насыщения с точкой перегиба.

S-образные кривые применяются для характеристики явлений, включающий в себя два последовательных процесса – ускорения и замедления достигнутого уровня развития. Подобные явления характерны для демографии, страхования и других областей.

Модели регрессии, нелинейные по оцениваемым коэффициентам, делятся на два класса:

1) модели регрессии, которые можно с помощью преобразований привести к линейному виду;

2) модели регрессии, которые невозможно привести к линейному виду.

Рассмотрим первый класс моделей регрессии.

Показательная функция вида

является нелинейной по коэффициенту β1 и относится к классу моделей регрессии, которые можно с помощью преобразований привести к линейному виду. Данная модель характеризуется тем, что случайная ошибка εi мультипликативно связана с факторной переменной хi.

Данную модель можно привести к линейному виду с помощью логарифмирования:

Log yi=log β0+ хi* logβ1+ logε i.

Для более наглядного представления данной модели регрессии воспользуемся методом замен:

log yi=Yi;

log β0=A;

logβ1=B;

logε i=E.

В результате произведённых замен получим окончательный вид показательной функции, приведённой к линейной форме:

Yi=A+Bхi+E.

Таким образом, можно сделать вывод, что рассмотренная показательная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов.

Другим примером моделей регрессии первого класса является степенная функция вида:

Данная модель характеризуется тем, что случайная ошибка βi мультипликативно связана с факторной переменной хi.

Данную модель можно привести к линейному виду с помощью логарифмирования:

lnyi=lnβ0+β1 lnхi + lnεi.

Для более наглядного представления данной модели регрессии воспользуемся методом замен:

ln yi=Yi;

ln β0=A;

lnхi=Xi;

lnεi=E.

Yi=A+β1Xi+E.

Таким образом, можно сделать вывод, что рассмотренная степенная функция является внутренне линейной, поэтому оценки неизвестных параметров её линеаризованной формы можно рассчитать с помощью классического метода наименьших квадратов.

Рассмотрим второй класс моделей регрессии, нелинейных по оцениваемым коэффициентам.

Показательная функция вида

относится к классу моделей регрессии, которые невозможно привести к линейной форме путём логарифмирования. Данная модель характеризуется тем, что случайная ошибка βi аддитивно связана с факторной переменной хi.

Степенная функция вида

относится к классу моделей регрессии, которые невозможно привести к линейной форме путём логарифмирования. Данная модель характеризуется тем, что случайная ошибка ε i аддитивно связана с факторной переменной хi.

Таким образом, для оценки неизвестных параметров моделей регрессии, которые нельзя привести к линейному виду, нельзя применять классический метод наименьших квадратов. В этом случае используются итеративные процедуры оценивания (квази-ньютоновский метод, симплекс-метод, метод Хука-Дживса, метод Розенброка и др.).

41Линейные модели стационарных временных рядов. Процессы ARMA 6.2.1. Модели авторегрессии (AR) Авторегрессионным процессом порядка р (обозначается AR(p)) называется стохастический процесс Xt, определяемый соотношением Xt = α0 + α1Xt-1+ α2Xt-2 + …+ αpXt-p + εt, (6.20) 98 где εt – процесс типа «белый шум» с με = 0. Свободный член α 0 часто прирав- нивается нулю (т. е. рассматриваются центрированные процессы, средний уро- вень которых равен нулю). Авторегрессионная модель временного ряда основана на предположении, что поведение какого-либо экономического явления в будущем определяется только его текущим и предыдущими состояниями. AR-процесс является стационарным тогда и только тогда, когда ком- плексные решения (корни) его характеристического уравнения 1 – α 1z – α 2z 2 –…– α pz p = 0 (6.21) лежат вне единичного круга, т. е. | z | > 1 (z — комплексное число). Процессы, у которых | z | = 1, называются процессами единичного корня и являются нестационарными. Для процесса AR(1) Xt = α0 + α1Xt-1 + εt характеристическое уравнение имеет вид 1 – α 1z = 0. Неравенство |z| > 1 выполняется, если |α1| < 1. Следовательно, соотноше- ние |α1| < 1 есть условие стационарности процесса AR(1). Коэффициенты αi уравнения (6.20) могут быть выражены через коэффици- енты автокорреляции ri. Умножим уравнение (6.20) последовательно на Xt-k (k = 1, …, p) и применим к его правой и левой частям операцию вычисления ма- тематического ожидания. В результате получим систему соотношений r1 = α 1+ α 2 r1 + α 3r2 …+ α p rр-1, r2 = α 1 r1+ α 2 + α 3 r1 …+ α p rр-2, (6.22) ………………………………. rp = α 1rр-1+ α 2 rр-2 + α 3rр-3…+ α p, называемых уравнениями Юла-Уокера. В частности, для p = 1 имеет место соотношение α1= r1. 6.2.2. Модели скользящего среднего (MA) В моделях скользящего среднего порядка среднее текущее значение ста- ционарного стохастического процесса представляется в виде линейной комби- нации текущего и прошедших значений ошибки εt, εt-1, …, εt-p, обладающей свойствами «белого шума». Процессом скользящего среднего порядка q (обозначается МА(q)) называ- ется стохастический процесс Xt, определяемый соотношением Xt = εt – β1εt-1 – β2εt-2 –…– βqεt-q, (6.23) где εt – процесс типа «белый шум» с με = 0, σ 2 ε = σ 2. Процесс MA(q) обладает следующими свойствами: 99 ï î ï í ì = > = = = + - = + = å å, 0,1,...,. 0,; [ ] 0; [ ]; 0, 2 0 2 2 q q E X D X i q i i t t q i t t i s b b t t g s b t t t (6.24) Согласно (6.24) среднее значение, дисперсия и ковариация не зависят от времени, поэтому процесс MA стационарен в широком смысле. 6.2.3. Модели авторегрессии-скользящего среднего (ARMA) Комбинация процессов авторегрессии и скользящего среднего порядков р и q соответственно называется авторегрессионным процессом скользящего среднего (ARMA(p,q)) Xt = α0 + α1Xt-1+ α2Xt-2 +…+ αpXt-p + εt – β1εt-1– β2εt-2 –…– β qεt-q, (6.25) При очень общих условиях стационарный ARMA-процесс может быть представлен как бесконечный AR-процесс или как бесконечный MA-процесс: Xt = α0 + εt – β1εt-1– β2εt-2 –… Использование ARMA-процессов позволяет строить более компактные модели реальных временных рядов по сравнению со схожими по поведению AR- или MA-процессами. 6

Прогнозирование ARMA -процессов 6.4.1. AR-процессы Рассмотрим стационарную AR-модель Yt = α0 + α 1Yt–1 + α 2Yt–2+…+ α pYt–p + εt. (6.30) 102 Предположим, что прогноз ŶТ(h) строится на h шагов вперед, начиная с момента времени Т. Запишем уравнение (6.30) для момента времени T+h YT+h = α0 + α 1YT+h–1 + α 2YT+h–2 +…+ α pYT+h–p + εT+h. (6.31) При расчете прогнозного значения ŶТ(h) в правую часть (6.31) вместо YT+i (i > 0) следует подставлять вычисленное ранее прогнозное значение ŶТ(i). То- гда точечный прогноз будет определяться соотношениями: ŶТ(1) = α 0 + α 1YТ + α 2YТ–1 +…+ α pYТ–p+1, ŶТ(2) = α 0 + α 1ŶТ(1) + α 2YТ +…+ α pYТ–p+2, …… (6.32) ŶТ(p) = α 0 + α 1ŶТ(p–1) + α 2 ŶТ(p–2) +…+ α p–1 ŶТ(1) + α pYТ, ŶТ(h) = α 0 + α 1ŶТ(h–1) + α 2 ŶТ(h–2) +…+ α p ŶТ(h–p+1) при h > p. Доказано, что в бесконечном периоде математическое ожидание прогноз- ного значения ŶТ асимптотически сходится к математическому ожиданию про- цесса Yt, т. е. условное математическое ожидание ошибки прогноза равно нулю и оценка ŶТ(h) является несмещенной, а дисперсия прогноза сходится к диспер- сии процесса Yt, т. е. к. 2 s Y Для модели AR(2) Yt = α0 + α1Yt-1 + α2Yt-2+ εt формулы прогнозирования имеют вид: ŶТ(1) = α0 + α1YТ + α2Yt–1, ŶТ(2) = α0 + α1 ŶТ ŶТ(1) + α2Yt, (6.33) ŶТ(h) = α0 + α1ŶТ(h–1) + α2 ŶТ(h–2) при h ≥ 3. 6.4.2. MA-процессы Рассмотрим теперь стационарную MA-модель Yt = εt – β1εt–1– β2εt–2 –…– βqεt–q. (6.34) С учетом того, что величина εt для прогнозируемых моментов времени не известна точечный прогноз согласно модели (6.34) будет определяться соотно- шениями: ŶТ(1) = – β 1·εТ – β 2·εТ–1 – … – β q·εТ–q+1, ŶТ(2) = – β 2·εТ – … – β q·εТ-q+2, …… (6.35) ŶТ(q) = – β q·εТ, ŶТ(h) = 0 при h > q. Дисперсия ошибки прогноза определяется соотношениями var(eT(1)) = σ 2 ε; 103 var(eT(2)) = σ 2 ε (1+ β 2 1); …… (6.36) var(eT(q-1)) = σ 2 ε(1+ β 2 1+…+ β 2 q-1); var(eT(q)) = σ 2 ε(1+ β 2 1+…+ β 2 q) = σ 2 Y для h > q. Для процесса MA(2) Yt = εt – β1εt–1 – β2εt–2 формулы для прогнозирования имеют вид ŶТ(1) = – β 1·εТ – β 2·εТ–1 ŶТ(2) = – β 2·εТ (6.37) ŶТ(h) = 0 при h ≥ 3, а дисперсии ошибки прогноза: var(eT(1)) = σ 2 ε; var(eT(2)) = σ 2 ε(1+ β 2 1); var(eT(h))= σ 2 ε(1+ β 2 1+ β 2 2) =σ 2 Y для h ≥ 3. 6.4.3.

ARMA-процессы Формулы прогнозирования для процессов ARMA(p,q) получаются объеди- нением формул (6.32) и (6.35). Для модели ARMA (1,1) Yt = α0 + α1Yt-1 – β1 ·εt-1 формулы для прогнозирования имеют вид: ŶТ(+1) = α0 + α1YТ - β1 ·εT ŶТ(+h) = α0 + α1ŶТ(+h-1) при h ≥ 2. (6.38) При прогнозировании на практике реальные параметры ARMA -процесса a b j и k заменяются их оценками j ˆ aˆ k è b, а случайные воздействия εt заменяют- ся на остатки t eˆ, полученные при оценивании модели, или на ошибки eT+h-–i предыдущих прогнозов. Отметим, что ошибка прогноза данных ARMA-моделей ограничена на бесконечности дисперсией процесса σх. 6. Модели ARIMA 6.6.1. Определение и идентификация модели Рассмотрим интегрируемый порядка d нестационарный процесс Xt. Если при этом процесс Yt = ∆d Xt, составленный из первых разностей d-порядка ис- ходного процесса, является процессом АRМА(р,q), т. е. Yt = α0 + α1Yt–1+ α2Yt–2 +…+ αpYt–p + εt – β1εt–1– β2εt–2 –…– β qεt–q, (6.47) 106 тогда Xt называется процессом ARIMA(p,d,q). На практике свободный член α0 часто опускается (приравнивается к нулю). Можно считать, что большинство эмпирических временных рядов являет- ся реализациями процессов ARIMA. Основная проблема в анализе временных рядов заключается в определении порядка модели ARIMA(p,d,q). Необходимо оценить три основных параметра: d – порядок интегрируемо- сти, порядок р компоненты AR и порядок q компоненты MA. Для экономиче- ских временных рядов параметр d обычно равен 1, возможны также значения 0 или 2. При определении параметров р и q используются характеристики авто- корреляционной функции (ACF) и частной автокорреляционной функции (PACF). При этом предпочтение отдается моделям с наименьшим числом пара- метров. 6.6.2. Прогнозирование ARIMA-процессов Для прогнозирования ARIMA-процессов Хt могут быть применены два подхода: 1) Получение прогнозных значений () ˆYT h ARMA-процесса t d Yt = D X по методике прогнозирования ARMA-процессов (см. разд. 6.4) с последующим последовательным вычислением прогнозных значений) (ˆ 1 XT h d - D,) (ˆ 2 XT h d - D и т. д., пока не будут получены) (Xˆ T h. 2) Построение прогнозной формулы с помощью модификации уравнения (6.47) путем подстановки разностей t d D X вместо Yt и последующего разреше- ния полученного уравнения относительно Xt. В результате, будет получена ARMA-модель нестационарного процесса, которая может быть преобразована в формулу для прогнозирования на h шагов вперед величин) (Xˆ T h с началом от- счета в момент времени Т по методике, описанной в разделе 6.4. Рассмотрим ARIMA(0,1,0)–модель случайного блуждания Yt = ΔXt = εt или в преобразованном виде Xt = Xt–1 + εt. Формула экстраполяции имеет вид XT+h = XT+h–1 + εt, (6.48) а формула прогноза дается соотношением XT h = XT () ˆ, для h ≥ 1. (6.49) Дисперсия ошибки прогноза var(eT(h))= h·σ 2 ε. увеличивается с ростом h. Ширина доверительного интервала прогноза возрастает пропорционально h. Если Xt – случайное блуждание со сдвигом Xt = Xt–1 + α0 + εt, (6.50) тогда формула для прогнозирования имеет вид () 0 Xˆ T +h = XT + ha, (6.51) что соответствует простому линейному тренду. Дисперсия ошибки прогноза такая же, как и в предыдущем случае с α0 = 0. Рассмотрим ARIMA(1,1,1)-модель 107 ∆Xt – α1 ∆Xt–1 = Xt – Xt–1 - α 1·(Xt–1 - Xt–2) = α 0 + εt – β1 ·εt–1, которая после преобразования принимает вид Xt = α0 + (1+ α1)Xt–1 – α1 Xt–2 + εt – β 1 ·εt–1. (6.52) Формулы для прогнозирования в момент t = Т + h определяются соотно- шениями XT XT XT T a a a b e 0 1 1 1 1 (1) (1) ˆ = + + - - -, XT 0 1 XT 1XT (1) ˆ (2) (1) ˆ = a + +a -a, (6.53)) Xˆ T (h) = a 0 + (1+a1)Xˆ T (h -1) -a1XT (h - 2 для h ≥ 3.

39Модели авторегрессии

Моделью авторегрессии называется динамическая эконометрическая модель, в которой в качестве факторных переменных содержатся лаговые значения результативной переменной.

Пример модели авторегрессии:

yt=β0+β1xt+δ1yt–1+εt,

где β1 – это коэффициент, который характеризует краткосрочное изменение переменной у под влиянием изменения переменной х на единицу своего измерения;

δ1 – это коэффициент, который характеризует изменение переменной у в текущий момент времени t под влиянием своего изменения в предыдущий момент времени (t–1).

Промежуточным мультипликатором называется произведение коэффициентов модели авторегрессии (β1 * δ1).

Промежуточный мультипликатор отражает общее абсолютное изменение результативной переменной у в момент времени (t+1).

Определение. Долгосрочным мультипликатором называется показатель, рассчитываемый как

Долгосрочный мультипликатор отражает общее абсолютное изменение результативной переменной у в долгосрочном периоде.

Если для модели авторегрессии выполняется условие | δ|<1, то при наличии бесконечного лага будет справедливым равенство:

В нормальной линейной модели регрессии все факторные переменные не зависят от случайной ошибки модели. Данное условие для моделей авторегрессии нарушается, потому что переменная yt-1 частично зависит от случайной ошибки модели εt. Следовательно, при оценке неизвестных коэффициентов традиционным методом наименьших квадратов ы получим смещённую оценку коэффициента при переменной yt –1.

При определении оценок неизвестных коэффициентов модели авторегрессии используется метод инструментальных переменных (IV – Instrumental variables).

Суть метода инструментальных переменных заключается в том, что переменная yt –1, для которой нарушается предпосылка применения метода наименьших квадратов, заменяется на новую переменную z, удовлетворяющую двум требованиям:

1) данная переменная должна тесно коррелировать с переменной yt–1: cov(yt–1,z)≠0;

2) данная переменная не должна коррелировать со случайной ошибкой модели εt: cov(z,ε)=0.

Предположим, что на основании собранных данных была построена модель авторегрессии вида:

yt=β0+β1xt+δ1yt–1+εt.

Рассчитаем оценки неизвестных коэффициентов данной модели с помощью метода инструментальных переменных.

В данной модели авторегрессии переменная yt коррелирует с переменной xt, следовательно, переменная yt –1 зависит от переменной xt –1. Охарактеризуем данную корреляционную зависимость с помощью парной модели регрессии вида:

yt–1=k0+k1xt–1+ut,

где k0,k1 – неизвестные коэффициенты модели регрессии;

ut – случайная ошибка модели регрессии.

Обозначим выражение k0+k1xt–1 через переменную zt –1. Тогда модель регрессии для переменной yt –1 примет вид:

yt–1= zt–1+ut.

Новая переменная zt –1 удовлетворяет свойствам, предъявляемым к инструментальным переменным:

1) она тесно коррелирует с переменной yt–1: cov(zt–1,yt–1)≠0;

2) она коррелирует со случайной ошибкой исходной модели авторегрессии εt: cov(εt, zt–1).

Таким образом, исходная модель авторегрессии может быть представлена следующим образом:

yt=β0+β1xt+δ1(k0+k1xt–1+ut)+εt= β0+β1xt+δ1 zt–1+νt,

где νt= δ1 ut+ εt.

На следующем этапе оценки неизвестных коэффициентов преобразованной модели рассчитываются с помощью традиционного метода наименьших квадратов. Эти оценки будут являться оценками неизвестных коэффициентов исходной модели авторегрессии.

40Модель авторегрессии и проинтегрированного скользящего среднего

Модель авторегрессии и проинтегрированного скользящего среднего (АРПСС) была предложена американскими учёными Боксом и Дженкинсом в 1976 г. как один из методов оценки неизвестных параметров и прогнозирования временных рядов.

Моделью авторегрессиии проинтегрированного скользящего среднего называется модель, которая применяется при моделировании нестационарных временных рядов.

Нестационарный временной ряд характеризуется непостоянными математическим ожиданием, дисперсией, автоковариацией и автокорреляцией.

В основе модели авторегрессии и проинтегрированного скользящего среднего лежат два процесса:

1) процесс авторегрессии;

2) процесс скользящего среднего.

Процесс авторегрессии может быть представлен в виде:

xt=a+δ1xt-1+δ2xt-2+…+εt,

где a – свободный член модели, являющийся константой;

δ1 δ2…— параметры модели авторегрессии;

ε – случайное воздействие (ошибка модели).

Каждое наблюдение в модели авторегрессии представляет собой сумму случайной компоненты и линейной комбинации предыдущих наблюдений.

Процесс скользящего среднего может быть представлен в виде:

xt=μ+εt–θ1εt–1–θ2εt–2–…

где μ – свободный член модели, являющийся константой;

θ1 θ2… – параметры модели скользящего среднего;

ε – случайное воздействие (ошибка модели).

Текущее наблюдение в модели скользящего среднего представляет собой сумму случайной компоненты в данный момент времени и линейной комбинации случайных воздействий в предыдущие моменты времени.

Следовательно, в общем виде модель авторегрессии и проинтегрированного скользящего среднего описывается формулой:

где С – свободный член модели, являющийся константой;

εt – некомпенсированный моделью случайный остаток.

В обозначениях Бокса и Дженкинса модель авторегрессии и проинтегрированного скользящего среднего записывается как АРПСС(p,d,q) или ARIMA (p,d,q), где

p – параметры процесса авторегрессии;

d – порядок разностного оператора;

q – параметры процесса скользящего среднего.

Для рядов с периодической сезонной компонентой применяется модель авторегрессии и проинтегрированного скользящего среднего с сезонностью, которая в обозначениях Бокса и Дженкинса записывается как АРПСС (p,d,q) (ps,ds,qs), где

ps – сезонная авторегрессия;

ds – сезонный разностный оператор;

qs – сезонное скользящее среднее.

Моделирование нестационарных временных рядов с помощью модели авторегрессии и проинтегрированного скользящего среднего осуществляется в три этапа:

1) проверка временного ряда на стационарность;

2) идентификация порядка модели и оценивание неизвестных параметров;

3) прогноз.

Применение модели АРПСС предполагает обязательную стационарность исследуемого ряда, поэтому на первом этапе данное предположение проверяется с помощью автокорреляционной и частной автокорреляционной функций ряда остатков. Остатки представляют собой разности наблюдаемого временного ряда и значений, вычисленных с помощью модели.

Устранить нестационарность временного ряда можно с помощью метода разностных операторов.

Разностным оператором первого порядка называется замена исходного уровня временного ряда разностями первого порядка:

Разностные операторы первого порядка позволяет исключить линейные тренды.

Разностные операторы второго порядка позволяют исключить параболические тренды.

Сезонные разностные операторы предназначены для исключения 12-ти или 4-х периодичной сезонности:

Если модель содержит и трендовую, и сезонную компоненты, то необходимо применять оба оператора.

На втором этапе необходимо решить, сколько параметров авторегрессии и скользящего среднего должно войти в модель.

В процессе оценивания порядка модели авторегрессии и проинтегрированного скользящего среднего применяется квазиньютоновский алгоритм максимизации правдоподобия наблюдения значений ряда по значениям параметров. При этом минимизируется (условная) сумма квадратов остатков модели. Для оценки значимости параметров используется t-статистика Стьюдента. Если значения вычисляемой t-статистики не значимы, соответствующие параметры в большинстве случаев удаляются из модели без ущерба подгонки.

Полученные оценки параметров используются на последнем этапе для того, чтобы вычислить новые значения ряда и построить доверительный интервал для прогноза.

Оценкой точности прогноза, сделанного на основе модели авторегрессии и проинтегрированного скользящего среднего является среднеквадратическая ошибка (mean squar e), вычисляемая по формуле:

Чем меньше данный показатель, тем точнее прогноз.

Модель авторегрессии и проинтегрированного скользящего среднего считается адекватной исходным данным, если остатки модели являются некоррелированными нормально распределёнными случайными величинами.

28Гетероскедастичность остатков модели регрессии

Случайной ошибкой называется отклонение в линейной модели множественной регрессии:

εi=yi–β0–β1x1i–…–βmxmi

В связи с тем, что величина случайной ошибки модели регрессии является неизвестной величиной, рассчитывается выборочная оценка случайной ошибки модели регрессии по формуле:

где ei – остатки модели регрессии.

Термин гетероскедастичность в широком смысле понимается как предположение о дисперсии случайных ошибок модели регрессии.

При построении нормальной линейной модели регрессии учитываются следующие условия, касающиеся случайной ошибки модели регрессии:

6) математическое ожидание случайной ошибки модели регрессии равно нулю во всех наблюдениях:

7) дисперсия случайной ошибки модели регрессии постоянна для всех наблюдений:

8) между значениями случайных ошибок модели регрессии в любых двух наблюдениях отсутствует систематическая взаимосвязь, т. е. случайные ошибки модели регрессии не коррелированны между собой (ковариация случайных ошибок любых двух разных наблюдений равна нулю):

Второе условие

означает гомоскедастичность (homoscedasticity – однородный разброс) дисперсий случайных ошибок модели регрессии.

Под гомоскедастичностью понимается предположение о том, что дисперсия случайной ошибки βi является известной постоянной величиной для всех наблюдений.

Но на практике предположение о гомоскедастичности случайной ошибки βi или остатков модели регрессии ei выполняется не всегда.

Под гетероскедастичностью (heteroscedasticity – неоднородный разброс) понимается предположение о том, что дисперсии случайных ошибок являются разными величинами для всех наблюдений, что означает нарушение второго условия нормальной линейной модели множественной регрессии:

Гетероскедастичность можно записать через ковариационную матрицу случайных ошибок модели регрессии:

Тогда можно утверждать, что случайная ошибка модели регрессии βi подчиняется нормальному закону распределения с нулевым математическим ожиданием и дисперсией G2Ω:

εi~N(0; G2Ω),

где Ω – матрица ковариаций случайной ошибки.

Если дисперсии случайных ошибок

модели регрессии известны заранее, то проблема гетероскедастичности легко устраняется. Однако в большинстве случаев неизвестными являются не только дисперсии случайных ошибок, но и сама функция регрессионной зависимости y=f(x), которую предстоит построить и оценить.

Для обнаружения гетероскедастичности остатков модели регрессии необходимо провести их анализ. При этом проверяются следующие гипотезы.

Основная гипотеза H0 предполагает постоянство дисперсий случайных ошибок модели регрессии, т. е. присутствие в модели условия гомоскедастичности:

Альтернативная гипотеза H1 предполагает непостоянство дисперсиий случайных ошибок в различных наблюдениях, т. е. присутствие в модели условия гетероскедастичности:

Гетероскедастичность остатков модели регрессии может привести к негативным последствиям:

1) оценки неизвестных коэффициентов нормальной линейной модели регрессии являются несмещёнными и состоятельными, но при этом теряется свойство эффективности;

2) существует большая вероятность того, что оценки стандартных ошибок коэффициентов модели регрессии будут рассчитаны неверно, что конечном итоге может привести к утверждению неверной гипотезы о значимости коэффициентов регрессии и значимости модели регрессии в целом.

. Устранение гетероскедастичности остатков модели регрессии

Существует множество методов устранения гетероскедастичности остатков модели регрессии. Рассмотрим некоторые из них.

Наиболее простым методом устранения гетероскедастичности остатков модели регрессии является взвешивание параметров модели регрессии. В этом случае отдельным наблюдениям независимой переменой, характеризующимся максимальным среднеквадратическим отклонением случайной ошибки, придаётся больший вес, а остальным наблюдениям с минимальным среднеквадратическим отклонением случайной ошибки придаётся меньший вес. После данной процедуры свойство эффективности оценок неизвестных коэффициентов модели регрессии сохраняется.

Если для устранения гетероскедастичности был использован метод взвешивания, то в результате мы получим взвешенную модель регрессии с весами

Предположим, что на основе имеющихся данных была построена линейная модель парной регрессии, в которой было доказано наличие гетероскедастичности остатков

Рассмотрим подробнее процесс взвешивания для данной модели регрессии.

Разделим каждый член модели регрессии на среднеквадратическое отклонение случайной ошибки G(βi):

В общем виде процесс взвешивания для линейной модели парной регрессии выглядит следующим образом:

Для более наглядного представления полученной модели регрессии воспользуемся методом замен:

В результате получим преобразованный вид взвешенной модели регрессии:

Преобразованная взвешенная модель регрессии является двухфакторной моделью регрессии.

Дисперсию случайной ошибки взвешенной модели регрессии можно рассчитать по формуле:

Полученный результат доказывает постоянство дисперсий случайных ошибок преобразованной модели регрессии, т. е. о выполнении условия гомоскедастичности.

Главный недостаток метода взвешивания заключается в необходимости априорного знания среднеквадратических отклонений случайных ошибок модели регрессии. По той причине, что в большинстве случаев данная величина является неизвестной, приходится использовать другие методы, в частности методы коррекции гетероскедастичности.

Определение. Суть методов коррекции гетероскедастичности состоит в определении оценки ковариационной матрицы случайных ошибок модели регрессии:

Для определения оценок

используется метод Бреуше-Пайана, который реализуется в несколько этапов:

1) после получения оценок неизвестных коэффициентов модели регрессии рассчитывают остатки ei и показатель суммы квадратов остатков

2) рассчитывают оценку дисперсии остатков модели регрессии по формуле:

3) строят взвешенную модель регрессия, где весами являются оценка дисперсии остатков модели регрессии

4) если при проверке гипотез взвешенная модель регрессии является незначимой, то можно сделать вывод, что оценки матрицы ковариаций Ω являются неточными.

Если вычислены оценки дисперсий остатков модели регрессии, то в этом случае можно использовать доступный обобщённый или взвешенный методы наименьших квадратов для вычисления оценок коэффициентов модели регрессии, которые отличаются только оценкой

Если гетероскедастичность остатков не поддаётся корректировке, то можно рассчитать оценки неизвестных коэффициентов модели регрессии с помощью классического метода наименьших квадратов, но затем подвергнуть корректировке ковариационную матрицу оценок коэффициентов

т. к. условие гетероскедастичности приводит к увеличению данной матрицы.

Ковариационная матрица оценок коэффициентов

может быть скорректирована методом Уайта:

где N – количество наблюдений;

X – матрица независимых переменных;

– квадрат остатков модели регрессии;

– транспонированная i-тая строка матрицы данных Х.

Корректировка ковариационной матрицы оценок коэффициентов

методом Уайта приводит к изменению t-статистики и доверительных интервалов для коэффициентов регрессии

31Автокорреляция остатков модели регрессии. Последствия автокорреляции. Автокорреляционная функция

Автокорреляцией называется корреляция, возникающая между уровнями изучаемой переменной. Это корреляция, проявляющаяся во времени. Наличие автокорреляции чаще всего характерно для данных, представленных в виде временных рядов.

Автокорреляцией остатков модели регрессии ei (или случайных ошибок регрессии модели βi) называется корреляционная зависимость между настоящими и прошлыми значениями остатков.

Временным лагом называется величина сдвига между рядами остатков модели регрессии.

Величина временного лага определяет порядок коэффициента автокорреляции. Например, если между остатками en и en-1 существует корреляционная зависимость, то временной лаг равен единице. Следовательно, данную корреляционную зависимость можно охарактеризовать с помощью коэффициента автокорреляции первого порядка между рядами остатков e1…en-1 и e2…en.

Одно из условий, которое учитывается при построении нормальной линейной модели регрессии, заключается в некоррелированности случайных ошибок модели регрессии, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю:

Если в модели регрессии случайные ошибки коррелированны между собой, то данное условие нарушается.

Последствия, к которым может привести наличие в модели регрессии автокорреляции остатков, совпадают с последствиями, к которым может привести наличие в модели регрессии гетероскедастичности:

Наиболее наглядным способом обнаружения автокорреляции случайных остатков регрессионной модели является графический метод. При этом осуществляется построение графиков автокорреляционной и частной автокорреляционной функций.

Автокорреляционной функцией называется функция оценки коэффициента автокорреляции в зависимости от величины временного лага между исследуемыми рядами.

Графически автокорреляционная функция изображается с помощью коррелограммы. Коррелограмма отражает численно и графически коэффициенты автокорреляции и их стандартные ошибки для последовательности лагов из определённого диапазона (например, от 1 до 25). При этом по оси Х откладываются значения τ (тау) – величины сдвига между рядами остатков, которые совпадают с порядком автокорреляционного коэффициента. Также на коррелограмме отмечается диапазон в размере двух стандартных ошибок коэффициентов автокорреляции на каждом лаге.

Частная автокорреляционная функция является более углублённой версией обычной автокорреляционной функции. Её отличительной особенностью является исключение корреляционной зависимости между наблюдениями внутри лагов, т. е. частная автокорреляционная функция на каждом лаге отличается от обычной автокорреляционной функции на величину удалённых автокорреляций с меньшими временными лагами. Следовательно, частная автокорреляционная функция более точно характеризует автокорреляционные зависимости внутри временного ряда.

1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.055 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница