Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Оценка точности прогноза на основе уравнения многофакторной линейной регрессии

Читайте также:

Основные этапы в построении прогнозов зависимой переменной на основе факторной регрессионной модели могут быть представлены следующей последовательностью шагов:

а) вне рамок модели получают прогноз значений всех предопределенных переменных (в том числе независимых, «прогноз» времени, если оно входит в число независимых переменных, лаговых переменных и т.п.), в дальнейшем вектор прогнозных значений предопределенных переменных обозначим как х^р;

б) осуществляется точечный прогноз среднего значения зависимой переменной по уравнению регрессии (4), исходя из результатов его оценивания:

;

в) с заданной надежностью строиться доверительный интервал прогноза зависимой переменной y(x^p).

Построение доверительного интервала прогноза существенно зависит и определяется свойствами распределения случайных отклонений наблюдаемого ряда, а также свойствами оценок коэффициентов уравнения регрессии. Рассмотрим эти вопросы в отношении МНК.

Правомерное использование метода наименьших квадратов возможно лишь в условиях безусловного выполнения ряда обязательных предположений относительно , известных как классические требования метода. Они включают в себя следующие гипотезы [3, 25, 38, 39]:

1) математическое ожидание отклонений равно нулю (ограничение следует из общего представления регрессионной зависимости):

М =0, ;

2) отклонения некоррелированы (свойство взаимной некоррелированности остатков):

M =0, ;

3) отклонения имеют одинаковую конечную дисперсию (свойство гомоскедастичности остатков):

D = M ()² = s², .

Гипотезы 2 и 3 иногда формулируют как единое требование – это соотношение описывает сразу два свойства, которыми предположительно обладают случайные регрессионные остатки: свойство взаимной некоррелированности, а также свойство гомоскедастичности (неизменности дисперсий регрессионных остатков).

Кроме того, дополнительно предполагается линейная независимость столбцов матрицы независимых переменных (свойство отсутствия мультиколлинеарности столбцов матрицы Х), т.е.

4) (X ₁, X ₂, …, X_m) – неслучайные (детерминированные) переменные;

5) rangZ= m +1<< n, где

В общей матричной форме уравнения регрессии и ограничения КЛММР иногда называют условиями Гаусса-Маркова [] и выглядят они следующим образом:

(14) ,

где Y = (y ₁, y ₂, …, y_n)^T – вектор-столбец наблюдений эндогенной переменной;

a = (a ₀, a ₁, …, a_m)^T – вектор-столбец неизвестных значений параметров;

ε = (ε ₁, ε ₁, …, ε_n)^T – вектор-столбец регрессионных остатков;

0 _n = (0, 0, …, 0)^T – вектор-столбец, состоящий из n нулей;

cov(ε) – матрица коэффициентов ковариации регрессионных остатков;

E _n – единичная матрица размерности n n.

Выполнение этих условий гарантирует у параметров уравнения регрессии, полученных с помощью МНК наличия следующих определяющих характеристик: свойства несмещенности, эффективности в классе линейных относительно Y несмещенных оценок, а также состоятельности при условии, что наименьшее собственное значение матрицы X^TX стремится к бесконечности с неограниченным увеличением объема выборки. Напомним следующие важные для дальнейших рассуждений определения.

1. Оценка a параметра α называется несмещенной, если ее математическое ожидание равно этому параметру: M = , .

2. Оценка называется состоятельной, если по мере роста числа наблюдений она сходится по вероятности к оцениваемому параметру, т.е. если для любого сколь угодно малого ξ > 0 справедливо предельное неравенство: P{| â – а | ≤ ξ } = 1 или иначе .

3. Эффективности, т.е. в классе линейных несмещенных оценок любая другая оценка параметра ЛММР будет иметь большую дисперсию. Иначе говоря, оценка а* называется эффективной оценкой параметра а в классе оценок А, если ее дисперсия является минимальной среди оценок этого класса: Dа* = .

Покажем наличие у оценок МНК указанных свойств в соответствующих предположениях относительно распределения остатков объясняемой переменной.

Докажем несмещенность оценок МНК, для чего вычислим математическое ожидание оценок . Используя формулу (13) и предполагаемые свойства остатков, имеем:

Таким образом, оцененные значения параметров уравнения регрессии в точности совпали с их истинными значениями, следовательно, оценки оказались несмещенными.

Для доказательства состоятельностиоценок вычислим их дисперсию, т.е. вектор . Для вычисления определим матрицу ковариаций оценок - , диагональные элементы которой и представляют собой . Используя формулу (13), имеем следующее соотношение для вычисления элементов матрицы ковариаций оценок (обозначим его (15)):

Отдельно рассмотрим выражение М(). Учитывая вторую и третью гипотезы относительно свойств случайной составляющей , имеем:

где Е - единичная матрица размерности n ´ n. С учетом формулы (15) получим:

(16).

Истинное значение параметра s ² неизвестно. Однако его несмещенной оценкой s² является средний квадрат отклонений значений y от регрессии, т.е.:

(17).

Эта формула доказывается, например, в [3]. Знаменатель формулы (17) представляет собой число степеней свободы: количество наблюдений, уменьшенное на число оцениваемых параметров. Величина s называется стандартной ошибкой оценки параметра уравнения регрессии. Таким образом, окончательно получили

(18).

Диагональные элементы матрицы ковариаций оценок выражения (18) есть не что иное, как дисперсии свободного члена и коэффициентов уравнения регрессии. Это важный дополнительный факт для построения доверительных интервалов параметров факторной модели. Кроме того, из соотношения (18) очевидно, что свойство состоятельности оценок (3), полученных с помощью МНК, выполнено.

Доказательство эффективности оценок подтверждается теоремой Гаусса-Маркова [39]. Сформулируем ее содержание.

Если выполняются следующие три предположения:

1. .

2. Z - детерминированная размерностью матрица с рангом .

Тогда оценка некоторого вектора параметров уравнения (2), полученная c помощью МНК, , является наиболее эффективной с точки зрения минимальной дисперсии (т.е. наименьшего значения ) оценкой в классе линейных по вектору несмещённых оценок уравнения регрессии.

Проведем доказательство. Для простоты рассуждений введём следующее промежуточное обозначение, пусть , тогда .

Любую другую линейную оценку вектора параметров без ограничения общности можем записать, как , где - некоторая не вырожденная матрица размерностью . Таким образом, вектора оценок параметров линейной регрессии a и a* получены путем оперирования соответственно с матрицами A и (A+B), где .

Для проведения дальнейших рассуждений здесь примем за основу следующие уже доказанные факты:

1. Из свойства несмещенности оценок, полученных с помощью МНК, имеем .

2. Из следствия свойства состоятельности оценок, полученных с помощью МНК, имеем .

3. Кроме того, очевидным является следующее утверждение, если , то .

Из условий несмещённости имеем:

, т.е.

Таким образом, очевидно для наличия у вектора a* свойства несмещенности необходимо, чтобы выполнялось следующее равенство .

Оценим ковариацию параметров a*, для чего воспользуемся промежуточной выкладкой, а именно:

Тогда =

= .

Что означает выполнение следующего равенства

, таким образом,

Установленный факт являются доказательством утверждения о том, что в классе линейных по вектору несмещённых оценок уравнения регрессии (2) оценки, полученные методом наименьших квадратов, гарантируют эффективность оценок регрессии в смысле минимизации их дисперсии.

Найдем теперь окончательно доверительный интервал, в котором с заданной надежностью будет находиться фактическое значение прогнозируемой зависимой переменной у(х^р). Как уже ранее было показано разброс этого значения будет определяться двумя случайными величинами:

- разбросом значения из-за ошибок оценок коэффициентов регрессии;

- случайным отклонением .

Итак, .

Оценку мы уже получили: это s ². Оценим дисперсию прогноза, определяемую вероятностным характером построенной модели, т.е. оценим . Для этого будем использовать вектор Z^p, представляемый как .

Используя соотношение (4) имеем:

Отсюда получаем общую оценку дисперсии прогноза, построенного на факторной регрессионной модели:

. (19).

Обозначив стандартную ошибку прогноза, как , получим:

Окончательно, доверительный интервал значения у(х^р) с надежностью 100(1-q)% можно определить по формуле:

, (20).

где t _1- _q - 100(1-q)% процентиль (табличное значение) распределения Стьюдента с n=n-m- 1 степенями свободы.

Получение фактической оценки ширины доверительного интервала прогноза на ЛММР с помощью соотношения (20) позволяет достаточно детально и комплексно решать задачу определения заданных требований к качеству прогноза. Как известно, с увеличением n значение t _1- _q уменьшается, поэтому при увеличении числа наблюдений n доверительный интервал сужается. На величину этого интервала влияет и х^р. При этом лишь качественно можно утверждать, что при удалении х^р от доверительный интервал увеличивается. Конкретное утверждение возможно лишь сформулировать, зная исходный вид регрессионной модели.

Зная общий вид величины доверительного интервала прогноза (20) в рамках ЛММР, не трудно вывести формулу доверительного интервала трендовой модели заданного вида. Понятно, что при этом матрица экзогенных переменных примет вид: .

Для прогнозирования на основе модели линейного тренда доверительный интервал определяется по формуле

(21),

где - значение порядкового номера уровня, стоящего в середине временного ряда;

n+L - время, на которое осуществляется прогнозный расчет, т.е. L – период упреждения прогноза;

n – длина ретроспективного периода;

s - среднее квадратическое отклонение фактических наблюдений от расчетных значений y.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (2.705 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница