Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Дисперсионный анализ регрессионной модели

Читайте также:

Построение качественного прогноза не возможно без четкой убежденности относительно качества модели, на которой делается прогноз. В этой связи очередной раз встает вопрос о критериях оценки качества факторной модели. Эта проблема решается в рамках т.н. дисперсионного анализа модели линейной регрессии.

Ранее, рассуждая о возможных критериях информационных и прогностических оценок моделей прогноза (п.2.2), мы перечисляли различные способы расчета ошибок, в частности стандартной ошибки оценки. Однако в связи с использованием в качестве генератора прогноза ЛММР, следовало бы предположить возможность конструирования некоторых специальных критериев оценки пригодности построенной регрессии. С этой целью полезно было бы проанализировать рис.6 а) и б) и задаться вопросом: в каком случае прогнозирование следовало бы осуществлять на регрессионной модели, а когда ей разумнее бы предпочесть прогноз по среднему уровню ряда объясняемой переменной Y. Ясно, что последняя ситуация отражает факт независимости выхода модели от значений переменных подаваемых на ее вход, т.е. значений матриц X или Z. Другими словами, если прогноз на основе регрессионной модели предполагается осуществить по формуле , следует выяснить: улучшают ли независимые переменные х₁, х₂,..., х_m

Рис.6.а. Рис. 6.б.

предсказание у по сравнению с простейшим вариантом модели: . Последнее утверждение можно сформулировать как статистическую гипотезу, требующую соответствующей проверки.

С целью дальнейших рассуждений введем следующие обозначения. Пусть

(22) - полная вариация или просто вариация (разброс) признака вокруг своего среднего значения;

(23) - объясненная вариация или вариация, обусловленная регрессией;

(24) - вариация необъясненная регрессией или остаточная вариация.

Анализ ситуаций, проиллюстрированных на рисунке 6, должен навести на мысль о том, что общую вариацию признака вокруг средней можно рассматривать как результирующую от объясненной и остаточной вариации. При этом, очевидно, что чем большую долю в общей вариации занимает объясненная, тем более привлекательной для моделирования процесса, а следовательно, и осуществления прогноза становиться ЛММР. Верно и обратное утверждение, чем больше относительная доля необъясненной вариации в общей, тем предпочтительней становится модель средней.

Следовательно, моделирование по средней предпочтительнее в ситуации б), а в ситуации а) по всей видимости, следует предпочесть регрессионную зависимость. На основе этого наблюдения можно построить некий критерий оценки качества построения эконометрической модели в виде ЛММР.

Однако для начала следует более строго доказать факт того, что .

Рассмотрим выражение Q²=e^Te, его можно представить как:

Подставляя в полученное равенство формулу (10), имеем:

Таким образом, доказано, что . Ясно, что значимость регрессии тем больше, чем больше отношение , т.е. чем выше доля вариации регрессии в общей. На этом рассуждении и строиться обоснование т.н. статистики Фишера или F -критерия Фишера. Вычисляется F -статистика, учитывающая число степеней свободы, лежащих в обосновании величин соответствующих вариаций, т.е.:

, (25)

которая сравнивается с табличным значением F_q(m,n-m-1), где F_q(m,n-m-1) - 100 q %-я процентиль (табличное значение) распределения Фишера с числом степеней свободы n₁= m и n₂= n-m-1.

Если расчетное значение критерия превышает пороговое, т.е. F > F_q, то с вероятностью 100(1- q) % регрессия существенна, если F < Fq - то нет, и следует принять основную гипотезу о верности соотношения .

Таблицы распределения Фишера можно найти в [31, 32]. Для проведения расчетов обычно составляется таблица дисперсионного анализа, приведенная в таблице 4.

Таблица 4.

Стандартная структура таблицы дисперсионного анализа.

Источник дисперсии	Сумма квадратов отклонений	Число степеней свободы	F-статистика
Регрессия		v₁=m
Отклонение от регрессии		v₂=n-m-1
Полная		n-1

Другим общепринятым показателем качества построения модели множественной регрессии является коэффициент детерминации (квадрат множественной корреляции) - . Он непосредственно указывает на то, какая доля (можно – процент) вариации результирующей переменной объясняется влиянием совокупности входных факторов модели. Таким образом,

(26).

Традиционная интерпретация критерия Фишера несколько сложнее, чем критерия , кроме того, коэффициент детерминации может принимать ограниченный диапазон значений. Однако совсем нетрудно показать, что

(27).

Т.е. данные критерии непосредственно взаимосвязаны и меняются в одном направлении, большим значениям F -критерия соответствуют большие значения критерия , верно и обратное утверждение.

Однако, ставя вопрос о выборе лучшей модели среди нескольких регрессионных уравнений, следует заметить [], что в общем случае

1. критерий имеет тенденцию к росту при добавлении регрессоров в модель;

2. критерий значительно меняется при преобразовании зависимых переменных на входе модели.

Попыткой нивелировать означенные выше эффекты является использование т.н. исправленного (скорректированного) коэффициента детерминации, который предлагается рассчитывать в соответствии со следующей формулой

(28).

Как правило, скорректированный критерий несколько меньше исходного, кроме того, он может принимать отрицательные значения. На практике существенного превосходства одного коэффициента перед другим не обнаружено, поэтому выбор конкретного показателя остается за исследователем.

Дальнейшие исследования формальных свойств построенной модели, в случае подтверждения гипотезы относительно ее значимости в целом, ведутся в направлении очистки модели от отдельных несущественных регрессоров. Для чего на значимость проверяется каждая независимая переменная. Гипотеза формулируется так: «Равен ли коэффициент a_j нулю?» Проверку гипотезы осуществляют с помощью t -статистики Стьюдента, который ранее уже рассматривался (см. п.[2.3.2]). Для этого вычисляется t -статистика коэффициента a_j:

где s_aj – стандартная ошибка параметра регрессии a_j_, иначе - квадратный корень из дисперсии j -го коэффициента регрессии (дисперсия вычисляется по формуле (18)).

Эта статистика сравнивается по абсолютной величине с табличным значением t _1- _q _/2 (n-m-1), где t_q (n-m-1) - 100q%-я процентиль распределения t -статистики Стьюдента с v=n-m-1 степенями свободы.

Если | t_j |> t _1- _q _/2, гипотеза о равенстве нулю коэффициента регрессии отвергается с вероятностью 100(1- q)%, в противном случае – принимается, т.е. соответствующий параметр признается значимым. Таблицы распределения Стьюдента можно найти в [31, 32].

С целью обнаружения моделей регрессии с наилучшими информационными и прогностическими характеристиками исключение незначимых переменных из модели осуществляют пошагово с перестройкой параметров модели на соответствующих итерациях.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.929 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница