|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Проверка значимости параметров линейной регрессии и подбор модели с использованием f-критериевПриводимая ниже таблица 5.1 содержит ежегодные данные о следующих показателях экономики Франции за период с 1949 по 1960 годы (млрд. франков, в ценах 1959 г.): Y –объем импорта товаров и услуг во Францию; X 1 –валовой национальный продукт; X 2 –потребление семей. Таблица 5.1
Выберем модель наблюдений в виде где – значение показателя в i- м наблюдении (i- му наблюдению соответствует год. Будем, как обычно, предполагать что нормально распределенные случайные величины с параметрами и что значение нам не известно. Регрессионный анализ дает следующие результаты: и
Обращают на себя внимание выделенные курсивом - значения. В соответствии с ними, проверка каждой отдельной гипотезы , (даже при уровне значимости ) приводит к решению о ее неотклонении. Соответственно, при реализации каждой из этих двух процедур проверки соответствующий параметр или признается статистически незначимым. И это выглядит противоречащим весьма высокому значению коэффициента детерминации. По-существу, вопрос стоит таким образом: необходимо построить статистическую процедуру для проверки гипотезы конкретизирующей значения не какого-то одного, а сразу двух коэффициентов. И вообще, как проверить гипотезу (гипотеза значимости регрессии) в рамках нормальной линейной модели множественной регрессии Соответствующий статистический критерий основывается на так называемой F-статистике Здесь – остаточная сумма квадратов, получаемая при оценивании полной модели (с объясняющими переменными, включая тождественную единицу), а – остаточная сумма квадратов, получаемая при оценивании модели с наложенными гипотезой ограничениями на параметры. Но последняя (редуцированная) модель имеет вид и применение к ней метода наименьших квадратов приводит к оценке так что Следовательно, В некоторых пакетах статистического анализа (например, в EXCEL) в распечатках результатов приводятся значения числителя и знаменателя этой статистики (в графе Средние квадраты – Mean Squares). Если нормально распределенные случайные величины с параметрами , то указанная - статистика, рассматриваемая как случайная величина, имеет при гипотезе H 0 (т. е. когда действительно α 1 =¼= αm= 0) стандартное распределение , называемое F-распределением Фишера с m и (n-m- 1) степенями свободы. Чем больше отношение , тем больше есть оснований говорить о том, что совокупность переменных действительно помогает в объяснении изменчивости объясняемой переменной . В соответствии с этим, гипотеза отвергается при «слишком больших» значениях F, скорее указывающих на невыполнение этой гипотезы. Соответствующее пороговое значение определяется как квантиль уровня распределения , обозначаемая символом . Итак, гипотеза Н 0 отвергается, если выполняется неравенство При этом вероятность ошибочного отвержения гипотезы равна . Статистические пакеты, выполняющие регрессионный анализ, приводят среди прочих результатов такого анализа также значение указанной - статистики и соответствующее ему P-значение (P-value), т. е. вероятность В частности, в рассмотренном выше примере с импортом товаров и услуг во Францию вычисленное (наблюдаемое) значение - статистики равно , в то время как критическое значение Соответственно, - значение крайне мало – в распечатке результатов приведено значение . Значит, здесь нет практически никаких оснований принимать составную гипотезу , хотя каждая из частных гипотез и , рассматриваемая сама по себе, в отрыве от второй, не отвергается. Подобное положение встречается не так уж и редко и связано с проблемой мультиколлинеарности данных. Далее мы уделим этой проблеме определенное внимание. Пример 5.5. Анализ данныхоб уровнях безработицы среди белого и цветного населения США приводит к следующим результатам: , , - значение = , так что при выборе гипотеза не отвергается, а при выборе отвергается. Пример 5.6. Анализ зависимости спроса на куриные яйца от цены приводит к значениям , , - значение = , так что гипотеза отвергается, а регрессия признается статистически значимой. Пример 5.7. Зависимость производства электроэнергии в США от мирового рекорда по прыжкам в высоту с шестом: , , - значение = , регрессия признается статистически значимой. Пример 5.8. Потребление свинины в США в зависимости от оптовых цен: , , - значение = , так что гипотеза не отвергается даже при выборе . Отметим, наконец, еще одно обстоятельство. Во всех четырех рассмотренных примерах регрессионного анализа модели простой (парной) линейной регрессии (m= 1 ) вычисленные - значения - статистик совпадают с - значениями - статистик, используемых для проверки гипотезы . Факт такого совпадения отнюдь не случаен и может быть доказан с использованием алгебраических преобразований. Применение критериев, основанных на статистиках, имеющих при нулевой гипотезе -распределение Фишера (F-критерии), отнюдь не ограничивается только что рассмотренным анализом статистической значимости регрессии. Такие критерии широко применяются в процессе подбора модели. Пусть мы находимся в рамках множественной линейной модели регрессии c объясняющими переменными, и гипотеза состоит в том, что в модели последние коэффициентов равны нулю, т. е. Тогда при гипотезе (т. е. в случае, когда она верна) мы имеем редуцированную модель уже с объясняющими переменными. Пусть - остаточная сумма квадратов в полной модели , а – остаточная сумма квадратов в редуцированной модели . Если гипотеза верна и выполнены стандартные предположения о модели (в частности, нормально распределенные случайные величины с параметрами ), то тогда F- статистика рассматриваемая как случайная величина, имеет при гипотезе H 0 (т. е. когда действительно αm = αm- 1 = ¼= αm-q+ 1 = 0) F-распределение Фишера F (q, n-m- 1) с q и (n-m- 1) степенями свободы. F-статистика измеряет, в соответствующем масштабе, возрастание объясненной суммы квадратов вследствие включения в модель дополнительного количества объясняющих переменных. Естественно считать, что включение дополнительных переменных существенно, если указанное возрастание объясненной суммы квадратов достаточно велико. Это приводит нас к критерию проверки гипотезы основанному на F-статистике и отвергающему гипотезу , когда наблюдаемое значение этой статистики удовлетворяет неравенству
где – выбранный уровень значимости критерия (вероятность ошибки 1-го рода). Пример 5.9. В таблице 5.2. приведены данные по США о следующих макроэкономических показателях: –годовой совокупный располагаемый личный доход; –годовые совокупные потребительские расходы; –финансовые активы населения на начало календарного года (все показатели указаны в млрд. долларов, в ценах 1996 г.). Таблица 5.2
Рассмотрим модель наблюдений где индексу соответствует год. Это модель с 3 объясняющими переменными: символ обозначает переменную, значения которой запаздывают на одну единицу времени относительно значений переменной, . Оценивание этой модели дает следующие результаты:
— статистика критерия проверки значимости регрессии в целом Регрессия имеет очень высокую статистическую значимость. Вместе с тем, каждый из коэффициентов при двух последних переменных статистически незначим, так что, в частности, не следует придавать особого значения отрицательности оценок этих коэффициентов. Используя – критерий, мы могли бы попробовать удалить из модели какую-нибудь одну из двух последних переменных, и если оставшиеся переменные окажутся значимыми, то остановиться на модели с 2 объясняющими переменными; если же и в новой модели окажутся статистически незначимые переменные, то произвести еще одну редукцию модели. Рассмотрим, в этой связи, модель с удаленной переменной . Для нее получаем:
F- статистика критерия проверки значимости регрессии в этой модели Поскольку здесь остается статистически незначимым коэффициент при переменной , можно произвести дальнейшую редукцию, переходя к модели Для этой модели
- статистика критерия проверки значимости регрессии в этой модели и эту модель в данном контексте можно принять за окончательную. С другой стороны, обнаружив при анализе модели (посредством применения t-критериев) статистическую незначимость коэффициентов при двух последних переменных, мы можем попробовать выяснить возможность одновременного исключения из этой модели указанных объясняющих переменных, опираясь на использование соответствующего F-критерия. Исключение двух последних переменных из модели соответствует гипотезе при которой модель редуцируется сразу к модели . Критерий проверки гипотезы основывается на статистике где – остаточная сумма квадратов в модели , – остаточная сумма квадратов в модели , – количество зануляемых параметров, . Для наших данных получаем значение которое следует сравнить с критическим значением Поскольку , мы не отвергаем гипотезу и можем сразу перейти от модели к модели . Замечание. В рассмотренном примере мы действовали двумя способами: Дважды использовали - критерии, сначала приняв (не отвергнув) гипотезу в рамках модели , а затем приняв гипотезу в рамках модели . Однократно использовали F- критерий, приняв гипотезу в рамках модели . Выводы при этих двух альтернативных подходах оказались одинаковыми. Однако, из выбора модели в подобной последовательной процедуре, вообще говоря, не следует что такой же выбор будет обязательно сделан и при применении - критерия, сравнивающего первую и последнюю модели.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.017 сек.) |