АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Методы устранения мультиколлинеарности

Читайте также:
  1. B) должен хорошо знать только физико-химические методы анализа
  2. I. Естественные методы
  3. V. Способы и методы обеззараживания и/или обезвреживания медицинских отходов классов Б и В
  4. V1: Методы анализа электрических цепей постоянного тока
  5. V1: Переходные процессы в линейных электрических цепях, методы анализа переходных процессов
  6. V2: МЕТОДЫ ГИСТОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ
  7. V2: Цитология и методы цитологии
  8. Административно-правовые методы менеджмента
  9. Амортизация основных средств: понятие, назначение, методы расчёта.
  10. Аналитические методы сглаживания временных рядов
  11. Б. Методы активного изымания фактуры
  12. Барьерные методы

В общем случае вся совокупность методов устранения мультиколлинеарности делится на две большие группы. Первую составляют специальные методы оценивания параметров модели, гарантирующие недопущение мультиколлинеарности в процессе ее построения. К ним относят, прежде всего ридж-регрессию, методы факторного анализа, метод главных компонент. Вторая представляет собой совокупность эвристических методов и процедур «очистки» от эффекта мультиколлинеарности в рамках уже выбранного метода, например МНК.

Смещенные методы оценивания.

Одним из методов устранения мультиколлинеарности является переход к смещенным методам оценивания. Этот подход оправдывается тем, что в условиях мультиколлинеарности оценки дисперсии даже лучших несмещенных оценок оказываются достаточно большими, и в расширенном классе оценок (без требования несмещенности) могут найтись более точные оценки с точки зрения минимизации среднеквадратической ошибки.

Одним из таких смещенных методов оценивания является так называемая «ридж-регрессия», или «гребневая регрессия». Этот метод предлагает рассматривать оценки вида:

â = (XTX + τ E m +1)-1XT Y,

где τ – некоторое небольшое положительное число (как правило, это величина находится в диапазоне от 0.1 до 0.4). Его добавление к диагональным элементам матрицы XTX делает оценки смещенными, но с другой стороны, благодаря ему, определитель матрицы XTX перестает быть близким к нулю. При этом доказана теорема, утверждающая, что найдется такое значение τ 0, при котором средние квадраты ошибок смещенных оценок окажутся меньше соответствующих характеристик для МНК-оценок [3].

 

Метод главных компонент.

С помощью метода главных компонент осуществляется переход к ортогонализированным объясняющим переменным. Эти новые объясняющие переменные представляют собой некоторые линейные комбинации исходных регрессоров, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали [3].

Обозначим центрированный вектор-столбец наблюдений i -й объясняющей переменной; X = () – (n m)-матрицу центрированных наблюдений объясняющих переменных; Y = Y – центрированный вектор-столбец объясняемой переменной.

В терминах центрированных переменных Y и X = X = (X 1 1, …, Xm m)T уравнение регрессии примет вид:

Y = + ε,

.

Метод построения регрессии Y на главные компоненты вектора X заключается в выполнении следующих операций:

1) Определяются и упорядочиваются собственные числа λi и соответствующие им собственные векторы li = (li 1, li 2, …, lim) матрицы X ТX .

2) Из собственных векторов матрицы X ТX составляется матрица коэффициентов преобразования (матрица перехода):

,

которая по построению является ортогональной: LT = L–1.

3) С помощью матрицы L переходят к вектору главных компонент:

Z = (z (1), z (2), …, z ( m ))T = L X.

Соответственно j -е наблюдение вектора главных компонент определится соотношением:

Z = (zj (1), zj (2), …, zj ( m ))T = L Xcj,

а матрица наблюдений главных компонент:

Z = X LT.

Уравнение регрессии Y по Z имеет вид:

Y’ = c 1 z (1) + c 2 z (2) + … + cmz ( m ) + ε.

МНК-оценки регрессионных коэффициентов определяются, исходя из соотношения:

= (ZTZ)-1ZTY .

Из построения следует, что матрица ZTZ (матрица XTX в ортогональном базисе) имеет следующую структуру:

,

соответственно оценки:

взаимно некоррелированы, что делает их независимыми от числа и состава включенных в модель главных компонент.

Так как преобразование от исходных признаков к главным компонентам является ортогональным, то имеют место соотношения:

,

det(ZTZ) = det(X ТX ).

Если удается дать содержательную интерпретацию включенным в модель главным компонентам, то оценка функции регрессии Y на главные компоненты может быть записана в виде:

,

где δj = 1, если j -я главная компонента включена в модель (в случае ее статистической значимости); δj = 0, если j -я главная компонента не включена в модель.

В противном случае необходимо вернуться к исходным переменным. Оценки исходной модели регрессии определяются по формулам , . Полученные параметры модели, вообще говоря, будут смещенными [3].

 

Эвристические методы отбора наиболее существенных объясняющих переменных

Процедуру отбора существенных переменных можно рассматривать как процедуру выбора размерности линейной модели. Обусловленность матрицы ZTZ или XTX улучшается с уменьшением числа объясняющих переменных. Если две объясняющие переменные сильно коррелированы с объясняемой переменной Y и друг с другом, бывает достаточно включить в модель лишь одну из них.

Решение задачи отбора наиболее существенных объясняющих переменных возможно несколькими способами. Один из наиболее распространенных и эффективных – подход последовательного наращивания числа предикторов, который реализован в двух вариантах:

1) «Все возможные регрессии». Решается задача: путем полного перебора всех возможных комбинаций (сочетаний) из k (k = 1, 2, …, m –1) объясняющих переменных, отобранных из исходного (заданного) набора X 1, X 2, …, Xm, определить такие переменные, для которых коэффициент детерминации с результирующим показателем y был бы максимальным. Таким образом, на k -м шаге процедуры определяется k объясняющих переменных, наиболее информативных в классе моделей зависимости y от k предикторов. Строгих правил выбора оптимального числа предикторов нет. Один из способов, однако, предлагает воспользоваться формулой:

, где

– оценка коэффициента детерминации y по k наиболее информативным предикторам (в классе моделей зависимости y от k предикторов); – нижняя граница доверительного интервала для этого коэффициента детерминации; – скорректированная на величину смещения оценка этого коэффициента детерминации, определяемая по формуле:

;

– среднеквадратическое отклонение оценки :

.

Далее, в качестве оптимального числа предикторов предлагается выбрать такое k, при котором величина достигает своего максимума.

2) Пошаговый отбор переменных.

Пошаговый отбор переменных является модификацией метода «всех возможных регрессий» и отличается от него тем, что на каждом следующем шаге учитываются результаты предыдущего: на k -м перебираются не все возможные сочетания предикторов, а комбинации k –1 наиболее информативных предикторов предыдущего шага с оставшимися (mk +1)объясняющими переменными.

В большинстве ситуаций получаемые с помощью пошаговой процедуры наборы переменных оказываются оптимальными или близкими к оптимальным.

Другой подход к обоснованию состава и размерности решаемой задачи построения ЛММР с целью минимизации эффекта мультиколлинеарности состоит в исключении из модели одной или нескольких коррелированных переменных. Ясно, что основанием для исключения может служить высокое значение парного коэффициента корреляции в матрице коэффициентов корреляции экзогенных переменных модели (31.а). Критерием его эффективности является соответствующее изменение множественного коэффициента корреляции (34), а также соответствующих коэффициентов парной корреляции в векторе корреляции эндогенной и экзогенных переменных модели (31.б). Однако при такого рода «очистке» данных следует помнить о возможности существенного искажения содержательного смысла эконометрической модели и пытаться избежать его.

Следует также заметить, что некоторый положительный эффект на снижение мультиколлинеарности может оказывать расширение объемов выборки, изменение спецификации модели в части изменения ее формы, добавления значимого фактора в число объясняющих переменных, а также специальные методы преобразования исходных данных модели [14].


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.006 сек.)