Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Методы устранения мультиколлинеарности

Читайте также:

В общем случае вся совокупность методов устранения мультиколлинеарности делится на две большие группы. Первую составляют специальные методы оценивания параметров модели, гарантирующие недопущение мультиколлинеарности в процессе ее построения. К ним относят, прежде всего ридж-регрессию, методы факторного анализа, метод главных компонент. Вторая представляет собой совокупность эвристических методов и процедур «очистки» от эффекта мультиколлинеарности в рамках уже выбранного метода, например МНК.

Смещенные методы оценивания.

Одним из методов устранения мультиколлинеарности является переход к смещенным методам оценивания. Этот подход оправдывается тем, что в условиях мультиколлинеарности оценки дисперсии даже лучших несмещенных оценок оказываются достаточно большими, и в расширенном классе оценок (без требования несмещенности) могут найтись более точные оценки с точки зрения минимизации среднеквадратической ошибки.

Одним из таких смещенных методов оценивания является так называемая «ридж-регрессия», или «гребневая регрессия». Этот метод предлагает рассматривать оценки вида:

â = (X^TX + τ E _m ₊₁)^-1X^T Y,

где τ – некоторое небольшое положительное число (как правило, это величина находится в диапазоне от 0.1 до 0.4). Его добавление к диагональным элементам матрицы X^TX делает оценки смещенными, но с другой стороны, благодаря ему, определитель матрицы X^TX перестает быть близким к нулю. При этом доказана теорема, утверждающая, что найдется такое значение τ ₀, при котором средние квадраты ошибок смещенных оценок окажутся меньше соответствующих характеристик для МНК-оценок [3].

Метод главных компонент.

С помощью метода главных компонент осуществляется переход к ортогонализированным объясняющим переменным. Эти новые объясняющие переменные представляют собой некоторые линейные комбинации исходных регрессоров, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали [3].

Обозначим центрированный вектор-столбец наблюдений i -й объясняющей переменной; X ^’ = () – (n m)-матрицу центрированных наблюдений объясняющих переменных; Y^’ = Y – – центрированный вектор-столбец объясняемой переменной.

В терминах центрированных переменных Y^’ и X^’ = X – = (X ₁ – ₁, …, X_m – _m)^T уравнение регрессии примет вид:

Y^’ = + ε,

Метод построения регрессии Y на главные компоненты вектора X заключается в выполнении следующих операций:

1) Определяются и упорядочиваются собственные числа λ_i и соответствующие им собственные векторы l_i = (l_i ₁, l_i ₂, …, l_im) матрицы X ^’ ^ТX ^’.

2) Из собственных векторов матрицы X ^’ ^ТX ^’ составляется матрица коэффициентов преобразования (матрица перехода):

которая по построению является ортогональной: L^T = L^–1.

3) С помощью матрицы L переходят к вектору главных компонент:

Z = (z ⁽¹⁾, z ⁽²⁾, …, z ⁽ ^m ⁾)^T = L X^’.

Соответственно j -е наблюдение вектора главных компонент определится соотношением:

Z = (z_j ⁽¹⁾, z_j ⁽²⁾, …, z_j ⁽ ^m ⁾)^T = L X_cj,

а матрица наблюдений главных компонент:

Z = X ^’ L^T.

Уравнение регрессии Y^’ по Z имеет вид:

Y’ = c ₁ z ⁽¹⁾ + c ₂ z ⁽²⁾ + … + c_mz ⁽ ^m ⁾ + ε.

МНК-оценки регрессионных коэффициентов определяются, исходя из соотношения:

= (Z^TZ)^-1Z^TY ^’.

Из построения следует, что матрица Z^TZ (матрица X^TX в ортогональном базисе) имеет следующую структуру:

соответственно оценки:

взаимно некоррелированы, что делает их независимыми от числа и состава включенных в модель главных компонент.

Так как преобразование от исходных признаков к главным компонентам является ортогональным, то имеют место соотношения:

det(Z^TZ) = det(X ^’ ^ТX ^’).

Если удается дать содержательную интерпретацию включенным в модель главным компонентам, то оценка функции регрессии Y на главные компоненты может быть записана в виде:

где δ_j = 1, если j -я главная компонента включена в модель (в случае ее статистической значимости); δ_j = 0, если j -я главная компонента не включена в модель.

В противном случае необходимо вернуться к исходным переменным. Оценки исходной модели регрессии определяются по формулам , . Полученные параметры модели, вообще говоря, будут смещенными [3].

Эвристические методы отбора наиболее существенных объясняющих переменных

Процедуру отбора существенных переменных можно рассматривать как процедуру выбора размерности линейной модели. Обусловленность матрицы Z^TZ или X^TX улучшается с уменьшением числа объясняющих переменных. Если две объясняющие переменные сильно коррелированы с объясняемой переменной Y и друг с другом, бывает достаточно включить в модель лишь одну из них.

Решение задачи отбора наиболее существенных объясняющих переменных возможно несколькими способами. Один из наиболее распространенных и эффективных – подход последовательного наращивания числа предикторов, который реализован в двух вариантах:

1) «Все возможные регрессии». Решается задача: путем полного перебора всех возможных комбинаций (сочетаний) из k (k = 1, 2, …, m –1) объясняющих переменных, отобранных из исходного (заданного) набора X ₁, X ₂, …, X_m, определить такие переменные, для которых коэффициент детерминации с результирующим показателем y был бы максимальным. Таким образом, на k -м шаге процедуры определяется k объясняющих переменных, наиболее информативных в классе моделей зависимости y от k предикторов. Строгих правил выбора оптимального числа предикторов нет. Один из способов, однако, предлагает воспользоваться формулой:

, где

– оценка коэффициента детерминации y по k наиболее информативным предикторам (в классе моделей зависимости y от k предикторов); – нижняя граница доверительного интервала для этого коэффициента детерминации; – скорректированная на величину смещения оценка этого коэффициента детерминации, определяемая по формуле:

;

– среднеквадратическое отклонение оценки :

Далее, в качестве оптимального числа предикторов предлагается выбрать такое k, при котором величина достигает своего максимума.

2) Пошаговый отбор переменных.

Пошаговый отбор переменных является модификацией метода «всех возможных регрессий» и отличается от него тем, что на каждом следующем шаге учитываются результаты предыдущего: на k -м перебираются не все возможные сочетания предикторов, а комбинации k –1 наиболее информативных предикторов предыдущего шага с оставшимися (m – k +1)объясняющими переменными.

В большинстве ситуаций получаемые с помощью пошаговой процедуры наборы переменных оказываются оптимальными или близкими к оптимальным.

Другой подход к обоснованию состава и размерности решаемой задачи построения ЛММР с целью минимизации эффекта мультиколлинеарности состоит в исключении из модели одной или нескольких коррелированных переменных. Ясно, что основанием для исключения может служить высокое значение парного коэффициента корреляции в матрице коэффициентов корреляции экзогенных переменных модели (31.а). Критерием его эффективности является соответствующее изменение множественного коэффициента корреляции (34), а также соответствующих коэффициентов парной корреляции в векторе корреляции эндогенной и экзогенных переменных модели (31.б). Однако при такого рода «очистке» данных следует помнить о возможности существенного искажения содержательного смысла эконометрической модели и пытаться избежать его.

Следует также заметить, что некоторый положительный эффект на снижение мультиколлинеарности может оказывать расширение объемов выборки, изменение спецификации модели в части изменения ее формы, добавления значимого фактора в число объясняющих переменных, а также специальные методы преобразования исходных данных модели [14].

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.007 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница