Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Независимые факторы: спецификация модели

Читайте также:

В этом пункте используется модель линейной регрессии в сокращенной фор- ме, поэтому переменные берутся в центрированной форме, а m и M — вектор и матрица соответствующих коэффициентов ковариации переменных.

Под спецификацией модели в данном случае понимается процесс и результат определения набора независимых факторов. При построении эконометрической модели этот набор должен обосновываться экономической теорией. Но это удается не во всех случаях. Во-первых, не все факторы, важные с теоретической точки зрения, удается количественно выразить. Во-вторых, эмпирический анализ часто предшествует попыткам построения теоретической модели, и этот набор просто неизвестен. Потому важную роль играют и методы формального отбора факторов, также рассматриваемые в этом пункте.

В соответствии с гипотезой g2 факторные переменные не должны быть ли- нейно зависимыми. Иначе матрица M в операторе МНК-оценивания будет необ- ратима. Тогда оценки МНК по формуле a = M −1 m невозможно будет рассчитать, но их можно найти, решая систему нормальных уравнений (6.14):

Ma = m.

Решений такой системы нормальных уравнений (в случае необратимости матри- цы M) будет бесконечно много. Следовательно, оценки нельзя найти однозначно, т.е. уравнение регрессии невозможно идентифицировать. Действительно, пусть оценено уравнение

где

x ˆ = z ˆ1 a 1 + e, (7.51)

z ˆ1 — вектор-строка факторных переменных размерности n 1, a 1 — вектор-

столбец соответствующих коэффициентов регрессии, и пусть в это уравнение вво- дится дополнительный фактор z ˆ2, линейно зависимый от z ˆ1, т.е. z ˆ2 = z ˆ1 c 21.

Тогда оценка нового уравнения

x ˆ = z ˆ1 a ∗+ z ˆ2 a 2 + e ∗ (7.52)

(«звездочкой» помечены новые оценки «старых» величин) эквивалентна оценке уравнения x ˆ = z ˆ1 (a ∗+ a 2 c 21)+ e ∗. Очевидно, что a 1 = a ∗+ a 2 c 21, e = e ∗, и, про-

1 1

извольно задавая a 2, можно получать множество новых оценок a ∗= a 1 − a 2 c 21.

Логичнее всего положить a 2 = 0, т.е. не вводить фактор

z ˆ2. Хотя, если из со-

держательных соображений этот фактор следует все-таки ввести, то тогда надо исключить из уравнения какой-либо ранее введенный фактор, входящий в z ˆ1. Та- ким образом, вводить в модель факторы, линейно зависимые от уже введенных, бессмысленно.

7.3. Независимые факторы: спецификация модели 235

Случаи, когда на факторных переменных су- ществуют точные линейные зависимости, встре- чаются редко. Гораздо более распространена си- туация, в которой зависимости между фактор- ными переменными приближаются к линейным. Такая ситуация называется мультиколлинеарно- Oстью. Она чревата высокими ошибками получа- емых оценок и высокой чувствительностью ре- зультатов оценивания к ошибкам в факторных переменных, которые, несмотря на гипотезу g2, обычно присутствуют в эмпирическом анализе.

Действительно, в такой ситуации матрица M

плохо обусловлена и диагональные элементы

Рис. 7.1

M −1, определяющие дисперсии оценок, могут принимать очень большие значения.

Кроме того, даже небольшие изменения в M, связанные с ошибками в факторных переменных, могут повлечь существенные изменения в M −1 и, как следствие, —

в оценках a.

Последнее наглядно иллюстрируется рисунком (рис. 7.1) в пространстве наблюдений при n = 2.

На этом рисунке: OA — x ˆ, OB — z ˆ1, OC — z ˆ2.

Видно, что факторные переменные сильно коррелированы (угол между соответству- ющими векторами мал).

Поэтому даже небольшие колебания этих векторов, связанные с ошибками, зна- чительно меняют положение плоскости, которую они определяют, и, соответствен- но, — нормали на эту плоскость.

Из рисунка видно, что оценки параметров регрессии «с легкостью» меняют не только свою величину, но и знак.

По этим причинам стараются избегать ситуации мультиколлинеарности. Для этого в уравнение регрессии не включают факторы, сильно коррелирован- ные с другими.

Можно попытаться определить такие факторы, анализируя матрицу коэффи- циентов корреляции факторных переменных S −1 MS −1, где S — диагональная матрица среднеквадратических отклонений. Если коэффициент sjj tэтой матри- цы достаточно большой, например, выше 0. 75, то один из пары факторов j и j tне следует вводить в уравнение. Однако такого элементарного «парного» анализа может оказаться не достаточно. Надежнее построить все регрессии на множестве факторных переменных, последовательно оставляя в левой части уравнения эти переменные по отдельности. И не вводить в уравнение специфицируемой моде- ли (с x в левой части) те факторы, уравнения регрессии для которых достаточно значимы по F -критерию (например, значение pv не превышает 0. 05).

236 Глава 7. Основная модель линейной регрессии

A Однако в эмпирических исследованиях могут возникать ситуации, когда только введение сильно

D коррелированных факторов может привести к по- строению значимой модели.

Это утверждение можно проиллюстрировать ри- сунком (рис. 7.2) в пространстве наблюдений при n = 2.

На этом рисунке: OA — x ˆ, OB — z ˆ1, OC —

C z ˆ2, AD — нормаль на плоскость, определяе- мую векторами OB и OC, OD — проекция

B OA на эту плоскость.

Рис. 7.2

Из рисунка видно, что z ˆ1 и

z ˆ2 по отдельности

не объясняют x ˆ (углы между соответствующими векторами близки к 90◦), но вместе они определяют плоскость, угол между которой

и вектором OA очень мал, т.е. коэффициент детерминации в регрессии x ˆ на z ˆ1, z ˆ2близок к единице.

Рисунок также показывает, что такая ситуация возможна только если факторы силь- но коррелированы.

В таких случаях особое внимание должно уделяться точности измерения фак- торов.

Далее определяются последствия введения в уравнение дополнительного фак- тора. Для этого сравниваются оценки уравнений (7.51, 7.52) в предположении, что z ˆ2 линейно независим от z ˆ1.

В этом анализе доказываются два утверждения.

1) Введение дополнительного фактора не может привести к сокращению ко- эффициента детерминации, в большинстве случаев он растет (растет объясненная дисперсия). Коэффициент детерминации остается неизменным тогда и только то- гда, когда вводимый фактор ортогонален остаткам в исходной регрессии (линейно независим от остатков), т.е. когда

m 2 e = N Z ˆ e = 0 (7.53)

(понятно, что коэффициент детерминации не меняется и в случае линейной зависи- мости z ˆ2 от z ˆ1, но такой случай исключен сделанным предположением о линейной независимости этих факторов; в дальнейшем это напоминание не делается).

Для доказательства этого факта проводятся следующие действия.

Записываются системы нормальных уравнений для оценки регрессий (7.51, 7.52):

m 1 = M 11 a 1, (7.54)

7.3. Независимые факторы: спецификация модели 237

  

m M

  

m a ∗

 1 =  11

121

  

m 2

m 21 m 22

  , (7.55)

a 2

1 1 1 1

где m 1 =

Z ˆr X ˆ, m 2 = Z ˆr X ˆ, M 11 = Z ˆr Z ˆ, m

N N N

= m r

= Z ˆr Z ˆ,

m 22 = NZ ˆr Z ˆ.

2 1 1 12

21 1 2

2 2

Далее, с помощью умножения обеих частей уравнения (7.51), расписанного по на-

блюдениям, слева на

Z ˆr, устанавливается, что

m 2 − m 21 a 1

(7. 53)

= m 2 e, (7.56)

а из регрессии Z ˆ

= Z ˆ a 21

+ e 21

, в которой по предположению e 21

ƒ= 0, находится

остаточная дисперсия:

s 2 1

(7. 9) 1

21 e 21

M m

e 21 = Ne r

= m 22

− m 21 −

> 0. (7.57)

Из первой (верхней) части системы уравнений (7.55) определяется:

и далее

M 11 a ∗+ m 12 a 2= m 1

(7. 54)

= M 11 a 1,

a ∗ −1

1 = a 1 − M 11 m 12 a 2. (7.58)

Из второй (нижней) части системы уравнений (7.55) определяется:

Откуда

m 22 a 2= m 2 − m 21 a ∗

= m 2 − m 21. a 1− M 1 m 12 a 2..

(7. 58)

−

. m 22− m 21 M −1 m 12. a 2 = m 2 − m 21 a 1

и, учитывая (7.56, 7.57),

s 2

e 21 a 2= m 2 e. (7.59)

Наконец, определяется объясненная дисперсия после введения дополнительного фактора:

s 2∗(7. 9)



(7. 58)



(7. 56)

q = m r a ∗+ m 2 a 2

= m r a 1 +  m 2− m r M −1 m 12 a 2

= s 2 + m 2 ea 2,

1 1 1 

1 11  q

←−−2 →

←−−−r−→

(7.60)

238 Глава 7. Основная модель линейной регрессии

т.е.

s 2∗(7. 59) 2 e

q = s 2 +

e 21

Что и требовалось доказать.

Это утверждение легко проиллюстрировать рисунком 7.3 в пространстве наблюде- ний при n 1 = 1.

На этом рисунке: OA — x ˆ, OB — z ˆ1, OC — z ˆ2, AD — нормаль x ˆ на (DA — вектор e).

z ˆ1

Рисунок показывает, что если z ˆ2 ортогонален e, то нормаль x ˆ на плоскость, опре- деляемую z ˆ1 и z ˆ2, совпадает с AD, т.е. угол между этой плоскостью и x ˆ совпадает с углом между x ˆ и z ˆ1, введение в уравнение нового фактора z ˆ2 не меняет коэффи- циент детерминации. Понятно также и то, что во всех остальных случаях (когда z ˆ2не ортогонален e) этот угол уменьшается и коэффициент детерминации растет.

После введения дополнительного фактора

z ˆ2

в уравнение максимально коэффициент детерми- нации может увеличиться до единицы. Это про- изойдет, если z ˆ2 является линейной комбинацией x ˆ и z ˆ1.

Рост коэффициента детерминации с увеличе- O нием количества факторов — свойство коэффи- циента детерминации, существенно снижающее его содержательное (статистическое) значение.

Введение дополнительных факторов, даже если они по существу не влияют на моделируемую пе-

D B

Рис. 7.3

ременную, приводит к росту этого коэффициента. И, если таких факторов введено достаточно много, то он начнет приближаться к единице. Он обязательно достигнет единицы при n = N − 1. Более приемлем в роли критерия качества коэффициент детерминации, скорректированный на число степеней свободы:

R ˜2 = 1 − 1 − R 2 N −

N − n − 1

(1 − R 2 — отношение остаточной дисперсии к объясненной, которые имеют, со- ответственно, N − n − 1 и N − 1 степеней свободы), этот коэффициент может снизиться после введения дополнительного фактора. Однако наиболее правильно при оценке качества уравнения ориентироваться на показатель pv статистики F c.

Скорректированный коэффициент детерминации построен так, что он, так сказать, штрафует за то, что в модели используется слишком большой набор факторов. На этом же принципе построено и большинство других критериев, используемых

7.3. Независимые факторы: спецификация модели 239

для выбора модели: на них положительно отражается уменьшение остаточной дис- персии s 2(z 1) (здесь имеется в виду смещенная оценка дисперсии из регрессии по z 1) и отрицательно — количество включенных факторов n 1 (без константы). Укажем только три наиболее известных критерия (из огромного числа предложенных

в литературе):

Критерий Маллоуза:

Cp = s 2(z 1)+

2( n 1 + 1)

s ˆ2(z),

где s ˆ2(z) — несмещенная оценка дисперсии в регрессии с полным набором факто-

ров.

Информационный критерий Акаике:

AIC = ln.2π s 2(z 1).+

2( n 1 + 1).

Байесовский информационный критерий (критерий Шварца):

ln( N )( n 1+ 1)

BIC = ln.2π s 2(z 1).+.

В тех же обозначениях скорректированный коэффициент детерминации имеет вид

˜2 − e

s 2(z 1)

R = 1

s 2

N − 1,

e (∅) N − n 1 − 1

где s 2(∅) — остаточная дисперсия из регрессии с одной константой.

Регрессия тем лучше, чем ниже показатель Cp (AIC, BIC). Для R ˜2 используется противоположное правило — его следует максимизировать. Вместо R ˜2 при неиз- менном количестве наблюдений N можно использовать несмещенную остаточную

дисперсию s ˆ2 = s ˆ2(z 1), которую уже следует минимизировать.

e e

В идеале выбор модели должен происходить при помощи полного перебора воз- можных регрессий. А именно, берутся все возможные подмножества факторов z 1, для каждого из них оценивается регрессия и вычисляется критерий, а затем выби-

рается набор z 1, дающий наилучшее значение используемого критерия.

Чем отличается поведение критериев R ˜2 (s ˆ2), Cp, AIC, BIC при выборе моде- ли? Прежде всего, они отличаются по степени жесткости, то есть по тому, насколько велик штраф за большое количество факторов и насколько более «экономную» мо- дель они имеют тенденцию предлагать. R ˜2 является наиболее мягким критерием. Критерии Cp и AIC занимают промежуточное положение; при больших N они ве- дут себя очень похоже, но Cp несколько жестче AIC, особенно при малых N. BIC является наиболее жестким критерием, причем, как можно увидеть из приведенной формулы, в отличие от остальных критериев его жесткость возрастает с ростом N.

Различие в жесткости проистекает из различия в целях. Критерии Cp и AIC на- правлены на достижение высокой точности прогноза: Cp направлен на миними- зацию дисперсии ошибки прогноза (о ней речь пойдет в следующем параграфе),

240 Глава 7. Основная модель линейной регрессии

а AIC — на минимизацию расхождения между плотностью распределения по ис- тинной модели и по выбранной модели. В основе BIC лежит цель максимизации вероятности выбора истинной модели.

2) Оценки коэффициентов регрессии при факторах, ранее введенных в уравне- ние, как правило, меняются после введения дополнительного фактора. Они оста- ются прежними в двух и только двух случаях: а) если неизменным остается ко- эффициент детерминации и выполняется условие (7.53) (в этом случае уравнение в целом остается прежним, т.к. a 2 = 0); б) если новый фактор ортогонален старым (z ˆ1 и z ˆ2 линейно не зависят друг от друга), т.е.

m 12 = NZ ˆt Z ˆ

= 0 (7.61)

1 2

(в этом случае объясненная дисперсия равна сумме C дисперсий, объясненных факторами z ˆ1 и z ˆ2 по от- O F дельности).

Действительно, в соотношении (7.58) M −1 m 12не может равняться нулю при m 12ƒ= 0, т.к. M 11невырожденная матрица. Поэтому из данного со-

отношения следует, что оценки a 1 не меняются, если a 2 = 0 (случай «а») или/и m 12= 0 (случай

«б»).

Рис. 7.4

Случай «а», как это следует из (7.59), возникает, когда выполняется (7.53). В случае «б» соотношение (7.60) переписывается следующим образом:

s 2∗(7. 9)

a ∗= a 1 r

q = m r a ∗+ m 2 a 2

= m a 1 + m 2 a 2,

1 1 1

т.к. вторая (нижняя) часть системы (7.55) означает в этом случае, что m 22 a 2= m 2, т.е. a 2 — оценка параметра в регрессии x ˆ по z ˆ2:

x ˆ = z ˆ2 a 2 + e 2 = s 2 + s 2, (7.62)

q 2

где s 2

q q 2

— дисперсия x ˆ, объясненная только z ˆ2.

Что и требовалось доказать.

Иллюстрация случая «а» при n 1 = 1 достаточно очевидна и дана выше. Рисунок 7.4 иллюстрирует случай «б». На этом рисунке: OA — x ˆ, OB — z ˆ1, OC — z ˆ2,

EA — e, нормаль x ˆ

на z ˆ1, FA — e 2, нормаль x ˆ на

z ˆ2, DA — e ∗, нормаль

x ˆ на плоскость, определенную

z ˆ1 и

z ˆ2, ED — нормаль к

z ˆ1, FD — нормаль

к z ˆ2.

Понятно (геометрически), что такая ситуация, когда точка E является одновре-

менно началом нормалей EA и ED, а точка F — началом нормалей FA и FD, возможна только в случае, если угол COB равен 90◦.

7.3. Независимые факторы: спецификация модели 241

Но именно этот случай означает (как это следует из рисунка) одновременное вы- полнение соотношений регрессий (7.51) (OE + EA = OA), (7.52) (при a ∗= a 1)

(OE + OF + DA = OA) и (7.62) (OF + FA = OA), т.е. что введение нового фактора не меняет оценку при «старом» факторе, а «новая» объясненная дисперсия равна сумме дисперсий, объясненных «старым» и «новым» факторами по отдельности (сумма квадратов длин векторов OE и OF равна квадрату длины вектора OD).

На основании сделанных утверждений можно сформулировать такое правило введения новых факторов в уравнение регрессии: вводить в ре- грессию следует такие факторы, которые имеют высокую корреляцию с остатками по уже введен-

ным факторам и низкую корреляцию с этими уже O введенными факторами. В этом процессе следует пользоваться F -критерием: вводить новые фак-

торы до тех пор, пока уменьшается показатель pv F -статистики.

В таком процессе добавления новых факторов в регрессионную модель некоторые из ранее вве-

D C

Рис. 7.5

денных факторов могут перестать быть значимыми, и их следует выводить из урав- нения.

Эту возможность иллюстрирует рисунок 7.5 в пространстве наблюдений при n 1 = 1.

На этом рисунке: OA — x ˆ, OB — кость, определенную z ˆ1 и z ˆ2.

z ˆ1, OC — z ˆ2, AD — нормаль x ˆ

на плос-

Рисунок показывает, что нормаль AD «легла» на вектор вновь введенного фактора. Следовательно, «старый» фактор входит в «новую» регрессию с нулевым коэффи- циентом.

Это — крайний случай, когда «старый» фактор автоматически выводится из уравне- ния. Чаще встречается ситуация, в которой коэффициенты при некоторых «старых» факторах оказываются слишком низкими и статистически незначимыми.

Процесс, в котором оценивается целесообразность введения новых факторов и выведения ранее введенных факторов, называется шаговой регрессией. В раз- витой форме этот процесс можно организовать следующим образом.

Пусть z — полный набор факторов, потенциально влияющих на x. Рассмат- ривается процесс обращения матрицы ковариации переменных x, z, в начале ко- торого рядом с этой матрицей записывается единичная матрица. С этой парой мат- риц производятся одновременные линейные преобразования. Известно, что если первую матрицу привести таким образом к единичной, то на месте второй будет по- лучена матрица, обратная к матрице ковариации. Пусть этот процесс не завершен,

242 Глава 7. Основная модель линейной регрессии

и только n 1 строк первой матрицы, начиная с ее второй строки (т.е. со стро- ки первого фактора), преобразованы в орты; z 1— множество факторов, строки которых преобразованы в орты, z 2— остальные факторы. Это — ситуация на те- кущем шаге процесса.

В начале процесса пара преобразуемых матриц имеет вид (над матрицами по- казаны переменные, которые соответствуют их столбцам):

x z 1 z 2

 

m m t m t

x z 1 z 2

 

1 0 0

 xx 1 2   

   

 m 1 M 11 M 12

и 0 I 1 0 ,





m 2 M t





M 22

 

 

0 0 I 2

где

mxx = 1 X ˆ t X ˆ

— дисперсия x,

m 1 = 1 Z ˆ X — вектор-столбец коэффициентов ковариации z 1 и x,

N 1 ˆ

m 2 = 1 Z ˆ X — вектор-столбец коэффициентов ковариации z 2 и x,

N 2 ˆ

M 11 = 1 Z ˆt Z ˆ

— матрица коэффициентов ковариации z

между собой,

N 1 1 1

M 12 = 1 Z ˆt Z ˆ

— матрица коэффициентов ковариации z

и z,

N 1 2 1 2

M 22 = 1 Z ˆt Z ˆ

— матрица коэффициентов ковариации z

между собой.

N 2 2 2

На текущем шаге эти матрицы преобразуются к виду:

x z 1 z 2

 

m − m t M −1 m

m t M −1

m t− m t M −1 M 12

 xx

1 1 1 1 1

2 1 1 



 ←−− a −1 −→



←−−−−−− ce −2−−−−−→







 0 I 1 0 

 

 

m 2 − M t

M −1 m 1 M t

M −1

M 2− M t

M −1 M 12

12 1

x z 1 z 2

 

1 0 0

 

 .

− M −1 m 1

M −1

− M −1

M 12

1 

 

0 0 I 2

7.3. Независимые факторы: спецификация модели 243

Информация, используемая в шаговой регрессии, расположена в 1-й строке первой матрицы: остаточная дисперсия в текущей регрессии (в столбце x), коэф- фициенты a 1 текущей регрессии при переменных z 1(в столбцах z 1), коэффи- циенты ce 2 ковариации текущих остатков e с переменными z 2, не включенными в текущую регрессию (в столбцах z 2).

Для введения очередного фактора в регрессию (шаг вперед) следует его строку в первой матрице преобразовать в орт, для исключения фактора из регрессии (шаг назад) следует преобразовать в орт его строку во второй матрице. Шаг вперед увеличивает количество элементов в векторе z 1 на единицу и сокращает на единицу количество элементов в векторе z 2. Шаг назад приводит к обратным изменениям. Последствия любого из этих шагов можно оценить по F -критерию, рассчитав показатель pv F c -статистики (информацию для такого расчета дает остаточная дисперсия — первый элемент первой строки первой матрицы).

На текущем шаге процесса проверяются последствия введения всех ранее не введенных факторов z 2и исключения всех введенных факторов z 1. Выби- рается тот вариант, который дает минимальное значение показателя pv. Процесс заканчивается, как только этот показатель перестает падать. В результате опреде- ляется наилучшая регрессия. Такой процесс не приводит, как правило, к включению в регрессию сильно коррелированных факторов, т.е. позволяет решить проблему мультиколлинеарности.

Если бы расчеты проводились в стандартизированной шкале (по коэффици- ентам корреляции, а не ковариации), «кандидатом» на введение был бы фактор с максимальным значением показателя в множестве ce 2(как было показано вы- ше), а на исключение — фактор с минимальным значением показателя в множе- стве a 1. Но даже в этом случае для окончательного выбора (вводить-исключать) и решения вопроса о завершении процесса требуется использование F -критерия. При «работе» с коэффициентами ковариации использование F -критерия необ- ходимо.

На последних шагах процесса, при приближении к минимуму критериального показателя pv, его величина меняется, как правило, весьма незначительно. Поэто- му один из возможных подходов к использованию шаговой регрессии заключается в определении некоторого множества регрессий, получаемых на последних шагах процесса, которые практически одинаковы по своему качеству. И на этом мно- жестве следует делать окончательный выбор, пользуясь содержательными крите- риями.

Иногда процесс шаговой регрессии предлагают строить на основе t -критерия: фактор вводится в уравнение, если его t -статистика больше некоторой заданной величины t 1, выводится из уравнения, если эта статистика меньше заданной вели- чины t 2; как правило, t 1 > t 2. Такой процесс не гарантирует получение наилучшей

244 Глава 7. Основная модель линейной регрессии

регрессии, его использовали в то время, когда вычислительные возможности были еще слабо развиты, и, в частности, точные значения показателя pv было трудно определить.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.071 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница