АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Основные гипотезы, свойства оценок

Читайте также:
  1. B. Основные принципы исследования истории этических учений
  2. I. ОСНОВНЫЕ ПОНЯТИЯ (ТЕРМИНЫ) ЭКОЛОГИИ. ЕЕ СИСТЕМНОСТЬ
  3. I. ОСНОВНЫЕ СПОСОБЫ ПЕРЕДВИЖЕНИЯ И ПРЕОДОЛЕНИЯ ПРЕПЯТСТВИЙ
  4. I.3. Основные этапы исторического развития римского права
  5. II Съезд Советов, его основные решения. Первые шаги новой государственной власти в России (октябрь 1917 - первая половина 1918 гг.)
  6. II. ИСЧИСЛЕНИЕ БЕСКОНЕЧНО–МАЛЫХ И ЕГО ОСНОВНЫЕ КАТЕГОРИИ
  7. II. Основные задачи и функции
  8. II. Основные задачи и функции
  9. II. Основные показатели деятельности лечебно-профилактических учреждений
  10. II. Основные проблемы, вызовы и риски. SWOT-анализ Республики Карелия
  11. II. Свойства векторного произведения
  12. III. ОСНОВНЫЕ АКСИОМЫ ЧИСЛА (ЧИСЛО КАК СУЖДЕНИЕ)

 

Применение основной модели линейной регрессии корректно, если выполня- ются следующие гипотезы:

g1. Между переменными x и z существует линейная зависимость, и (7.10) является истинной моделью, т.е., в частности, правильно определен набор факторов z — модель верно специфицирована.

g2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы.

g3. E (ε) = 0.

g4. E (εεt) = σ2 IN.

Гипотеза g2 является слишком жесткой и в экономике чаще всего нарушается. Возможности ослабления этого требования рассматриваются в следующей главе. Здесь можно заметить следующее: в тех разделах математической статистики, в ко- торых рассматривается более общий случай, и z также случайны, предполагается, что ε не зависит от этих переменных-регрессоров.


 

 

7.2. Основные гипотезы, свойства оценок 227

В этих предположениях a относится к классу линейных оценок, поскольку

a = LX, (7.26)


где L


(7. 13)

 
= (Z t Z)− Z t— детерминированная матрица размерности (n + 1) × N,


и доказывается ряд утверждений о свойствах этих МНК-оценок.

1) a — несмещенная оценка α.

 

Действительно:


 

(7. 26), g1

a = L (Z α + ε) = LZ α + L ε

и


 

LZ = In +1

= α + L ε (7.27)


 

E (a)


g3

= α.


 

2) Ее матрица ковариации Ma удовлетворяет следующему соотношению:


 

в частности,


1 2

Ma = N σ M


−1, (7.28)


σ
2

σ2 1 2 2


jj
aj = N m, j = 1 ,..., n + 1 (σ


an +1


≡ σ b),


jj
где m −1 — j -й диагональный элемент матрицы M −1.


Действительно:


(7. 27) g4


−1 1


Ma = E ((a − α)(a − α)r)


= E (L εεr L r) = σ2 LL r= σ2(Z r Z)


= σ2 M −1.

N


 
Этот результат при n = 1 означает, что σ2= σ


, и его можно получить, исполь-


z
a N s 2

зуя формулу (5.17) распространения ошибок первичных измерений.

zi z ¯


Действительно, a =  di (xix ¯), где di = 


(ziz ¯)2


. Тогда


=
a 1


N

d + d = d


xi


N l i i l =1


←−−=−0−−→

 
и в соответствии с указанной формулой:


σ2 2 2


(ziz ¯)2


σ 2


σ 2 1


a = σ


di = σ


(ziz ¯)2


2 = (z


=.

z
i
z ¯)2 Ns 2


 

 

228 Глава 7. Основная модель линейной регрессии

 

Здесь важно отметить следующее.

Данная формула верна и в случае использования исходной или сокращенной за- писи уравнения регрессии, когда M — матрица ковариации регрессоров. Это сле- дует из (7.17). Но в такой ситуации она (эта формула) определяет матрицу ковариа- ции только оценок коэффициентов регрессии при объясняющих переменных, а дис-

N
персию оценки свободного члена можно определить по формуле σ2.1 + z ¯t M −1 z ¯.,

как это следует также из (7.17).

Следует также обратить внимание на то, что несмещенность оценок при учете только что полученной зависимости их дисперсий от N свидетельствует о состоя- тельности этих оценок.

Иногда формулу (7.28) используют в другой форме:

Ma = σ2. Z t Z. −1. (7.29)

3) Несмещенной оценкой остаточной дисперсии σ2является


s ˆ2 = N


s 2 = 1


e t e. (7.30)


e Nn − 1 e


Nn − 1


Для доказательства этого факта сначала устанавливается зависимость МНК-оценок ошибок от их истинных значений, аналогично (5.10):


e = XZa


g1, (7. 27)

= Z α + ε − Z (α + L ε) = (INZL) ε = B ε, (7.31)


и устанавливаются свойства матрицы B (аналогично тому, как это делалось в п. 5.1)


B = INZL = INZ (Z r Z)−1 Z r= IN

Эта матрица:

а) вещественна и симметрична: B r= B,


ZM −1 Z r. (7.32)

N


б) вырождена и имеет ранг Nn − 1, т.к. при любом ξ ƒ= 0 выполняется BZ ξ = 0

(7. 32)


(поскольку BZ


= 0), а в множестве Z ξ в соответствии с g2 имеется точно n +1


линейно независимых векторов, в) идемпотентна: B 2= B,

г) положительно полуопределена в силу симметричности и идемпотентности:

ξr B ξ = ξr B 2ξ = ξr B r B ξ “ 0.

Теперь исследуется зависимость остаточной дисперсии от σ2:

1 (7. 31) 1 1

s 2


e = N e r e =


εr B r B ε = εr B ε,

N N


E. s 2. = 1 E (εr B ε) g = 4 σ


tr (B), (7.33)


e N N ←−−→

bii


 

 

7.2. Основные гипотезы, свойства оценок 229

 

где tr(·)— операция следа матрицы, результатом которой является сумма ее диаго- нальных элементов.

Далее, в силу коммутативности операции следа матрицы

tr (B) = tr (IN) − tr (ZL) = N − tr (LZ) = Nn − 1.

I
←−→

n +1

 


(См. Приложение A.1.2.)

Таким образом, E. s 2.= Nn − 1 σ2, и E  1


e r e = σ2.


e N

Что и требовалось доказать.


Nn − 1


Тогда оценкой матрицы ковариации Ma является (в разных вариантах расчета)


s ˆ2

e M −1 =

N


e t e

N (Nn − 1)


 

M −1 =


e t e

Nn − 1


. Z t Z


.−1, (7.34)


и, соответственно, несмещенными оценками дисперсий (квадратов ошибок) оценок параметров регрессии:

 


s ˆ2


= e t e


m −1, j = 1 ,..., n + 1 (s 2


s 2). (7.35)


aj N (Nn − 1) jj


an +1 ≡ b


 

4) Дисперсии a являются наименьшими в классе линейных несмещенных оце- нок, т.е. оценки a относятся к классу BLUE (см. п. 5.1). Это утверждение называ- ется теоремой Гаусса—Маркова.

Доказательство этого факта будет проведено для оценки величины c rα, где c — любой детерминированный вектор-столбец размерности n + 1. Если в качестве c выбирать орты, данный факт будет относиться к отдельным параметрам регрессии.

(7. 26)


МНК-оценка этой величины есть c r a


= c r LX, она линейна, не смещена,


т.к. E (c r a) = c rα, и ее дисперсия определяется следующим образом:

(7. 28) σ2


var (c r a) =


c r M −1 c. (7.36)

N


 

Пусть d r X — любая линейная оценка c rα, где d — некоторый детерминированный

вектор-столбец размерности N.

 


E (d r X) g = 1


E (d r Z α + d rε) g = 3


d r Z α, (7.37)


 

и для того, чтобы эта оценка была несмещенной, т.е. чтобы d r Z α = c rα, необходимо

d r Z = c r. (7.38)


 

 

230 Глава 7. Основная модель линейной регрессии

 

Из (7.37) следует, что d r X = E (d r X)+ d rε, и тогда


var (d r X) = E ((d r XE (d r X))2) = E (d rεεr d)

←−−−− d r−ε−−−→


g = 4 σ2 d r d. (7.39)


 

И, наконец, в силу положительной полуопределенности матрицы B (из (7.32)):


var (d r X) − var (c r a)


 

 
(7. 36, 7. 40)

= σ d r d


 

 
σ c r M −1 cN


 

(7. 38)

=


= σ2 d r


IN


1 ZM −1 Z r d

N


(7. 32)

 
= σ d r Bd “ 0,


т.е. дисперсия МНК-оценки меньше либо равна дисперсии любой другой оценки в классе линейных несмещенных.

Что и требовалось доказать.

 

Теперь вводится еще одна гипотеза:

g5. Ошибки ε имеют многомерное нормальное распределение:

ε ∼ N 0, σ2 IN .

(Поскольку по предположению g4 они некоррелированы, то по свойству мно- гомерного нормального распределения они независимы).

Тогда оценки a будут также иметь нормальное распределение:

aN, Ma), (7.40)


в частности,

α j
ajN


 

aj
, σ2, j = 1 ,..., n + 1 (an +1≡ b, α n +1≡ β),


они совпадут с оценками максимального правдоподобия, что гарантирует их со- стоятельность и эффективность (а не только эффективность в классе линейных несмещенных оценок).

Применение метода максимального правдоподобия в линейной регрессии рас- сматривается в IV-й части книги. Здесь внимание сосредоточивается на других важных следствиях нормальности ошибок.

Поскольку

aj − α jN (0, 1), (7.41)

σ aj

для α j можно построить (1 − θ)100-процентный доверительный интервал:


aj
.
α j ∈.


± σ aj


εˆ1−θ.


(7.42)


 

 

7.2. Основные гипотезы, свойства оценок 231

Чтобы воспользоваться этой формулой, необходимо знать истинное значение остаточной дисперсии σ2, но известна только ее оценка. Для получения соответ- ствующей формулы в операциональной форме, как и в п. 5.1, проводятся следую- щие действия.

Сначала доказывается, что

e t e 2

σ2∼ χ Nn −1. (7.43)

 

Это доказательство проводится так же, как и в пункте 5.1 для (5.9). Только теперь матрица B, связывающая в (7.31) оценки ошибок с их истинными значениями, имеет ранг Nn − 1 (см. свойства матрицы B, следующие из (7.32)), а не N − 1, как аналогичная матрица в (5.10).

 

Затем обращается внимание на то, что e и a не коррелированы, а значит, не коррелированы случайные величины в (7.41, 7.43).

 

Действительно (как и в 5.1):

 


a − α

и


(7. 27)

= L ε


 


(7. 31)


g4 −1


cov (a, e) = E ((a − α) e r)

 

Что и требовалось доказать.


= E (L εεr B) = σ2(Z r Z)


Z r B

←=−0→


= 0.


 

Поэтому по определению случайной величины, имеющей t -распределение:

 


.

σ.
(aj − α j) N,


e t e

2 / (Nn − 1)


 

(7. 35)

=


aj − α j


 

tNn −1. (7.44)


m
−1 σ

jj


s ˆ aj


 

Таким образом, для получения операциональной формы доверительного интер- вала в (7.42) необходимо заменить σ aj на s ˆ aj и εˆ1−θна t ˆ Nn −1, 1−θ:


α j ∈.


± s ˆ t.


 

(7.45)


aj aj ˆ Nn −1, 1−θ.

 

Полезно заметить, что данный в этом пункте материал обобщает результаты, полученные в п. 5.1. Так, многие приведенные здесь формулы при n = 0 пре- образуются в соответствующие формулы п. 5.1. Полученные результаты можно использовать также и для проверки гипотезы о том, что α j = 0 (нулевая гипотеза).


 

 

232 Глава 7. Основная модель линейной регрессии

 


Рассчитывается t -статистика

tc


 

aj, (7.46)


s ˆ
j =

aj

 

которая в рамках нулевой гипотезы, как это следует из (7.44), имеет t -распреде- ление.

Проверка нулевой гипотезы осуществляется по схеме, неоднократно применя- емой в I части книги. В частности, если уровень значимости t -статистики sl (напо-


j
минание: sl таково, что tc = tN


n


1 ,sl) не превышает θ (обычно 0. 05), то нулевая


гипотеза отвергается с ошибкой (1-го рода) θ и принимается, что α j ƒ= 0. В про-

тивном случае, если нулевую гипотезу не удалось отвергнуть, считается, что j

фактор не значим, и его не следует вводить в модель.

Операции построения доверительного интервала и проверки нулевой гипоте- зы в данном случае в определенном смысле эквивалентны. Так, если построенный доверительный интервал содержит нуль, то нулевая гипотеза не отвергается, и на- оборот.

Гипотеза о нормальности ошибок позволяет проверить еще один тип нулевой гипотезы: α j = 0, j = 1 ,..., n, т.е. гипотезы о том, что модель некорректна и все факторы введены в нее ошибочно.

При построении критерия проверки данной гипотезы уравнение регрессии ис- пользуется в сокращенной форме, и условие (7.40) записывается в следующей форме:

. σ2 1.


aN


α, MN


, (7.47)


 

где a и α — вектора коэффициентов при факторных переменных размерности n, M — матрица ковариации факторных переменных. Тогда

N. a t− αt. M (a − α) ∼ χ2. (7.48)

σ2 n

 

Действительно:

Матрица M −1 вслед за M является вещественной, симметричной и положительно полуопределенной, поэтому ее всегда можно представить в виде:

M −1 = CC r, (7.49)

где C — квадратная неособенная матрица.

Чтобы убедиться в этом, достаточно вспомнить (6.29) и записать аналогичные со- отношения: M −1 Y = Y Λ, Y r Y = YY r= In, Λ “ 0, где Y — матрица, столбцы


 

 

7.2. Основные гипотезы, свойства оценок 233

которой есть собственные вектора M −1, Λ — диагональная матрица соответству- ющих собственных чисел. Тогда


M −1 = Y Λ Y r= Y Λ0. 5


Λ0. 5 Y r


(см. Приложение A.1.2). Вектор случайных величин u =


←−− C −→ ←− C −−r→

 

N

C −1(a α) обладает следующими свойствами:

σ


по построению E (u) = 0, и в силу того, что


(7. 47) σ2 1


E ((a − α)(a − α)r) =


M −,

N


 

 

− −
cov (u) = E (uu r) = NC −1 E ((a α)(a α)r) C r−1= C −1 M −1 C r−1σ2

Следовательно, по определению χ2 случайная величина

 
u r u = N (a r− αr) C r−1 C −1(a − α)


 

 

(7. 49)

= In.


σ ←−− M −−−→

имеет указанное распределение (см. Приложение A.3.2).

 

Как было показано выше, e и a не коррелированы, поэтому не коррелированы случайные величины, определенные в (7.43, 7.48), и в соответствии с определением случайной величины, имеющей F -распределение:

, e t e


σ2
N. a t− αt. M (a − α) (Nn − 1)

Отсюда следует, что при нулевой гипотезе α = 0


σ2 nFn, Nn −1.


 

или


a t Ma (Nn − 1) (e t e)

n
N


 

 

(7. 9)

=


q (Nn − 1)

e
s 2
s 2 nFn, Nn −1,


R 2 (Nn − 1) (1 − R 2) n


= F cFn,N


 

 

n


 

1. (7.50)


 

Сама проверка нулевой гипотезы проводится по обычной схеме. Так, если зна- чение вероятности pv статистики F c (величина, аналогичная sl для t -статистики) не превышает θ (например, 0. 05), нулевая гипотеза отвергается с вероятностью ошибки θ, и модель считается корректной. В противном случае нулевая гипотеза не отвергается, и модель следует пересмотреть.


 

 

234 Глава 7. Основная модель линейной регрессии

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.05 сек.)