|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Розклад дисперсії залежної змінної. Коефіціент детермінації
З рівнянь (1.8) та (1.9) випливає, що
. (1.12)
Запишемо другу з формул (1.7) у вигляді
. (1.13)
Від кожного з рівняннь (1.12) віднімемо рівняння (1.13):
. (1.14)
Кожне з рівнянь (1.14) піднесемо до квадрату і додамо почленно. Маємо
, (1.15) внаслідок (1.10) та (1.11). Позначимо . З (1.10) випливає, що . Тому
.
Порівнюючи останнє рівняння з (1.14), бачимо, що
, отже
. Уведемо такі позначення: – загальна сума квадратів, – пояснена сума квадратів, або сума квадратів регресії; –сума квадратів залишків. Загальна сума квадратів пропорційна до вибіркової дисперсії залежної змінної. Пояснена сума квадратів пропорційна до вибіркової дисперсії незалежної змінної. Отже, дисперсія залежної змінної складається з двох частин. Перша виникає завдяки розкиду значень незалежної змінної. Тобто, ця частина пояснюється за рахунок моделі (звідси і назва – пояснена сума квадратів). Друга частина – сума квадратів залишків – виникає внаслідок збурень і не пояснюється за рахунок моделі. Записавши співвідношення (1.15) з урахуванням уведених позначень, одержимо формулу розкладу дисперсії: . (1.16) Коефіціент детермінаціїї визначається як частка поясненої і загальної сум квадратів
(1.17)
Для обчислення коефіціента детермінації можна користуватись такими формулами
. (1.17а)
Коефіціент детермінації є частиною дисперсії залежної змінної, яка пояснюється за рахунок моделі, або, іншими словами, завдяки мінливості незалежної змінної. Коефіціент детермінації є мірою тісноти саме лінійного зв¢язку між x та y. Коефіціент детермінації завжди знаходиться в межах від нуля до одиниці. Чим ближче до 1, тим точніше x пояснює y. Якщо = 1, це означає, що всі значення x та y лежать на одній прямій. Якщо = 0,то лінія регресії – горизонтальна пряма; це означає відсутність (лінійного) зв¢язку між змінними. Коефіціент детермінації є мірою згоди регресії. Проілюструємо сказане графічно. На Рис. 1.2 зображено три набори даних по 100 спостережень в кожному, утворені за допомогою датчика випадкових чисел, разом з вибірковими регресійними прямими, знайденими за домогою методу найменших квадратів. В кожному випадку розраховано коефіцієнт детермінації.
Рис 1.2.
У випадку, зображеному на Рис. 1.2.а) має місце досить тісний лінійний зв’язок між змінними. У випадках б) та в) лінійний зв’язок практично відсутній. Однак між цими двома ситуаціями існує істотна різниця. На Рис. 1.2 б), очевидно, відсутній будь-який зв’язок між змінними, тоді як точки на Рис. 1.2.в) розташовані навколо деякої параболи.
1.1.5.Статистичні властивості оцінок методу найменших квадратів
Оцінки методу найменших квадратів є незміщеними1):
E b = b, E a = a. Дисперсії та коваріація оцінок методу найменших квадратів обчислюються за наступними формулами:
. (1.18)
Наведені формули не можна використовувати для перевірки гіпотез та інтервального оцінювання, оскільки до них входить невідомий параметр – дисперсія збурень s2. Отже, нам потрібно вміти знаходити її оцінку. Має місце наступний результат: статистика
є незміщеною оцінкою s2. Якщо збурення нормально розподілені, то a та b також нормально розподілені. Величина
має c2 - розподіл з n - 2 ступенями свободи. Більше того, випадкова величина RSS не залежить від a та b. Далі ми будемо припускати, що збурення нормально розподілені. Як відомо, якщо випадкові величини x1~N(0,1), x2~ незалежні2), то
має розподіл Стьюдента з p ступенями свободи. Оскільки , то має стандартний нормальний розподіл. Крім того, і ці випадкові величини незалежні. Отже, частка
має розподіл Стьюдента з n - 2 ступенями свободи. Величина є оцінкою дисперсії b, а – оцінкою середньоквадратичного відхилення, або, коротко, стандартною похибкою оцінки b. Уведемо позначення SE( b) = (від англійського standard error -стандартна похибка). Маємо
(1.19)
1.1.6.Статистичні висновки в моделі простої лінійної регресії
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.006 сек.) |