АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Дисперсионный анализ

Читайте также:
  1. I. Анализ состояния туристской отрасли Республики Бурятия
  2. II. Дисперсионный анализ
  3. III часть урока. Выставка, анализ и оценка выполненных работ.
  4. SWОT – анализ - пример
  5. А 11.В2. Морфологический анализ. Части речи.
  6. Алгоритм анализа реальности достижения поставленных профессиональных целей.
  7. Алгоритм самоанализа урока преподавателем
  8. Анализ аргументов. Логический анализ информации.
  9. Анализ бизнес-процесса(ов) предприятия и построение моделей
  10. Анализ в стратегическом маркетинге.
  11. Анализ вариации (дисперсии) зависимой переменной в регрессии.
  12. Анализ ВКР на соответствие требованиям методических указаний

Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения (т. е. дисперсии или вариации y) на две части — «объясненную» уравнением регрессии и «остаточную» («необъясненную»):

 

Общая сумма квадратов отклонений  
Сумма квадратов отклонений, объясненная регрессией  
Остаточная сумма квадратов отклонений  

 

 


Общая сумма квадратов отклонений индивидуальных значений результативного признака у от среднего значения условно делится на две группы: влияние изучаемого фактора х и влияние прочих факторов.

Если фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси ох и у = . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной.

Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный влиянием фактора х, т. е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация).

Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное влияние на результат у. Это равносильно тому, что коэффициент детерминации r2 будет приближаться к единице.

Любая сумма квадратов отклонений связана с числом степеней свободы df (degrees of freedom), т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности п и с числом определяемых по ней констант. Применительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из п возможных требуется для образования данной суммы квадратов.

Для общей суммы квадратов необходимо независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь число отклонений.

Например, имеем ряд значений у: 1,2, 3, 4, 5. Среднее из них равно 3, и тогда п отклонений от среднего составят: - 2; - 1; 0; 1; 2.

Поскольку , то свободно варьируют лишь четыре отклонения, а пятое отклонение может быть определено, если четыре предыдущие известны.

Для объясненной или факторной, суммы квадратов используются теоретические (расчетные) значения результативного признака , найденные по линии регрессии: . В линейной регрессии сумма квадратов отклонений, обусловленных линейной регрессией, составит:

.

Поскольку при заданном объеме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы коэффициента регрессии b, то данная сумма квадратов имеет одну степень свободы.

Отсюда видно, что при заданном наборе переменных у и х расчетное значение является функцией лишь одного параметра — коэффициента регрессии. Соответственно и факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет .Итак, имеем два равенства:

2) .

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы D.

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F -отношения, т. е. критерий F.

F -статистика используется для проверки нулевой гипотезы об отсутствии связи признаков H0:

Если нулевая гипотеза Н0 справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Если Н0 несправедлива, то факторная дисперсия превышает остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F - отношений при разных уровнях значимости нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F -отношения признается достоверным (отличным от единицы), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи:

, Но отклоняется и уравнение регрессии статистически значимо.

Если же величина F окажется меньше табличной, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым:

, Ho не отклоняется.

 

Величина F -критерия связана с коэффициентом детерминации r2:

 

 

Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа (табл. 1).

Таблица 1


1 | 2 | 3 | 4 | 5 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)