АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Определение тесноты связи и оценка существенности уравнения регрессии

Читайте также:
  1. D. Определение звука в слове (начало, середина, конец слова)
  2. I Этап. Определение проблемы
  3. I.2. Определение расчетной длины и расчетной нагрузки на колонну
  4. II. Оценка эффективности инвестиционного менеджмента.
  5. III. Анализ изобразительно-выразительных средств, определение их роли в раскрытии идейного содержания произведения, выявлении авторской позиции.
  6. IV Внешние связи государственного органа
  7. IV. Возмещение вреда в связи с особым положением ответственного за него лица
  8. IV. Определение победителей.
  9. IV.Оценка эффективности деятельности структурного подразделения организации
  10. PR - public relations (общественные связи): цели и задачи, области их использования, инструменты PR.
  11. SDRAM: Определение
  12. V. Виды обязательств по их содержанию, в связи с основаниями возникновения обязательств

 


Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такового показателя выступает линейный коэффициент корреляции r. Одна из формул линейного коэффициента корреляции имеет вид:


Коэффициент корреляции находится в пределах: . Если b >0, то 0< r <1, и, наоборот, при b <0, -1< r <0.

Линейный коэффициент корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютного значения линейного коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При нелинейном виде модели связь может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции , назы­ваемый коэффициентом детерминации. Коэффициент детермина­ции характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака:

Соответственно величина характеризует долю диспер­сии у, вызванную влиянием остальных не учтенных в модели факторов.

Пусть = 0,982. Таким образом, уравнением рег­рессии объясняется 98,2% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детермина­ции является одним из критериев оценки качества линейной мо­дели. Чем больше доля объясненной вариации, тем соответствен­но меньше роль прочих факторов и, следовательно, линейная мо­дель хорошо аппроксимирует исходные данные, и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия, составляет 5 тыс. ед., прогнозное значение для издержек производства — 178,4 тыс. руб.

Линейный коэффициент корреляции по содержанию отлича­ется от коэффициента регрессии. Выступая показателем силы связи, коэффициент регрессии b на первый взгляд может быть использован как измеритель ее тесноты. Из уравнений и видно, что во втором случае результат у изменяется сильнее с ростом фактора на единицу - эта величина в 10 раз больше, чем в первом случае. Однако вывод о более сильном вли­янии фактора x на результат у прежде времен. Величина коэффи­циента регрессии зависит от единиц измерения переменных, от размерности признаков. Если предположить, что х выражен в центнерах и , а фактор z по экономическому содержанию выражен в тоннах и , то понят­но, что по данным обоих уравнений , а разные значения коэффициентов регрессии обусловлены разными единицами измерения одного и того же фактора. Кроме того, коэффициенты регрессии - величины именованные, и потому несравнимы для разных признаков. Так, коэффициент регрессии по модели при­были предприятия от состава выпускаемой продукции несопос­тавим с коэффициентом регрессии прибыли предприятия от затрат на рекламу.

Линейный коэффициент корреляции как измеритель тесноты линейной связи признаков логически связан не только с ко­эффициентом регрессии b, но и с коэффициентом эластичности, который является показателем силы связи, выраженным в про­центах. При линейной связи признаков х и у средний коэффициент эластичности в целом по совокупности определяется как т.е. его формула по построению близка к формуле линейного коэффициента корреляции . Как и линейный коэффициент корреляции, коэффициент эластичности сравним по разным признакам. Если , а , то можно заключить, что фактор х в большей мере влияет на результат у, чем фактор z, ибо с ростом х на 1% y возрастает на 0,8%, а с ростом z на 1 % — только на 0,2%.

Несмотря на схожесть этих показателей, измерителем тесно­ты связи выступает линейный коэффициент корреляции , а коэффициент регрессии (bу/х) и коэффициент эластичности — показатели силы связи: коэффициент регрессии является абсолютной мерой, ибо имеет единицы измерения, присущие изучаемым признакам у и х, а коэффициент эластичности - от­носительным показателем силы связи, потому что выражен в про­центах.

Пусть уравнение регрессии составило . При этом известно, что , тогда . Коэффициент эластичности составит: Эу/х = 3 * 20/50 = 1,2%, т. е. с ростом х на 1% у возрастает в среднем на 1,2%. Предположим, что , а , тогда

, т.е. связь признаков достаточно тесная. Если же примет значение 12, что соответствует более сильной колебле­мости результата, тогда значение окажется равным лишь 0,5 при том же значении коэффициента эластичности. Таким обра­зом, при одной и той же величине коэффициента эластичности может быть разный коэффициент корреляции в зависимости от соотношения колеблемости x и y. Чем в большей мере колебле­мость результата зависит от вариации фактора, т. е. чем ближе величина к значению , тем теснее связь между признаками.

Несмотря на всю важность измерителя тесноты связи, в эконо­метрике больший практический интерес приобретает коэффици­ент детерминации , ибо он дает относительную меру влияния фактора на результат, фиксируя одновременно и роль ошибок, т. е. случайных составляющих в формировании моделируемой пере­менной. Чем ближе коэффициент детерминации к 1, тем в большей степени уравнение регрессии пригодно для прогнозирования.

После того как построено уравнение линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных ее параметров.

Оценка значимости уравнения регрессии в целом производится с помощью F -критерия Фишера.

С F -критерием тесно связана характеристика, называемая числом степеней свободы, которая применительно к исследуемой проблеме показывает, сколько независимых отклонений из n -возможных требуется для образования данной суммы квадратов.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммы квадратов.

Число степеней свободы для факторной суммы квадратов равно 1, для общей суммы квадратов равно (n -1), для остаточной суммы квадратов составляет (n -2).


Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получаем дисперсию на одну степень свободы:

 

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и оста­точную дисперсии в расчете на одну степень свободы, получим величину F -отношения, т. е. F

критерий

(2.15)

F -статистика используется для проверки нулевой гипотезы Н0: .

Если нулевая гипотеза H0 справедлива, то факторная и оста­точная дисперсии не отличаются друг от друга. Если H0 не­справедлива, то факторная дисперсия превышает остаточную - в несколько раз. Английским статистиком Снедекором разработа­ны таблицы критических значений F - отношений при разных уровнях значимости нулевой гипотезы и различном числе степе­ней свободы. Табличное значение F - критерия — это максималь­ная величина отношения дисперсий, которая может иметь место при случайном расхождении их для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F – отношения признается достоверным (отличным от единицы), если оно боль­ше табличного. В этом случае нулевая гипотеза об отсутствии свя­зи признаков отклоняется и делается вывод о существенности этой связи:

Если же величина F окажется меньше табличной, то вероят­ность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без риска, сделать, неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым: .

В рассматриваемом примере 2.1:

- общая сумма квадратов;

- факторная сумма квадратов;

— остаточная сумма квадратов;

Поскольку как при 1%-ном, так и при 5%-ном уровне значимости, можно сделать вывод о значимости уравнения регрессии (связь доказана).

Величина F - критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как

а остаточную сумму квадратов — как

Тогда значение F - критерия можно выразить следующим образом:

(2.16)

В нашем примере . В таком случае (несовпадение с предыдущим результатом объясняется ошибками округления).

Оценка значимости уравнения регрессии обычно дается в ви­де таблицы дисперсионного анализа (табл. 2.2).

Таблица 2.2

Дисперсионный анализ результатов регрессии

 

 

 

 

Источники вариации Число сте­пеней сво­боды Сумма квад­ратов откло­нений Дисперсия на одну степень свободы F-отношение
фактиче­ское табличное при α = 0,05
Общая     - - -
Объяснен­ная         6,61
Остаточная         -

 

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка: mb и ma.

Стандартная ошибка коэффициента регрессии параметра mb рассчитывается по формуле:

(2.17)

где S2 — остаточная дисперсия на одну степень свободы.

Для нашего примера величина стандартной ошибки коэффи­циента регрессии составила:

Отношение коэффициента регрессии к его стандартной ошибке дает t-статистику, которая подчиняется статистике Стьюдента при (n - 2) степенях свободы. Эта статистика применяется для проверки статистической значимости коэффициента регрес­сии и для расчета его доверительных интервалов.

Для оценки значимости коэффициента регрессии его вели­чину сравнивают с его стандартной ошибкой, т. е. определя­ют фактическое значение t - критерия Стьюдента: кото­рое затем сравнивают с табличным значением при определенном уровне значимости а и числе степе­ней свободы (n - 2).

В рассматриваемом примере фактическое значение t -крите­рия для коэффициента регрессии составило:

Этот же результат получим после извлечения квадратного корня из найденного ранее F - критерия, т. е.

.

Покажем справедливость равенства

При α = 0,05 (для двустороннего критерия) и числе степеней свободы 5 табличное значение t= 2,57. Поскольку фактическое значение t - критерия превышает табличное, гипотезу о несущест­венности коэффициента регрессии можно отклонить.

На основе стандартной ошибки может быть рассчитан доверительный интервал – множество значений, определенных как интервал между нижней и верхней границами неравенства.

Довери­тельный интервал для коэффициента регрессии определяется как . Для коэффициента регрессии b в примере 2.1 95%-ные границы составят:

т.е.

Поскольку коэффициент регрессии в эконометрических ис­следованиях имеет четкую экономическую интерпретацию, доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, . Такого рода запись показывает, что истинное значе­ние коэффициента регрессии одновременно содержит положи­тельные и отрицательные величины и даже нуль, чего не может быть.

Стандартная ошибка параметра а определяется по формуле:

 

(2.18)

Процедура оценивания значимости данного параметра не отличается от рассмотренной выше для коэффициента регрес­сии: вычисляется t - критерий:

,

его величина сравнивается с табличным значением при степенях свободы.

Значимость линейного коэффициента корреляции про­веряется на основе величины ошибки коэффициента корреляции :

. (2.19)

Фактическое значение t - критерия Стьюдента определяется как

. (2.20)

Данная формула свидетельствует, что в парной линейной рег­рессии , ибо, как уже указывалось, . Кроме того, , следовательно,

Таким образом, проверка гипотез о значимости коэффициен­тов регрессии и корреляции равносильна проверке гипотезы о значимости линейного уравнения регрессии.

В рассматриваемом примере tr не совпало с tb в результате ошибок округлений. Величина значительно превышает табличное значение 2,57 при α = 0,05. Значит, коэффициент кор­реляции существенно отличен от нуля, и зависимость является достоверной.

Рассмотренную формулу оценки коэффициента корреляции рекомендуется применять при большом числе наблюдений, а также, если r не близко к + 1 или — 1. Если же величина коэффи­циента корреляции близка к + 1, то распределение его оценок от­личается от нормального, или распределения Стьюдента, так как величина коэффициента корреляции ограничена значениями от -1 до +1. Для того чтобы устранить это затруднение Р.Фишер предложил ввести вспомогательную величину z. (приложение 2, табл. 3), связанную с коэффициентом корреляции следующим отношением:

(2.21)

При изменении r от -1 до +1 величина z изменяется от -∞ до +∞, что соответствует нормальному распределению. Математический анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к единице значениях коэффициента корреляции. Стандартная ошибка величины z рассчитывается по формуле

(2.22)

где n - число наблюдений.

При

Величину z можно не рассчитывать, а воспользоваться гото­выми таблицами z - преобразования, в которых приведены значе­ния величины z для соответствующих значений r.

Далее выдвигаем нулевую гипотезу H0 о том, что корреляция отсутствует, т. е. теоретическое значение коэффициента корреля­ции равно нулю. Коэффициент корреляции значимо отличен от нуля, если т. е. если фактическое значение tz превышает его табличное значение на уровне значимости α= 0,05 или α = 0,01. Иными словами, если коэффи­циент корреляции значимо отличен от нуля, что имеет место в рассмотренном примере:

при

Ввиду того, что r и z связаны между собой приведенным выше соотношением, можно вычислить критические значения r, соот­ветствующие каждому из значений z. Таблицы критических зна­чений r разработаны для уровней значимости 0,05 и 0,01 и соот­ветствующего числа степеней свободы (приложение 2). Крити­ческие значения r предполагают справедливость нулевой гипоте­зы, т. е. r мало отлично от нуля. Если фактическое значение коэф­фициента корреляции по абсолютной величине превышает таб­личное, то данное значение r считается статистически значимым. Если же r оказывается меньше табличного, то фактическое значе­ние r статистически незначимо.

В рассматриваемом примере 2.1 при числе степеней свободы (n - 2) = 5 критическое значение r при α= 0,05 составляет 0,754, а при α= 0,01 — 0,874, что ниже фактической величины rух = 0,991. Следовательно, как было уже доказано, полученное значение r существенно отлично от нуля.

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.014 сек.)