|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Понятие регрессии. Спецификация модели регрессииТема 2. Модель парной линейной регрессии
Термином регрессия (лат. regressio – обратное движение, отход) обозначают зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Этот термин впервые был использован Френсисом Гальтоном при исследовании вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов оказались более высокими, чем сыновья отцов с низким ростом, притом, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Функцией регрессии y по X= (x1,…,xn) называют функцию, которая описывает изменение условного математического ожидания (среднего значения) зависимой переменной y в зависимости от изменения независимых переменных X, принимающих фиксированные значения Х*: Функцию регрессии также называют уравнением регрессии, моделью регрессии или просто регрессией. Ее математическую запись также часто приводят в упрощенном виде:
Учитывая, что зависимость между переменными y и X мы рассматриваем как стохастическую, модель регрессии можно записать в следующем виде:
где ε – случайная ошибка модели. В регрессионных моделях эту величину отождествляют с влиянием факторов, не включенных в модель.
Случайная ошибка определяется как разность между фактическим значением зависимой переменной y и значением ее математического ожидания , которое в моделях регрессии обычно обозначают :
Таким образом, построение модели регрессии включает в себя с одной стороны спецификацию и идентификацию функции , а с другой – оценку свойств значений случайной ошибки ε, соответствующих этой функции. Рассмотрим проблему спецификации модели регрессии, включающей одну зависимую переменную (результат) y и одну независимую переменную (фактор) x. С учетом того, что X =(x), модель регрессии y по X примет вид:
В этом случае задача спецификации сводиться к определению вида математической функции , что может быть осуществлено тремя методами: - графическим; - аналитическим (теоретическим); - экспериментальным (эмпирическим). Неверный выбор вида математической функции используемой при построении модели регрессии является одной из причин возникновения ошибок спецификации. Другой причиной выступает недоучет влияния факторов, оказывающих существенное воздействие на результативную переменную, но не включенных в модель. Следствием наличия ошибок спецификации является искажение величины регрессионных остатков, особенности анализа которых, а также методы определения целесообразности включения дополнительных факторов в модель будут рассмотрены нами позже. Графический метод определения вида математической функции заключается в построении и анализе поля корреляции (диаграммы рассеяния). Поле корреляции представляет собой графическое изображение совместного распределения двух переменных в ортогональной системе координат. При этом каждая пара наблюдений, характеризующая отдельные значения переменных x и y изображается на графике в виде точки (или аналогичного символа). Пример 2.1. В качестве примера построения поля корреляции используем данные о среднедушевых денежных доходах населения и среднемесячном обороте розничной торговли на душу населения регионов центрального федерального округа Российской Федерации за 2010 г. (таблица 2.1.1). Таблица 2.1.1 Среднедушевые денежные доходы оборот розничной торговли на душу населения регионов центрального федерального округа Российской Федерации за 2010 г.
Учитывая, что доходы населения выступают фактором, определяющим величину оборота розничной торговли, отложим значения доходов по оси абсцисс (x), а значения оборота – по оси ординат (y) (рисунок 2.1.1).
Рис. 2.1.1. Поле корреляции (диаграмма рассеяния) оборота розничной торговли на душу населения и величины среднедушевых денежных доходов населения
На представленном графике каждая точка соответствует определенному региону. Общее количество точек равно 18, то есть совпадает с числом наблюдений, в нашем конкретном случае – с числом регионов в центральном федеральном округе. Рассмотрим построение поля корреляции в программе для работы с электронными таблицами Microsoft Office Excel: Шаг 1. На вкладке «Вставка» выбираем блок «Диаграммы», тип диаграммы «Точечная», вид диаграммы «Точечная с маркерами»:
Альтернативным вариантом может быть выбор кнопки «Создание диаграммы»:
Выбор в появившемся диалоговом окне вида диаграммы «Точечная с маркерами»:
Шаг 2. Для добавления данных на график можно воспользоваться кнопкой «Выбрать данные»:
Или вызвать контекстное меню, щелкнув правой кнопкой мыши на поле диаграммы:
В появившемся диалоговом окне «Выбор источника данных» следует нажать на кнопку «Добавить»:
В диалоговом окне «Изменение ряда» в поле «Значения Х» следует указать ссылку на столбец содержащий значения независимой переменной, откладываемые на оси абсцисс, а в поле «Значения Y» - на столбец содержащий значения зависимой переменной, откладываемые по оси ординат:
Построенное поле корреляции подвергают визуальному анализу. Если точки на нем расположены вдоль воображаемой кривой (заметим, что и прямая линия – это математическая кривая) то это означает, что между исследуемыми переменными существует зависимость. Вид полученной кривой характеризует форму зависимости (линейную или нелинейную) и чаще всего способен подсказать какая именно математическая функция будет использована для построения модели регрессии. При визуальном анализе наиболее часто определяются зависимости между экономическими переменными, которые описываются следующими функциями:
Рис. 2.1.2. Линейная функция .
Рис. 2.1.2. Функция (гипербола).
Рис. 2.1.2. Квадратичная функция (парабола) .
Рис. 2.1.2. Степенная функция . По виду поля корреляции можно судить о тесноте зависимости между исследуемыми переменными – чем ближе точки расположены к воображаемой кривой, тем теснее связь между переменными. Если на основе визуального анализа установлено, что зависимость между исследуемыми переменными линейна, то есть воображаемая кривая является прямой линией, то количественно тесноту такой зависимости можно охарактеризовать при помощи ковариации и линейного коэффициента корреляции. Ковариация или корреляционный момент определяется по формуле: .
Ковариация имеет размерность, равную произведению размерности исследуемых переменных, то есть величина ковариации зависит от их единиц измерения. Это существенно затрудняет использование ковариации при исследовании зависимости между экономическими величинами. Этого недостатка лишен линейный коэффициент корреляции (коэффициент Пирсона), рассчитываемый по формуле:
где – стандартное (среднее квадратическое) отклонение переменной x; – стандартное (среднее квадратическое) отклонение переменной y.
Линейный коэффициент корреляции изменяется в пределах от -1 до +1. Знак коэффициента характеризует направление связи: «+» означает, что связь прямая, «-» – что связь обратная. Прямая или положительная корреляционная связь означает, что при увеличении или уменьшении одной переменной среднее значение другой переменной изменяется с тем же знаком. Если при изменении одной переменной среднее значение другой переменной изменяется с противоположным знаком – то такая связь называется обратной или отрицательной. Направление связи можно оценить при визуальном анализе поля корреляции: если точки на нем расположены «слево-направо» и «снизу-вверх», то можно предположить наличие прямой зависимости, а если «слево-направо» и «сверху-вниз», то – обратной. Примеры проявления прямой и обратной связи на корреляционном поле представлены на рисунке: Рис. 2.1.4. Прямая (левый график) и обратная (правый график) зависимость между переменными
Абсолютное значение коэффициента корреляции характеризует тесноту связи. Чем ближе оно к 1, тем теснее зависимость между переменными. Для качественной интерпретации значений коэффициента корреляции часто используют шкалу Чеддока:
Если линейный коэффициент корреляции принимает абсолютное значение равное 1, то это свидетельствует о том, что между исследуемыми переменными существует линейная функциональная связь:
.
Пример 2.2. Покажем пример расчета линейного коэффициента на основе данных, приведенных в таблице 2.1.1. Для удобства дополним эту таблицу расчетными строками и графами (таблица 2.2.2). Таблица 2.1.2 Данные для расчета линейного коэффициента корреляции между денежными доходами населения и оборотом розничной торговли на душу населения регионов центрального федерального округа Российской Федерации за 2010 г.
.
Значение линейного коэффициента корреляции можно рассчитать, используя встроенную функцию «КОРЕЛЛ» Microsoft Office Excel:
Шаг 1. Открываем «Мастер функций» нажав кнопку fx в строке формул:
или нажав на кнопку «Вставить функцию» на вкладке «Формулы»:
Шаг 2. В диалоговом окне «Мастер функций» выбрать функцию «КОРРЕЛ» из категории «Статистические»:
В диалоговом окне «Аргументы функции» указать ссылки на столбцы с исходными данными:
Полученное значение линейного коэффициента корреляции равное 0,987 совпадает с результатом наших самостоятельных расчетов. Оно свидетельствует о том, что между денежными доходами населения и оборотом розничной торговли на душу населения существует линейная прямая очень тесная связь. Зная как рассчитывается линейный коэффициент корреляции, мы можем рассмотреть примеры того, как взаимосвязаны его значения и вид поля корреляции, построенного по тем же данным. Во-первых, чем тесней точки поля корреляции сгруппированы относительно воображаемой прямой, тем выше теснота связи и, следовательно, больше абсолютное значение коэффициента корреляции. Если все точки расположены точно на одной прямой, то наблюдается линейная функциональная связь и модуль коэффициента корреляции равен 1. Примеры того, как выглядит поле корреляции при различных значениях линейного коэффициента корреляции представлены на рисунке 2.1.5.
Рис. 2.1.5. Поле корреляции при различных значениях коэффициента корреляции
Во-вторых, следует помнить, что при помощи линейного коэффициента корреляции можно оценить тесноту только линейной связи. Если связь не линейна, этот коэффициент не может адекватно измерить ее тесноту. Вернемся к рисунку 2.1.2. Если на основе представленного распределения мы рассчитаем линейный коэффициент корреляции, то его значение равное 0,23 свидетельствует, по шкале Чеддока, о слабой связи между переменными. Это утверждение ошибочно. Чтобы убедиться в этом, нанесем на график прямую линию, проходящую вдоль точек графика (рис. 2.1.6.). Мы видим, что точки графика нельзя упорядочить относительно прямой, однако они легко упорядочиваются вокруг параболы. Таким образом, связь между исследуемыми переменными есть, она достаточно тесная, но не линейная.
Рис. 2.1.6. Выбор между прямой и параболой при описании тесноты связи
В-третьих, на значения коэффициента корреляции существенное влияние оказывают выбросы, наглядное изображение которых можно увидеть на поле корреляции. Выбросы – это результаты наблюдений, выделяющиеся из рассматриваемой совокупности или не попадающие под общее распределение. Пример 2.3. Рассмотрим вновь поле корреляции оборота розничной торговли на душу населения и величины среднедушевых денежных доходов населения регионов центрального федерального округа (рис. 2.1.7).
Рис. 2.1.7. Поле корреляции (диаграмма рассеяния) оборота розничной торговли на душу населения и величины среднедушевых денежных доходов населения
На рисунке мы видим, что два региона (Московская область и г. Москва) по своим характеристикам заметно отличаются от остальных. Посмотрим, как выглядело бы поле корреляции при устранении указанных наблюдений из анализируемой совокупности (рис. 2.1.8).
Рис. 2.1.8. Поле корреляции (диаграмма рассеяния) оборота розничной торговли на душу населения и величины среднедушевых денежных доходов населения с учетом устранения выбросов
Устранение выбросов существенно изменило вид поля корреляции. Между доходами населения и оборотом розничной торговли по прежнему наблюдается прямая линейная связь, однако судя по разбросу точек вокруг воображаемой прямой ее теснота уменьшилась. Проверим это, рассчитав линейный коэффициент корреляции. Действительно, значение коэффициента уменьшилось с 0,99 до 0,82, что соответствует о тесной связи по шкале Чеддока, против очень тесной, наблюдавшейся до устранения выбросов. Наиболее простым, и в то же время действенным методом анализа выбросов является использование квартильного размаха (межквартильного расстояния). При этом экстремальными выбросами считаются наблюдения большие величины Q3 +3 IQR или меньшие величины Q1 -3 IQR, где IQR = Q3 - Q1 – квартильный размах; Q3 – третий квартиль распределения исследуемой переменной; Q1 – первый квартиль распределения исследуемой переменной.
В свою очередь умеренные выбросы заключены в диапазоны (Q3 +1,5 IQR,Q3 +3 IQR)и(Q1 -1,5 IQR,Q1 -3 IQR). Следовательно наблюдения не являющиеся выбросами будут находиться в интервале (Q1 -1,5 IQR,Q3 +1,5 IQR). Достоинством данного метода является робастность (то есть действенность в условиях наличия выбросов) показателей первого и третьего квартилей. Это проявляется в том, что численные характеристики приведенного правила оценки выбросов, рассчитываемые по исследуемой совокупности, не зависят от наличия в ней выбросов. Применим приведенные формулы к данным нашего примера, установив тем самым правомерность удаления двух регионов из анализируемой совокупности. Для расчета структурных характеристик (первый и третий квартили) каждой из совокупностей значений переменных x и y воспользуемся встроенной функцией «КВАРТИЛЬ» Microsoft Office Excel, находящейся в категории «Статистические функции»:
В строке «Массив» необходимо указать ссылку на столбец с анализируемыми данными, в строке «Часть» необходимо указать аргумент «1» для расчета первого квартиля и аргумент «3» для расчета третьего квартиля. Результаты расчетов представлены в таблице 2.1.3. Таблица 2.1.3 Структурные характеристики распределения регионов центрального федерального округа по величине денежных доходов населения и обороту розничной торговли на душу населения в 2010 г.
Согласно данным приведенным в таблице к экстремальным выбросам следует отнести регионы со среднедушевыми доходами населения большими чем 22,2 тыс. руб. или меньшими чем 6,1 тыс. руб. Следовательно, к экстремальным выбросам по величине доходов населения мы относим два отмеченных нами региона – г. Москву (42591,8 руб.) и Московскую область (22200,1 руб.). Соответственно умеренными выбросами будут являться регионы, в которых значения среднедушевых доходов будут находиться в интервалах (18,8;22,2)и (6,0;9,5) тыс. руб. В исследуемой совокупности таких регионов нет. К экстремальным выбросам по величине оборота розничной торговли на душу населения следует отнести регионы в которых значение данного показателя превышает 11,8 тыс. руб. или находится ниже отметки в 3,2 тыс. руб. Как и в случае с величиной доходов населения к экстремальным выбросам мы относим г. Москву (20868,8 руб.) и Московскую область (11964,9руб.). Умеренными выбросами будут являться регионы, в которых значения оборота торговли на душу населения будут находиться в интервалах (10,0;11,8)и (3,2;5,0) тыс. руб. В исследуемой совокупности таких регионов нет. Таким образом, проведенный анализ подтвердил правоверность исключения из рассматриваемой совокупности двух наблюдений, установленных при визуальном анализе поля корреляции. Удобным инструментом анализа выбросов являются графики «Box&Whiskers Plot». Дословный перевод этого термина означает «Ящик с усами», наиболее приближенным по смыслу переводом является «Коробковая диаграмма». Покажем построение этого графика средствами Microsoft Office Excel. Шаг 1. Сформируем таблицу с границами интервалов выбросов в следующем порядке:
Шаг 2. Выделим все ячейки сформированной таблицы, после чего на вкладке «Вставка» выберем в категории «Диаграммы», подкатегории «Биржевые» вид диаграммы «Открытие-максимальный-минимальный-закрытие». Полученный график имеет вид (рис. 2.1.9):
Рис. 2.1.9. Коробковая диаграмма распределения доходов населения и оборота розничной торговли
Полученный график интерпретируют следующим образом. Наблюдения попадающие в «ящик» не являются выбросами. Наблюдения расположенные на «усах» представляют собой умеренные выбросы. И наконец наблюдения выходящие за пределы усов представляют собой экстремальные выбросы. Аналитический метод выбора вида математической функции при спецификации модели регрессии основан на изучении теоретических основ возникновения взаимосвязи между исследуемыми переменными. Как правило, в эконометрике эти теоретические основы являются предметом изучения экономической теории. Например, нам известно, что зависимость спроса от цены, изображенная графически, имеет вид гиперболы, зависимость потребления от дохода имеет предел насыщения и поэтому ее можно представить в виде логистической кривой. Величина налоговых поступлений в бюджет зависит от ставки налогов, что описывается кривой Лаффера, имеющей форму параболы. Мы привели лишь малую часть зависимостей между экономическими переменными, зная качественное содержание которых можно априорно выбрать вид математической функции для модели регрессии. Однако не будем забывать, что одной из целей эконометрики как раз и является эмпирическая проверка положений экономической теории на реальных статистических данных. Поэтому даже если вид функции был выбран при помощи аналитического метода, абсолютно не лишним будет визуальный анализ исходных данных и проверка спецификации экспериментальным методом. Экспериментальный метод выбора математической функции, используемой при построении модели регрессии заключается в сравнении сумм квадратов регрессионных остатков рассчитанных для различных видов функций. Пример таких расчетов мы рассмотрим позднее, когда будем уметь рассчитывать оценки параметров линейных и нелинейных моделей. Применение экспериментального метода не требует высокой квалификации исследователя, и в этой связи пользуется значительной популярностью. Однако следует заметить, что вид математической функции выбранный при помощи экспериментального метода, должен находиться во множестве видов функций допустимых и объясняемых в рамках аналитического метода. Другими словами – если вид функции выбранный на основе минимизации суммы квадратов регрессионных остатков не может быть содержательно интерпретирован в границах теоретической базы исследования, то от этой функции следует отказаться. В общем случае можно говорить, что если отсутствуют теоретические предпосылки к использованию нелинейных функций, то целесообразно использовать линейные модели, даже если они обладают несколько худшими характеристиками регрессионных остатков. Если форма распределения исследуемых переменных делает невозможным использование линейной модели, то построение нелинейной модели должно сопровождаться формированием нового теоретического обоснования взаимосвязи между экономическими величинами. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.046 сек.) |