|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Модель производственной функцииПроизводственной функцией называется соотношение между выпуском продукции и факторами производства: объемом капитала и затратами труда. Производственная функция часто применяется для оценки эластичности выпуска продукции по отдельным факторам производства. Например, производственная функция Кобба-Дугласа имеет вид где c =const, , (1.7) Р - выпуск продукции, L - затраты труда, K - объем капитала.
Модель формирования спроса и предложения. Эта модель является моделью системы двух одновременных уравнений, такие модели будут рассмотрены нами в главе 5.
где Qd - спрос на товар, Qs - предложение товара, P – цена, I - доход.
Контрольные вопросы 1. Перечислите основные этапы построения модели. 2. Какие задачи решают корреляционный и регрессионный анализы? 3. Какие зависимости называются статистическими? 4. Что такое корреляционная связь? 5. Что такое эндогенные и экзогенные переменные? 6. Какие модели являются линейными относительно факторов? 7. Какие нелинейные модели вам известны? 8. Какими свойствами характеризуется качество оценок параметров? 2. Парный регрессионный анализ 2.1. Линейная парная регрессия Парной регрессией называется модель, выражающая зависимость среднего значения зависимой переменной y (результативного признака) от одной независимой переменной х (фактора). Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной. Используя уравнение регрессии (1.1), соотношение между двумя переменными у и х (модель связи) можно записать в виде: (2.1) где первое слагаемое f (b, x) называется объяснённой частью, а второе слагаемое ε случайной составляющей (или возмущением). Соотношение между этими частями характеризует качество уравнения регрессии: чем меньше необъяснённая случайная часть и больше доля объяснённой, тем лучше уравнение регрессии. При построении уравнения регрессии ε рассматривается как ошибка модели, представляющая собой случайную величину, удовлетворяющую определенным предположениям. Наличие составляющей ε обусловлено такими причинами, как наличие дополнительных факторов, оказывающих влияние на переменную y, неверный вид функциональной зависимости f(x), ошибки измерения, выборочный характер исходных данных. По виду аналитической зависимости различают линейные и нелинейные регрессии. Линейная парная регрессия описывается уравнением: (2.2) Рассмотрим стандартную постановку задачи. Пример 1. Предположим нужно найти зависимость объёма товарооборота Y(тыс.руб.) от размера торговой площади Х(кв.м.). Имеются данные по n = 10 магазинам (таб.1). Для выбора вида аналитической зависимости можно использовать следующие методы: графический (вид зависимости определяется на основе анализа поля корреляций); аналитический (на основе качественного анализа изучаемой взаимосвязи); экспериментальный (построение нескольких моделей различного вида с выбором наилучшей согласно применяемому критерию качества). Удобно построить поле корреляции (рис. 2.1) и визуально определить форму кривой регрессии, зная типичный вид графиков различных функций. Таблица 1.
Рис.1. Зависимость объёма продаж от торговой площади
Графическое представление экспериментальных данных синими маркерами на рис.1 наглядно подтверждает предположение о линейной зависимости. Поэтому нужно искать уравнение регрессии в классе линейных функций (2.2), графиком уравнения будет прямая. Забегая вперёд, отметим, что в приложении Excel есть возможность автоматически построить регрессию и найти её уравнение, выделив синие маркеры и выбрав в контекстном меню команду Найти линию тренда. По умолчанию будет построен линейный тренд. Не забудьте отметить флажки Показывать уравнение на диаграмме и коэффициент R2. Итак, построив поле корреляции, мы видим, что можно провести наиболее близко подходящую к экспериментальным точкам прямую. Как найти её уравнение (2.2), неизвестные коэффициенты – параметры ? Для нахождения параметров уравнения регрессии, причём не только в линейном случае, используется метод наименьших квадратов. Рассмотрим его идею и вывод формул для самого простого и наглядного случая парной линейной регрессии.
2.2. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
Идея метода состоит в нахождении функции, наиболее близкой к экспериментальным точкам. Для формализации понятия близости рассмотрим разность между точками расчётными (теоретическими), лежащими на прямой yi,помечены красным маркером на рис.1, и наблюдаемыми экспериментальными i, отмечены синими маркерами. Обозначим эту разность ei = . Если рассмотреть просто сумму таких отклонений ei, то положительные и отрицательные слагаемые могут взаимно нейтрализовать друг друга. Можно рассматривать модули отклонений, но не очень удобно. Поэтому математики рассматривают сумму квадратов отклонений. И наилучшей, в смысле наиболее близкой, называют такую, функцию, для которой сумма квадратов отклонений принимает минимальное значение, т. е. (2.3) Полученная функция S = S(b0, b1) как функция зависит от двух переменных b0 и b1. Необходимым условием минимума функции двух переменных является равенство нулю частных производных: (2.4) Из этой системы уравнений, раскрывая суммы и преобразовывая, получим формулы для нахождения параметров b0 и b1: (2.5) где - средние значения величин. Решая систему (2.5) относительно b0, b1, получим рабочие формулы: (2.6) В формуле для коэффициента b1 в числителе стоит ковариация cov(x,y) переменных х и у, а в знаменателе выборочная дисперсия s2 x переменной х. Обратим внимание, что сначала находим коэффициент b1, а затем b0. Вернёмся к нашему примеру и покажем, как удобно организовать вычисления на листе Excel по выведенным формулам.
2.3. ПРИМЕР НАХОЖДЕНИЯ ПАРАМЕТРОВ УРАВНЕНИЯ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ
Рассмотрим нахождение параметров уравнения линейной регрессии для примера 1 предыдущего параграфа. В столбец А и В занесём массив данных задачи, объём выборки равен 10. В столбце С будем считать произведения Х и У, для этого в ячейку С2 запишем формулу =А2*В2 (все формулы должны начинаться со знака равно!). С помощью маркера заполнения растянем формулу в столбце С. В ячейку D2 записываем формулу =В^2, растягиваем (см. рис.2). В строке 12 будем вычислять средние значения, для этого можно считать соответствующие суммы в столбцах и делить их на количество наблюдений, в нашем примере n=10, но удобнее использовать встроенную в Excel функцию СРЗНАЧ. Введём в ячейку А12 формулу =СРЗНАЧ(А2:А11), растянем вправо на столбцы В, C, D (см. рис.2).
Рис.2 Пример вычисления параметров b0, b1. Теперь всё готово для нахождения параметров. В ячейку В14 вводим формулу (2.6) для вычисления b1: =(С12 - А12*В12)/(D12 – B12^2). В ячейку В15 формулу для b0: =А12 – В14*В12. Сравните найденные значения с коэффициентами прямой, полученной при построении тренда, они должны совпасть. Уравнение регрессии = - 14,0803 + 0,243787 x. Коэффициент b1 при факторной переменной x показывает насколько изменится в среднем величина у при изменении фактора x на единицу. 2.4. ПОСТРОЕНИЕ И ОЦЕНКА ПАРАМЕТРОВ НЕЛИНЕЙНЫХ МОДЕЛЕЙ
Нелинейные уравнения регрессии делятся на два типа: уравнения, которые с помощью замены переменных можно линеаризовать, т.е. привести к линейному виду и те, с которыми эта процедура невозможна. В первом случае, уравнения регрессии преобразуются к линейному виду с помощью введения новых (линеаризующих) переменных Х, У - заменой переменных. При этом предварительно формируются массивы значений новых переменных, затем определяются параметры линейного уравнения регрессии по новым массивам. После с помощью обратного преобразования получают параметры исходного уравнения регрессии. Рассмотрим основные виды нелинейных регрессий и преобразования линеаризации для них (табл. 2.1)
Таблица 2.1
Иногда при процедуре линеаризации для выбора подходящей замены исходное уравнение логарифмируют. Рассмотрим эту операцию на примере степенной регрессии. Новые переменные будем обозначать заглавными буквами, исходные – маленькими. Прологарифмируем уравнение y = axb. Имеем: lny = lna + b lnx. (2.7) Введём новые переменные: Y = lny, X = lnx, A = lna, B = b. Уравнение примет вид Y = A + BX, т.е. стало линейным. В приложении 1 показан пример расчёта нелинейной степенной модели парной регрессии. В случае двух переменных вычисления также можно проверить с помощью построения соответствующего тренда.
2.5. ОСНОВНЫЕ ПРЕДПОСЫЛКИ РЕГРЕССИОННОГО АНАЛИЗА. ТЕОРЕМА ГАУССА-МАРКОВА. Оценки параметров уравнения регрессии (2.2) могут быть получены различными способами (методом наименьших квадратов, методом максимального правдоподобия и пр.), при этом хотелось бы быть уверенными, что они являются «лучшими» среди всех остальных в некотором смысле. Ответ на этот вопрос дает теорема Гаусса-Маркова, согласно которой оценки параметров линейной регрессии, полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок при выполнении четырех условий, известных как условия Гаусса-Маркова. Эти условия принимаются в качестве основных предпосылок регрессионного анализа. 1. В регрессионной модели ошибка (возмущение) εi есть величина случайная, а объясняющая переменная xi - неслучайная. 2. Математическое ожидание возмущения равно 0: М(εi) = 0. 3. Дисперсия возмущения εi постоянна для всех наблюдений 4. Возмущения εi и εj не коррелируют между собой, т.е. Cov(εi, εj) = 0. 5. Возмущения εi являются нормально распределённой случайной величиной. Условие 5 необходимо для оценки точности уравнения регрессии. Выполнение 4-го условия обеспечивает несмещенность оценки параметра b1. Выполнение 1-го и 4-го условий обеспечивает несмещенность оценки параметра b0. Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию. Проверка ЗНАЧИМОСТИ уравнения регрессии. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ
Оценка качества полученного уравнения регрессии основывается на методах дисперсионного анализа. Проверить уравнение на значимость – значит определить, соответствует ли построенная математическая модель экспериментальным данным, и достаточное ли количество факторов включено в модель для описания результирующей переменной. Основная идея дисперсионного анализа заключается в справедливости равенства Q = QR + Qe, где (2.8) – общая сумма квадратов отклонений зависимой переменной от среднего (total sum of squares), Величина является мерой качества уравнения регрессии, называется коэффициентом детерминации и показывает, какую долю в общей вариации переменной составляет вариация объясняющей переменной. Какая доля результативного признака объясняется уравнением регрессии, а какая приходится на долю случайности и неучтённых факторов. В силу (2.8) из-за неотрицательности слагаемых понятно, что , поэтому коэффициент детерминации . Причём, чем он ближе к 1, тем лучше регрессия аппроксимирует экспериментальные данные (они ближе к прямой). Если R2 = 1, то все экспериментальные точки укладываются на регрессионную прямую. Если R2 = 0, то вариация зависимой переменной полностью обусловлена влиянием неучтённых в модели факторов, линия регрессии параллельна оси абсцисс. Вернёмся к рассматриваемому примеру из параграфа 2.3. Заполним столбцы H, I (см. рис.2) формулами для вычисления остаточных сумм квадратов. В ячейку Н2 записываем: =(A2-$A$12)^2, протягиваем для заполнения столбца; в ячейку I2: =(F2-$F$12)^2. Знак $ используем для абсолютнойссылки на ячейку, в которой хранится среднее значение . В ячейках H12, I12 вычисляем сумму значений в столбцах. Эта сумма и есть QR и Q. Теперь можно вычислить коэффициент детерминации R2. В ячейку B16 вводим формулу: =H12/I12. Вычисленное значение равно 0,964388. Можно сделать вывод, что найденное уравнение регрессии на 96,4% объясняет изменение переменной у, и 3,8% приходится на долю случайностей. При оценке качества уравнения регрессии возникает вопрос, при каких значениях R уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе. Ответ на этот вопрос дает F-критерий Фишера. Рассмотрим следующую таблицу 2.2 Таблица 2.2
В этой таблице n – число наблюдений, а m – число параметров в уравнении регрессии, для парной m=2. В статистике при оценки дисперсии случайной величины число степеней свободы равно разности межлу числом независимых наблюдений n и числом связей, ограничивающих свободу их изменения, т.е. числом уравнений, в парной регрессии два уравнения на параметры (см. 2.6). При отсутствии линейной зависимости между у и факторными признаками случайные величины и s2 имеют распределение χ2, а их отношение распределение Фишера. Рассчитаем наблюдаемое значение статистики (2.9) и сравним его с табличным значением F-критерия Фишера для k1 = m - 1, k2 = n – m и заданного уровня значимости α (см. приложение 3). Согласно F-критерию Фишера, выдвигается «нулевая» гипотеза Н0 о статистической незначимости уравнения регрессии (т. е. о статистически незначимом отличии величины F от нуля). Эта гипотеза принимается при выполнении условия F набл < F табл. Т.е. если F набл > F табл, то гипотеза Н0 о незначимости отвергнута и справедлива альтернативная гипотеза о значимости уравнения при заданном уровне α. Уровнем значимости в статистических гипотезах называется вероятность отвергнуть верную гипотезу (это, так называемая, ошибка первого рода). Уровень значимости обычно принимает значения 0,05 и 0,01, что соответствует вероятности совершения ошибки первого рода 5 % и 1 %. Зная коэффициент детерминации, статистика Фишера (2.9) в случае парной регрессии может быть записана в виде F = (n – 2)/R2. (2.10) Значимость уравнения парной линейной регрессии может быть оценена и другим способом, через значимость коэффициента регрессии b1 по критерию Стьюдента с использованием статистики Стьюдента
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.015 сек.) |