|
|||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Примером системы одновременных уравнений может служитьмодель спроса и предложения, включающая три уравнения: — уравнение предложения; — уравнение спроса; — тождество равновесия, где — предложение товара в момент времени t; — спрос на товар в момент времени t; — цена товара в момент времени t; — цена товара в предшествующий момент времени t; — доход потребителей в момент времени t Этапы построения эконометрической модели: I. Теоретическое описание рассматриваемого экономического процесса с отражением существующих тенденций- определение круга факторов. II. Сбор данных, анализ их качества. III. Спецификация модели, когда устанавливаются экзогенные (внешние) и эндогенные (внутренние) переменные, выявляются связи и соотношения между ними, определяется вид модели исходя из соответствующей теории связи между переменными. IV. Идентификация модели, т. е. выявление условий корректного оценивания параметров модели на основе соотношения количества переменных и связей между ними. V. Оценка параметров модели (используется метод наименьших квадратов). VI. Верификация модели, то есть проверка достоверности построенной модели. VII. Использование модели.
4Проверка статистических гипотез Проверка статистических гипотез – это один из основных методов математической статистики, который используется в эконометрике. С помощью методов математической статистики можно проверить предположения о законе распределения некоторой случайной величины (генеральной совокупности), о значениях параметров этого закона (например, математического ожидания или дисперсии), о наличии корреляционной зависимости между случайными величинами, определенными на множестве объектов одной и той же генеральной совокупности. Предположим, что на основании имеющихся данных у исследователя есть основания выдвинуть предположения о законе распределения или о параметре закона распределения случайной величины (или генеральной совокупности, на множестве объектов которой определена эта случайная величина). Задача проверки статистической гипотезы заключается в подтверждении или опровержении этого предположения на основании выборочных (экспериментальных) данных. Статистической гипотезой называется любое предположение о виде неизвестного закона распределения или о параметрах известных распределений. Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Примером параметрической статистической гипотезы является гипотеза о равенстве математических ожиданий двух нормальных совокупностей. Непараметрическими гипотезами называются гипотезы о виде распределения случайной величины. Проверка статистической гипотезы означает проверку соответствия выборочных данных выдвинутой гипотезе. Параллельно с выдвигаемой основной гипотезой рассматривают и противоречащую ей гипотезу, которая называется конкурирующей или альтернативной. Противоречащая гипотеза считается справедливой, если основная выдвинутая гипотеза отвергается. Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0. Конкурирующей или альтернативной гипотезой называется гипотеза, которая противоречит основной гипотезе Н 0 и обозначается Н1. Например, основная гипотеза Н 0 состоит в том, что математическое ожидание μ равно значению μ 0. В этом случае конкурирующая гипотеза Н1 может состоять в предположении, что математическое ожидание μ не равно (больше или меньше) значения μ 0: Н0: μ=μ0; Н1: μ≠μ0, или Н1: μ>μ0, или Н1: μ<μ0. Простой гипотезой называется гипотеза, которая содержит только одно предположение. Например, гипотеза о том, что параметр распределения Пуассона λ равен значению λ 0, является простой. Основная гипотеза о том, что математическое ожидание нормального распределения равно 5 (при известной дисперсии), т.е. Н0: а=5, также является простой. Сложной гипотезой называется гипотеза, которая состоит из нескольких простых гипотез. Например, сложная гипотеза вида: Н0: λ>4, состоит из множества простых гипотез вида: Н0: λ>m, где m – это люблое число, большее четырёх.
3Статистические оценки и их желательные свойства. Статистические оценки — это статистики, которые используются для оценивания неизвестных параметров распределений случайной величины. Например, если — это независимые случайные величины, с заданным нормальным распределением , то будет средним арифметическимрезультатов наблюдений. Задача статистической оценки формулируется так: Пусть — выборка из генеральной совокупности с распределением . Распределение имеет известную функциональную форму, но зависит от неизвестного параметра . Этот параметр может быть любой точкой заданного параметрического множества . Используя статистическую информацию, содержащуюся в выборке , сделать выводы о настоящем значении параметра .
Свойства несмещееностиНесмещенность- желательное свойство оценок. Т.к оценки являются случайными переменными, их значения лишь по случайному совпадению могут в точности равняться характеристикам генеральной совокупности. Обязательно будет присутствовать ошибка, которая может быть большой и малой, положительной или отрицательной, в зависимости от чисто случайных составляющих величин х в выборке. оценка несмещенная, если мат ожидание оценки = соответствующей характеристике генеральной совокупности. Если это не так, то оценка называется смещенной и разница между ее мат. ожиданием и соответствующей теоретической характеристикой генеральной совокупности называется – смещением. Выборочное среднее является смещенной оценкой теоретического среднего…………… xi=m+ui, xi=m+ui - средняя чисто случайных составляющих величин х в выборке. Мат ожидание такой составляющей в каждом наблюдении =0, т.е.мат ожид = 0. Е(х)=Е(m+u)=Е(m)+Е(u) = m+0=m В принципе, число несмещенных оценок бесконечно. Есть выборка из 2-х наблюдений х1 и х2, любое взвешенное среднее было бы несмещенной оценкой, если сумма весов = 1. Z=l1x1+l2x2 – общая формула оценки Е(Z)=E(l1x1+l2x2)= l1E(x1)+ l2E(x2)= l1m+l2m=m(l1+l2), l1+l2=1, значит Е(Z)= m, и Z является несовмещенной оценкой m. Но мы всегда по большинству пользуемся выборочным средним с l1 и l2 = 0.5 Математическое Е (s2) = s2х и эта величина является несмещенной оценкой теоретической дисперсии, если наблюдения по выборке независимы друг от друга Несмещенность – это желательное свойство оценок, но это не единственное такое свойство. Еще одна важная их сторона- это надежность Немаловажно, чтобы оценка была точной в среднем за длительный период. Эффективная оценка это оценка, к-ая с максимально возможной вероятностью давала бы близкое значение к теоретической характеристике. Нам надо получить малую дисперсию. Более сжатую, тогда мы получим более точное значение – такая оценка будет эффективна. Более эффективна та оценка, функция плотности вероятности которой более «сжата» вокруг истинного значения. Но это далеко не факт. По стечению обстоятельств может быть, что менее сжатая окажется более точной, но это менее 50% вероятности. Надо получать оценку как можно с меньшей дисперсией и эффективная оценка это та, у которой дисперсия минимальна. Рассмотрим дисперсию обобщенной оценки теоретического среднего и покажем, что она минимальна, когда оба наблюдения имеют равные веса. Если наблюдения х1 и х2 независимы, то теоретическая дисперсия обобщенной оценки равна: Для несмещенности оценки необходимо l1+l2=1, l2=1-l1 и: Надо выбрать l1, чтобы минимизировать дисперсию (2l2 -2l1+1). Минимум достигается при l1=0,5, и значит l2=0,5. Выборочное среднее имеет наименьшую дисперсию среди оценок данного типа. Это означает, что оно имеет наиболее сжатое вероятностное распределение вокруг истинного среднего и следовательно наиболее точно. Выборочное среднее –это наиболее эффективная оценка среди всех несмещенных оценок. Замечания: 1)эффективность оценок можно сравнить лишь тогда, когда они используют одну и ту же информацию, один и тот же набор наблюдений нескольких случайных переменных. 2)ограничиваем понятие эффективности сравнением распределений несмещенных оценок. Если предел оценки по вероятности = истинному значению характеристики генеральной совокупности, то эта оценка называется состоятельной, т.е. та, которая дает точное значение для большой выборки независимо от входящих в нее конкретных наблюдений. Иногда бывает, что оценка, смещенная на малых выборках, является состоятельной. Иногда самостоятельной может быть даже оценка, не имеющая на малых выборках конечного математического ожидания. Нужно, однако, иметь ввиду, что состоятельная оценка в принципе может на малых выборках работать хуже, чем несостоятельная и поэтому требуется осторожность 7Общая модель парной регрессии После того как в ходе экспериментов было доказано наличиевзаимосвязи между изучаемыми переменными, встает задачаопределения точного вида выявленной зависимости с помощьюрегрессионного анализа. Регрессионный анализ заключается в определении аналитического выражения связи (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощьюпостроения уравнения регрессии или регрессионной функции.Базисной регрессионной моделью является модель парной(однофакторной) регрессии. Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов. Общий вид парного уравнения регрессии зависимости y от x: где y i — зависимые переменные, x i — независимые переменные; ß 0, ß 1 — параметры уравнения регрессии, подлежащие оцениванию; e ι— случайная ошибка модели регрессии, появление которой может быть обусловлено следующими объективными предпосы2 лками: 1) нерепрезентативностью выборки. В модель парной регрессии включается одни фактор, неспособный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию множества других факторов в гораздо большей степени; 2) вероятностью того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов: 1) на основе визуальной оценки характера связи. На линейном графике по оси абсцисс откладываются значения факторного (независимого) признака x, по оси ординат — значения результативного признака y. На пересечении соответствующих значений отмечаются точки. Полученный точечный график в указанной системе координат называется корреляционным полем. При соединении полученных точек получается эмпирическая линия, по виду которой можно судить не только о наличии, но и о форме зависимости между изучаемыми переменными; 2) на основе теоретического и логического анализа природы изучаемых явлений, их социально$экономической сущности. Параметр ß 1 уравнения парной регрессии называется коэффициентом регрессии. Его величина показывает, на сколько в сред$ нем изменится результативный признак y при изменении факторного признака x на единицу своего измерения. Знак параметра ß 1 в уравнении парной регрессии указывает на направление связи. Если, ß 1 > 0, то связь между изучаемыми показателями прямая, т. е. с увеличением факторного признака x увеличивается и результативный признак, и наоборот. Если ß 1 < 0, то связь между изучаемыми показателями обратная, т. е. с увеличением фактора x результат уменьшается, и наоборот. Значение параметра ß 0в уравнении парной регрессии трактуется как среднее значение результативного признака y приусловии, что факторный признак x равен нулю. Такая трактовка параметра ß 0возможна только в том случае, если значение x = 0 имеет смысл. 2. Нормальная линейная модель парной регрессии Нормальная, или классическая, линейная модель парной регрессии (регрессии с одной переменной) строится исходя из следующих предположений: 1) факторный признак x i является неслучайной или детерминированной величиной, не зависящей от распределения слу$ чайной ошибки уравнения регрессии e i 2) математическое ожидание случайной ошибки уравнения регрессии равно нулю во всех наблюдениях: где 3) дисперсия случайной ошибки уравнения регрессии являет$ ся постоянной для всех наблюдений: 4) случайные ошибки уравнения регрессии не коррелированы между собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю: где i ≠ j. Это предположение верно в том случае, если изучаемые данные не являются временными рядами; 5) основываясь на 3 и 4$м предположениях, добавляется условие о том, что случайная ошибка уравнения регрессии является случайной величиной, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией Исходя из указанных предпосылок нормальную линейную модель парной регрессии можно записать в следующем виде: где y i — значения зависимой переменной, x i — значения независимой переменной; ß 0, ß 1 — коэффициенты уравнения регрессии, подлежащие оценке; e i — случайная ошибка уравнения регрессии. Матричная форма нормальной линейной модели парной регрессии: Y = ß X + e, (2) где — вектор значений зависимой переменной размерности n × 1; — вектор значений независимой переменной размерности n × 2. Первый столбец является единичным, так как в уравнении регрессии параметр ß 0 умножается на 1; — вектор коэффициентов уравнения регрессии размерности 2 × 1; — вектор случайных ошибок уравнения регрессии размерности n × 1. Предположения о модели, записанные в матричном виде: 1) факторный признак x является неслучайной или детерменированной величиной, не зависящей от распределения случайной ошибки уравнения регрессии e; 2) математическое ожидание случайной ошибки уравнения регрессии равно нулю во всех наблюдениях: 3) предположения о том, что дисперсия случайной ошибки уравнения регрессии является постоянной для всех наблюдений и ковариация случайных ошибок любых двух разных наблюдений равна нулю, можно записать с помощью ковариационной матрицы случайных ошибок нормальной линейной модели парной регрессии: Данную ковариационную матрицу можно преобразовать следующим образом: , где G — дисперсия случайной ошибки уравнения регрессии e; I n — единичная матрица размерности n × n. Ковариация — это показатель тесноты связи между изучаемыми переменными, которая вычисляется по формуле: где — среднее арифметическое значение произведения факторного и результативного признаков: На диагонали ковариационной матрицы случайных ошибок нормальной линейной модели парной регрессии располагается дисперсия случайных ошибок, так как ковариация переменной с самой собой равна дисперсии переменной. Таким образом: 4) случайная ошибка уравнения регрессии имеет нормальный закон распределения: Общая модель парной регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. Регрессионным анализом называется определение аналитического выражения связи между исследуемыми переменными, в котором изменение результативной переменной происходит под влиянием факторной переменной. Модель регрессии или уравнение регрессии позволяет количественно оценить взаимосвязь между исследуемыми переменными. Предположим, что имеется набор значений двух переменных: yi (результативная переменная) и xi (факторная переменная). Между этими переменными существует зависимость вида: y = f (x). Задача регрессионного анализа состоит в том, чтобы по данным наблюдений определить такую функцию ỹ = f (x), которая наилучшим образом описывала исследуемую зависимость между переменными. Для определения аналитической формы зависимости между исследуемыми переменными применяются следующие методы: 1) графический метод или визуальная оценка характера связи. В этом случае на линейном графике по оси абсцисс откладываются значения факторной переменной х, а по оси ординат – значения результативной переменной у. Затем на пересечении соответствующих значений отмечаются точки. Полученный точечный график в системе координат (х, у) называется корреляционным полем. Линия, которая соединяет точки на графике, называется эмпирической линией. По её виду можно судить не только о наличии, но и о форме зависимости между изучаемыми переменными; 2) на основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности; 3) определение аналитической формы зависимости между переменными экспериментальным путём. При исследовании зависимости между двумя переменными чаще всего используется линейная форма связи. Это связано с двумя обстоятельствами: 1) чёткая экономическая интерпретация параметров линейной модели регрессии; 2) в большинстве случаев нелинейные модели регрессии преобразуются к линейному виду. Общий вид модели парной регрессии зависимости переменной у от переменной х: yi=β0+β1xi+εi, где yi – результативные переменные, xi – факторные переменные, β0, β1 – параметры модели регрессии, подлежащие оцениванию; ε i – случайная ошибка модели регрессии. Данная величина является случайной, она характеризует отклонения реальных значений результативных переменных от теоретических, рассчитанных по уравнению регрессии. Присутствие случайной ошибки в модели регрессии порождено следующими источниками: 1) нерепрезентативность выборки. Модель парной регрессии в большинстве случаев является большим упрощением истинной зависимости между переменными, потому что в модель входит только одна факторная переменная, не способная полностью объяснить вариацию результативной переменной. При этом результативная переменная может быть подвержена влиянию множества других факторных переменных в гораздо большей степени; 2) ошибки, возникающие при измерении данных; 3) неправильная функциональная спецификация модели. Коэффициент β1, входящий в модельпарной регрессии, называется коэффициентом регрессии. Он характеризует, на сколько в среднем изменится результативная переменная у при условии изменения факторной переменной х на единицу своего измерения. Знак коэффициента регрессии указывает на направление связи между переменными: 1) если β1›0, то связь между изучаемыми переменными (с уменьшением факторной переменной х уменьшается и результативная переменная у, и наоборот); 2) если β1‹0, то связь между изучаемыми переменными (с увеличением факторной переменной х результативная переменная у уменьшается, и наоборот). Коэффициент β0, входящий в модель парной регрессии, трактуется как среднее значение результативной переменной у при условии, что факторная переменная х равна нулю. Но если факторная переменная не имеет и не может иметь нулевого значения, то подобная трактовка коэффициента β0 не имеет смысла. Общий вид модели парной регрессии в матричном виде: Y= X* β+ ε, где – случайный вектор-столбец значений результативной переменной размерности n x 1;
– матрица значений факторной переменной размерности n x 2. Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу; – вектор-столбец неизвестных коэффициентов модели регрессии размерности 2 x 1;
– случайный вектор-столбец ошибок модели регрессии размерности n x 1. Общий вид нормальной (традиционной или классической) линейной модели парной (однофакторной) регрессии (Classical Normal Regression Model): yi=β0+β1xi+ε i, где yi – результативные переменные, xi – факторные переменные, β0, β1 – параметры модели регрессии, подлежащие оцениванию; ε i – случайная ошибка модели регрессии. Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.
8Оценивание параметров регрессии. Метод наименьших квадратов. Оценка параметров уравнения парной регрессии. Эконометрическое оценивание моделей включает два основных этапа: 1) Теоретический. Считается, что определена генеральная совокупность. Зная те или иные статистические свойства этой совокупности, можно теоретически определить параметры модели. 2) Эмпирический. Исследователь использует лишь выборочные данные. На этом этапе можно оценить, но нельзя точно определить значения параметров модели, поскольку они являются случайными величинами. Согласно выборочному методу статистики характеристики генеральной совокупности принято называть параметрами, а характеристики выборочной совокупности – оценками. Оценка генеральных параметров может быть получена двумя методами: а) методом наименьших квадратов (МНК), б) методом максимального правдоподобия. Свойства оценки: несмещенность (оценка является несмещенной, если мат.ожидание оценки равно оцениваемому параметру при любом объеме выборки, т. е.оценка должна в среднем соответствовать выбранному параметру), эффективность (несмещенная оценка называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками), состоятельность (оценка наз-ся состоятельной, если при увеличении объема выборки оценка стремится к оцениваемому параметру). Для оценки параметров функций, линейных по параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна: . Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b: Σу=na+bΣx Σyx=aΣx+bΣx2 Формулы расчета параметров уравнения парной регрессии: a - свободный член уравнения регрессии (пересечение с осью ОУ), показывает начало отсчета. Экономически не интерпретируется. b - показывает угол наклона линии регрессии или коэффициент регрессии. Он является мерой зависимости переменной у от переменной х. В линейном уравнении регрессии параметр b является абсолютным показателем силы связи. При степенной зависимости параметр b -это относительный показатель силы связи или коэффициент эластичности. Условия применения МНК: 1) модель регрессии должна быть линейной по параметрам; 2) факторный признак х является заданной, а не случайной величиной; 3) значения ошибки (остатка)- случайные. Их изменение не образует определенной модели. Не должно быть взаимосвязи между фактором х и остатками (гомоскедастичность); 4) число наблюдений должно быть больше числа оцениваемых параметров (в 5-6 раз); 5) значения переменной x не должны быть одинаковыми.; 6) изучаемая совокупность должна быть однородной; 7) модель регрессии должна быть корректно специфицирована; 8) в модели не должно наблюдаться тесной взаимосвязи между факторами (это условие для множественной регрессии).
В ходе регрессионного анализа была подобрана форма связи, которая наилучшим образом отражает зависимость результативной переменной у от факторной переменной х: y=f(x). Необходимо оценить неизвестные коэффициенты модели регрессии β0…βn. Для определения оптимальных коэффициентов модели регрессии возможно применение следующих критериев: 1) критерий суммы квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β (рассчитанных на основе функции регрессии f(x)): Данный критерий определения оптимальных коэффициентов модели регрессии получил название метода наименьших квадратов или МНК. К основным преимуществам данного метода относятся: а) все расчёты сводятся к механической процедуре нахождения коэффициентов; б) доступность полученных математических выводов. Недостаток метода наименьших квадратов заключается в излишней чувствительности оценок к резким выбросам, встречающимся в исходных данных. Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал F по данным параметрам: Суть минимизации функционала наименьших квадратов F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β была бы минимальной; 2) критерий суммы модулей отклонений наблюдаемых значений результативной переменной у от теоретических значений β (рассчитанных на основе функции регрессии f(x)): Главное преимущество данного критерия заключается в устойчивости полученных оценок к резким выбросам в исходных данных, в отличие от метода наименьших квадратов. К недостаткам данного критерия относятся: а) сложности, возникающие в процессе вычислений; б) зачастую большим отклонениям в исходных данных следует придавать больший вес для уравновешивания их в общей сумме наблюдений; в) разным значениям оцениваемых коэффициентов β0…βn могут соответствовать одинаковые суммы модулей отклонений. Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал F по данным параметрам: Суть минимизации функционала F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений β была бы минимальной; 3) критерий, имеющий вид: где g – это мера или вес, с которой отклонение (yi-f|xi,β|) входит в функционал F. В качестве примера веса g можно привести функцию Хубера, которая при малых значениях переменной х является квадратичной, а при больших значениях х – линейной:
где с – ограничения функции. Данный критерий определения наилучших оценок коэффициентов модели регрессии β0…βn является попыткой объединения достоинств двух предыдущих критериев. Основное преимущество данного критерия заключается в том, что оценки неизвестных коэффициентов, найденные с его помощью, являются более устойчивыми к случайным выбросам в исходных данных, чем оценки, полученные методом наименьших квадратов. Для определения оптимальных значений коэффициентов β0…βn необходимо минимизировать функционал F по данным параметрам: Суть минимизации функционала F состоит в определении таких значений коэффициентов β0…βn, при которых сумма квадратов отклонений наблюдаемых значений результативной переменной у от теоретических значений ỹ с учётом заданных весов g была бы минимальной. На первом этапе проведения регрессионного анализа была выбрана функция f(x), отражающая зависимость результативного признака y от факторного признака x. Необходимо оценить неизвестные параметры модели. В качестве методов оценки неизвестных параметров уравнения регрессии ß 0 , …, ß n могут выступать: 1) сумма квадратов отклонений наблюдаемых значений результативного признака y от теоретических значений рас$ считанных на основании регрессионной функции, f(x): Этот метод оценивания неизвестных параметров уравнения регрессии называется методом наименьших квадратов (МНК). Термин МНК был впервые использован в работе А. М. Лежандра в 1805 г. Можно выделить следующие достоинства метода: а) расчеты сводятся к механической процедуре нахождения коэффициентов; б) доступность полученных математических выводов. Основным недостатком МНК является чувствительность оценок к резким выбросам, которые встречаются в исходных данных. 2) сумма модулей отклонений наблюдаемых значений результативного признака y от теоретических значений (рассчитанных на основании регрессионной функции) f(x): Основным достоинством метода является нечувствительность оценок к резким выбросам (в отличие от МНК). Среди недостатков можно выделить следующие: а) сложности в ходе вычислительной процедуры; б) зачастую большим отклонениям в исходных данных следует придавать больший вес для уравновешивания их в общей сумме наблюдений; в) неодинаковым значениям оцениваемых параметров ß 0, …, ß n могут соответствовать одинаковые суммы модулей откло$ нений; где g — мера или вес, с которой отклонение (y i — входит в функционал F. Примером меры g является функция Хубера, которая при малых значениях переменной x является квадратичной, а при больших значениях x — линейной: где c — ограничения функции. Третий метод оценки неизвестных параметров уравнения регрессии ß 0 , …, ß n — объединие достоинства предыдущих двух методов. Оценки неизвестных параметров, найденные с его помощью, являются менее чувствительными к случайным выбросам в исходных данных, чем оценки, полученные МНК. Этот метод применяют, когда выборка сильно «засорена». Для нахождения оптимальных значений неизвестных параметров ß 0 необходимо минимизировать функционал F по данным параметрам: — процесс минимизации функционала F состоит в отыскании таких параметров ß 0, при которых сумма квадратов отклонений наблюдаемых значений результативно$ го признака y от теоретических значений была бы минимальной; — процесс минимизации функционала F состоит в отыскании таких параметров ß 0 , при которых сумма модулей отклонений наблюдаемых значений результативного признака y от теоретических значений была бы минимальной; — процесс минимизации функционала F состоит в отыскании таких параметров ß 0 , …, ß n , при которых сумма отклонений наблюдаемых значений результативного призна$ ка y от теоретических значений с учетом заданных весов g была бы минимальной. Наиболее распространенным методом оценивания параметров уравнения регрессии является метод наименьших квадратов. 1. Классический метод наименьших квадратов для модели парной регрессии Рассмотрим применение метода наименьших квадратов для нахождения неизвестных параметров уравнения регрессии на примере модели линейной парной регрессии. Пусть подобрана эмпирическая линия, по виду которой можно судить о том, что связь между независимой переменной и зависимой переменной линейна и описывается равенством: Необходимо найти такие значения параметров и, которые бы доставляли минимум функции (1), т. е. минимизировали бы сумму квадратов отклонений наблюдаемых значений результативного признака y от теоретических значений (значений, рассчитанных на основании уравнения регрессии): При минимизации функции (1) неизвестными являются значения коэффициентов регрессии ß 0 и ß 1 . Значения зависимой и независимой переменных известны из наблюдений.Для того чтобы найти минимум функции двух переменных,нужно вычислить частные производные этой функции по каждому из оцениваемых параметров и приравнять их к нулю. В результате получаем стационарную систему уравнений для функции (2): Если разделить обе части каждого уравнения системы на (–2),раскрыть скобки и привести подобные члены, то получим систему:Это система нормальных уравнений относительно коэффициентов ß 0 и ß 1для зависимости Решением системы нормальных уравнений являются оценкинеизвестных параметров уравнения регрессии ß 0 и ß 1 где — среднее значение зависимого признака; — среднее значение независимого признака; — cреднее арифметическое значение произведения за$ висимого и независимого признаков; — дисперсия независимого признака; — ковариация между зависимым и независимымпризнаками. Рассмотрим применение МНК на конкретном примере.Имеются данные о цене на нефть x (долларов за баррель) и индексе акций нефтяной компании y (в процентных пунктах). Требуется найти эмпирическую формулу, отражающую связь междуценой на нефть и индексом акций нефтяной компании исходя изпредположения, что связь между указанными переменными линейна и описывается функцией вида Зависимойпеременной (y) в данной регрессионной модели будет являтьсяиндекс акций нефтяной компании, а независимой (x) — цена нанефть.
9Система нормальных уравнений и явный вид ее решения при оценивании методом наименьших квадратов линейной модели парной регрессии
Предположим, что в ходе регрессионного анализа была установлена линейная взаимосвязь между исследуемыми переменными х и у, которая описывается моделью регрессии вида:
В результате оценивания данной эконометрической модели определяются оценки неизвестных коэффициентов. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). Метод наименьших квадратов позволяет получить такие оценки параметров β0 и β1, при которых сумма квадратов отклонений фактических значений результативного признака y от расчетных (теоретических) ỹ минимальна: В процессе минимизации функции (1) неизвестными являются только значения коэффициентов β0 и β1, потому что значения результативной и факторной переменных известны из наблюдений. Для определения минимума функции двух переменных вычисляются частные производные этой функции по каждому из оцениваемых параметров и приравниваются к нулю. Результатом данной процедуры будет стационарная система уравнений для функции (2): . Если разделить обе части каждого уравнения системы на (-2), раскрыть скобки и привести подобные члены, то получим систему нормальных уравнений для функции регрессии вида yi=β0+β1xi:
Если решить данную систему нормальных уравнений, то мы получим искомые оценки неизвестных коэффициентов модели регрессии β0 и β1:
где – среднее значение зависимой переменной;
– среднее значение независимой переменной;
– среднее арифметическое значение произведения зависимой и независимой переменных; – дисперсия независимой переменной; Gcov (x, y) – ковариация между зависимой и независимой переменными. Таким образом, явный вид решения системы нормальных уравнений может быть записан следующим образом:
10Метод наименьших квадратов: алгоритм метода; условия применения В матем статистике методы получения наилучшего приближ к исходным данным в виде аппроксимирующей функции назыв регрессионным анализом. Его основн задачами явл установление завис-сти между переменными и оценка(прогноз)значений завис переменной. При оценивании пар-ров регр.моделей наиболее часто применяется МНК. Его оценки обладают такими стат. св-вами: несмещенность, состоятельность, эффективность. Достоинство МНК: простота мат.выводов и вычислит-х процедур. Пусть имеем выборку из 4-х точек (n=4): P1 =(x1, y1),P2 =(x2, y2), P3 =(x3, y3), P4 =(x4, y4) Предполагаем, что существует теоретическая прямая, которая наилучшим образом проходит через них. Задача: оценить с некоторой точностью, как может проходить эта прямая Итак, оценки параметров модели парной регрессии согласно МНК будем искать из условия:
Задача оценки параметров парной регр.модели МНК сводится к задаче определения экстремума (минимума) ф-ии 2х аргументов
Система называется системой нормальных уравнений для вычисления оценок параметров уравнения парной регрессии. Упростим систему нормальных уравнений.
Убеждаемся, что решение системы уравнений будет соответствовать минимуму функции. Для этого вычисляем значения вторых частных производных функции
Для решения системы выразим из первого уравнения ã0, подставим его во второе уравнение. Получим:
Проанализируем выражение. Для этого вычислим COV(x,y) и σ2(x).Получим: Проверим выполнение условия несмещенности для оценки. Для этого вычислим числитель выражения.Получаем: Вычислим дисперсии параметров уравнения регрессии и дисперсию прогнозирования эндогенной переменной. С помощью МНК получили 1)Оценки параметров уравнения регрессии, по крайней мере, состоятельными 2)Если случайное возмущение подчиняется нормальному закону распределения, то оценки параметров модели несмещенные и эффективные 3)Нет необходимости в знании закона распределения случайных возмущений.
2. Эффективность МНК%оценок. 11Теорема Гаусса—Маркова С помощью теоремы Гаусса — Маркова доказывается эффективность оценок неизвестных параметров уравнения регрессии,полученных с помощью МНК. Нормальная, или классическая, линейная модель парной регрессии (регрессии с одной переменной) строится исходя из следующих предположений: 1) факторный признак x i является неслучайной или детерминированной величиной, не зависящей от распределения слу$ чайной ошибки уравнения регрессии e i 2) математическое ожидание случайной ошибки уравнениярегрессии равно нулю во всех наблюдениях: где 3) дисперсия случайной ошибки уравнения регрессии являетсяпостоянной для всех наблюдений: 4) случайные ошибки уравнения регрессии не коррелированымежду собой, т. е. ковариация случайных ошибок любых двух разных наблюдений равна нулю: Это верно тогда, когда изучаемые данные не являются временными рядами; 5) основываясь на 3 и 4$м предположениях, добавляется условие о том, что ошибка уравнения регрессии является случайной величиной, подчиняющейся нормальному закону распределения с нулевым математическим ожиданием и дисперсией.Тогда оценки неизвестных параметров уравнения регрессии, полученные методом наименьших квадратов, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок, т. е.оценки МНК являются эффективными оценками неизвестных параметров ß 0 Для нормальной линейной модели множественной регрессиитеорема Гаусса — Маркова звучит точно так же. Дисперсии МНК$оценок неизвестных параметров записываются с помощью матрицы ковариаций. Матрица ковариаций МНК$оценок параметров линейной модели парной регрессии выглядит так:где — дисперсия МНК$оценки параметра уравнения регрессии; — дисперсия МНК$оценки параметра уравнения регрессии. Общая формула для расчета матрицы ковариаций МНК$оценок коэффициентов регрессии: где — дисперсия случайной ошибки уравнения регрессии. Рассмотрим процесс определения дисперсий оценок коэффициентов линейной модели парной регрессии, полученных с помощью метода наименьших квадратов.Дисперсия МНК$оценки коэффициента уравнения регрессии ß 0 дисперсия МНК$оценки коэффициента уравнения регрессии ß 1где — дисперсия случайной ошибки уравнения регрессии e;— дисперсия независимого признака уравнения грессии; n — объем выборочной совокупности. На практике значение дисперсии случайной ошибки уравнения регрессии зачастую неизвестно, поэтому для определения матрицы ковариаций МНК$оценок применяют оценку дисперсии случайной ошибки уравнения регрессии В случае парной линейной регрессии оценка дисперсии случайной ошибки будет рассчитываться по формуле: где — остатки регрессионной модели.Тогда общую формулу для расчета матрицы ковариацийМНК$оценок коэффициентов регрессии на основе оценки дисперсии случайной ошибки уравнения регрессии можно записать следующим образом:В случае линейной модели парной регрессии оценка дисперсии МНК$оценки коэффициента уравнения регрессии ß 0 оценка дисперсии МНКоценки коэффициента уравнения грессии ß 1 Теорема Гаусса-Маркова. Пусть матрица Х коэффициентов уравнений наблюдений (6) имеет полный ранг, а случайные возмущения (8) удовлетворяют четырем условиям: E(ε1) = E(ε2) = … = E(εn) = 0, (15) Var(ε1) = Var(ε2) = … = Var(εn) = σ2(16) Cov(εi, εj) = 0 при i≠j(17) Cov(xi,εj) = 0 при всех значениях i и j (18) В этом случае справедливы следующие утверждения: а) наилучшая линейная процедура (13), приводящая к несмещенной и эффективной оценке (11), имеет вид: б) линейная несмещенная эффективная оценка (19) обладает свойством наименьших квадратов: в) ковариационная матрица оценки (19) вычисляется по правилу: г) несмещенная оценка параметра σ2 модели (2) находится по формуле: Следствие теоремы Гаусса-Маркова. Оценка доставляемая процедурой (19) метода наименьших квадратов, может быть вычислена в процессе решения системы двух линейных алгебраических уравнений: Данная система называется системой нормальных уравнений. Ее коэффициенты и свободные члены определяются по правилам: [x] = x1 + x2 +…+ xn, [y] = y1 + y2 +…+ yn, (24) x2] = x12 + x22 +…+ xn2, [xy] = x1*y1 + x2*y2 + … + xn*yn. Явный вид решения системы (23):
12Коэффициент детерминации в регрессионной модели. Коэффициент детерминации (R 2)— это доля дисперсии отклонений зависимой переменной от её среднего значения, объясняемая рассматриваемой моделью связи. Модель связи обычно задается как явная функция от объясняющих переменных. где yi — наблюдаемое значение зависимой переменной, а fi — значение зависимой переменной предсказанное по уравнению регрессии -среднее арифметическое зависимой переменной. Коэффициент детерминации является случайной переменной. Он характеризует долю результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака: 0≤ R2≤1. причем если R2= 1 то переменная yt полностью объясняется регрессором xt. В множественной регрессионной модели добавление дополнительных регрессоров увеличивает значение коэффициента детерминации, поэтому его корректируют с учетом числа независимых переменных: В нашем примере r 2 = 0,982. Следовательно, уравнением регрессии объясняется 98,2% дисперсии результативного признака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии (т.е. остаточная дисперсия). Величина коэффициента детерминации служит одним из критериев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного признака. Так, полагая, что объем продукции предприятия может составить 5 тыс. ед., прогнозное значение для издержек производства окажется 178,4 тыс. руб.
Проверка статистической гипотезы означает проверку согласования исходных выборочных данных с выдвинутой основной гипотезой. При этом возможно возникновение двух ситуаций – основная гипотеза может подтвердиться, а может и опровергнуться. Следовательно, при проверке статистических гипотез существует вероятность допустить ошибку, приняв или опровергнув верную гипотезу. При проверке статистических гипотез можно допустить ошибки первого или второго рода Ошибкой первого рода называется ошибка, состоящая в опровержении верной гипотезы. Ошибкой второго рода называется ошибка, состоящая в принятии ложной гипотезы. Уровнем значимостиа называется вероятность совершения ошибки первого рода. Значение уровеня значимости а обычно задаѐтся близким к нулю (например, 0,05; 0,01;0,02 и т. д.), потому что чем меньше значение уровеня значимости, тем меньше вероятность совершения ошибки первого рода, состоящую в опровержении верной гипотезы Н0 Вероятность совершения ошибки второго рода, т. е. принятия ложной гипотезы, обозначается β. При проверке нулевой гипотезы Н0возможно возникновение следующих ситуаций: Проверка справедливости сттатистическвх гипотез осуществляется с помощью различных статистических критериев. 5критерийСтатистическим критерием называется случайная величина, которая используется с целью проверки нулевой гипотезы. Статистические критерии называются соответственно тому закону распределения, которому они подчиняются, т. е. F критерий подчиняется распределению Фишера Снедекора, χ2 критерий подчиняется χ2 распределению, Т критерий подчиняется распределению Стьюдента, U критерий подчиняется нормальному распределению. Наблюдаемым значением статистического критерия называется значение критерия, которое рассчитано по выборочной совокупности, подчиняющейся определѐнному закону распределения. Множество всех возможных значений выбранного статистического критерия делится на два непересекающихся подмножества. Первое подмножество включает в себя те значения критерия, при которых основная гипотеза отвергается, а второе подмножество – те значения критерия, при которых основная гипотеза принимается. Критической областью называется множество возможных значений статистического критерия, при которых основная гипотеза отвергается. Областью принятия гипотезы или областью допустимых значений называется множество возможных значений статистического критерия, при которых основная гипотеза принимается. Если наблюдаемое значение статистического критерия, рассчитанное по данным выборочной совокупности, принадлежит критической области, то основная гипотеза отвергается. Если наблюдаемое значение статистического критерия принадлежит области принятия гипотезы, то основная гипотеза принимается. Критическими точками или квантилями называются точки, разграничивающие критическую область и область принятия гипотезы. Критические области могут быть как односторонними, так и двусторонними. 21. Правосторонняя критическая область. Левосторонняя и двусторонняя критические области. Мощность критерия При проверке статистических гипотез используют правосторонние, левосторонние и двусторонние критические области. Правосторонняя критическая область характеризуется неравенством вида: L>lкр, где L – это наблюдаемое значение статистического критерия, вычисленное по данным выборки; lкр, – это положительное значение статистического критерия, определяемое по таблице распределения данного критерия. Следовательно, для определения правосторонней критической области необходимо рассчитать положительное значение статистического критерия lкр Предположим, что вероятность совершения ошибки первого рода или уровень значимости равен значению а. При условии справедливости основной гипотезы Н0, вероятность того, что значение статистического критерия L будет больше значения lкр, равна заданному уровню значимости, т.е. P(L>lкр)=a. Для каждого статистического критерия рассчитаны специальные таблицы, с помощью которых определяют критическую точку, удовлетворяющую заданному уровню значимости. Левосторонняя критическая область характеризуется неравенством вида: Llкр1 и L lкр2. Предположим, что вероятность совершения ошибки первого рода или уровень значимости равен значению а. При условии справедливости основной гипотезы Н0, сумма вероятностей того, что значение статистического критерия L будет больше значения lкр1 или меньше значения lкр2, равна заданному уровню значимости, т.е. P(L>lкр1)+(L; 2) левосторонняя критическая область выбирается в том случае, если Н1:‹; 3) двусторонняя критическая область выбирается в том случае, если Н1:≠. Предположим, что заданы следующие параметры: 1) статистический критерий L; 2) критическая область W, где H0 отклоняется; 3) область принятия гипотезы где H0 не отклоняется; 4) вероятность совершить ошибку первого рода a; 5) вероятность совершить ошибку второго рода β. Тогда справедливо утверждение о том, что выражение является вероятностью того, что статистический критерий L попадѐт в критическую область, если верна гипотеза H. При построении критической области учитываются два требования: 1) вероятность того, что статистический критерий L попадѐт в критическую область, если верна Н0, равна а: данное равенство задаѐт вероятность совершения ошибки первого рода; 2) вероятность того, что статистический критерий L попадѐт в критическую область (область отклонения гипотезы Н0 в пользу гипотезы Н1), если верна гипотеза Н1: данное равенство задаѐт вероятность принятия правильной гипотезы. 6Мощностью статистического критерия называется вероятность попадания данного критерия в критическую область, при условии, что справедлива конкурирующая гипотеза Н1, т. е.выражение 1-β является мощностью критерия. Если уровень значимости уже выбран, то критическую область следует строить так, чтобы мощность критерия была максимальной. Выполнение этого требования обеспечивает минимальную ошибку второго рода, состоящую в том, что будет принята неправильная гипотеза. Уровнем значимости называется величина, которая рассчитывается по формуле: а=1-γ, где γ – это доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Значение доверительной вероятности должно быть близким к единице, например, 0.95, 0.99. Следовательно, уровень значимости а можно определить как вероятность того, что оцениваемый параметр не попадѐт в доверительный интервал. Числом степеней свободы называется показатель, который рассчитывается как разность между объѐмом выборочной совокупности n и числом оцениваемых параметров по данной выборке h. Для линейной модели парной регрессии число степеней свободы рассчитывается как (n-2), потому что по данным выборочной совокупности оцениваются только два параметра – β0 и β1 Таким образом, критическое значение t критерия Стьюдента определяется как tкрит(а;n-h). При проверке основной гипотезы вида Н0:β1=0 наблюдаемое значение t критерия Стьюдента рассчитывается по формуле: где – оценка параметра модели регрессии β1 ω(β1) – величина стандартной ошибки параметра модели регрессии β1 Показатель стандартной ошибки параметра модели регрессии β1 для линейной модели парной регрессии рассчитывается по формуле: Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации следующим образом: где G2(y) – общая дисперсия зависимой переменной; r2yx – парный коэффициент детерминации между зависимой и независимой переменными. При проверке основной гипотезы β0=0 наблюдаемое значение t критерия Стьюдента рассчитывается по формуле: где – оценка параметра модели регрессии β0; ω(β0) – величина стандартной ошибки параметра модели регрессии β0. Показатель стандартной ошибки параметра β0 модели регрессии для линейной модели парной регрессии рассчитывается по формуле: При проверке основных гипотез возможны следующие ситуации: Если наблюдаемое значение t критерия (вычисленное по выборочным данным) по модулю больше критического значения t критерия (определѐнного по таблице распределения Стьюдента), т. е. |tнабл|›tкрит, то с вероятностью (1 а) или γ основная гипотеза о незначимости параметров модели регрессии отвергается. Если наблюдаемое значение t критерия (вычисленное по выборочным данным) по модулю меньше или равно критического значения t критерия (определѐнного по таблице распределения Стьюдента), т. е. |tнабл|≤tкрит, то с вероятностью а или (1 γ) основная гипотеза о незначимости параметров модели регрессии принимается.
14Доверительные интервалы оценок параметров и проверка гипотез об их значимости. Проверка гипотезы о значимости коэффициентов регрессииЧтобы построенную модель можно было использовать длядальнейших экономических расчетов, например для построенияпрогноза зависимой переменной, проверки качества построенной модели недостаточно. Необходимо также проверить значимость полученных с помощью метода наименьших квадратов оценок коэффициентов регрессии, значимость парного линейного коэффициента корреляции и уравнения регрессии в целомс помощью статистических гипотез. При проверке значимости (предположения того, что параметры отличаются от нуля) коэффициентов регрессии выдвигается основная гипотеза H 0 о незначимости полученных оценок, например: в качестве альтернативной (или обратной) выдвигается гипотеза о значимости коэффициентов регрессии, например: Для проверки выдвинутых гипотез используется t$критерий(t$статистика) Стьюдента. Наблюдаемое значение t$критерия,вычисленное на основе выборочных данных, сравнивают со значением t$критерия, определяемого по таблице распределения Стьюдента. Значение t$статистики, найденное по таблице, называется критическим. Критическое значение t$критерия зависит от двух параметров: уровня значимости и числа степеней свободы. Уровень значимости a — величина, определяемая по формуле: a=1 - γ,где γ — доверительная вероятность попадания оцениваемогопараметра в доверительный интервал. Данную величину необходимо брать близкую к единице (0,95—0,99). Таким образом, a — это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равный0,05 или 0,01.Число степеней свободы — показатель, который определяется как разность между объемом выборки (n) и числом оцениваемыхпараметров по данной выборке (h). Для модели парной линейнойрегрессии число степеней свободы рассчитывается как (n - 2), так как по выборке оцениваются два параметра: ß 0и ß 1 .Выдвинутые гипотезы проверяются следующим образом: 1) если модуль наблюдаемого значения t$критерия больше критического значения t$критерия, т. е. |t набл | > t крит то с вероятностью (1 - a) или γ основную гипотезу о незначимости параметров регрессии отвергают, т. е. параметры регрессии неравны нулю;2) если модуль наблюдаемого значения t$критерия меньше или равен критическому значению t$критерия, т. е. |t набл| = t крит ,тос вероятностью a или (1 - γ) основная гипотеза о незначимости параметров регрессии принимается, т. е. параметры регрессии почти не отличаются от нуля или равны нулю. Формула наблюдаемого значения t$критерия Стьюдента для проверки гипотезы H 0 / ß 1= 0 имеет вид:где — оценка параметра регрессии ß 1; — величина стандартной ошибки параметра регрессии ß 1 В случае парной линейной модели регрессии показатель вычисляется следующим образом: Числитель стандартной ошибки может быть рассчитан через парный коэффициент детерминации как: где G (y) — общая дисперсия зависимого признака; — парный коэффициент детерминации между зависимым и независимым признаками. Формула наблюдаемого значения t$критерия Стьюдента дляпроверки гипотезы H 0 / ß 0= 0 имеет вид:где — оценка параметра регрессии;ω(ß 0) — величина стандартной ошибки параметра регрессии ß 0 В случае парной линейной модели регрессии показатель ω(ß 0)вычисляется так:
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.094 сек.) |