|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Регрессионный анализ. Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) хj (j = 1
Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) хj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xj. Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием = φ(x1,..., хk), являющимся функцией от аргументов хj и с постоянной, не зависящей от аргументов дисперсией σ2. Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x1, х2,..., хj,..., хk) берется выборка объемом n, и каждое i -е наблюдение (объект) характеризуется значениями переменных (уi, xi1, хi2,..., хij,..., xik), где хij — значение j -й переменной для i -го наблюдения (i = 1, 2,..., n), уi — значение результативного признака для i -го наблюдения. Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид
(53.8)
где β j — параметры регрессионной модели; ε j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ2. Отметим, что модель (53.8) справедлива для всех i = 1,2,..., n, линейна относительно неизвестных параметров β0, β1,…, βj, …, βk и аргументов. Как следует из (53.8), коэффициент регрессии Bj показывает, на какую величину в среднем изменится результативный признак у, если переменную хj увеличить на единицу измерения, т.е. является нормативным коэффициентом. В матричной форме регрессионная модель имеет вид
(53.9)
где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у1, у2,.... уn); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2,..., n; j= 0,1 ,...,k; x0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (M ε i = 0) и неизвестной постоянной σ2 (D ε i = σ2). На практике рекомендуется, чтобы значение п превышало k неменее чем в три раза. В модели (53.9)
В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x0, которая во всех наблюдениях принимает значения, равные единице. Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β0, β1, …, βk модели (53.8) или вектора β в (53.9). Так как в регрессионном анализе хj рассматриваются как неслучайные величины, a M ε i = 0, то согласно (53.8) уравнение регрессии имеет вид
(53.10)
длявсех i = 1, 2,..., п, или в матричной форме:
(53.11)
где — вектор-столбец с элементами 1 ..., i,..., n. Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений уi от модельных значений i, т.е. квадратичную форму:
где символом «Т» обозначена транспонированная матрица. Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.
Рис. 53.1. Наблюдаемые и модельные значения результативного признака у
Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β0, β1, …, βk и приравнивая частные производные к нулю, получим систему нормальных уравнений
решая которую получим вектор-столбец оценок b, где b = (b0, b1,..., bk) T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле
(53.12)
Х T — транспонированная матрица X; (Х T Х)-1 — матрица, обратная матрице Х T Х. Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии
(53.13)
или в матричном виде:
Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением (53.14)
где (53.15)
Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем
(53.16)
Значимость уравнения регрессии, т.е. гипотеза Н0: β = 0 (β0,= β1 = βk = 0), проверяется по F -критерию, наблюдаемое значение которого определяется по формуле
(53.17)
По таблице F -распределения для заданных α, v 1 = k + l,v2 = n – k - l находят F кр. Гипотеза H0 отклоняется с вероятностьюα, если F набл > F кр. Из этого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля. Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н0: β j = 0, где j = 1, 2, ..., k, используют t -критерий и вычисляют t набл(bj) = bj / bj. По таблице t -распределения для заданного α и v = п - k - 1 находят t кр. Гипотеза H0 отвергается с вероятностью α, если t набл > t кр. Из этого следует, что соответствующий коэффициент регрессии β j значим, т.е. β j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t набл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами. Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов. Наряду с точечными оценками bj генеральных коэффициентов регрессии β j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ. Интервальная оценка с доверительной вероятностью γ для параметра β j имеет вид
(53.19)
где tα находят по таблице t -распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k - 1. Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X0 = (1, x , x , ,..., x )T записывается в виде
(53.20)
Интервал предсказания n+1 с доверительной вероятностью у определяется как
(53.21)
где tα определяется по таблице t -распределения при α = 1 - γ и числе степеней свободы v = п - k - 1. По мере удаления вектора начальных условий х 0 от вектора средних ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где = (1, ).
Рис. 53.2. Точечная и интервальная оценки уравнения регрессии . Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.009 сек.) |