|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Технология решения задач корреляционного и регрессионного анализа с помощью пакета анализаПакет анализа - это надстройка, которая представляет широкие возможности для проведения статистического анализа. Установка средств Пакет анализа. В стандартной конфигурации программы EXCEL вы не найдете средства Пакет анализа. Даже если установить их с компакт-диска EXCEL'97 (или Office'97), они не появятся в меню до тех пор, пока вы не установите их в качестве надстройки Excel. Для этого выполните следующие действия: 1. Выберите команду Сервис=>Надстройки. 2. В диалоговом окне Надстройки установите флажок Пакет анализа. 3. Щелкните на кнопке ОК. После этого в нижней части меню Сервис появится новая команда Анализ данных. Эта команда предоставляет доступ к средствам анализа, которые есть в EXCEL. Пример 2.2.1. Задача состоит в построении модели для предсказания объема реализации одного из продуктов фирмы. Объем реализации - это зависимая переменная Y. В качестве независимых, объясняющих переменных выбраны: время – Х1, расходы на рекламу Х2, цена товара Х3, средняя цена конкурентов X4, индекс потребительских расходовX5. 1. Построение системы показателей (факторов). Анализ матрицы коэффициентов парной корреляции Статистические данные по всем переменным приведены в табл. 2.2.1. В этом примере n = 16, m = 5. Таблица 2.2.1
Использование инструмента Корреляция. Для проведения корреляционного анализа выполните следующие действия: 1) данные для корреляционного анализа должны располагаться в смежных диапазонах ячеек; 2) выберите команду Сервис =>Анализ данных; 3) в диалоговом окне Анализ данных выберите инструмент Корреляция (рис. 4.2.1). а затем щелкните на кнопке ОК; 4) в диалоговом окне Корреляция в поле «Входной интервал» необходимо ввести диапазон ячеек, содержащих исходные данные. Если выделены и заголовки столбцов, то установить флажок «Метки в первой строке» (рис. 4.2.2); 5) выберите параметры вывода. В данном примере - установите переключатель «Новый рабочий лист»; 6) ОК. В табл. 2.2.2 приведены промежуточные результаты при вычислении коэффициента корреляции по формуле (2.1.1) Таблица 2.2.2
Таблица 2.2.3
Анализ матрицы коэффициентов парной корреляции (табл. 2.2.3) показывает, что зависимая переменная, т.е. объем реализации, имеет тесную связь с индексом потребительских расходов (ryx5 = 0.816), с расходами на рекламу (ryx5=0.646) и со временем (ryx1 =0.678). Однако факторы X2; и X5 тесно связаны между собой (ryx5= 0.96), что свидетельствует о наличии мультиколлинеарности. Из этих двух переменных оставим в модели X5 - индекс потребительских расходов. В этом примере n= 16, m = 5, после исключения незначимых факторов п = 16, k = 2. 2. Выбор вида модели и оценка ее параметров Оценка параметров регрессии осуществляется по методу наименьших квадратов по формуле (2.1.6), с использованием данных, приведенных в табл. 2.2.4. Таблица 2.2.4
Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов можно записать в следующем виде: Y= -1471.314 + 9.568Х1 + 15.754Х2. Расчетные значения Y определяются путем последовательной подстановки в эту модель значений факторов, взятых для каждого момента времени t. Применение инструмента Регрессия. Для проведения регрессионного анализа выполните следующие действия: 1) выберите команду Сервис ÞАнализ данных; 2) в диалоговом окне Анализ данных выберите инструмент Регрессия, а затем щелкните на кнопке ОК; 3) в диалоговом окне Регрессия в поле «Входной интервал Y» введите адрес одного диапазона ячеек, который представляет зависимую переменную. В поле «Входной интервал X» введите адреса одного или нескольких диапазонов, которые содержат значения независимых переменных; 4) если выделены и заголовки столбцов, то установить флажок Метки в первой строке; 5) выберите параметры вывода. В данном примере - установите переключатель «Новая рабочая книга»', 6) в поле «Остатки» поставьте необходимые флажки; 7) ОК. Таблица 2.2.5
Пояснения к табл. 2.2.5.
Таблица 2.2.6
Пояснения к табл. 2.2.6.
Таблица 2.2.7
Во втором столбце табл. 2.2.7 содержатся коэффициенты уравнения регрессии a0, a1, a2. В третьем столбце содержатся стандартные ошибки коэффициентов уравнения регрессии (2.1.12), а в четвертом - г-статистика (2.1.11), используемая для проверки значимости коэффициентов уравнения регрессии. Уравнение регрессии зависимости объема реализации от затрат на рекламу и индекса потребительских расходов, полученное с помощью EXCEL, как было указано ранее, имеет вид: Y =-1471.314+9.568Х1.+15.754Х2. Таблица 2.2.8
3. Оценка качества модели В табл. 2.2.8 приведены вычисленные по модели значения Y и значения остаточной компоненты. Проверку независимости проведем с помощью rf-критерия Дарбина-Уотсона. В качестве критических табличных уровней при N = 16, двух объясняющих факторах при уровне значимости 5% возьмем величины d1 =0,98 и d2 = 1,54. Так как расчетное значение попало в интервал от d1 до d2, то нельзя сделать окончательный вывод по этому критерию. Для определения степени автокорреляции вычислим коэффициент автокорреляции и проверим его значимость при помощи критерия стандартной ошибки. Стандартная ошибка коэффициента корреляции рассчитывается следующим образом: Коэффициенты автокорреляции случайных данных обладают выборочным распределением, приближающимся к нормальному с нулевым математическим ожиданием и средним квадратическим отклонением, равным Если r1находится в интервале: -0,96×0.25£r1 £1.96×0.25, то можно считать, что данные не показывают наличие автокорреляции первого порядка, так как -0.49£ r1 =0.305£0.49, и свойство независимости выполняется. Вычислить для модели коэффициент детерминации = =1-22360.104/158718.44=136358.3/158718.44=0.859. Он показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 86% вариации зависимой переменной учтено в модели и обусловлено влиянием включенных факторов. Проверку значимости уравнения регрессии произведем на основе вычисления F-критерия Фишера: Табличное значение F-критерия при доверительной вероятности 0,95v1=k=2 и v2 =n-k- 1 = 16-2- 1 = 13 составляет 4.81. Поскольку Fрас > Fтабл. уравнение регрессии следует признать адекватным. Значимость коэффициентов уравнения регрессии a1, a2 оценим с использованием t-критерия Стьюдента. b22=0.00299, b33=0.00354, Табличное значение /-критерия при уровне значимости 5% и степенях свободы (16-2-1=13) составляет 1,77. Так как tpac> tтабл, то коэффициенты a1, a2 существенны (значимы). 4. Проанализировать влияние факторов на зависимую переменную по модели (для каждого коэффициента регрессии вычислить коэффициент эластичности, b-коэффициент) Учитывая, что коэффициент регрессии невозможно использовать для непосредственной оценки влияния факторов на зависимую переменную из-за различия единиц измерения, используем коэффициент эластичности (Э) и b -коэффициент, которые соответственно рассчитываются по формулам: Эi = аi × Xср: Ycр; Э1 =9.568-9.294/306.813= 0.2898; Э2=15.7529- 107.231 /306.813=5.506; bi; =, ai× Sxi: Sy, где b1=9.568-4.913/ 102.865=0.457; b2= 15.7529-4.5128/ 102.865=0.691. Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора на 1%. Бета-коэффициент с математической точки зрения показывает, на какую часть величины среднего квадратического отклонения меняется среднее значение зависимой переменной с изменением независимой переменной на одно среднее квадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных. Это означает, что при увеличении затрат на рекламу в нашем примере на 4.91 тыс. руб. объем реализации увеличится на 47 тыс. руб. (0.457-102.865). 5. Определить точечные и интервальные прогнозные оценки объема реализации на два квартала вперед (t0.7=1.12) Прогнозные значения X1np(17), X2пр(18) и Х1np(17), X2пр(18) можно определить или вычислить на основе экстраполяционных методов. Для фактора Х\ Затраты на рекламу выбрана модель X1 = 12.83 - 11.616t + 4.319t2 - 0.552t3 + 0.020t4 - О.ООО6t5, по которой получен прогноз на два месяца вперед'. Графики модели временного ряда Затраты на рекламу приведены на рис. 2.2.6.
Для временного ряда Индекс потребительских расходов в качестве аппроксимирующей функции выбран полином второй степени (парабола), по которой построен прогноз на два шага вперед. Индекс потребительских расходов Х2 = 97.008 +1.739 t- 0.0488 t2.
Для получения прогнозных оценок зависимостей переменной по модели Y = -1471.438 + 9.568Х1 + 15.754 Х2 подставим в нее найденные прогнозные значения факторов Х1 и Х2. Y1=17 = -1471.438 + 9.568 • 5.75 + 15.754 • 112.468 = 355.399, Yt=18„i8=-1471.438+9.568-4.85 + 15.754- 112.488=344.179. Доверительный интервал прогноза будет иметь следующие границы: Верхняя граница прогноза: Yпр (N + 1) + U(l), Нижняя граница прогноза: Ynp(N+ 1) - U(l), Se=41.473, tкр=2,16*, l=1, U(2)=45.749. Результаты прогнозных оценок модели регрессии представим в таблице прогнозов (р =95%), табл. 2.2.9. Таблица 2.2.9
Задача 1. Имеются данные о деятельности крупнейших компаний США в (2.2.10). Таблица 2.2.10
Задание 1. Рассчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов. 2. Дайте сравнительную оценку силы связи факторов с результатом с помощью средних (общих) коэффициентов эластичности. 3. Оцените статистическую значимость параметров регрессионной модели с помощью г-критерия; нулевую гипотезу о значимости уравнения и показателей тесноты связи проверьте с помощью F-критерия. 4. Оцените качество уравнения через среднюю ошибку аппроксимации. 5. Рассчитайте матрицы парных и частных коэффициентов корреляции и на их основе и по г-критерию для коэффициентов регрессии отберите информативные факторы в модель. Постройте модель только с информативными факторами и оцените ее параметры. 6. Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений. 7. Рассчитайте ошибки и доверительный интервал прогноза для уровня значимости 5 или 10% (а = 0,05; а = 0,10). 8. Оцените полученные результаты, выводы оформите в аналитической записке. Задача 2. Имеются данные о деятельности крупнейших компаний США в 1996 г. (табл. 2.2.11). Таблица 2.2.11
1. Расчитайте параметры линейного уравнения множественной регрессии с полным перечнем факторов. 2. Дайте сравнительную оценку силы связи факторов с результатом с > средних (общих) коэффициентов эластичности. 3. Оцените статистическую значимость параметров регрессионной помощью г-критерия; нулевую гипотезу о значимости 1 и показателей тесноты связи проверьте с помощью F-критерия 4. Оцените качество уравнения через среднюю ошибку аппроксимации. 5. Рассчитайте матрицы парных и частных коэффициентов корреляции и на их основе и по t-критерию для коэффициентов регрессии отберите информативные факторы в модель. Постройте модель, информативными факторами и оцените ее параметры. 6. Рассчитайте прогнозное значение результата, если прогнозные значения факторов составляют 80% от их максимальных значений. 7. Рассчитайте ошибки и доверительный интервал прогноза для уравнения значимости 5 или 10% (а = 0,05; а = 0,10). 8. Оцените полученные результаты, выводы оформите в аналитической. Задача 3 В табл. 2.2.12 представлены данные о рынке строящегося жилья в Санкт-Петербурге (по состоянию на декабрь 1996 г.).
Задание 1. Определите факторы, формировавшие цену квартир в строящихся |Санкт-Петербурге в 1996 г. Сгенерируйте фиктивную переменную z, отражающую местоположение квартиры и позволяющую разделить всю совокупность квартир на две группы: квартиры ч севере города (Приморский район, Шувалово-Озерки, Гражданка) и на юге города (Юго-Запад, Красносельский район). 2. Составьте матрицу парных коэффициентов корреляции: а) исходных переменных; б) логарифмов исходных переменных (кроме фиктивных переменных). Вместо переменной х2 используйте фиктивную переменную г 3. Постройте уравнение регрессии, характеризующее зависимость цены от всех факторов, в линейной и степенной форме. Установите какие факторы мультиколлинеарны. В какой модели мультиколлинеарность проявляется сильнее? 4. Постройте модель у = f (x3, x6, x7, x8, z) в линейной и степенной форме. Какие факторы значимо воздействуют на формирование цены квартиры в этой модели? 5. Существует ли разница в ценах квартир, расположенных в северной и южной частях Санкт-Петербурга? Является ли наличие балкона или лоджии преимуществом квартиры на рынке? Как вы объясните этот факт? Задача 4. По данным, представленным в табл. 2.2.13, изучается зависимость индекса человеческого развития у от переменных: X1 - ВВП 1997 г., % к 1990 г.; X2 - расходы на конечное потребление в текущих ценах, % к ВВП; хз - расходы домашних хозяйств, % к ВВП; Xt - валовое накопление, % к ВВП; Х5 - суточная калорийность питания населения, ккал на душу населения; Х6- ожидаемая продолжительность жизни при рождении 1997г. число лет. Таблица 2.2.13
Задание 1. Постройте матрицу парных коэффициентов корреляции. Рассчитайте коэффициенты множественной детерминации, используя в качестве зависимой переменной каждый фактор. Установите, какие факторы мультиколлинеарны. 2. Постройте уравнение множественной регрессии в линейной форме с полным набором факторов. 3. Оцените статистическую значимость уравнения регрессии и его параметров с помощью критериев Фишера и Стьюдента. 4. Отберите информативные факторы по пп.1 и 3. Постройте уравнение регрессии со статистически значимыми факторами.
Задание 5. Имеются данные по странам за 1997 г. (табл. 2.2.14). Таблица 2.2.14
Задание 1. Постройте матрицу парных коэффициентов корреляции. 2. Постройте парные уравнения регрессии. 3. Оцените статистическую значимость уравнений и их параметров с помощью критериев Фишера и Стьюдента. 4. Постройте уравнение множественной регрессии. 5. Постройте графики остатков. Сделайте выводы. 6. Проведите тестирование ошибок уравнения множественной регрессии на гетероскедастичность, применив тест Гельфельда-Квандта. 7. Оцените статистическую значимость уравнения множественной регрессии. Определите, какое уравнение лучше использовать для прогноза: ¨ парную регрессию у на х1 ¨ парную регрессию у на х 2; ¨ множественную регрессию. Задача 6. Изучается зависимость средней ожидаемой продолжительности y от нескольких факторов по данным за 1995 г., представленным табл. 2.21. Таблица 2.2.15 Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.042 сек.) |