АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Глава 17. Корреляция и регрессия

Читайте также:
  1. II. ГОСУДАРСТВЕННЫЙ СТРОЙ И ГЛАВА ГОСУДАРСТВА.
  2. Б) Регрессия.
  3. Вопрос 8. Корреляция. Применения корреляции в измерении. Коэффициент ранговой корреляции Спирмена.
  4. Вторая глава
  5. Высшее должностное лицо (глава) субъекта Федерации: правовое положение и полномочия
  6. Глава 0. МАГИЧЕСКИЙ КРИСТАЛЛ
  7. Глава 1
  8. Глава 1
  9. Глава 1
  10. Глава 1
  11. Глава 1
  12. Глава 1

После изучения материала этой главы вы должны уметь...

1. Разбираться в том, что собой представляют парная корреляция, частная корреляция,

частичная корреляция и показать, почему они являются основой для регрессионного

анализа.

2. Объяснить природу и методы двумерного регрессионного анализа и описать общую модель,

процедуры оценки параметров, нормирование коэффициента регрессии, проверки значи-

мости, процедуру определения точности прогноза, анализ остатков и перекрестную провер-

ку модели.

3. Объяснять природу и методы множественного регрессионного анализа и значение частных

коэффициентов регрессии.

4. Описать специализированные методы, используемые в рамках множественного регресси-

онного анализа, особенно пошаговую регрессию, регрессию с фиктивными переменными, а

также дисперсионный и ковариационный анализ с регрессией.

5. Объяснить неметрическую корреляцию и такие показатели, как коэффициенты ранговой

корреляции Спирмена и Кендалла.

КРАТКИЙ ОБЗОР

В главе 16 рассматривались взаимосвязи между /-критерием, дисперсионным и ковариаци-

онным анализом, а также регрессией. В этой главе вы познакомитесь с регрессионным анали-

зом, объясняющим вариацию в доли рынка, продажах, предпочтении торговой марке и других

маркетинговых результатах, получаемых при управлении такими маркетинговыми перемен-

ными, как реклама, цена, распределение и качество продукции. Однако прежде чем присту-

пить к изучению регрессии, мы рассмотрим парную корреляцию и частный коэффициент кор-

реляции, лежащие в основе регрессионного анализа.

Разбираясь с регрессионным анализом, мы сначала обсудим самый простой его тип — дву-

мерную регрессию, опишем процедуры оценки, нормирования коэффициентов регрессии,

проверку и определение тесноты и значимости связи между переменными, а также точность

прогноза и допущения, которые лежат в основе регрессионного анализа. Затем мы разберем мо-

дель множественной регрессии, уделив особое внимание интерпретации параметров, тесноте

связи, проверкам значимости и анализу остатков.

СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГ)

(Множественная регрессия

В ходе реализации проекта "Выбор универмага" маркетологи использовали множественный

регрессионный анализ для разработки модели, объясняющий выбор того или иного кон-

1 кроткого универмага, исходя из его оценки респондентами по восьми критериям. Зависи-

мой переменной в данном случае служило предпочтение, отдаваемое каждому универмагу.

В качестве независимых переменных выбраны оценки каждого магазина по следующим па-

раметрам: качество товаров; их разнообразие и ассортимент; условия обмена и возврата про-

данных товаров; услуги продавцов; цены; удобное расположения; планировка универмага;

| условия предоставления кредита и выполнения расчетов за покупки. Анализ показал, что |

640 Часть III. Сбор, подготовка и анализ данных

все факторы, рассматривавшиеся в качестве критерия выбора магазина, за исключением

фактора "услуги продавцов", являются значимыми для объяснения предпочтения магазина

клиентом. Коэффициенты всех переменных оказались положительными. Это означает, что

чем выше оценки каждого из значимых факторов конкретного магазина, тем выше его

предпочтение. Модель хорошо согласуется с фактическими данными, и на ее основе можно

f хорошо прогнозировать предпочтения в выборе универмага.

Ниже рассматриваются такие вопросы регрессионного анализа, как пошаговая регрессия,

мул ьти колли неарность, относительная важность независимых переменных (предикторов) и

перекрестная проверка. Мы опишем регрессию с фиктивными переменными и использование

этой процедуры для выполнения дисперсионного и ковариационного анализа. Рассмотрим на

примерах применение регрессионного анализа.

ПРИМЕР. Как регрессионный анализ помог фирме Avon

Компания Avon Products, Inc. одно время испытывала нехватку торговых агентов, которые

служили основой ее бизнеса, предлагая продукцию компании путем личной продажи. Что-

бы выявить факторы, обусловившие сложившуюся ситуацию, были разработаны компью-

терные регрессионные модели. Они показали, что самой значимой переменной является

уровень денежного взноса, который торговые агенты платят за продукцию компании. Руко-

водствуясь полученными данными, компания снизила взнос. Это позволило увеличить ко-

личество сотрудников и снизить текучесть кадров [1].

I ПРИМЕР. Internet-революция в торговле

Многие эксперты по розничной торговле считают, что продажа товаров через Internet pej

волюционизирует розничную торговлю. Рассмотрим результаты маркетингового исследова-

j ния, в рамках которого проводился корреляционный анализ предпочтений потребителей к

I электронным покупкам посредством видеотекса (услуга покупки товаров на дому с помо-

| гдью компьютера). Для объяснения потребительских предпочтений были выбраны предла-

| гаемые в литературе психографическая, демографическая и информационная переменные.

j Исследование проводилось в Южной Флориде, где с 1983 года функционирует компания

I Viewtron, предлагающая видеотекс-услуги. Компания Viewtron, филиал корпорации Knight-

\ Ridder Corporation, тратит миллионы на рекламу в этой сфере услуг. Все респонденты знако-

I мы с понятием компьютеризированной покупки товаров на дому.

Для анализа данных маркетологи воспользовались множественной регрессией. Ее общая

i модель оказалась значимой при уровне значимости, равном 0,05. Одномерная проверка с

| помощью ^-критерия показала, что следующие переменные значимы при уровне значимо-

I сти, равном 0,05 или ниже: ценовая ориентация, пол, возраст, род деятельности, этническая

1 принадлежность и образование. Ни одна из трех информационных переменных (СМИ, уст-

\ ная информация, реклама) не связаны статистически значимым образом с зависимой пере-

\ менной, которой являлось предпочтение потребителей.

Полученные результаты означают, что покупать товары через Internet предпочитают бе-

1 лые, женщины, среднего возраста, хорошо образованные, руководители, и ориентированные

| на цену товара. Информация такого типа представляет ценность для целевого маркетинга в

I сфере электронной торговли |2].

Эти примеры иллюстрируют использование регрессионного анализа для определения неза-

висимых переменных, которые обуславливают статистически значимую вариацию в исследуе-

мой зависимой переменной; установления структуры и формы взаимосвязи, силы взаимосвязи

и определения предсказанных значений зависимой переменной. Главное в регрессионном ана-

лизе — это понять, что такое парная корреляция.

Глава 17. Корреляция и регрессия 641

ПАРНАЯ КОРРЕЛЯЦИЯ

Часто при проведении маркетингового исследования нас интересует связь между двумя

метрическими переменными, как, например, в следующих ситуациях.

• Насколько сильно связан объем продаж с расходами на рекламу?

• Существует ли связь между долей рынка и количеством торгового персонала?

• Связано ли восприятие качества товаров потребителями с их восприятием цены?

В таких ситуациях наиболее широко используемой статистикой является коэффициент пар-

ной корреляции, г (product moment correlation г), который характеризует степень тесноты связи

между двумя метрическими (измеряемыми с помощью интервальной или относительной

шкал) переменными, скажем, Хп Y. Этот коэффициент используют, чтобы определить, суще-

ствует ли между переменными линейная зависимость. Он показывает степень, в которой ва-

риация одной переменной X связана с вариацией другой переменной Y, т.е. меру зависимости

между переменными Л" и Y.

Коэффициент парной корреляции г (product moment correlation r)

Статистический показатель, характеризующий степень тесноты связи между двумя метриче-

скими переменными.

Поскольку этот коэффициент первоначально предложил Карл Пирсон (Karl Pearson), его

также называют коэффициентом корреляции Пирсона. Кроме того, он известен как простой коэф-

фициент корреляции, линейный коэффициент корреляции или просто коэффициент корреляции,

Имея выборку, размером п наблюдений, коэффициент парной корреляции г, для переменных

Хтл Кможно вычислить по формуле:

Разделив числитель и знаменатель на (п ~ 1) получим:

±(X,-X)(Y,-Y)

п-

л-1

±(X,-X)(Y,-Y)

л-1

п~\ л-1

= covv sxsr

В этих уравнениях X и X обозначают выборочные средние, а Sx и Sy— соответствующие

стандартные отклонения. COV^ представляет собой ковариацию (covariance) между X и Y, явля-

ясь мерой зависимости Хи Y.

642 Часть III. Сбор, подготовка и анализ данных

Ковариация (covariance)

Систематическая взаимосвязь между двумя переменными, при которой изменение одной

переменной вызывает соответствующее изменение другой переменной (COVxy).

Ковариация может быть как положительной, так и отрицательной. Деление на SxSy приво-

дит к нормированному виду, так что коэффициент корреляции г находится в пределах от ми-

нус 1 до плюс 1. Обратите внимание, что коэффициент корреляции никак не связан с едини-

цами измерения, в которых выражены переменные.

Предположим, что исследователь хочет выяснить, зависит ли отношение респондента к ме-

стожительству от длительности проживания его в этом городе. Отношение выражают в 11-

балльной шкале (1— не нравится город, 11 — очень нравится город), а продолжительность

проживания измеряют количеством лет, которые респондент прожил в этом городе. Получен-

ные от 12 респондентов данные приведены в табл. 17.1.

. „

\ Таблица 17.1 Отношение

i сти проживания в нем

Номер респондента Отношение к городу Длительность проживания Влияние погодных условий

•:

У

Ю

В

а

Коэффициент корреляции можно вычислить по формуле:

— _ (10 + 12 + 12 + 4 +12 +6 + 8+ 2 +18 + 9 +17 + 2) _п

А — ' У, ЗЗЗ

- (6 + 9+8 + 3 + 10 + 4 + 5 + 2 + 11 + 9 + 10 + 2)

Y = = 6,583

E(jr, - Jf)(^ - У) = (Ю - 9,33) (6 - 6,58) + (12 - 9,33) (9 - 6,58)+

+ (12 - 9,33) (8 - 6,58) + (4 - 9,33) (3 - 6,58)+

+ (12 - 9,33) (10 - 6,58) + (6 - 9,33) (4 - 6,58)+

+ (8 - 9,33) (5 - 6,58) + (2 - 9,33) (2 - 6,58)+

+ (18 - 9,33) (11 - 6,58) + (9-9,33) (9-6,58)+

+ (17 - 9,33) (10 - 6,58) + (2 - 9,33) (2 - 6,58)+

= - 0,3886 + 6,4614 + 3,7914 + 19,0814+

+ 9,1314+8,5914 + 2,1014 + 33,5714+

+ 38,3214-0,7986 + 26,2314 + 33,5714= 179,6668

Глава 17. Корреляция и регрессия 643

£(Х, - А:) = (10 - 9,33)2 + (12 - 9,33)2 + (12 - 9,33)2 + (4 - 9,33)2

/-1

+ (12 - 9,33)2 + (6 - 9,33)2 + (8 - 9,33)2 + (2 - 9,33)2 +

+ (18 - 9,33)2 + (9 - 9,33)2 + (17 - 9,33)2 + (2 - 9,33)2 =

= 0,4489 + 7, 1289 + 7, 1289 + 28,4089+

+ 7,1289 + 11,0889 + 1,7689 + 53,7289+

+ 75, 1689 + 0,1089 + 58,8289 + 53,7289 = 304,6668

и 2

£(Г, -У) = (6 - 6,58)2 + (9 - 6,58)2 + (8 - 6,58)2 + (3 - 6,58)2

i-i

+(10 - 6,58)2 + (4 - 6,58)2 + (5 - 6,58)2 + (2 - 6,58)2+

+ (11 - 6,58)2 + (9 - 6,58)2 + (10 - 6,58)2 + (2 - 6,58)2=

= 0,3364 + 5,8564 + 2,0164 + 12,8164+

+ 1 1,6964 + 6,6564 + 2,4964 + 20,9764 +

+ 19,5364 + 5,8564 + 1 1,6964 + 20,9764 = 120,9168

Таким образом

=0.936.,

^(304,6668X120,9168)

В этом примере г = 0,9361, что близко к 1. Это означает, что отношение респондента к сво-

ему городу сильно зависит от времени проживания в нем. Более того, положительный знак г

указывает на прямую связь (прямопропорциональную): чем дольше респондент проживает в

городе, тем больше он ему нравится, и наоборот.

Так как коэффициент корреляции показывает меру, в которой вариация значений одной

переменной зависит от вариации другой, то г можно выразить через разложение полной вариа-

ции (см. главу 16). Другими словами,

объяснимое изменение

г = --

полная вариация

_SS,

ssy

_ полная вариация - вариация ошибки _

полная вариация

Следовательно, г* показывает, какая доля вариации одной переменной обусловлена вариа-

цией другой. И г, и г2 являются симметричными показателями связи между переменными.

Иначе говоря, корреляция между Хм Хта же, что и корреляция между Уи X. Корреляция не за-

висит оттого, какая из переменных взята в качестве зависимой, а какая в качестве независи-

мой. Коэффициент корреляции является мерой линейной зависимости, и он не предназначен

для измерения силы связи в случае нелинейной зависимости. Таким образом, г = 0 просто оз-

начает отсутствие линейной зависимости между X и Y. Это не означает, что А" и У не взаимо-

связаны. Между ними может существовать нелинейная зависимость, которую нельзя опреде-

лить с помощью коэффициента корреляции г (рис. 17.1).

Если коэффициент корреляции вычисляют не для выборки, а для всей генеральной сово-

купности, то он обозначается греческой буквой р (ро). Коэффициент г — это оценка р. Обрати-

те внимание, что расчет г предполагает, что X и У— метрические переменные, кривые распре-

деления которых имеют одинаковую форму. Если эти допущения не удовлетворяются, то зна-

чение г уменьшается и р получается недооцененным. В маркетинговых исследованиях данные,

полученные с использованием относительной шкалы при небольшом числе категорий, могут

не быть строго интервальными. Это приведет к снижению г и недооценке р [3].

644 Часть III. Сбор, подготовка и анализ данных

-3

I

Рис. 17. 1. Нелинейная зависимость, для которой г~0

Статистическую значимость связи между двумя переменными, измеренную коэффициен

том корреляции г, можно легко проверить. Гипотезы имеют такой вид:

Статистику, лежащую в основе критерия для проверки гипотезы, вычисляют по формуле:

п-2

\-г2

которая имеет /-распределение с я — 2 степенями свободы [4]. Для коэффициента корреля-

ции, вычисленного на основе данных, приведенных в табл. 17.1, значение/-статистики равно:

I = 0.9361

12-2

1-(0,9361)2

а число степеней свободы — 12 — 2 = 10. Из таблицы /-распределения (табл. 4 Статистического

приложения) критическое значение t-статистики для двусторонней проверки и уровне значи-

мости а = 0,05 равно 2,228. Следовательно, нулевую гипотезу об отсутствии связи между пере-

менными Хи У отклоняют. Это наряду с положительным знаком коэффициента корреляции

показывает, что отношение респондента к своему городу прямо пропорционально зависит от

продолжительности проживания его в городе. Более того, высокое значение г показывает, что

эта связь сильная.

При выполнении многомерного анализа данных часто полезно изучить простую корреля-

цию между каждой парой переменных. Эти результаты представляют в форме корреляционной

матрицы, которая показывает коэффициент корреляции между каждой парой данных. Обыч-

но, рассматривают только самую нижнюю треугольную часть матрицы. Все элементы по диаго-

нали равны 1,00, так как переменная коррелирует сама с собой. Верхняя треугольная часть мат-

рицы — зеркальное отражение нижней треугольной части матрицы, поскольку г— симметрич-

ный показатель связи между переменными. Форма корреляционной матрицы для пяти

переменных от Vt до К5 представлена ниже:

Глава 17. Корреляция и регрессия 645

V, Vg V9 V< V5

V,

Vi 0,5

V, 0,3 0,4

V4 0,1 0,3 0,6

Vs 0,2 0,5 0,3 0,7

Хотя матрица простых коэффициентов корреляций позволяет уяснить суть попарных свя-

зей, иногда исследователю хочется изучить связи между двумя переменными при условии

управления одной или несколькими переменными. В последнем случае следует оценивать ча-

стную корреляцию.

ЧАСТНАЯ КОРРЕЛЯЦИЯ

В то время как линейный коэффициент корреляции — это показатель силы связи,

описывающий линейную зависимость между двумя переменными, частный коэффициент

корреляции (partial correlation coefficient) — это мера зависимости между двумя перемен-

ными при фиксированных (исключенных) или скорректированных эффектах одной или

нескольких переменных.

Частный коэффициент корреляции (partial correlation coefficient)

Мера зависимости между двумя переменными после фиксации (исключения, корректиров-

ки) эффектов одной или нескольких переменных.

Эта статистика позволяет ответить на следующие вопросы,

• Зависит ли объем продаж от расходов на рекламу, если фиксировать влияние цены

(исключить эффект цены)?

• Существует ли связь между долей рынка и количеством торгового персонала, если за-

фиксировать эффект от усилий по продвижению товара?

• Связано ли восприятие качества товаров потребителями с их восприятием цены, если

исключить эффект торговой марки?

Предположим, что в этих ситуациях исследователь хочет вычислить силу связи между X и

Y, исключив при этом эффект влияния третьей переменной Z. Поступая логично, сначала сле-

дует удалить эффект Zn3 значения переменной X. Для этого следует использовать коэффици-

ент парной корреляции га между X и Z, и вычислить значения X, исходя из информации о Z.

Затем полученное значение X вычитают из фактического значения X, получая скорректирован-

ное значение X. Аналогично корректируют значения Y, чтобы исключить эффект, и скорректи-

рованный коэффициент обозначают г^.. Статистически, поскольку простой коэффициент кор-

реляции между двумя переменными полностью описывает линейную зависимость между ни-

ми, частный коэффициент корреляции можно вычислить, зная только эти простые

коэффициенты корреляции и не используя отдельные наблюдения.

Предположим, что исследователь хочет рассчитать силу связи между отношением к городу,

переменная Y, и продолжительностью проживания в нем, переменная Х„ фиксируя при этом

эффект третьей переменной, а именно, погодных условий, переменная Х2. Эти данные приве-

дены втабл. 17.1.

646 Часть III. Сбор, подготовка и анализ данных

Линейные коэффициенты корреляции между переменными равны:

гТЖ| =0,9361, rv), =0,7334, г1]Л, =0,5495

Частный коэффициент корреляции можно вычислить по формуле:

0,9361-(0,5495)(0,7334)

гм.д =. V • Д - V =0,9386

^1-(0,5495)'>/1-(0,7334)1

Результаты показывают, что исключение эффекта, связанного с погодными условиями,

незначительно воздействует на зависимость между отношением к городу и продолжительно-

стью проживания в нем.

Частные коэффициенты корреляции характеризуются так называемом порядком, который

указывает количество переменных, на которые необходимо внести поправку или которые сле-

дует проконтролировать (исключить). Простой коэффициент корреляции г имеет нулевой по-

рядок, поскольку отсутствует необходимость исключать дополнительные переменные при оп-

ределении силы связи между двумя переменными. Коэффициент г^г представляет собой част-

ный коэффициент корреляции первого порядка, так как при его расчете контролируют эффект

от влияния одной дополнительной переменной Z, частный коэффициент корреляции второго

порядка контролирует эффект от влияния двух переменных и т.д. Коэффициенты корреляции

более высокого порядка вычисляют аналогично. Частный коэффициент корреляции (я + /)-го

порядка можно вычислить, поставив простые коэффициенты корреляции справа в предшест-

вующем уравнении для коэффициентов л-го порядка.

Частные коэффициенты корреляции могут оказаться полезными для выявления ложных

связей (см, главу 15). Связь между А'и /является ложной, если А'связана с Z, которая в дей-

ствительности является предиктором (независимой переменной) для Y. В этом случае корре-

ляция между X и Y исчезнет, если контролировать эффект от влияния переменной Z Рас-

смотрим пример, в котором потребление фирменного сухого завтрака (С) положительно

связано с доходом (У), и г„ = 0,28. Поскольку цена на этот товар вполне доступная, то марке-

тологи не ожидали, что доход окажется значимым фактором. Поэтому исследователь подоз-

ревает, что эта связь ложная. Результаты выборочного исследования также показали, что до-

ход позитивно связан с размером семьи (Н), коэффициент корреляции равен rhi = 0,48, а

размер семьи связан с потреблением сухого завтрака, коэффициент корреляции равен rch =

0,56. Эти цифры свидетельствуют, что действительным предиктором потребления сухого

завтрака является не доход, а размер семьи.

Чтобы проверить это утверждение, маркетологи вычислили коэффициент частной корре-

ляции первого порядка между потреблением сухого завтрака и доходом, проконтролировав эф-

фект размера семьи. Читатель может проверить, что коэффициент частной корреляции равен

rclll = 0,02, и первоначально обнаруженная корреляция между потреблением сухого завтрака и

доходом исчезла, когда мы исключили влияние размера семьи. Следовательно, корреляция

между доходом и потреблением сухого завтрака ложная. Специальный случай, когда частная

корреляция оказывается больше, соответствующей корреляции нулевого порядка, обусловлен

эффектом экранирования (см. главу 15) [5].

Другим представляющим интерес коэффициентом корреляции является частичный коэф-

фициент корреляции (part correlation coefficient). Он представляет корреляцию между YH X, ко-

гда линейные эффекты других независимых переменных исключены из X, но не из Y.

Частичный коэффициент корреляции (part correlation coefficient)

Мера зависимости между Y и X, когда линейные эффекты других независимых переменных

исключены из X (но не из Y).

Частичный коэффициент корреляции ry(3S} вычисляют по формуле:

_ г» ~ Wp

ГУ(Х1| Г =—

Глава 17. Корреляция и регрессия 647

Частичный коэффициент зависимости отношения к городу от продолжительности прожи-

вания в нем при исключении эффекта погодных условий из переменной, обозначающей про-

должительность проживания, можно вычислить следующим образом:

0,9361-(0,5495){0,7334)

rvu 0=-, Л - ^ = 0,63806 Л.-*! ••*: '

Частный коэффициент корреляции считают более важным, чем частичный коэффи-

циент корреляции. Парный коэффициент корреляции, частичный и частный предпола-

гают, что данные измерены с помощью интервальной или относительной шкал. Если

данные не соответствуют этим требованиям, то исследователь должен использовать не-

метрическую корреляцию.

ПРИМЕР. Реклама и предпочтения покупателей

Реклама играет важную роль в формировании у потребителей отношений и предпочте-

ний к торговым маркам. Маркетологи обнаружили, что для товаров, продажа которых про-

исходит с минимальным участием продавца, отношение покупателя к рекламе служит про-

межуточным звеном между распознованием торговой марки и отношением к ней. Что про-

изойдет с влиянием этой промежуточной переменной, если товары покупают дома

непосредственно через специализированную компьютерную сеть? Компания Ноте Shopping

Budapest в Венгрии исследовала воздействие рекламы на покупки. Маркетологи провели оп-

рос, в ходе которого измерили ряд показателей: отношение к товару, отношение к торговой

марке, отношение к рекламе, доверие к торговой марке и т.д. Была выдвинута гипотеза, со-

гласно которой при покупке через специализированную компьютерную сеть главным обра-

зом реклама определяет отношение к торговой марке. Чтобы установить степень связи от-

ношения к рекламе с отношением к торговой марке и доверием к ней, следовало вычислить

частный коэффициент корреляции. Для этого вычислялся частный коэффициент корреля-

ции между отношением к торговой марке и доверием к ней с одновременным исключением

влияния отношения к рекламе. Если отношение к рекламе высокозначимое, то частный ко-

эффициент корреляции должен быть значительно меньше, чем парный коэффициент кор-

реляции между доверием к торговой марке и отношением к ней. Исследование подтвердило

данную гипотезу. Затем компания Saatchi & Saatchi разработала радиорекламу для Ноте

Shopping Budapest, чтобы выработать позитивное отношение к рекламе, и это стало главным

оружием в конкурентной борьбе [6].

НЕМЕТРИЧЕСКАЯ КОРРЕЛЯЦИЯ

Иногда маркетологу необходимо вычислить коэффициент корреляции между двумя немет-

рическими переменными. Вспомним, что неметрические переменные нельзя измерить с по-

мошью интервальной или относительной шкалы и они не подчиняются закону нормального

распределения. Если мы имеем дело с порядковыми и числовыми неметрическими перемен-

ными, то для изучения связи между ними можно использовать два показателя неметрической

корреляции (nonmetric correlation): коэффициент ранговой корреляции Спирмена д. (Spearmen1

rho ps) и коэффициент ранговой корреляции Кендалла т (Kendall's tau т).

Коэффициент неметрической корреляци (nonmetric correlation)

Показатель корреляции для двух неметрических переменных, в котором используются ранги

переменных.

Для вычисления обоих коэффициентов используют ранги, а не абсолютные значения пе-

ременных, и подход, лежащий в основе их применения, совершенно одинаков. Оба коэффи-

циента изменяются в диапазоне от—1 до+1 (см. главу 15).

648 Часть III. Сбор, подготовка и анализ данных

При отсутствии связанных рангов значение коэффициента ранговой корреляции Спирме-

на р, значительно ближе к коэффициенту парной корреляции Пирсона р, чем коэффициента

ранговой корреляции Кендалла т. В этих случаях абсолютное значение г стремится стать мень-

ше, чем р Пирсона. С другой стороны, если данные содержат большое количество связанных

рангов, то коэффициент г больше подходит для вычисления корреляции. В качестве эмпири-

ческого правила стоит запомнить, что коэффициент ранговой корреляции Кендалла целесооб-

разно использовать, когда большинство наблюдений попадает в относительно небольшое число

категорий (что приводит к большому количеству связанных рангов). И наоборот, целесообраз-

но использовать коэффициент ранговой корреляции Спирмена, когда мы имеем относительно

большое число категорий (что приводит к небольшому количеству совпадающих рангов) [7].

Парная корреляция, так же как частный и частичный коэффициенты корреляции, состав-

ляют концептуальную основу для парного и множественного регрессионного анализа.

РЕГРЕССИОННЫЙ АНАЛИЗ

Регрессионный анализ (regression analysis) — это мощный и гибкий метод установления

формы и изучения связей между метрической зависимой переменной и одной или нескольки-

ми независимыми переменными.

Регрессионный анализ (regression analysis)

Статистический метод установления формы и изучения связей между метрической зависи-

мой переменной и одной или несколькими независимыми переменными.

Регрессионный анализ используют в следующих случаях.

1. Действительно ли независимые переменные обуславливают значимую вариацию зависи-

мой переменной; действительно ли эти переменные взаимосвязаны?

2. В какой степени вариацию зависимой переменной можно объяснить независимыми пере-

менными: теснота связи?

3. Определить форму связи: математическое уравнение, описывающее зависимость между за-

висимой и независимой переменными.

4. Предсказать значения зависимой переменной.

5. Контролировать другие независимые переменные при определении вкладов конкретной

переменной.

Хотя независимые переменные могут объяснять вариацию зависимой переменной, это не-

обязательно подразумевает причинную связь. Использование в регрессионном анализе таких

терминов, как зависимая или критериальная переменная и независимая переменная

(предиктор) отражает наличие математической зависимости между переменными. Данная тер-

минология не подразумевает существование причинно-следственной связи между перемен-

ными. Регрессионный анализ имеет дело с природой и степенью связи между переменными и

не предполагает, что между ними существует какая-либо причинная связь. Вначале мы обсу-

дим парную регрессию, а затем множественную.

ПАРНАЯ РЕГРЕССИЯ

Парная регрессия (bivariate regression) — это метод установления математической (в форме

уравнения) зависимости между одной метрической зависимой (критериальной) переменной и

одной метрической независимой переменной (предиктором). Во многом этот анализ аналоги-

чен определению простой корреляции между двумя переменными. Однако для того чтобы вы-

вести уравнение, мы должны одну переменную представить как зависимую, а другую — как

независимую.

Глава 17. Корреляция и регрессия 649

Парная регрессия (bivariate regression)

Метод установления математической (в форме уравнения) зависимости между двумя мет-

рическими перемнными: зависимой и независимой.

Примеры, приведенные ранее при изучении простой корреляции, рассмотрим с точки зре-

ния регрессии.

• Можно ли вариацию в объеме продаж объяснить расходами на рекламу? Какова форма

этой зависимости и можно ли ее выразить в виде уравнения, описывающего прямую

линию?

• Зависит ли вариация доли рынка от количества торгового персонала?

• Определяется ли отношение потребителей к качеству товара их отношением к цене на

этот товар?

Прежде чем обсудить процедуру выполнения двумерной регрессии, определим основные

статистики.

СТАТИСТИКИ, СВЯЗАННЫЕ С ПАРНЫМ

РЕГРЕССИОННЫМ АНАЛИЗОМ

Ниже приведены статистики и термины, относящиеся к парному регрессионному анализу,

Модель парной регрессии. Основное уравнение регрессии имеет вид У; = j$0 + /ЗД + elf где

Y~ зависимая или критериальная переменная, X — независимая переменная, или предиктор,

Р0— точка пересечения прямой регрессии с осью OY; 0; — тангенс угла наклона прямой и е, —

остаточный член (остаток), связанный с /-м наблюдением, характеризующий отклонение от

функции регрессии1.

Коэффициент детерминации. Тесноту связи измеряют коэффициентом детерминации г2. Он

колеблется в диапазоне между 0 и 1 и указывает на долю полной вариации У, которая обуслов-

лена вариацией X.

Вычисляемое (теоретическое) значение Y. Вычисляемое значение Уравно Y, = а + Ьх, где

Y, — вычисляемое значение У„ а параметры а и Ь — это вычисляемые оценки 0<,и /^соответ-

ственно.

Коэффициент регрессии. Вычисляемый параметр Ъ обычно называют ненормированным ко-

эффициентом регрессии.

Диаграмма рассеяния (поле корреляции). Поле корреляции — это графическое представле-

ние точек с координатами, определяемыми значениями двух переменных (независимой и за-

висимой), для всех наблюдений.

Стандартная ошибка уравнения регрессии, Эта статистика SEE представляет собой стандарт-

ное отклонение фактических значений Кот теоретических значений У.

Стандартная ошибка коэффициента регрессии Ь. Стандартное отклонение Ь, обозначаемое

SEk, называется стандартной ошибкой.

Нормированный коэффициент регрессии. Также называется бета-коэффициентом, или взве-

шенным бета-коэффициентом. Показывает изменение У в зависимости от изменения X (угол

наклона прямой уравнения регрессии) при условии, что все данные нормированы.

Сумма квадратов ошибок. Значения расстояний всех точек до линии регрессии возводят в

квадрат и суммируют, получая сумму квадратов ошибок, которая является показателем общей

ошибки e.

1 В литературе этот член уравнения называют также ошибочным (ошибкой) или возмущающим членом

(возмущением). — Прим. науч. ред.

650 Часть III. Сбор, подготовка и анализ данных

(-статистика, /-статистику с л — 2 степенями свободы можно использовать для проверки ну-

левой гипотезы, которая утверждает, что между X и У не существует линейной зависимости

или Я„: Р, = 0, где / = %.-..

ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО

АНАЛИЗА

Стадии, из которых состоит процедура парного регрессионного анализа, приведены на

рис. 17.2.

да нормированного коэффициента р

Определение тесноты и SHE

зга точности предок

! проверка модели

Рис. 17.2. Парный регрессионный анализ

Предположим, что маркетолог хочет выяснить, зависит ли отношение к городу от длитель-

ности проживания в нем (см. табл. 17.1). При выводе уравнения такой зависимости целесооб-

разно вначале изучить поле корреляции,

Поле корреляции

Это графическое изображение точек с координатами, соответствующими значениям двух

переменных для всех случаев. Обычно значения зависимой переменной откладывают по вер-

тикальной оси, в значения независимой — по горизонтальной. Поле корреляции используется

при определении формы зависимости между переменными, График дает исследователю первое

Глава 17. Корреляция и регрессия 651

представление о форме данных и о возможных проблемах. На графике легко идентифициро-

вать любую необычную комбинацию переменных. График зависимости У (отношение к горо-

ду) от ^(продолжительность проживания) дан на рис. 17.3.

I6

о

I J I I

2,25 4,5 6,75 9 11,25 13,5

Длительность проживания

15,75 18

Рис. 17.3. Поле корреляции: отношение к городу в зависимости от

продолжительности проживания в нем

Из рисунка видно, что точки располагаются полосой от нижнего левого угла в верхний

правый. На графике можно увидеть форму зависимости: с ростом одной переменной

другая переменная также увеличивается. Из рисунка видно, что зависимость между У и X

носит линейный характер и поэтому может быть описана уравнением прямой линии. Как

следует "подогнать" к этим точкам прямую линию, чтобы она наилучшим образом опи-

сывала данные?

Самый распространенный метод для расчета уравнения линейной регрессии по данным на

диаграмме рассеяния — это метод наименьших квадратов (least-squares procedure).

Метод наименьших квадратов (least-squares procedure)

Метод, используемый для расчета параметров уравнения линейной регрессии, когда на ос-

нове поля корреляции минимизируются расстояния по вертикали всех точек поля от графи-

ка регрессии.

Методом наименьших квадратов определяют наиболее подходящую прямую регрессии,

минимизируя расстояния по вертикали всех точек поля корреляции от этой прямой. Наиболее

подходящая прямая называется линией регрессии. Если точка поля не лежит на линии регрес-

сии, то расстояние по вертикали от нее до линии называется ошибкой е. (рис. 17.4)

Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая

сумму квадратов ошибок, и это число показывает суммарную ошибку ^ef. Для определения

наиболее подходящей линии с помощью метода наименьших квадратов минимизируют суммы

квадратов ошибок. Если значения Котложить по вертикальной оси, а значения X— по гори-

зонтальной, как показано на рис. 17.4, то полученная аппроксимированная линия называется

регрессией У по X, так как расстояния по вертикали минимизированы. Поле корреляции по-

казывает, можно ли зависимость У по X выразить прямой линией и, следовательно, подходит

ли к этим данным парная регрессионная модель.

652 Часть III. Сбор, подготовка и анализ данных

х^ чл'

: YJ

I I i l l.

X V Y Y V

"2 "3 "4 "5

Puc. 17.4. Парная регрессия

Модель парной регрессии

В модели парной регрессии форма прямой линии выражается уравнением:

где Y— зависимая, или критериальная переменная, X— независимая переменная, или предиктор,

Д, — отрезок прямой, отсекаемый на оси OY, Д — угловой коэффициент (тангенс угла наклона).

Эта модель исходит из того, что У полностью определяется X. При известных значениях Д, и Д,

можно предсказать значение Y. Однако в маркетинговом исследовании немного связей

между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную при-

роду связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение рег-

рессии принимает вид:

где е,~ член уравнения, характеризующий ошибку 1-го наблюдения [8]. Оценка регрессионных

параметров Д, и 0/ относительна проста.

Определение параметров уравнения регрессии

В большинстве случаев Д, и ft, неизвестны, и их определяют (оценивают), исходя из имею-

щихся выборочных наблюдений с помощью следующего уравнения:

Y, = а + их,

где Y, — теоретическое значение Y,,аак Ь — вычисленные значения Д, и /3,, соответственно,

Константу Ь обычно называют ненормированным коэффициентом регрессии. Он выражает

угол наклона линии регрессии и показывает ожидаемое изменение Г при изменении А" на еди-

ницу. Формулы для вычисления а и Ь просты [9]. Угловой коэффициент Ь можно вычислить

через ковариацию между А" и Y(COV^) и дисперсию X по формуле:

COV^ _

О = -- "- ---

Глава 17. Корреляция и регрессия 653

Отрезок, отсекаемый на оси OY — а, можно вычислить по формуле:

а=¥-ЬХ

Для данных табл. 17.1 оценки параметров будут такими:

+ (8)(5) + (2)(2) + (18)(11) + (9)(9) + (17)(10) + (2)(2) = 917

£*; = Ю2 + 122 + 122 + 42 + 122+ 6:+

;=i

+ 82 + 22 + 182 + 92 + 173 + 22 = 1 350

Вспомнив, изложенную ранее формулу вычисления среднего в простой корреляции,

получим:

=9,333 _

Y =6,583

При заданном п = 12, вычислим Ь по формуле;

917-(12)(9.333)(«83)

1350-(12)(9,333)

a = F-£? = 6,583~(0,5897)(9,333) = 1,0793

Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных)

данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызо-

вет затруднений.

Нормированный коэффициент регрессии

Нормирование (standartization) представляет собой процедуру, посредством которой исход-

ные данные преобразуют в новые переменные со значением средней, равным нулю, и диспер-

сией, равной 1 (глава 14). После нормирования данных, отрезок, отсекаемый на оси OY, при-

нимает значение 0. Нормированный коэффициент регрессии обозначают как "бета"-

коэффициент или взвешенный "бета "-коэффициент. В этом случае угловой коэффициент рег-

рессии YnoX, обозначаемый йч„ тот же, что и угловой коэффициент регрессии А" по Y, обозна-

чаемый Byv Более того, каждый из этих коэффициентов регрессии равен простому (линейному)

коэффициенту корреляции между Хи Y;

°ух= *V= '' гзу

Существует простая связь между нормированным и ненормированным коэффициентами

регрессии:

Для регрессии, показатели которой представлены в табл. 17.2, значение "бета" -коэффициента

оценивается как 0,9361.

654 Часть III. Сбор, подготовка и анализ данных

Таблица 17.2. Парная регрессия

Коэффициент корреляции Я

Коэффициент детерминации R2

Скорректированный И2

Стандартная ошибка

0,93608

0,87624

0,86387

1,22329

Дисперсионный анализ

Степени свободы Сумма квадратов Средний квадрат

Регрессия I

Остаток 10

F = 70,80266 Значимость F равна 0,000

105,95222

14,96444

105,95222

1,49644

Переменная

Переменные в уравнении

5ЕЬ Бета, р Т Значимость Т

Продолжительность 0,58972

(Константа) 1,07932

0,07008

0,74335

0,93608 8,414

1,452

0,0000

0,1772

Поскольку параметры определены, можно проверить их значимость.

Проверка значимости

Статистическую значимость линейной связи между А" и У можно проверить, исследовав

гипотезы:

JSfcft-O

Я,: А* О

Нулевая гипотеза предполагает, что между Хи. Уне существует линейной зависимости. Аль-

тернативная гипотеза утверждает, что между X и К существует зависимость, либо положитель-

ная, либо отрицательная. Обычно проводят двустороннюю проверку. Можно использовать /-

статистику с п — 2 степенями свободы, где

Ъ

~SEb

SEh обозначает стандартное отклонение Ь, и этот показатель называют стандартной ошибкой

коэффициента регрессии b [10]. (-распределение обсуждалось в главе 15.

Используя компьютерную программу (например SPSS) и данные табл. 17.1, регрессия от-

ношения к городу от длительности проживания в нем даст результаты, представленные в

табл. 17.2. Величина отрезка а, отсекаемого на оси OY, равна 1,0793, угловой коэффициент

(наклон кривой) b равен 0,5897. Следовательно, вычисленное (теоретическое) уравнение рег-

рессии иметь вид

Отношение (Y) = 1,0793 + 0,5897 (длительность проживания)

Стандартная ошибка, или стандартное отклонение b определено как 0,07008, и значение /-

статистики равно: / = 0,5897/0,0701 = 8,414 с п - 2 = 10 степенями свободы. Из табл. 4 Стати-

стического приложения видно, что критическое значение ^-статистики с 10 степенями свободы

и уровнем значимости а = 0,05 равно 2,228 для двусторонней проверки. Поскольку вычислен-

ное значение /-статистики больше критического значения, то нулевую гипотезу отклоняют.

Следовательно, между отношением к городу и длительностью проживания в нем существует

статистически значимая линейная зависимость. Положительный знак углового коэффициента

указывает на то, что эта связь положительная (прямо пропорциональная). Другими словами,

чем дольше человек живет в городе, тем лучше он к нему относится.

Глава 17. Корреляция и регрессия 655

Теснота и значимость связи

Соответствующий статистический вывод включает определение тесноты и значимости

связи между Yvi X. Тесноту связи измеряют коэффициентом детерминации г2. В парной регрес-

сии i2 представляет собой квадрат линейного коэффициента корреляции. Коэффициент г2 из-

меняется от 0 до 1. Он показывает долю от полной вариации Y, которая обусловлена вариацией

переменной ЛГ, Разложение полной вариации переменной Y аналогично разложению полной

вариации в дисперсионном анализе (глава 16). Как показано на рис. 17.5, полная вариация SSy

раскладывается на вариацию, которую можно объяснить, исходя из линии регрессии SSpeipecctta,

и вариацию ошибки или остаточную вариацию, SSouai6KU или SSa 'встатвчная'

1./Остаточная вариация,

У SSres

1 Объяснимая вариация,

J S5r.g

Рис. 17.5 Разложение полной вариации в парной регрессии

SSy —

где

Тесноту связи вычислим следующим образом;

2 _ - регресси

2 SS,. —

Чтобы проиллюстрировать определение г2, рассмотрим снова влияние продолжительности

проживания в городе на отношение к нему. Из ранее сделанных вычислений коэффициента

парной корреляции видно, что

Теоретическое значение У; можно определить на основании уравнения регрессии

Отношение (Y.) = 1,0793 + 0,5897 (длительность проживания)

Для первого наблюдения в табл. 17.1 это значение равно

656 Часть III. Сбор, подготовка и анализ данных

(Yt)= 1,0793 + 0,5897 x 10 = 6,9763

Для каждого последующего наблюдения теоретические значения будут следующими (в по-

рядке расположения): 8,1557; 8,1557; 3,4381; 8,1557; 4,6175; 5,7969; 2,2587; 11,6939; 6,3866;

11,1042; 2,2587. Следовательно,

Юреп*»- = 5Х^ ~^)2 = <6'9763 - 6,5833)2 + (8,1557 - 6,5833)2.

(8,1557 - 6,5833)2 + (3,4381 - 6,5833)2

+ (8,1557 - 6,5833)2 + (4,6175 - 6,5833)2

+ (5,7969 - 6,5833)2 + (2,2587 - 6,5833)2

+ (11,6939 - 6,5833)2 + (6,6866 - 6,5833)2

+ (11,1042 - 6,5833)2 + (2,2587 - 6,5833)2

= 0,1544 + 2,4724 + 2,4724 + 9,8922 + 2,4724

+ 3,8643 + 0,6184+18,7021+21,1182

+ 0,0387 + 20,4385 + 18,7021 = 105,9522

^ктаточная = £(Г' -^У = (6 - 6,9763): + (9 - 8,1557)2+ (8 - 8,1557)2

I=L

+ (3 - 3,4381)2 + (8 - 8,1557):+ (4-4,б175)2

+ (5 - 5,7969)3 + (2 - 2,2587)2 + (11-11,6939)г

+ (9 - 6,3866)2 + (10 - 11.1042)2 + (2 - 2,2587)г = 14,9644

Видно, что SSy = SS^p,,^ + 55'к.тввм,,р|вя. Кроме того,

SS 105 9524 регрессии IV-Л-'^А.^.-, onzn

Г = = = и.й/О2

SS, 120,9168

Другой равноценной проверкой значимости линейной зависимости между X и Y

(значимости Ь) является проверка значимости коэффициента детерминации. В этом случае ги-

потезы имеют следующий вид:

Соответствующей статистикой, лежащей в основе критерия, является /-"-статистика:

SS /in -2)

которая подчиняется F- распределению с 1 и п - 2 степенями свободы, /-"-критерий представля-

ет собой обобщенную форму /-критерия (см. главу 15). Если случайная переменная подчиняет-

ся /-распределению с п-степенями свободы, то значения t2 подчиняются F- распределению с 1 и

л-степенями свободы. Следовательно, /-"-критерий для проверки значимости коэффициента

детерминации эквивалентен проверке следующих гипотез:

или

/4: /з=0

Я,:р/0

Из табл. 17.2 видно, что

105 - шз.

= - -

(105.9522 + 14,9644)

это равно ранее рассчитанному значению. Вычисленное значение /-"-статистики равно:

F. - ^^ _ = 70,8027

(105,9522 + 14,9644)

с 1 и 10 степенями свободы, Вычисленное значение /•'-статистики превышает критическое зна-

чение, равное 4,96 (определено по табл. 5 Статистического приложения). Следовательно, зави-

Глава 17. Корреляция и регрессия 657

симость статистически значима при уровне значимости а = 0,05, подтверждая результаты про-

верки с помощью /-критерия. Если зависимость между Хи У статистически значима, то имеет

смысл вычислить значения Y, исходя из значений А", и оценить точность предсказания.

Точность предсказания

Чтобы оценить точность предсказанных (теоретических) значений У, полезно вычислить

стандартную ошибку оценки уравнения регрессии SEE. Эта статистика представляет собой

стандартное отклонение фактических значений У от предсказанных значений У:

Г?^

rt-2

или, в более общем виде, при наличии k независимых переменных

SEE можно интерпретировать как вид среднего значения остатка или среднюю ошибку

предсказания Y, исходя из уравнения регрессии [11].

Могут иметь место два случая предсказания. Исследователь хочет предсказать среднее зна-

чение /для всех вариантов с заданным значением X, скажем Х0, или значение У для одного

случая. В обеих ситуациях предсказанное значение одно и то же, обозначаемое У и равное

Y=a+bX0

Однако стандартная ошибка для этих ситуаций разная, хотя в обеих ситуациях она является

функцией SEE. Для больших выборок стандартная ошибка предсказания среднего значения У

равна SEEI-fn, а ошибка предсказания отдельного значения Уравна SEE. Следовательно,

построение доверительных интервалов (см. главу 12) для предсказанных значений варьи-

рует в зависимости от того, необходимо ли предсказать единственное значение наблюде-

ния или среднее значение.

Для данных табл. 17.2 SEE вычисляют по формуле

/14^9644

SEE= Г ' =1,22329

\(12-2)

Последние две стадии выполнения парного регрессионного анализа, а именно, анализ ос-

таточного члена и модель перекрестной проверки, мы рассмотрим ниже, а сейчас вернемся к

предпосылкам, лежащим в основе регрессионной модели.

Предпосылки регрессионного анализа

Регрессионная модель при оценке параметров и проверке значимости (рис. 17.4) исходит из

ряда допущений.

1. Ошибочный член уравнения регрессии (остаточный компонент) подчиняется закону нор-

мального распределения. Для каждого определенного значения X распределение У нор-

мальное [12].

2. Средние значения всех этих нормальных распределений У, при заданном X, лежат на пря-

мой линии с угловым коэффициентом Ь.

3. Среднее значение ошибочного члена равно 0.

4. Дисперсия ошибочного члена постоянна. Эта дисперсия не зависит от значений, при-

нятых X.

5. Между ошибочными членами автокорреляция отсутствует. Другими словами, значения

ошибочных величин независимы между собой.

658 Часть III. Сбор, подготовка и анализ данных

То. в какой степени модель должна соответствовать этим допущениям, можно понять из

анализа остаточных членов, который рассматривается в разделе, посвященном множественной

регрессии [13].

МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

Множественная регрессия (multiple regression) включает одну зависимую переменную и две

или больше независимых.

Множественная регрессия (multiple regression)

Статистический метод, с помощью которого можно вывести математическую зависимость

между двумя или больше независимыми переменными и зависимой переменной, выра-

женной с помощью интервальной или относительной шкалы.

Вопросы, аналогичные тем, для ответа на которые маркетологи используют парную регрес-

сию, также можно решить с помощью множественной регрессии. Только в этом случае иссле-

дователи имеют дело с дополнительными независимыми переменными.

• Можно ли вариацию объема продаж объяснить с точки зрения расходов на рекламу, цен

и уровня каналов распределения?

• Может ли вариация доли рынка зависеть от количества торгового персонала, расходов на

рекламу и бюджета на продвижение товара?

• Определяется ли восприятие потребителей качества товара их восприятием цены,

имиджа торговой марки и характеристик товара?

С помощью множественной регрессии можно ответить на следующие дополнительные

вопросы.

• Какую долю вариации объема продаж можно объяснить расходами на рекламу, ценами

и уровнем каналов распределения?

• Чему равен вклад расходов на рекламу в объяснении вариации объема продаж при кон-

тролируемых переменных — уровнях цен и распределения?

• Какие объемы продаж можно ожидать, исходя из данных уровней расходов на рекламу,

цен или уровня распределения?

ПРИМЕР. Всемирные торговые марки — местная реклама

Европейцы хорошо относятся к товарам из других стран, но когда дело доходит до рекла-

мы, они предпочитают местную рекламу. Опрос, проведенный компанией Yankelovich and

Partners и ее филиалами, показывает, что в Европе самой любимой рекламой потребитель-

ских товаров является реклама местных торговых марок, несмотря даже на то, что сами по-

требители предпочитают покупать зарубежные фирменные товары. Респонденты во Фран-

ции, Германии и Великобритании назвали Coca-Cola в качестве наиболее часто покупаемо-

го безалкогольного напитка. Однако самой любимой коммерческой рекламой французы

назвали рекламу известной местной марки — воды Perrier. Аналогично, в Германии люби-

мой рекламой оказалась реклама немецкого безалкогольного пива Clausthaler. Однако в Ве-

ликобритании наиболее предпочитаемым безалкогольным напитком оказалась Coca-Cola, и

наиболее предпочитаемой рекламой также оказалась реклама Coca-Cola. В свете этих фактов

встал важный вопрос — способствует ли реклама товара его покупке? Увеличивает ли

реклама вероятность покупки товара или она просто поддерживает определенный уровень

признания товара? В этой ситуации можно построить регрессионную модель, в которой

1 зависимая переменная представляет собой вероятность покупки товара, а независимыми

переменными являются оценки отношения к товару и оценки рекламы. Чтобы оценить

I любой значимый вклад в вариацию покупки товара, следует построить отдельные модели с

Глава 17. Корреляция и регрессия 659

наличием и без наличия переменной — реклама, Чтобы выявить любой значимый вклад

обоих переменных— характеристик товара и рекламы, можно также выполнить отдельные

проверки с помощью /-критерия. Результаты укажут, в какой степени реклама влияет на

принятие решения о покупке товара [14].

Общая форма модели множественной регрессии (multiple regression model) имеет вид:

Г Модель множественной регрессии (multiple regression model)

Уравнение, используемое дли объяснения результатов множественного регрессионного ана-

лиза.

Модель оценивают следующим уравнением:

У = a+b,X,+b2X2+b3X3+...btXt

Как и раньше, коэффициент а представляет собой отрезок, отсекаемый на оси OY, но ко-

эффициенты Ь являются теперь частными коэффициентами регрессии. Здесь мы использу-

ем на основании метода наименьших квадратов критерий, который оценивает параметры та-

ким образом, чтобы минимизировать суммарную ошибку SSKai_. Этот процесс также макси-

мизирует корреляцию между фактическими значениями Y и предсказанными значениями

У. Все предпосылки, которые используются в парной регрессии, применимы и для множе-

ственной регрессии. Мы дадим определения нескольким статистикам, а затем опишем про-

цедуру выполнения множественного регрессионного анализа [15].

СТАТИСТИКИ, СВЯЗАННЫЕ СО МНОЖЕСТВЕННОЙ

РЕГРЕССИЕЙ

Большинство статистик и статистических терминов, описанных при рассмотрении парной

регрессии, также применимы и во множественной регрессии. Дополнительно используют сле-

дующие статистики.

Скорректированный коэффициент множественной детерминации R2. Коэффициент множест-

венной детерминации R2 корректируют с учетом числа независимых переменных и размера

выборки, чтобы снизить влияние зависимости коэффициента детерминации от количества пе-

ременных. После введения нескольких первых переменных дополнительные независимые пе-

ременные не так сильно влияют на коэффициент детерминации.

Коэффициент множественной детерминации R2. Тесноту связи между переменными при

множественной регрессии измеряют, возводя в квадрат коэффициент множественной

корреляции.

/'-критерий. Используется для проверки нулевой гипотезы о том, что коэффициент множе-

ственной детерминации в совокупности R'cot. равен нулю. Это эквивалентно проверке нулевой

гипотезы Нй: (Зд = fi, = fl2 =/?,... = /3t = 0. Статистика, лежащая в основе критерия для проверки

гипотезы, подчиняется /''-распределению с k и (п — k — 1) степенями свободы.

Частный F-критерий. Значимость частного коэффициента регрессии Д переменной Х-, мож-

но проверить, используя приростную /^статистику. Она основана на приращении в объясняе-

мой сумме квадратов, полученном добавлением независимой переменной Х{ в уравнение рег-

рессии после исключения всех других независимых переменных.

Частный коэффициент регрессии. Частный коэффициент регрессии А, обозначает изменение

в предсказанном значении Y при изменении X, на единицу, когда другие независимые пере-

менные от Х2 до Xk остаются неизменными.

660 Часть III. Сбор, подготовка и анализ данных

ВЫПОЛНЕНИЕ МНОЖЕСТВЕННОГО

РЕГРЕССИОННОГО АНАЛИЗА

Стадии, входящие в процедуру выполнения множественного регрессионного анализа, ана-

логичны рассмотренным для двумерного регрессионного анализа. При обсуждении мы обра-

тим особое внимание на частные коэффициенты регрессии, тесноту связи, проверку значимо-

сти и анализ остаточных членов.

Частные коэффициенты регрессии

Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя неза-

висимыми переменными:

Y = а+Ь,Х2+Ь2Х2

Во-первых, отметим, что величина частного коэффициента регрессии независимой пере-

менной, в основном, отличается от коэффициента двумерной регрессии той же переменной.

Другими словами, частный коэффициент регрессии Ь, отличается от коэффициента регрессии

Ь, полученного при установлении зависимости Утолько от переменной X,. Это происходит по-

тому, что X, и Х2 обычно взаимосвязаны. В парной регрессии Х2 не принимают во внимание, и

любое изменение вариации в Y, за которую совместно отвечают X, и Х2, относят на счет X,. Од-

нако в случае нескольких независимых переменных это несправедливо.

Интерпретация частного коэффициента регрессии Ь, заключается в том, что он представляет

ожидаемое изменение величины У, когда А^ изменяется на единицу, а,^ остается постоянной, т.е.

управляемой (контролируемой) переменной. В отличие от этого, Ь2 представляет ожидаемое изме-

нение Упри изменении Хг на единицу, когда X, остается постоянной. Поэтому названия Ь,нЬ2 —

частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты со-

вместного влиняия X, и Х2 на У суммируются. Иначе говоря, если каждую из переменных X, и Х2

изменить на единицу, то ожидаемое изменение значения Убудет равно (Ь, + 6,).

Логически, зависимость между коэффициентом парной регрессии и частным коэффициен-

том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключили

эффект от влияния Х2изХ,. Это можно сделать, установив регрессию X, по X? Иначе говоря, мож-

но воспользоваться уравнением Х{ = а + ЬХ2 и вычислить остаточный член Хг = (X,Х1). Тогда

частный коэффициент регрессии Ь, станет равным коэффициенту парной регрессии Ь, полу-

ченному из уравнения Y = а + ЬХГ. Таким образом, частный коэффициент регрессии Ь, равен

коэффициенту парной регрессии Ь между переменной Уи остаточным значением переменной

Х„ не учитывая эффекта от влияния переменной X,. Частный коэффициент регрессии Ь2 ин-

терпретируем аналогично.

Распространение этого примера на случай с k переменными не вызывает затруднений. Ча-

стный коэффициент регрессии Ь, представляет ожидаемое изменение У, когда X, изменяется на

единицу, а переменные от Х2 до Xk остаются неизменными. Это можно интерпретировать как

коэффициент парной регрессии А для регрессии переменной У от остаточных значений пере-

менной X, при исключенных эффектах переменных от Х2цоХ^.

"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными по-

сле того, как перед оценкой уравнения регрессии, все переменные (У, Х}, Х2,... Xk,} нормирова-

ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь между

нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее;

К - "I —

Глава 17. Корреляция и регрессия 661

Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением

системы уравнений, выведенной дифференцированием и приравниванием к нулю частных

производных. Поскольку эти коэффициенты можно вычислить с помощью разных компью-

терных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения

нельзя решить, если размер выборки л меньше или равен числу независимых переменных k;

или одна независимая переменная тесно связана с другой.

Предположим, что при объяснении зависимости отношения к городу от длительности

проживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-

ченные от 12 респондентов и касающиеся отношения к городу, длительности проживания в


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.211 сек.)