АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез

Читайте также:
  1. II проверка домашнего задания
  2. II. ГОСУДАРСТВЕННЫЙ СТРОЙ И ГЛАВА ГОСУДАРСТВА.
  3. III. Проверка рекуперативной схемы
  4. А. Проверка исправности клапана вдоха
  5. Автоматическая проверка правописания
  6. Автоформат таблицы.
  7. Анализ данных сводной таблицы Excel 2007
  8. АНТИЧНЫЕ ГИПОТЕЗЫ
  9. Аудиторская проверка операций по счетам в банке.
  10. Аудиторская проверка расчетов с бюджетом по налогам.
  11. Б. Проверка правоспособности иностранной организации и полномочий ее представителя
  12. Базовая структура таблицы

После изучения материала этой главы вы должны уметь...

1. Описывать значимость предварительного анализа данных, понимать, что можно получить

из такого анализа.

2. Обсуждать анализ данных, опирающийся на распределение частот значений переменной,

включающий анализ центра распределения, изменчивости и формы кривой.

3. Объяснять анализ данных, связанный с кросс-табуляцией и имеющими к нему отношение

статистиками: хи-квадратом, фи-коэффициентом, коэффициентом сопряженности,

V-коэффициентом Крамера и коэффициентом "лямбда".

4. Описывать анализ данных, связанный с параметрической проверкой гипотез для одной

выборки, двух независимых выборок и парных выборок.

5. Объяснять анализ данных, связанный с непараметрической проверкой гипотез для одной

выборки, двух независимых выборок и парных выборок.

КРАТКИЙ ОБЗОР

Эта глава посвящена базовому анализу данных, включающему изучение распределения час-

тот значений переменной (вариационных рядов), кросс-табуляцию (построение таблиц сопря-

женности) и проверку гипотез. Сначала мы рассмотрим распределение частот и объясним, как

с его помощью определить количество выбросов, пропущенных и экстремальных значений

данных, а также выявим центральную тенденцию в значениях изучаемых данных, их вариа-

цию и форму кривой распределения. Затем введем понятие проверки гипотез и опишем общую

процедуру проверки. Процедуры проверки гипотез делятся на проверку связей и проверку раз-

личий. Мы также рассмотрим использование кросс-табуляции для установления связи между

двумя или тремя переменными. Хотя природу связи можно увидеть из таблиц, статистики по-

зволяют определить значимость и силу связи. И наконец, мы познакомим вас с методами ста-

тистической проверки гипотез, связанных с различиями в одной или двух выборках.

Многие маркетинговые исследовательские проекты не выходят за рамки базового анализа

данных. Полученные по итогам исследования результаты часто отображают с помощью таблиц

и графиков, как будет показано в главе 22.

; СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

I Анализ исходных данных

В проекте "Выбор универмага" маркетологи сначала провели базовый анализ полученных

!ими данных, а затем на его основе —многомерный статистический анализ. Анализ данных

начался с построения вариационного ряда и вычисления описательных статистик для каж-;

дои переменной. В дополнение к выявлению возможных проблем при обработке данных 1

(см. главу 14) полученная информация позволила хорошо "прощупать" данные, чтобы оп-

552 Часть til. Сбор, подготовка и анализ данных

ределить, каким образом они в дальнейшем будут анализированться. Например, следует ли

для целей анализа рассматривать переменные как имеющие категориальный характер, и ес-

ли да, то сколько категорий представлено в каждой переменной? Чтобы установить связи

между переменными, необходимо выполнить несколько операций кросс-табуляции для

двух и трех переменных. Для изучения влияния независимых переменных с двумя катего-

риями на метрические зависимые переменные маркетологи задействовали /-критерий и

другие процедуры проверки гипотез.

Результаты базового анализа данных ценны сами по себе и, кроме того, показывают на-

правление для последующего многомерного анализа. Чтобы читатель понял особенности ста-

тистических методов, мы приведем ряд примеров применения кросс-табуляции, критерия хи-

квадрат и проверки гипотез.

ПРИМЕР. Рекламная битва полов

При сравнении телевизионных роликов в Австралии, Мексике и Соединенных Штатах

Америки анализировалась роль пола в рекламе. Маркетологи выявили, что рекламные ро-

лики разных стран отличаются степенью участия в них мужчин и женщин. Для анализа

данных маркетологи применили кросс-табуляцию и статистическую проверку с использо-

ванием критерия хи-квадрат. В результате они получили следующие характеристики мекси-

канской рекламы.

Участники рекламы, %

Рекламируемый товар, который используют Женщины Мужчины

Женщины 25,0 4,0

Мужчины 6,8 11,8

Оба пола 68,2 84,2

Х2= 19,73, /><0,001

Отсюда следует, что в мексиканской рекламе женщины появляются для рекламы това-

ров, используемых женщинами или лицами обеих полов, но редко рекламируют товары для

мужчины. Мужчины рекламируют изделия, которыми пользуются и мужчины, и женщи-

ны. Эти различия в рекламе характерны также и для рекламных роликов США, хотя и в

меньшей степени, а вот в австралийской рекламе таких различий нет [1].

ПРИМЕР. Анализ воспринимаемого риска для различных видов продаж

Маркетологи сравнили продажи 12 видов товаров по каталогу и через розничную торго-

вую сеть. Результаты анализа показали, что следует отклонить выдвинутую гипотезу о том,

что нет сушественной разницы степени воспринимаемого потребителями риска для этих

двух видов продаж. Для проверки гипотезы были вычислены 12 (по одному для каждого то-

вара) /-критериев парных наблюдений. Средние значения степени риска (в баллах) для не-

которых из товаров в обоих видах продаж даны в приведенной ниже таблице, причем наи-

высший балл отвечает наибольшему риску.

Средние значения степени воспринимаемого риска (в баллах) для двух видов продаж

Общий воспринимаемый риск, в баллах

Продажа через магазины

ТоваР Про&ха по каталогу ^зничной торговли

Музыкальная высококачественная аппаратура 48,89 41,98"

Музыкальные альбомы 32,65 28,74'

Парадные туфли 58,60 50,80*

Телевизор с экраном 13 дюймов 48,53 40,91*

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 553

Спортивные носки 35,22

Карманный калькулятор 49,62

Фотоаппарат 35 мм 48,13

Духи 34,85

30,22*

42,00*

39,52*

29,79* 1

'Уровень значимости 0,01.

Из данных таблицы видно, что степень воспринимаемого риска при продаже товаров по

каталогу (при уровне статистической значимости р < 0,01) выше по сравнению с риском при

продаже товаров через магазины розничной торговли [2].

Пример, касающийся универсального магазина, показывает роль базового анализа данных

при использовании его в сочетании с методами многомерного анализа, в то время как два дру-

гих примера показывают, что этот анализ полезен и сам по себе. Использование кросс-

табуляции и критерия хи-квадрат в примере, связанном с телевизионной рекламой, и парного

(-критерия в примере с продажей товаров по каталогу позволяют маркетологам сделать вполне

конкретные выводы.

Статистические понятия, обсуждаемые в этой главе, проиллюстрированы на примере, по-

казывающим использование респондентами Internet для личных (не связанных с профессио-

нальной деятельностью) целей. Табл. 15.1 содержит данные о 30 респондентах, включающие

пол (1 — мужчина, 2 — женщина), степень знакомства с Internet (1 — почти незнаком, 7 — хо-

рошо знаком), использование Internet (в часах в неделю), отношение к Internet и Internet-

технологиям (измеренные по семибалльной шкале: 1 — неблагосклонное, 7 — благосклонное),

использование Internet для приобретения товаров или банковских операций (1 — да, 2 — нет).

На первом этапе анализа следует изучить распределение частот значений или вариационный

ряд соответствующих переменных.

Таблица 15.1. Данные об использовании Internet

На Рес-

пондента

\

Лол

1,00

2,00

2,00

2,00

1,00

2,00

2,00

2,00

2,00

1.00

2,00

2,00

1,00

1,00

1,00

2,00

1,00

Знакомство

с Internet

7,00

2,00

3,00

3,00

7,00

4,00

2,00

3,00

3,00

9,00

4,00

5,00

6,00

6,00

0,00

4,00

6,00

Использование

Internet

14,00

2,00

3,00

3,00

13,00

6,00

2,00

6,00

6,00

15,00

3,00

4,00

9,00

8,00

5,00

3 ОС

9,00

Отношение

к internet

7,00

3,00

4,00

7,00

7,00

5,00

4,00

5,00

6,00

7,00

4 ОС

6,00

6,00

3,00

5,00

4 00

5,00

Отношение

к Internet-

технологиям

6,00

3,00

3,00

5,00

7,00

4,00

5,00

4,00

4,00

6,00

3,00

4 СО

5,00

2,00

4,00

;>, оо

3,00

Использование

для покупок

1,00

2,00

1,00

1,00

1,00

1,00

2,00

2,00

1,00

1,00

2,00

2,00

2,00

2,00

юо

2,00

1,00

Использование

для банковских

операций

1,00

2,00

2,00

; со

.,00

2,00

2,00

2,00

2,00

2,00

Г 00

,00

'' ОН

2,00

? 00

1,00

554 Часть III. Сбор, подготовка и анализ данных

Окончание табл. 15.1

№ Рес-

пондента

? 1

Пол

1,00

!,00

2.00

1,00

2,00

1,00

2,00

2,00

1,00

1,00

Знакомство

с Internet

4,00

7,00

6,00

6,00

5,00

3,00

7,00

6. СО

6 ОС

5.00

4,00

4,00

3,00

Использование

Internet

4,00

14,00

6,00

9,00

5,00

2.00

15,00

6.00

13,00

4.00

2,00

4,00

3,00

Отношение

к Internet

5,00

6,00

6,00

4,00

5,00

6,00

5,00

6.00

5,00

3,00

5,00

7,00

Отношение

к Internet-

технологиям

4,00

6,00

4,00

2,00

4.00

2,00

6,00

3,00

6,00

5,00

2,00

3,00

5,00

Использование

для покупок

1,00

1,00

2,00

2,00

2,00

2,00

1,00

!,00

1,00

1,00

2.00

1,00

1,00

Использование

для банковских

операций

2,00

1,00

2,00

2,00

I.OO

2.30

1,00

2,00

1,00

2.00

2,00

2,00

ВАРИАЦИОННЫЙ РЯД

При проведении маркетинговых исследований часто необходимо получить информацию об

одной переменной. Например;

• Какое количество потребителей определенной марки товара можно считать лояльными ей?

• Каково соотношение между разными группами потребителей товара: много исполь-

зующими, средне, слабо и не пользователями?

• Какое количество потребителей хорошо осведомлены о предлагаемом новом товаре?

Сколько потребителей поверхностно знакомы, сколько— что-то слышали, а сколько во-

обше ничего не знают о данной торговой марке? Какова средняя степень осведомленности

о товаре? Сильно ли различается степень осведомленность потребителей о новом товаре?

• Что представляет собой кривая распределения дохода для приверженцев данной мар-

ки товара? Смещено ли данное распределение в сторону группы потребителей с низ-

кими доходами?

Ответы на подобные вопросы можно получить, изучив распределение частот значений пере-

менной, или вариационный ряд (frequency distribution). При таком анализе рассматривается одна

переменная.

Вариационный ряд, распределение частот значений переменной

(frequency distribution).

Математическое распределение, цель которого - подсчет ответов, связанных с различными

значениями одной переменной (частот), и дальнейшее выражение их в процентном виде

(частости).

Целью построения вариационного ряда является подсчет ответов респондентов, в которых

приводятся различные значения переменной. Относительную частоту различных значений пе-

ременной выражают в процентах и называют частостямк. Подсчет распределения частот зна-

чений переменной дает возможность построить таблицу, с указанием частоты, частости и на-

копленных частостей для всех значений этой переменной.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 555

В табл. 15.2 представлено распределение частот осведомленности об Internet. Первая колон-

ка содержит отметки, присвоенные различным категориям переменной, а вторая — коды, при-

своенные каждому значению переменной.

Таблица 15.2. Распределение частот осведомленности об Internet

Отметка значения Значение Частоты {N) Частости Достоверные частости Накопленные частости

Плохо осведомлены

Хорошо осведомлены

"

Итого

а

б

е

0,0

6,7

20,0

20,0

10,0

26,7

13,3

3,3

100,0

0,0

6,9

20,7

20,7

10,3

27,6

13,8

Пропуск

100,0

0,0

6,9

27,6

48,3

58,6

86,2

100,0

Обратите внимание, что код 9 присвоен пропущенным значениям. В третьей колонке при-

ведено количество ответивших респондентов. Например, три респондента отметили в анкете

галочкой значение 5, указав, что они что-то слышали об Internet. В четвертой колонке приведен

процент респондентов, отметивших в анкете галочкой данное значение. В следуюшей колонке

показаны проценты, подсчитанные с учетом пропущенных значений. Если пропущенных зна-

чений нет, то колонки 4 и 5 идентичны. В последней колонке представлены накопленные час-

тости после корректировки пропущенных случаев (ответов респондентов). Как видно, из 30

респондентов, участвующих в опросе, 10% отметили значение 5. Если исключить одного рес-

пондента с пропущенным значением, то частость увеличится до 10,3%. Накопленная частость,

относящаяся к значению 5, равна 58,6. Другими словами, 58,6% респондентов с достоверными

ответами показали значение осведомленности 5 или меньше.

3 4 5 t

Знакомство с Internet

Рис. 15.1. Гистограмма распределения частот

556 Часть III. Сбор, подготовка и анализ данных

Вариационный ряд помогает определить долю неответивших респондентов (в табл. 15.2

один респондент из 30 не ответил на вопрос), а также указывает долю ошибочных ответов. Зна-

чения, равные 0 или 8, соответствуют ошибочным ответам. Следует определить количество слу-

чаев с такими значениями и соответственно откорректировать результат. Кроме того, можно ус-

тановить наличие выбросов, т.е. случаев с экстремальными значениями. При анализе распре-

деления частот относительно размера домохозяйства (семьи) выбросами следует считать

несколько семей, состоящих не меньше чем девяти человек. Распределение частот также опре-

деляет форму эмпирического распределения значений переменной. Частотные данные можно

использовать для построения гистограмм или вертикальных столбчатых диаграмм, на которых

по оси ЛГоткладывают значения переменной, а по оси Y— абсолютные (частоты) или относи-

тельные (частости) значения. На рис. 15.1 представлена гистограмма для данных табл. 15.2. По

гистограмме можно проверить, соответствует ли наблюдаемое распределение предполагаемому

маркетологом распределению.

Для иллюстрации наших рассуждений рассмотрим следующий пример.

ПРИМЕР. Этические проблемы в рекламе

В опросе, касающемся этических проблем, руководителей рекламных агентств просили

описать наиболее трудные этические проблемы, с которыми они сталкиваются в повседнев-

ной работе. Распределение частот показало, что чаше всего они испытывали следующие про-

блемы: честное отношение к своим клиентам; создание объективной, не вводящей в заблуж-

дение, социально значимой рекламы; принятие решения о целесообразности оказания услуг

клиентам, чьи продукты или услуги вредят здоровью, ненужны, бесполезны и неэтичны;

честное отношение к поставщикам, партнерам и посредникам; справедливое отношение к

сотрудникам и менеджерам; объективное и честное отношение к другим рекламным

агентствам [3].

Этические проблемы руководителей рекламных агентств

Ответы

Проблема

1. Честное отношение к своим клиентам

2. Создание честной, не вводящей в заблуждение, социально значимой рекламы

3. Принятие решения о целесообразности предоставления услуг клиентам, чьи продукты

или услуги вредят здоровью, ненужны, бесполезны и неэтичны

4. Честное отношение к поставщикам, партнерам и посредникам

5. Честное отношение к сотрудникам и менеджерам

6. Объективное и честное отношение к другим рекламным агентствам

7. Другие

8. Ответов нет

Итого

Количество

Процент

100%

Данные в этом примере указывают на распространенность различных этических проблем.

Поскольку при этом используют числовые значения, для вычисления описательных статистик

можно применить распределение частот. Вычисление некоторых статистик, связанных с рас-

пределением частот, обсуждается в следующем разделе.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 557

СТАТИСТИКИ. СВЯЗАННЫЕ С РАСПРЕДЕЛЕНИЕМ

ЧАСТОТ

Как следует из предыдущего раздела, распределение частот — удобный способ представ-

ления различных значений переменной. Таблица вариационного ряда легко читается и со-

держит основную информацию, но иногда такая информация слишком детализированна, и

исследователь вынужден обобщать ее с помощью описательных статистик [4]. Чаще всего

используют следующие статистики, связанные с распределением частот: показатели центра

распределения (среднее, мода и медиана), показатели вариации (размах, меж квартальный

размах, стандартное отклонение и коэффициент вариации) и показатели формы распределе-

ния (асимметрия и эксцесс) [5].

Показатели центра распределения

Показатели центра распределения (measures of location) характеризуют положение центра

распределения, вокруг которого концентрируются данные. Если всю выборку изменить, доба-

вив фиксированную величину к каждому наблюдению, то среднее, мода и медиана изменятся

на аналогичную величину.

Показатели центра распределения (measures of location)

Статистики, которые характеризуют значение признака, вокруг которого концентрируются

наблюдения, или, как говорят, показывают центральную тенденцию распределения.

Среднее арифметическое или выборочное среднее (mean) — это наиболее часто используе-

мый показатель, характеризующий положение центра распределения. Он используется для

оценки среднего значения в случае, если данные собраны с помощью интервальной или отно-

сительной шкалы. Его величина должна отражать некоторое среднее значение, вокруг которого

распределена большая часть ответов.

Среднее арифметическое, выборочное среднее (mean)

Эта величина получается делением суммы всех имеющихся значений переменной на число

значении,

Среднее арифметическое X задается формулой

где Xt— полученные значения переменной X, п — число наблюдений (размер выборки).

Обычно среднее значение — устойчивый показатель и заметно не изменяется при добавле-

нии или вычитании значений данных. Для частот, представленных в табл. 15.2, среднее ариф-

метическое вычисляют следующим образом:

— _ (2x2 + 6x3 + 6x4 + 3x5 + 8x6 + 4x7) _ (4 + 18 + 24 + 15 + 48 + 28) _,,„,.,„_, „„,

А — — — \jli2.f—'+il2A

29 29

Мода (mode) — значение переменной, встречающееся чаще других. Представляет наивыс-

шую точку (пик) распределения. Мода хороший показатель центра распределения, если пере-

менная имеет категорийный характер, или, иначе говоря, ее можно разбить на категории.

Мода (mode)

Значение переменной, которое чаще всего встречается в выборочном распределении.

Медиана (median) выборки — это значение переменной в середине ряда данных, располо-

женных в порядке возрастания или убывания, Положение медианы определяется ее номером.

558 Часть III. Сбор, подготовка и анализ данных

Если число данных четное, то медиана равна полусумме двух серединных значений. Медиа-

на— это 50-й процентиль. Она характеризует положение центра распределения порядковых

данных. В табл. 15.2 медиана равна 5,000.

Медиана (median)

Значение переменной, которое приходится на середину распределения частот, т.е. одна по-

ловина всех значений больше медианы, а другая половина - меньше.

Как видно из табл. 15.2, три показателя, характеризующих положение центра распределе-

ния для рассматриваемого нами примера, различны (среднее значение — 4,724; мода — 6,000;

медиана — 5,000). И это неудивительно, поскольку каждый показатель определяет центр рас-

пределения по-разному. Какой же показатель использовать? Если переменную измеряют по

номинальной шкале, то лучше использовать моду. Если переменную измеряют по порядковой

шкале, то больше подходит медиана. Если же переменную измеряют по интервальной или от-

носительной шкале, то мода плохо отражает положение центра распределения. Это можно уви-

деть из табл. 15.2. Хотя значение моды, равное 6,000, отражает наивысшую частоту, оно пред-

ставляет только 27,6% выборки. Медиана лучше подходит в качестве показателя, характери-

зующего положение центра распределения, для интервальной или относительной шкалы, хотя

и она не учитывает имеющуюся информацию о переменной. Текущие значения переменной до

и после медианы игнорируются. Самый лучший показатель для интервальной или относи-

тельной шкалы — среднее арифметическое. Он учитывает всю доступную информацию, по-

скольку для его вычисления используются все значения. Однако среднее арифметическое чув-

ствительно к выбросам значений (экстремально малым или экстремально большим значени-

ям). Если данные содержат выбросы, то среднее не будет хорошим показателем центра

распределения и лучше использовать два показателя — среднее и медиану.

Показатели вариации

Показатели вариации (изменчивости) (measures of variability), вычисляемые на основании

данных, измеряемых с помощью интервальных или относительных шкал, включают размах

вариации, межквартильный размах, дисперсию, стандартное отклонение и коэффициент

вариации.

Показатели вариации (изменчивости) (measures of variability)

Статистики, показывающие меру разброса (вариабельность) значений переменной.

Размах вариации (range) отражает разброс данных. Он равен разности между наибольшим и

наименьшим значениями в выборке. Поэтому на него непосредственно влияют выбросы.

Размах вариации (range)

Разность между наибольшим и наименьшим значениями переменной в вариационном ряду.

Размах = Xuacfumihligf - Хна!ме„ьа1С1

Если все значения данных умножить на константу, то значение размаха вариации умножа-

ется на ту же константу. Размах вариации в табл. 15.2 равен: 7 — 2 = 5,000.

Межквартильный размах (interquartile range) — это разность между 75- и 25-м процентиля-

ми. Для набора точек данных, расположенных в ранжированном ряду, />-м процентилем будет

такое значение переменной в ранжированном ряду распределения, что/>% единиц совокупно-

сти будут меньше и (100 — р)% — больше него. Если все значения данных умножить на кон-

станту, то межквартильный размах умножается на эту же константу. Межквартильный размах в

табл. 15.2 равен 6 - 3 = 3,000.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 559

Межквартильный размах (interquartile range)

Размах вариации распределения, охватывающий центральные 50% всех наблюдений.

Разность между средним значением переменной и ее наблюдаемым значением называют

отклонением от среднего. Дисперсия (variance) — среднее из квадратов отклонений переменной

от ее средней величины. Она никогда не может быть отрицательной. Если значения данных

сгруппированы вокруг среднего, то дисперсия невелика. И наоборот, если данные разбросаны,

то мы имеем дело с большей дисперсией. Если все значения данных умножить на константу, то

дисперсия умножится на квадрат константы. Среднеквадратическое (стандартное) отклонение

(standard deviation) равно квадратному корню из дисперсии. Таким образом стандартное откло-

нение выражается в тех же единицах, что и сами данные.

Дисперсия (variance)

Среднее из квадратов отклонений переменной от ее средней величины.

Среднеквадратическое (стандартное) отклонение (standard deviation)

Корень квадратный из значения дисперсии.

Стандартное отклонение выборки sx вычисляют следующим образом;

я-1

Мы делим на п —1 вместо л, поскольку генеральное среднее неизвестно, и вместо него ис-

пользуют выборочное среднее, что делает выборку менее изменчивой, чем фактически. Деля на

п —1 вместо п, мы корректируем более слабую изменчивость значений переменой, наблюдае-

мую в выборке. Для данных, приведенных в табл. 15.2, дисперсию вычисляют так;

V ={2х(2-4,724)2 + 6х(3-4,724): + бх(4-4Л24)2 + Зх(5-4,724)2 +

+8х(б-4,724)2 +4х(7-4,724):}/

/28:

{14,840+17,833 + 3,145 + 0,229 + 13,025 + 20,721} 69,793

= 1 1= —: = 2,493

28 28

Следовательно, стандартное отклонение находим по формуле;

s,.=V2,493 =1,579

Коэффициент вариации (coefficient of variation) — это отношение стандартного отклонения к

среднему арифметическому, выраженное в процентах. Коэффициент вариации — показатель

относительной изменчивости переменной. Коэффициент вариации CV вычисляют так:

CV=s. /X"

Коэффициент вариации (coefficient of variation)

Величина относительной изменчивости переменной, представляющая собой отношение ее

стандартного отклонения к ее среднему значению.

Коэффициент вариации имеет смысл, только если переменную измеряют по относитель-

ной шкале. Поскольку степень знакомства с Internet измерена не по этой шкале, то бессмыс-

ленно вычислять коэффициент вариации для данных табл. 15.2.

560 Часть III. Сбор, подготовка и анализ данных

Показатели формы распределения

Показатели формы распределения, как и показатели вариации, также полезны для пони-

мания природы распределения переменной. Форму распределения оценивают с помощью

асимметрии и эксцесса.

Асимметрия. Распределение переменной может быть симметричным или асимметричным

(скошенным). При симметричном распределении частоты любых двух значений переменной,

которые расположены на одном и том же расстоянии от центра распределения, одинаковы.

Равны между собой также и значения среднего арифметического, моды и медианы. Распреде-

ление асимметрично (skewness), если значения переменной, равноудаленные от среднего, име-

ют разную частоту, т.е. одна ветвь распределения вытянута больше другой (рис. 15.2). Значение

асимметрии для распределения данных табл. 15.2 равно —0,094; что указывает на незначитель-

ную отрицательную асимметрию.

Симметричное распределение

Среднее

Медиана

Мода

Асимметричное распределение

Среднее Медиана Мода

Рис. 15.2. Асимметрия распределения

Асимметрия (skewness)

Характеристика распределения, которая оценивает симметрию расположения значений дан-

ных относительно средней.

Эксцесс (kurtosis) — это показатель относительной крутости (островершинности или плос-

ко верш и нности) кривой вариационного ряда по сравнению с нормальным распределением.

Эксцесс нормально распределенной случайной величины равен нулю. Если эксцесс положите-

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 561

лен, то распределение более островершинно по сравнению с нормальным распределением. При

отрицательном значении распределение более плосковершинно по сравнению с нормальным,

Значение этой статистики для табл. 15.2 равно —1,261; это указывает на то, что распределение

более плосковершинное по сравнению с нормальным.

Эксцесс (kurtosis)

Мера относительной крутости кривой распределения частот.

ВВЕДЕНИЕ В ТЕОРИЮ ПРОВЕРКИ ГИПОТЕЗ

Этот раздел посвящен введению в теорию проверки гипотез. Базовый анализ данных неиз-

менно включает в себя статистическую проверку гипотез. Приведем примеры гипотез в марке-

тинговых исследованиях.

• Число постоянных покупателей универмага превышает 10% семей.

• Потребители определенной марки товара, которые отличаются между собой уровнем

его потребления (много и мало), различаются также и психографическими характери-

стиками.

• Рассматриваемый отель имеет более высокий имидж, чем его ближайший конкурент,

• Чем лучше респондент знаком с рестораном, тем чаще он его посещает.

В главе 12 мы рассмотрели понятия выборочного распределения, стандартную ошибку

среднего и доли и доверительный интервал [6]. Все они относятся к проверке гипотезы и по-

этому необходимо вспомнить их. Ниже мы опишем общую схему проверки гипотезы, которая

применима к проверке гипотез с большим диапазоном параметров.

ОБЩАЯ СХЕМА ПРОВЕРКИ ГИПОТЕЗЫ

Для проверки гипотезы необходимо выполнить следующие этапы (рис.15.3).

1. Сформулировать нулевую гипотезу Н0 и альтернативную гипотезу Н,.

2. Выбрать подходящий метод статистической проверки гипотезы (статистический критерий)

и соответствующую статистику критерия (выборочную статистику, тест-статистику).

3. Выбрать уровень значимости а.

4. Определить размер выборки и собрать данные. Вычислить значение выборочной ста-

тистики.

5. Определить вероятность, которую примет статистика критерия (выбранная на этапе 2) при

выполнении нулевой гипотезы, используя соответствующее выборочное распределение.

Альтернативный вариант данного этапа: определить критическое значение статистики, ко-

торое делит интервал на область принятия и непринятия нулевой гипотезы.

6. Сравнить полученную вероятность для тест-статистики (статистики, построенной по ре-

зультатам выборочного наблюдения) с заданным уровнем значимости. Альтернативный ва-

риант данного этапа: определить, попадает ли выборочное значение тест-статистики в об-

ласть принятия или отклонения нулевой гипотезы.

7. Принять статистическое решение, касающееся того, принять или отвергнуть нулевую

гипотезу.

8. Выразить статистическое решение с точки зрения проблемы маркетингового исследования.

562 Часть III. Сбор, подготовка и анализ данных

Определить критическое

значение

выборочной статистики

критерия

i

чонить или не отклонять нулевую гипотеза

Определить, попадает ли

значение в область

принятия или непринятия

нулевой гипотезы

Рис. 15.3. Общая схема проверки гипотезы

Этап 1. Формулировка гипотез

На первом этапе маркетолог формулирует нулевую и альтернативную гипотезы. Нулевая

гипотеза (null hypothesis) утверждает, что между определенными статистическими параметрами

генеральной совокупности (средними или долями) не существует связи или различия. Ее под-

тверждение не требует от компании каких-либо действий.

Нулевая гипотеза (null hypothesis)

Предположение о том, что между определенными статистическими параметрами генераль-

ной совокупности {средними или долями) не существует связи или различия. Ее подтвер-

ждение не требует от компании каких-либо действий.

Альтернативная гипотеза (alternative hypothesis) — это гипотеза, предполагающая, что между

определенными статистическими параметрами генеральной совокупности (средними или до-

лями) есть связь или различия. Ее подтверждение означает, что руководству компании следует

предпринимать какие-либо действия или менять свои взгляды на положение дел. Таким об-

разом, альтернативная гипотеза противоположна нулевой.

Маркетолог всегда проверяет именно нулевую гипотезу. Она имеет отношение к конкрет-

ному значению параметра совокупности (например, ц, ст, л), а не к выборочным статисти-

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 563

кам (например, X). Проверка гипотез имеет два исхода: нулевая гипотеза отвергается, а аль-

тернативная — принимается, или нулевая гипотеза не отклоняется, исходя из представленных

доказательств. Следовательно, по результатам статистической проверки нулевую гипотезу не

следует принимать, т.е. некорректно заключить, что, поскольку нулевую гипотезу не отклоня-

ют, ее можно принять как истинную. В классической теории проверки гипотез сложно опреде-

лить, достоверность нулевой гипотезы.

Альтернативная гипотеза (alternative hypothesis)

Утверждение о том, что между определенными статистическими параметрами (средними

или долями) генеральной совокупности есть связь или различия. Ее подтверждение означа-

ет, что руководству компании следует предпринимать какие-либо действия или менять свои

взгляды на положение дел.

В маркетинговых исследованиях нулевую гипотезу формулируют так, что ее непринятие

ведет к желаемому заключению. Альтернативная гипотеза представляет заключение, для кото-

рого маркетологи ищут доказательство его справедливости. Например, руководство универмага

хотело бы начать торговлю своими товарами через Internet. Новую услугу введут в действие, ес-

ли свыше 40% пользователей Internet используют сеть для совершения покупок. Маркетолог

записывает гипотезы следующим образом:

Я0:тг<0,40

Я,: п > 0,40

Если нулевую гипотезу Н0 отклоняют, то принимают альтернативную гипотезу Н„ значит,

стоит ввести новую услугу — приобретение товаров через Internet. С другой стороны, если нуле-

вую гипотезу На не отклоняют, то новую услугу не стоит внедрять до тех пор, пока не будет по-

лучено дополнительных доказательств для того, чтобы заняться Internet-торге влей.

В рассматриваемом случае для проверки гипотезы используют односторонний критерий

(one-tailed test), так как альтернативная гипотеза имеет четко выраженное направление: доля

пользователей Internet, которые используют его для приобретения товаров, больше 0,40.

Односторонний критерий (one-tailed test)

Критерий проверки нулевой гипотезы, когда альтернативная гипотеза имеет четкую направ-

ленность.

С другой стороны, предположим, что исследователь хочет определить, действительно ли

доля пользователей Internet, которая осуществляет покупки через сеть, отличается от 40%.

Для этого использует двусторонний критерий (two-tailed test), а гипотезы запишем в следую-

щем виде:

Я0: п =0,400

Я,: я* 0,400

Двусторонний критерий (two-tailed test)

Критерий проверки нулевой гипотезы, когда альтернативная гипотеза не имеет четкой на-

правленности.

В практике маркетинговых исследований односторонний критерий используют чаще,

чем двусторонний. Обычно существует какое-либо предпочтительное направление изме-

ненения характеристик, подлежащее доказательству. Например, чем выше прибыль, объ-

ем продаж и качество продукта, тем это лучше для фирмы. Односторонний критерий

сильнее двустороннего. Мощность статистического критерия обсуждается ниже, при рас-

смотрении этапа 3.

564 Часть III. Сбор, подготовка и анализ данных

Этап 2. Выбор подходящего метода проверки

Для проверки нулевой гипотезы необходимо выбрать подходящий статистический метод

(статистический критерий). Исследователь должен принимать во внимание саму процедуру

вычисления выборочной статистики и характерное для нее выборочное распределение. Выбо-

рочная статистика критерия (test statistic) служит для того, чтобы можно было сделать вывод о

том, насколько близко выборка соответствует нулевой гипотезе.

Выборочная статистика критерия (test statistic)

Мера соответствий выборки нулевой гипотезе. Она часто подчиняется таким распространен-

ным распределениям, как нормальное, Стьюдента (t-распределение) или хи-квадрат рас-

пределение.

Выборочная статистика часто имеет такие широко распространенные распределения, как

нормальное, Стьюдента (^-распределение) или хи-квадрат распределение. Правила выбора под-

ходящего метода проверки обсуждаются ниже. В нашем примере наиболее приемлема z-

статистика, которая имеет нормальное распределение. Она вычисляется по формуле

г~^.

°е

где

Этап 3. Выбор уровня значимости

Какой бы вывод мы ни сделали в отношении изучаемой совокупности, всегда существует

риск неверного заключения. При этом встречаются два типа ошибок.

Ошибку I рода (Type I error) совершают, когда, исходя из результатов выборочного распреде-

ления, отклоняют нулевую гипотезу, в то время как она фактически верна.

Ошибка I рода (Type I error)

Также известная под названием альфа-ошибка, имеет место тогда, когда по результатам

выборочного распределения отклоняют нулевую гипотезу, которая на самом деле верна.

В нашем примере ошибка I рода имела бы место, если мы, исходя из данных выборки, ус-

тановили бы, что доля потребителей, предпочитающих новый вид услуг, больше 0,40 (40%), в

то время как фактически она была бы меньше либо равна 0,40. Вероятность ошибки I рода (а)

также называют уровнем значимости (level of significance).

Уровень значимости (level of significance)

Вероятность ошибки первого рода.

Вероятность ошибки первого рода устанавливается, исходя из допустимого уровняя риска

отклонения истинной нулевой гипотезы. Выбор уровня риска зависит от того, во сколько оце-

нивается ошибка первого рода.

Ошибку II рода (Туре II error) совершают, когда, исходя из результатов выборки, не откло-

няют нулевую гипотезу, которая в действительности является ошибочной. В нашем примере

ошибка II рода имела бы место, если мы, исходя из данных выборки, установили бы, что доля

потребителей, предпочитающих новый вид услуг, меньше или равна 0,40, в то время как фак-

тически она была бы больше 0,40. Вероятность ошибки II рода обозначается р*. В отличие от а,

значение которой устанавливает сам исследователь, величина Р зависит от фактического значе-

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 565

ния параметра генеральной совокупности (например, доли). Вероятность совершения ошибки

I рода (а) и вероятность ошибки II рода (|3) показаны на рис. 15.4. Вероятность (1 - р) соверше-

ния ошибки II рода также называют мощностью статистического критерия.

Критическое значение

статистики z

., = 0,45

zp =-2,330 -|

Рис. 15.4. Ошибка Iрода (а) и ошибка IIрода (&)

Ошибка II рода (Type I error)

Также известна под названием бета-ошибка, имеет место тогда, когда результаты выборки

ведут < принятию нулевой гипотезы, которая фактически ошибочна.

Мощность критерия (power of a test) представляет собой вероятность (1 — |3) отклонения ну-

левой гипотезы, когда она неверна и должна быть отвергнута. Хотя величина (3 неизвестна, она

связана с а. Чрезвычайно низкое значение ее (например, 0,001) приведет к недопустимо высо-

кому значению р. Поэтому необходимо сбалансировать два типа ошибок. В качестве компро-

мисса ее часто устанавливают равной 0,05; иногда ей присваивают значение 0,01; другие значе-

ния а встречаются редко. Уровень а, наряду с размером выборки, определяет уровень Р для

конкретного исследовательского проекта. Риском а и р можно управлять, увеличив размер вы-

борки. Для данного уровня значимости а увеличение размера выборки уменьшит значение Р,

повысив тем самым мощность статистического критерия.

Мощность статистического критерия (power of a test)

Вероятность отклонений нулевой гипотезы, когда она фактически неверна и должна быть

отвергнута.

Этап 4. Сбор данных

Размер выборки определяют, приняв во внимание желаемые значения вероятностей совер-

шения ошибок I и II рода и других количественных факторов, например финансовых ограни-

566 Часть III. Сбор, подготовка и анализ данных

чений. Затем собирают необходимые данные и вычисляют значение выборочной статистики.

В нашем примере из 30 опрошенных пользователей Internet 17 отметили, что они приобретают

товары через Internet. Таким образом, выборочная доля этих пользователей Internet составляет

£ = 17/30 = 0,567.

Значение о> можно определить по следующей формуле:

= 0,089

п \ 30

Выборочную статистику z можно вычислить по формуле:

р-я- 0,567-0.40 _

; =

0,089

Этап 5. Определение критического значения z-статистики

Используя таблицы нормального распределения (табл. 2 Приложения), можно вычислить

вероятность получения значения z, равного 1,88 (рис. 15.5).

Закрашенная область

= 0,9699 Незакрашенная область

= 0,0301

Рис. 15.5. Вероятность получения значения г при использо-

вании одностороннего критерия

Площадь закрашенной области между -°° и 1,88 равна 0,9699. Следовательно, площадь

незакрашенной области справа от 2=1,88 равна 1,0000— 0,9699 = 0,0301. Альтернативно, кри-

тическое значение г, которое отсекает область, имеющую площадь а = 0,05 и расположенную

справа от критического значения, находится между 1,64 и 1,65 и равно 1,645. Обратите внима-

ние, что при определении критического значения выборочной статистики область вправо от

критического значения критерия равна либо а либо а/2. Это значение равно а для односто-

роннего критерия и а/2 — для двустороннего.

Этапы 6 и 7. Сравнение выборочного

значения z-статистики с критическим значением

и принятие решения

Итак, маркетологи выяснили, что вероятность того, что вычисленная ими выборочная ста-

тистика больше 1,88, равна 0,0301. Это вероятность получения значения р, равного 0,567 при

р -0,40. Это число меньше выбранного уровня значимости, равного 0,05. Следовательно, ну-

левая гипотеза отклоняется. Альтернативно исследователи могут поступить следующим обра-

зом. Они видят, что полученное значение z-статистики = 1,88 лежит в области отклонения ну-

левой гипотезы (в критической области), справа от значения 1,645. Поэтому снова можно сде-

лать такой же вывод, т.е. отклонить нулевую гипотезу. Обратите внимание, что два способа

проверки нулевой гипотезы эквивалентны по выводу, но математически отличаются направле-

нием сравнения. Если вероятность получения вычисленного значения выборочной статистики

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 567

(TSC-AL), меньше, чем уровень значимости (а), то нулевую гипотезу отклоняют. Справедливо и

следующее утверждение: если вычисленное значение выборочной статистики больше, чем ее

критическое значение (TSCK), то нулевую гипотезу также отклоняют. Причина этой перемены

знаков в том, что чем больше значение TSCAL, тем меньше вероятность получения высокого

значения выборочной статистики при условии выполнения нулевой гипотезы. Запишем этот в

следующем виде:

если вероятность TSCAI < уровня значимости (а), то нулевую гипотезу Нй отклоняют,

или

если Т5СЛ1> Г5СЛ, то нулевую гипотезу отклоняют.

Этап 8. Вывод с точки зрения маркетингового

исследования

На основании результатов проверки статистической гипотезы следует сделать заключение с

точки зрения стоящей перед нами проблемы маркетингового исследования. В нашем примере

мы заключаем, что существует статистически значимое доказательство того, что доля пользова-

телей Internet, которые приобретают товары через Internet, выше, чем 0,40. Следовательно, уни-

вермагу можно порекомендовать вводить новую услугу — приобретение товаров через Internet.

Как видно из рис. 15.6, маркетологи используют проверку статистической гипотезы как для

проверки наличия связей между переменными, так и для проверки различий между парамет-

рами генеральной совокупности.

Типы

проверки

гипотезы

Г

Проверка

связи

дщСж; ^^^ |^L

Распределения Средние Доли

ПроЕ

раап^

ерка

ичий.

Медианы/Ранги:

Рис. 15.6, Общая классификация типов проверки гипотезы

Проверка различий может относиться к распределениям, средним, долям, медианам или

рангам. Сначала мы обсудим гипотезы, относящиеся к проверке связей с точки зрения

кросс-табуляции.

ПОСТРОЕНИЕ ТАБЛИЦ СОПРЯЖЕННОСТИ

ПРИЗНАКОВ

Помимо ответов на вопросы, относящихся к анализу одной переменной, маркетологов час-

то интересуют дополнительные вопросы о связи этой переменной с другими переменными.

• Как много мужчин среди приверженцев данной торговой марки?

568 Часть III. Сбор, подготовка и анализ данных

• Связано ли использование товара (потребление его в больших, средних, малых коли-

чествах и не потребление) с отдыхом на открытом воздухе (высокая, средняя и низкая

активность)?

• Связана ли осведомленность о новом товаре с возрастом и уровнем образования?

• Связана ли покупка товара с доходом человека (высокий, средний или низкий доход)?

На эти и подобные вопросы можно ответить с помощью таблицы сопряженности призна-

ков. В то время как вариационный ряд характеризует одну переменную, построение таблиц со-

пряженности признаков (кросс-табуляция) (cross-tabulation) помогает увидеть одновременно

значения двух или больше переменных.

Построение таблиц сопряженности признаков, кросс-табуляция (cross-tabulation)

Статистический метод, который одновременно характеризует две или больше переменных и

заключается в создании таблиц сопряженности признаков, отражающих совместное распре-

деление двух или больше переменных с ограниченным числом категорий или определен-

ными значениями.

Кросс-табуляция представляет собой процесс объединения распределений частот значений

двух или больше переменных в одну таблицу. Она объясняет, как одна переменная, например

лояльность торговой марке, связана с другой переменной, такой как пол. В таблицах сопря-

женности признаков показывается совместное распределение значений двух или больше пере-

менных, обладающих ограниченным числом категорий или принимающих определенные зна-

чения. Категории одной переменной помешают в таблицу так, чтобы они размещались в ней

(сопрягались) в соответствии с категориями другой или другими несколькими переменными.

Таким образом, распределение частот одной переменной подразделяется на группы в зависи-

мости от категорий других переменных.

Предположим, нас интересует, действительно ли использование Internet связано с полом.

Чтобы построить таблицу сопряженности признаков, респондентов разделили в зависимости

от того, сколько времени они пользуются сетью. Пользующихся Internet пять часов и меньше

отнесли к мало пользующимся, а остальных — ко много, Итог процедуры кросс-табуляции

приведен в табл. 15.3.

1 Таблица 15.3, Пол и использование Internet

Использование Internet

Мало(1)

Много (2)

Итого

Мужчины

Пол

Женщины

Итого

Кросс-табуляция предусматривает создание ячейки для каждой комбинации категорий

двух переменных. Число в каждой ячейке показывает количество респондентов, давших эту

комбинацию ответов. В табл. 15.3 видим, что 10 респондентов, ответивших, что они мало ис-

пользуют Internet — женщины. Итоговые значения таблицы показывают, что из 30 респонден-

тов с достоверными ответами по обеим переменным 15 человек ответили, что они мало ис-

пользуют Internet, a 15 — много. Что касается пола, то 15 респондентов оказались женщинами,

а 15 — мужчинами. Обратите внимание, что эту информацию можно было бы получить из от-

дельного распределения частот для каждой переменной. Таблицы кросс-табуляции также на-

зывают таблицами сопряженности признаков (contingency tables).

Таблицы сопряженности признаков (contingency tables)

Таблица кросс-табуляции состоит из ячеек, в которых приведены комбинации категорий

двух переменных.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 569

Рассматриваемые данные должны быть качественными или категориальными, по-

скольку предполагается, что каждая переменная должна измеряться только по номиналь-

ной шкале [7].

Таблицами сопряженности широко пользуются при проведении прикладных маркетинго-

вых исследований, поскольку

• менеджеры, которые недостаточно владеют статистическими методами, легко интерпре-

тируют и понимают процедуру кросс-табуляции и ее результаты;

• очевидность трактовки результатов анализа ясно свидетельствует о возможных управ-

ленческих действиях;

• ряд операций кросс-табуляции позволяет лучше понять сложное явление, чем это сде-

лал бы один многовариантный анализ;

• кросс-табуляция облегчает проблему разбросанных ячеек, которая затрудняет дискрет-

ный много вариантный анализ;

• анализ методом кросс-табуляции прост для выполнения и поэтому обращен к исследо-

вателям, менее искушенным в вопросах статистики [8].

Мы рассмотрим построение таблиц сопряженности для двух и трех переменных.

Две переменные

Кросс-табуляцию с двумя переменными можно рассматривать как двумерную. Сначала

рассмотрим кросс-табуляцию данных, касающихся пола и использования Internet, представ-

ленную в табл. 15.3. Связано ли использование Internet с полом? Это можно выяснить из

табл. 15.3. Мы видим, что непропорционально большое количество респондентов, проводя-

ших много времени в Internet, — мужчины. Лучше понять этот вопрос поможет процентное

вычисление.

Исходя из того, что обе переменные подвергаются процедуре кросс-табуляции, мы можем

посчитать проценты применительно к колонке (табл. 15.4) либо к строке (табл, 15.5).

Таблица 15.4. Использование Internet в зависимости от пола

Пол

Использование Internet Мужчины Женщины

Мало 33,3% 66,7%

Много 66,7% 33,3%

Итого 100,0% 100,0%

Таблица 15.5. Пол человека в зависимости от использования Internet

Использование Internet

Поп Мало Много Итого

Мужчины 33,3% 66,7% 100,0%

Женщины 66,6% 33,3% 100,0%

Какая из этих двух таблиц полезнее? Ответ на данный вопрос зависит от того, какая пере-

менная рассматривается как независимая, а какая как зависимая [9]. Общее правило, которое

необходимо соблюдать, гласит —проценты необходимо вычислять для каждой категории неза-

висимой переменной (так, чтобы суммарное значение категорий зависимой переменной при-

менительно к каждой категории независимой переменной давало 100%). В нашем анализе пол

можно рассматривать как независимую переменную, использование Internet — как зависимую,

570 Часть III. Сбор, подготовка и анализ данных

а правильный способ вычисления процентов показан в табл. 15.4. Заметим, что мужчины

больше используют Internet, чем женщины. Это видно из того, что 66,7%, активно пользую-

щихся Internet, составляют мужчины, тогда как на долю женщин в этой категории приходится

всего лишь 33,3%.

Вычисление процентов в направлении зависимой переменной через независимую, как по-

казано в табл. 15.5, бессмысленно. Табл. 15.5 подразумевает, что интенсивное пользование

Internet — причина того, что такими людьми являются мужчины. Это последнее утверждение

неправдоподобно. Однако, возможно, что связь между пользованием Internet и полом человека

опосредована третьей переменной, например возрастом или доходом. Поэтому необходимо

проверить влияние третьей переменной.

Три переменные

Часто введение третьей переменной позволяет маркетологу четче уяснить природу исходной

связи между двумя переменными. Как показано на рис. 15.7, третья переменная может привес-

ти к четырем возможностям.

1. Уточнить связь, наблюдаемую между двумя исходными переменными.

2. Указать на отсутствие связи между двумя переменными, хотя первоначально связь наблю-

далась, Другими словами, третья переменная покажет, что исходная связь между двумя пе-

ременными была ложной.

3. Показать некоторую связь между двумя переменными, хотя первоначально она не наблю-

далась. В этом случае третья переменная показывает скрытую связь между первыми двумя

переменными.

4. Не показать никаких изменений в первоначальной связи [10].

Две исходные переменные

Отсутствие связи

Уточненная

связь между двумя

Отсутствие связи между

\ \

Исходная структура

Рис. 15.7. Введение третьей переменной в кросс-табуляцию

Эти возможности объясняются на примерах, в основе которых лежит выборка в тысячу рес-

пондентов.

Уточнение исходной связи. В результате изучения связи между покупкой модной одежды и

семейным положением получены данные, приведенные в табл. 15.6.

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 571

Таблица 15.6. Покупка модной одежды в зависимости от семейного положения

Семейное положение

Покупка модной одежды Женат (замужем) Не женат (не замужем)

Много

Мало

Итого

Число респондентов

31%

69%

100%

52%

48%

100%

Респондентов поделили на две категории покупателей модной одежды: много покупающие

и мало покупающие. Семейное положение тоже имело две категории: женат (замужем) либо не

женат (не замужем). Как видно из табл. 15.6, в категорию лиц, покупающих много модной

одежды, попали 52% несемейных респондентов и только 31% семейных. Перед тем как заклю-

чить, что респонденты, не имеющие семьи, покупают больше модной одежды, чем имеющие

семью, в анализ была введена третья переменная — пол.

'^^^^•^•••••^••••••^•••••••••••••••^Н Таблица 15.7. Связь покупки модной одежды с семейным положением

Покупка модной одежды

Много

Мало

Итого

Число респондентов

Женат

35%

65%

100%

Мужской

Не женат

40%

60%

!00%

Пол

Замужем

25%

75%

100%

Женский

Не замужем

60%

40%

100%

Пол респондентов вводился в качестве третьей переменной на основании результатов

предшествующего маркетингового исследования. Связь между покупкой модной одежды и се-

мейным положением пересмотрена в свете третьей переменной, как показано в табл. 15.7. Что

касается женщин, то из них 60% незамужних попали в категорию покупающих больше модной

одежды по сравнению с 25% замужних женщин, С другой стороны, для мужчин эта разница в

процентах не так велика: 40% холостых и 35% женатых попали в категорию покупателей, при-

обретающих много модной одежды. Следовательно, третья переменная, уточнила связь между

семейным положением и покупкой модной одежды (начальными переменными). Вероятность

попадания в категорию покупателей, приобретающих много модной одежды, выше для несе-

мейных респондентов по сравнению с семейными, причем она выше для женщин.

Исходная связь между двумя переменными ложна. Маркетолог проводит исследование для

рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч

долларов. Он попытался проанализировать факторы, влияющие на владение дорогими автомо-

билями (табл. 15.8).

Таблица 15.8. Зависимость владения дорогами автомобилями от образовательного уровня

Наличие дорогого автомобиля Выпускник колледжа

Образование

Без степени колледжа

Да

Нет

Итого

Число респондентов

32%

68%

100%

21%

79%

100%

572 Часть 111. Сбор, подготовка и анализ данных

Из таблицы видно, что 32% выпускников колледжа имеют дорогой автомобиль, в то время

как среди не окончивших колледж дорогим автомобилем владеют только 21%. Исследователь

убежден, что уровень образования влияет на приобретение дорогого автомобиля. Решив, что на

его покупку влияет и доход, исследователь перепроверил связь между образованием и наличи-

ем дорогого автомобиля в свете уровня доходов. Результаты приведены в табл. 15.9.

„Таблица 15.9 Влияние образования и уровня дохода на наличие дорогого автомобиля

Доход

Низкий Высокий

Наличие дорогого автомобиля Образование Образованно

Колледж Нет Колледж Нет

Да

Нет

Итого:

Число респондентов

20%

80%

100%

20%

80%

100%

4D:-b

60%

100%

40%

60%

100%

Заметим, что процент тех, кто имеют дорогой автомобиль, среди окончивших колледж или

не окончивших его одинаков для каждой из групп, разбитых по доходу. Если данные по груп-

пам с высокими и низкими доходами проверить отдельно, то связь между образованием и на-

личием дорогого автомобиля исчезает, а это значит, что первоначально наблюдаемая связь ме-

жду этими двумя переменными была ложной.

Третья переменная показывает подавленную связь между первыми двумя переменными.

Маркетолог, исследуюший сферу туристических поездок за границу, предположил, что на же-

лание путешествовать влияет возраст. Однако таблица сопряженности двух переменных

(табл. 15.10) не выявила никакой связи. Когда в качестве третьей переменной ввели пол, полу-

чили данные, представленные втабл. 15.11.

I Таблица 15,10. Зависимость желания совершить туристическую поездку за границу от;

возраста

Возраст

Желание совершить туристическую поездку за границу До 45 лет 45 и старше

Да 50% 50%

Нет. 50% 50%

Итого 100% 100%

Число респондентов 500 500

| Таблица 15.11. Связь между желанием совершить туристическую поездку за границу,

| возрастом и полом

Пол

Желание совершить путешествие за границу Мужчины Женщины

До 45 лет 45 и старше До 45 лет 45 и старше

Да

Нет

Итого

Число респондентов

60%

40%

100%

40%

60%

100%

35%

65%

100%

65%

35%

100%

Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез 573

Среди мужчин до 45 лет 60% изъявили желание отправиться в турпоездку заграницу, а по-

сле 45 лет — всего лишь 40%. Обратная ситуация наблюдалась для женщин: в возрасте до 45 лет

желающих отправиться посмотреть мир оказалось 35%, а после 45 лет — 65%. Поскольку связь

между желанием путешествовать и возрастом различна для мужчин и женшин и с противопо-

ложной направленностью, связь между этими двумя переменными была скрыта, пока данные

не учитывали переменную "пол", как это сделано в табл. 15.10. Но при проверке влияния пола,

как показано в табл. 15.11, проигнорированная связь между желанием путешествовать и воз-

растом была обнаружена для отдельных категорий: мужчин и женшин.

Никаких изменении в первоначальной связи. В некоторых случаях третья переменная не из-

меняет первоначально наблюдаемую связь, независимо от того, были ли исходные переменные

взаимосвязаны. Это означает, что третья переменная никак не влияет на связь между двумя

первыми переменными. Рассмотрим кросс-табуляцию двух переменных: размер семьи и часто-

ту посещения ресторанов быстрого питания, представленную в табл. 15.12.

Таблица 15.12. Связь частоты посещения ресторанов быстрого питания с размером


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.256 сек.)