Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Глава 14. Подготовка данных к анализу

Читайте также:

После изучения материала этой главы вы должны уметь...

1. Описать суть и этапы подготовки к анализу данных, собранных в результате маркетингово-

го исследования.

2. Объяснить, как ведется проверка и редактирование анкет, и описать суть работы с неудов-

летворительными ответами с помощью повторных полевых работ, присвоения пропущен-

ных значений и отсеивания неудовлетворительных ответов.

3. Перечислить основные рекомендации относительно кодирования анкет, содержащих

структурированные и неструктурированные ответы.

4. Обсудить процесс "очищения" данных и методы, используемые для работы с пропущен-

ными ответами: замена их нейтральными значениями, использование вмененных ответов,

исключение наблюдения целиком и попарное исключение переменных.

5. Дать определение причин и описать методы статистической корректировки данных: умно-

жение на весовой коэффициент, переопределение переменной и преобразование шкалы.

6. Описать процедуру выбора стратегии анализа данных и назвать факторы, влияющие на это

решение.

7. Описать классификацию основных статистических методов, уметь подробно классифици-

ровать одномерные и многомерные методы статистического анализа.

8. Понимать суть внутри культурного, пан культурного и межкультурного подходов к анализу

данных в процессе выполнения международных маркетинговых исследований.

9. Дать определение этическим проблемам, связанным с обработкой данных, особенно с про-

цессом отбраковки неудовлетворительных ответов, нарушением предположений, лежащих

в основе различных методов анализа данных, оценкой и интерпретацией результатов иссле-

дования.

10. Описать использование Internet и компьютеров при подготовке данных к анализу и в ходе

самого анализа.

КРАТКИЙ ОБЗОР

Определив проблему маркетингового исследования и разработав наиболее подходящий под-

ход к ее решению (глава 2), нужно составить соответствующий план проведения исследования

(главы 3—12). Затем следует этап, на котором проводится сбор данных (полевые работы) (глава 13),

завершив который, исследователь может перейти к подготовке данных и их анализу. Эта деятель-

ность составляет пятый этап маркетинговых исследований. Перед тем как передать исходные

данные, содержащиеся в анкетах, для статистического анализа, их необходимо преобразовать в

подходящую для анализа форму. Качество статистических результатов напрямую зависит от того,

насколько тщательно и аккуратно данные готовились к анализу. Недостаточное внимание к этой

деятельности может серьезно исказить статистические выводы, что, в свою очередь, ведет к непра-

вильной интерпретации данных всего маркетингового исследования.

В этой главе описывается процесс сбора данных, который начинается с проверки полноты

заполнения анкет. Затем мы обсудим вопросы редактирования данных и дадим общие реко-

мендации относительно того, как работать с нечитабельными, неполными, непоследователь-

ными, неоднозначными и прочими ответами неудовлетворительного качества. Мы также

Глава 14. Подготовка данных к анализу 519

опишем процедуры кодирования, преобразования и "очистки" данных и при этом уделим осо-

бое внимание работе с пропущенными ответами и вопросам статистической корректировки

данных. В этой главе также обсуждаются проблемы выбора стратегии анализа собранных дан-

ных и рассказывается о классификации статистических методов. Кроме того, вы найдете опи-

сание различных принципов подхода к анализу данных, применяемых в процессе междуна-

родных маркетинговых исследований: внутри культурные, панкультурные и межкультурные

подходы. Здесь также описываются этические вопросы, связанные с обработкой данных, и осо-

бое внимание уделяется отбраковке (отсеиванию из анализа) неудовлетворительных ответов,

проблемам нарушения предположений, лежащих в основе выбранного метода анализа, а также

оценке и интерпретации полученных результатов. И наконец, в этой главе обсуждается роль

Internet и компьютеров в процессе подготовки и анализа собранных данных.

Начнем с ряда примеров, связанных с подготовкой данных.

ПРИМЕР. Обычное "очищение" данных

По данным корпорации Joann Harristhal of Custom Research, Inc., заполненные анкеты, по-

ступившие с мест сбора данных, зачастую содержат множество мелких ошибок, и происхо-

дит это вследствие неодинакового качества проведения опросов. Например, нередко ответы

не обводятся кружком либо не совсем точно выдерживаются шаблоны пропусков.

Такие, казалось бы, безобидные ошибки обходятся очень дорого. Учитывая это, при вво-

де ответов из анкет в память компьютера специалисты Custom Research запускают специаль-

ную "чистящую" программу для проверки полноты и правильности их заполнения. Расхо-

ждения обычно выявляются в распечатках в процессе их проверки контролером, в обязанно-

сти которого входит составление сводных таблиц. При обнаружении ошибки проводятся

определенные корректирующие мероприятия, и только после этого данные направляются на

анализ. По мнению специалистов из Custom Research, такая процедура значительно повыша-

ет качество результатов статистического анализа [1].

СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

Подготовка данных к анализу

В ходе реачизации проекта "Выбор универмага" информация собиралась в ходе личных ин-

тервью с респондентами на дому. Анкеты после их сдачи интервьюерами редактировались

бригадирами, тщательно проверялись на наличие неполных и логически непоследователь-

ных ответов или лишней информации. Анкеты с неудовлетворительными ответами возвра-

щались на места сбора данных (в "поле"), и интервьюеры еще раз встречались с указанными

респондентами, чтобы получить всю необходимую информацию. В результате девять анкет

все же были отсеяны из анализа, поскольку доля ответов неудовлетворительного качества в

них была очень велика. В итоге размер финальной выборки составил 271 анкету.

Для кодирования анкет была разработана кодовая книга. Кодирование довольно простое,

поскольку в анкете не было открытых вопросов, Затем данные вводились в память компью-

тера, после чего около 25% введенного объема информации проверялось на наличие ошибок

ввода с клавиатуры. Данные были "подчищены" путем выявления и отсеивания ответов,

выпадающих из определенного диапазона, и логически непоследовательных ответов. По-

давляющая часть рейтинговой информации собиралась с использованием шестибалльной

шкалы, поэтому ответы 0, 7 и 8 считались выходящими за пределы диапазона, а код 9 при-

сваивался пропущенным ответам.

Все пропущенные ответы отсеивались по методу исключения объекта целиком, в соотвстст- |

вии с которым анкеты, в которых было пропущено хотя бы одно значение, в анализ не I

включались. Такой способ исключения выбран потому, что количество наблюдений с про- \

пущенными переменными было незначительным, а размер выборки достаточно велик. I

I В процессе статистической корректировки данных вместо категориальных переменных бы-

| ли подставлены заменители. Кроме того, новые переменные выводились на основе исход- |

520 Часть lit. Сбор, подготовка и анализ данных

ных. Так, в результате суммирования рейтинговых оценок степени ознакомления респон-

дентов с десятью универмагами был вычислен коэффициент степени ознакомления и раз- [

работана стратегия анализа данных.

Описанный выше пример отражает разные стадии процесса подготовки данных к анализу.

Обратите внимание на то, что этот процесс начинается, когда работа по сбору данных на местах

еще продолжается. Приведенный выше пример, описывающий опыт компании Custom Research,

свидетельствует об огромной важности процедуры "очищения" данных, выявления ошибок и

корректировочных мероприятий перед тем, как приступить к анализу собранных данных.

Подготовка

предварительного

плана проведения

анализа данных.

Проверка анкет

Редактирование

ПРОЦЕСС ПОДГОТОВКИ ДАННЫХ К АНАЛИЗУ

Наглядное отображение процесса подготовки данных к анализу представлено на рис. 14.1.

Весь этот процесс определяется предварительно подготовленным планом анализа данных, ко-

торый составляется еще в ходе разработки всего плана маркетингово-

го исследования (см. главу 3). Первым его этапом выступает про-

верка пригодности анкет, Затем наступает черед редактирования,

кодирования и переноса данных. Данные очищаются и при необ-

ходимости проводится работа с пропущенными данными, Часто

необходимо также провести статистическую корректировку ин-

формации для того, что бы сделать ее репрезентативной для гене-

ральной совокупности. Затем исследователю необходимо выбрать

подходящую стратегию анализа данных.

Подготовка данных должна начинаться сразу же после того, как

станут доступными первые анкеты, в то время как полевые работы

еще продолжаются. Поэтому, если возникнут проблемы, ход полевых

работ можно скорректировать в нужном направлении.

ПРОВЕРКА АНКЕТ

Первый этап проверки анкет заключается в их проверке на пол-

ноту заполнения и качество интервьюирования. Зачастую этот про-

цесс ведется параллельно с полевыми работами. Следует отметить,

что если эта процедура выполняется по контракту специализирован-

ным агентством, исследователь обязан провести независимую про-

верку после ее завершения. Анкеты, поступившие с мест сбора дан-

ных, могут быть не приняты по следующим причинам.

1. Не заполнены отдельные части анкеты.

2. Представленные ответы свидетельствует о том, что респондент не

понял вопросов либо не точно следовал инструкциям по запол-

нению анкеты. Например, не был соблюден шаблон пропусков

ответов.

3. Ответы варьируются очень незначительно или не варьируются

вовсе, например, респондент пометил одни четверки в серии се-

мибалльных рейтинговых шкал.

4. Возвращенная анкета является неполной — отсутствует одна или

несколько страниц.

5. Анкета получена по истечении заранее определенного срока сдачи.

6. Ответы в анкете даны респондентом, не входящим в группу, выделенную для участия в ис

следовании.

Статистическая

корректировка данных

Рис. 14. ]. Процесс подго-

товки данных к анализу

Глава 14. Подготовка данных к анализу 521

Если были определены конкретные квоты респондентов либо назначены размеры ячеечных

групп, все принятые анкеты необходимо соответствующим образом классифицировать и подсчи-

тать. Любые проблемы, связанные с выполнением требований, предъявляемых к выборкам,

должны выявляться своевременно, и необходимые корректировочные мероприятия, например,

дополнительные интервью в ячейках, представленных по результатам опроса недостаточно полно,

следует провести перед тем, как приступать к редактированию данных.

РЕДАКТИРОВАНИЕ ДАННЫХ

Процесс редактирования (editing) заключается в обработке собранных анкет для повышения

точности и аккуратности представленных в них данных. Он заключается в просмотре анкет, в

ходе которого выявляются нечитабельные, неполные, логически непоследовательные или не-

однозначные ответы.

Редактирование (editing)

Обработка анкет, повышающая точность и аккуратность представленной в них информации.

Если ответы неаккуратно и небрежно записаны, они могут быть неразборчивыми. Такая

ситуация более типична для анкет, содержащих много неструктурированных вопросов. Чтобы

правильно закодировать данные, они должны быть читабельными. Кроме того, анкеты бывают

в разной степени не до конца заполнены. Они могут содержать несколько или множество во-

просов без ответов.

На этапе редактирования исследователь проводит предварительную проверку анкет на

предмет логической непоследовательности представленных в них ответов. Существует ряд яв-

ных несоответствий, выявить которые не составляет большого труда. Так, возможна ситуация,

когда респондент сообщает, что его годовой доход составляет не больше 20 тысяч долларов, но

при этом указывает, что является постоянным покупателем таких престижных универмагов,

как Saks Fifth Avenue или Neiman-Marcus.

Ответы на неструктурированные вопросы могут быть неоднозначными, в результате их

сложно точно интерпретировать. Бывает, что ответ респондента записан сокращенно либо при

его записи использованы слова, имеющие несколько смысловых значений. Даже если вопросы

структурированы, нередки ситуации, когда респондент помечает больше одного варианта отве-

та на вопрос, по которому необходимо дать однозначный ответ. Предположим, респондент по-

мечает пункты 2 и 3 по пятизначной рейтинговой шкале. Как следует расценивать такой ответ:

что он имел в виду значение 2,5? В таком случае дело осложняется еще тем, что в процедуре ко-

дирования используются только целые числа.

Работа с ответами неудовлетворительного качества

При получении анкет, содержащих ответы неудовлетворительного качества, их обычно от-

правляют обратно на места сбора данных для уточнения, либо назначаются пропущенные зна-

чения, либо такие анкеты отбраковываются и не включаются в анализ.

Возврат анкет на место сбора данных. Анкеты, содержащие неудовлетворительные резуль-

таты опроса, возвращаются на места сбора данных, и интервьюеров обязуют провести повтор-

ное интервью. Такой вариант обычно применяется при проведении промышленных маркетин-

говых исследований, для которых характерны выборки небольших размеров и идентифициро-

вать респондентов, предоставивших ответы низкого качества, не составляет большого труда.

Однако данные, полученные в результате вторичного опроса, могут сильно отличаться от пер-

воначальных. Эта разница обуславливается, например, тем, что между опросами прошло опре-

деленное время, а также тем, что опросы проводились с использованием разных режимов

(например, первый раз по телефону, а второй — в ходе личного контакта).

Назначение пропущенных значений. Если возвращение анкеты на место сбора данных при-

знано экономически нецелесообразным, редактор может самостоятельно присвоить неудовле-

522 Часть III. Сбор, подготовка и анализ данных

творительным откликам пропущенные значения. Рекомендуется применять этот метод в сле-

дующих случаях: если количество респондентов, ответы которых признаны неудовлетвори-

тельными, невелико; доля ответов неудовлетворительного качества в ответах каждого респон-

дента незначительна; переменные по неудовлетворительным ответам не основные.

Отсеивание анкет респондентов, содержащих ответы неудовлетворительного качества.

При этом методе респонденты, предоставившие ответы неудовлетворительного качества, про-

сто отбраковываются и их анкеты не включаются в анализ. Данный способ эффективен в сле-

дующих случаях: если доля "неудовлетворительных" респондентов невелика (меньше 10%); ес-

ли размер выборки велик; если "неудовлетворительные" респонденты явно не отличаются от

"удовлетворительных" (например, по демографическому признаку или основным характери-

стикам использования товара); если доля неудовлетворительных откликов на каждого респон-

дента велика; если пропущены ответы по основным переменным. Однако бывают ситуации,

когда "неудовлетворительные" респонденты отличаются от "удовлетворительных" либо реше-

ние признать респондента "неудовлетворительным" предельно субъективно. В этих случаях

использование данного метода повлечет за собой искажение данных. Если исследователь при-

нимает решение отбраковать неудовлетворительные ответы того или иного респондента, он

должен отчитаться, на основе какой именно процедуры он идентифицировал данного респон-

дента. Это подтверждается следующим примером.

ПРИМЕР. Отсеивание респондента из анализа

В процессе межкультурного исследования поведения менеджеров по маркетингу в ряде

англоязычных африканских стран разослали анкеты в 565 фирм. Возвращено было 192 за-

полненные анкеты, из которых четыре сразу отбраковали, поскольку респонденты ответили,

что они не несут непосредственной ответственности за принятие решений общего характера

в маркетинге. Решение об отсеивании этих четырех анкет приняли на том основании, что

размер выборки был достаточно велик, а доля "неудовлетворительных" респондентов незна-

чительна [2].

КОДИРОВАНИЕ

Процедура кодирования (coding) заключается в присваивании кода, обычно цифрового, ка-

ждому возможному варианту ответа по каждому вопросу.

Кодирование (coding)

Процедура присвоения кода конкретному ответу на конкретный вопрос. Информация, полу-

ченная в результате исследования и образующая код, распределяется по столбцам.

Код включает указание на положение столбцов (полей) и информации, которая в них со-

держится. Так, пол респондентов может кодироваться следующим образом: 1 — для женщин и

2— для мужчин. Поле отображает единичный элемент данных, например пол респондента.

Запись состоит из ряда соответствующих полей: пол, семейное положение, возраст, состав се-

мьи, занятие респондента и т.д. Все демографические и личностные характеристики респон-

дента, как правило, содержатся в одной регистрационной записи. Обычно каждая запись со-

стоит из 80 столбцов, хотя это и не обязательное условие. На одного респондента можно завести

несколько записей.

Данные (т.е. все записи) по всем респондентам хранятся в компьютерном файле, пример

которого вы видите в табл. 14.1. Столбцы представляют собой поля, а строки — записи.

В табл. 14.1 представлены фрагменты закодированных данных по респондентам, опрошенным

в ходе реализации уже привычного нам проекта "Выбор универмага".

Все данные соответствуют схеме кодирования, изображенной на рис. 14.2.

Глава 14. Подготовка данных к анализу 523

Таблица 14.1. Демонстрационный компьютерный файл из проекта "Выбор универмага"

Поля

Номера столбцов

Записи 1-3 4 5-6 7-8... 96. 3S 77

Запись №1 001 1 31

Запись №11 002 1 31

Запись №21 003 1 31

Запись №31 004 1 31

Запись №2701 271 1 31

01 6544234553

01 5564435433

01 4655243324

01 5463244645

55 6652354435

Номер

столбца

1-3

••

5,6

7-8

9-14

15-20

21-22

23-24

'•'•:

46-47

78-80

Номер

переменной

Название переменной

Идентификационные данные о рес-

понденте

Номер записи

Код проекта

Код интервью

Код даты

Код времени

Проверочный код

Пробел

Кто ходит за покупками

Степень знакомства с магазином 1

Степень знакомства с магазином 2

Степень знакомства с магазином 3

Степень знакомства с магазином 10

Частота: магазин 1

Частота: магазин 2

Частота: магазин '10

Пробел

Рейтинг магазина 1: качество

Рейтинг магазина 10: качество

Рейтинг магазина 1: разнообразие

Рейтинг магазина 10: разнообразие

Рейтинг магазина 1: цены

Рейтинг магазина 10: цены

Пробел

Номер Инструкции кодирования

вопроса

Номера от 001 до 890. При необходимо-

сти добавьте перед числом ноль

1 (Одинаково для всех респондентов)

31 (Одинаково для всех респондентов)

Как указано в анкете

Не заполняйте эти столбцы

1 Мужчины — 1

Женщины — 2

Прочее — 3

Введите обведенный номер

Пропущенные значения — 9

На По вопросам a-j вопроса II введите об-

веденные номера

lib Не очень знаком — 1

Очень знаком — 6

Пропущенные значения — 9

Не

III

Ilia По вопросам a-j вопроса III введите об-

веденные номера

Illb Никогда— 1

Очень часто — 6

Пропущенные значения — 9

IHJ

Не заполняйте эти столбцы

IVa Для вопросов IV-XI введите обведен-

ные номера

IVa

IVb

IVc

He заполняйте эти столбцы

Рис. 14.2. Фрагмент кодировочной книги, содержащий информацию по первой записи Й/w проекта

"Выбор универмага "

524 Часть III. Сбор, подготовка и анализ данных

Столбцы 1—3 представляют собой одно поле, и в них указаны номера респондентов, за-

кодированные номерами от 001 до 271. Столбец 4 содержит номер записи. В нем проставлено

значение 1 для всех строк, поскольку в нашем примере отображается только первая запись по

всем респондентам. В столбцах 5 и 6 содержится код проекта, 31. В столбцах 7 и 8 указывает-

ся код интервьюера от 01 до 55, поскольку в данном опросе задействовано 55 интервьюеров.

Колонки 26—35, каждая из которых представляет определенное поле, содержат рейтинговую

оценку (от 1 до 6) степени ознакомления респондентов с 10 универмагами, вошедшими в ис-

следование. И наконец, столбец 77 отображает рейтинговую оценку цен универмага №10.

Обратите внимание, что столбцы 78 и 80 не заполнены. По каждому респондент)' представ-

лено 10 записей. Количество строк составляет 2710, что указывает на то, что в данном файле

содержится информация, полученная от 271 респондента.

Если анкета включает только структурированные вопросы или очень незначительное коли-

чество неструктурированных вопросов, она кодируется заранее. Это означает, что коды при-

сваиваются, прежде чем начинается непосредственная полевая работа. Если же в анкете содер-

жатся в основном неструктурированные вопросы, коды присваиваются уже после того, как за-

полненные анкеты возвращаются с места сбора данных (так называемое посткодирование) [3].

Предварительное кодирование кратко обсуждалось в главе 10, посвященной описанию струк-

туры анкет. Ниже вашему вниманию представлены дальнейшие основные рекомендации по

этой процедуре [4].

Кодирование вопросов

Код респондента и номер записи необходимо указывать для каждой записи данных. Сле-

дует также включать дополнительные коды для каждого респондента: код проекта, код ин-

тервьюера, код даты и времени, проверочный код. Настоятельно рекомендуется также ис-

пользовать фиксированные коды полей (fixed field code), в которых номер записей по каждому

респонденту одинаков, и в одних и тех же колонках по всем респондентам указываются одни

и те же данные.

Фиксированный код поля (fixed field code)

Код, в котором номер записей по каждому респонденту кодируется одним и тем же номе-

ром, в одних и тех же столбцах по всем респондентам указываются одни и те же данные.

Если это возможно, по всем пропущенным данным следует использовать стандартные ко-

ды, Так, переменную, указываемую в одном столбце, можно закодировать №9; для перемен-

ной, указываемой в двух столбцах, назначить код 99 и т.д. Следует помнить, что коды пропу-

щенных значений должны отличаться от кодов, присвоенных ответам, полученным надлежа-

щим способом в ходе опроса.

Кодирование структурированных вопросов — относительно простая процедура, поскольку в

этом случае варианты ответов определяются заранее. Исследователь присваивает каждому воз-

можному варианту ответа код и указывает соответствующую запись и столбец, в который эти

коды будут введены. Например:

1. Действителен ли на сегодня ваш паспорт?

Да 2. Нет (2/54)

Ответ "Да" на этот вопрос закодирован кодом 1, а ответ "Нет" — кодом 2. Числа в скобках

говорят о том, что данный присвоенный код указывается во второй записи по данному респон-

денту в столбце 54. Поскольку вопрос предусматривает только один ответ и на выбор предло-

жено всего два варианта (1 или 2), одного столбца достаточно. Как правило, одного столбца бы-

вает достаточно для кодирования любого структурированного вопроса, предполагающего один

вариант ответа, если на выбор предлагается меньше девяти вариантов ответов.

Если же существует большое количество вариантов ответов, для каждого возможного

варианта следует выделить отдельный столбец. К таким вопросам относятся, например,

Глава 14. Подготовка данных к анализу 525

вопросы об использовании торговой марки, о читательских и зрительских предпочтениях

респондентов и т.д. Например:

Вопрос: Какие счета вы имеете в данном банке?(Пометить крестиком все варианты ответа)

Запись №9

Обычный сберегательный счет D (62)

Обычный текущий счет D (63)

Ипотечный (64)

Счет НАУ П (65)

Клубный счет (рождественский и т.д.) D (66)

Кредитная линия П (67)

Срочный сберегательный счет (срочные депозиты и т.д.) (68)

Страхование жизни в сберегательном банке П (69)

Заем на усовершенствование жилища D (70)

Заем на приобретение автомобиля (71)

Другие услуги (72)

Для примера представим, что респондент помечает обычный сберегательный, текущий и

срочный сберегательный счета. Таким образом, в записи №9 в столбцах 62, 63 и 68 введен код 1.

Во всех остальных столбцах (64, 65, 66, 67, 69, 70, 71 и 72) проставляется код 0.

Кодирование неструктурированных вопросов или вопросов, допускающих несколько ва-

риантов ответа, представляет более сложную задачу. Сначала ответы респондентов дословно

записываются в анкету. Затем для них разрабатываются коды, которые и присваиваются

конкретным ответам. Иногда, основываясь на предыдущих проектах или на теоретических

предпосылках, маркетолог может разработать коды еще до начала работы по сбору данных.

Однако обычно к этой процедуре приступают только тогда, когда получены заполненные

анкеты. После этого исследователь составляет список, включающий 50-100 наиболее частых

вариантов ответов на неструктурированные вопросы, и определяет категории, подлежащие

кодированию. После того как коды разработаны, необходимо подготовить кодировщика, ко-

торый будет присваивать записанным в словарной форме ответам соответствующие коды.

Обычно при кодировании неструктурированных вопросов и анкет вообще рекомендуется

выполнять следующие правила [5].

Коды категорий должны быть взаимоисключающими и взаимоисчерпываюшими. Катего-

рии считаются взаимоисключающими, если каждому ответу присваивается только один код.

Категории не должны перекрывать одна другую. Категории считаются взаимоисчерпывающи-

ми, если каждый ответ соответствует одному из кодов, присвоенных данной категории. Этого

можно достичь введением дополнительного кода категории, например "другое" или "ни один

из предложенных вариантов". Однако следует помнить, что в эту категорию должна войти

только незначительная часть ответов (не больше 10%). Подавляющая часть ответов должна от-

носиться к значимым категориям.

По наиболее важным вопросам коды категорий должны присваиваться даже в том случае,

если они не упоминались ни одним из респондентов. Иногда важно знать именно то, что ни-

кто из отвечающих не дал тот или иной вариант ответа. Представим, например, что руководство

одной крупной компании, выпускающей потребительские товары, решило выяснить, нравится

ли потребителям упаковка новой марки мыла. С этой целью при кодировании вариантов отве-

тов на вопрос "Что вам больше всего не нравится в этой марке мыла?" была включена отдель-

ная категория "упаковка". Данные кодируются для того, чтобы сохранить как можно больше

деталей ответов. Например, собрав данные о частоте перелетов, совершаемых бизнесменами с

использованием конкретных коммерческих авиалиний, необходимо закодировать ее подробно,

а не просто сгруппировать по двум кодам категорий — "летаю часто" и "летаю нечасто". Эти

данные по частоте перелетов позволят исследователю впоследствии разграничить категории

бизнесменов-путешественников несколькими разными способами. Если же категории опреде-

лены заранее, последующий анализ данных ограничится только этими категориями.

526 Часть III. Обор, подготовка и анализ данных

Кодировочная книга

Кодировочная книга (codebook) содержит инструкции по кодированию, а также необходи-

мую информацию о переменных, используемых в конкретном наборе данных.

Кодировочная книга (codebook)

Книга, содержащая инструкции по кодированию и необходимую информацию о перемен-

ных, используемых в конкретном наборе данных.

Кодировочная книга применяется как руководство для кодировщика и помогает исследова-

телю правильно определять и располагать переменные. Даже если анкета закодирована заранее,

следует подготовить формальную кодировочную книгу. Кодировочная книга обычно включает

следующую информацию: номер столбца, номер записи, номер переменной, название пере-

менной, номер ответа, инструкции по кодированию. На рис. 14.2 изображен фрагмент из ко-

дировочной книги, разработанной для проекта "Выбор универмага".

Кодирование анкет

На рис. 14.3 приведен пример кодирования анкеты. На нем изображена часть закодирован-

ной анкеты, которая использовалась в ходе реализации проекта "Выбор универмага".

И наконец, в этой части нашей анкеты мы просим вас дать определенную информацию о себе,

которая необходима нам для выполнения классификации

Часть D Запись№7

1. Ответы на вопросы данной анкеты предоставлены (29)

1. Мужчиной-главой семьи

2. Женщиной-главой семьи

3. Совместно мужчиной и женщиной

2. Семейное положение (30)

1. Замужем (женат)

2. Никогда не была замужем (женат)

3. Разведен(а)/Живетотдельно/Вдов(а)

3. Укажите общее количество членов семьи, живущих с вами в одном доме (31—32)

4. Укажите количество детей, живущих с вами

a) Младше 6 лет (33)

b) Старше 6 лет _ (34)

5. Укажите количество детей, живущих отдельно (35)

6. Обведите кружком общее количество лет учебы (если таковой имеется, ука-

жите эти же данные по своему супругу)

Средняя Незаконченное Законченное высшее

школа высшее образование образование

a) Вы 8 или меньше 9 10 13141516 17 18 19 2021 22 или (36-37)

1112 больше

b) Супруг (а) 8 или меньше 9 10 13141516 17 18 19 20 21 22 или (38-39)

11 12 больше

7. а) Укажите свой возраст (40—41)

Ь) Укажите возраст супруга (супруги) (42—43)

8. Если работаете, укажите род деятельности обоих супругов, пометив все необ-

ходимые категории

44 45

Мужчина Женщина

1. Профессионально-техническая

2. Менеджмент и управление _ ____

Глава 14. Подготовка данных к анализу 527

3. Торговый работник

4. Офисная или подобная работа

5. Рабочий/оператор

6. Работник на дому

7. Прочее (пожалуйста, назовите)

8. Данных нет

9. Принадлежит ли семье занимаемое ею жилье? (46)

1. При надлежит семье

2. Арендуется

10. Сколько лет ваша семья проживает в районе Атланты? (47-48)

__лет

11. Каков общий годовой доход вашей семьи до уплаты налогов. Пометьте нуж- (49-50)

ный вариант.

01. Меньше 10000 долл. _ 08. От 40000 до 44999 __

02. От 10000 до 14999 _ 09. От 45000 до 49999 _

03. От 15000 до 19999 _ 10. От 50000 до 54999 _

04. От 20000 до 24999 _ 11. От 55000 до 59999 _

05. От 25000 до 29999 _ 12. От 60000 до 69999 _

06. От 30000 до 34999 13. От 70000 до 89999 _

07. От 35000 до 39999 14. 90000 и больше

Примечание. В столбцах 1-3 данной записи содержатся идентификационные сведения о респонденте,

в столбце 4 — номер записи (7), столбцы 5 и б пустые. Столбцы с 7 по 27 включают информацию из части

С данной анкеты, столбец 28 пустой. Таким образом, информация по части D анкеты кодируется, начи-

ная с колонки 29.

Рис. J4.3. Пример кодирования анкеты: кодирование демографических данных

Данную анкету закодировали заранее. Код респондента и номер записи указан по каждой

записи. Первая запись содержит дополнительные коды: код проекта, код интервьюера, коды

даты и времени и проверочный код. Полезный совет: рекомендуется разграничивать отдельные

части анкеты пробелами. Иногда вместо вписывания кодов в анкету они заносятся в специаль-

ный документ, содержащий 80 столбцов и известный как "кодировочная таблица".

ПРЕОБРАЗОВАНИЕ ДАННЫХ

Преобразование данных заключается в переносе закодированных данных из анкеты или

копировочных таблиц на диски или магнитные ленты либо во введении их непосредственно в

компьютер через клавиатуру. Если данные собраны с использованием автоматизированных

компьютерных систем, их преобразование не обязательно, поскольку они вводятся в компью-

тер в процессе их сбора. Данные можно вводить не только с клавиатуры, но и в процессе считы-

вания меток или маркеров с бланков, оптического сканирования или компьютеризированного

сенсорного анализа (рис. 14.4).

Для того чтобы воспользоваться методом считывания меток с бланков, ответы должны

записываться специальным карандашом в конкретные поля анкеты, закодированные для

данного ответа. Зафиксированные таким образом данные могут считываться машиной. Оп-

тическое сканирование заключается в прямом машинном считывании кодов с одновремен-

ным преобразованием данных. Известным примером оптического сканирования может слу-

жить преобразование штрих-кода при считывании его в кассах супермаркетов. Технический

прогресс привел к созданию систем компьютеризированного сенсорного анализа, благодаря

которым можно автоматизировать процесс сбора данных. Вопросы выводятся на специаль-

ной компьютеризированной панели, а ответы с помощью сенсорных устройств вводятся не-

посредственно в компьютер.

528 Часть III. Сбор, подготовка и анализ данных

Используя метод ввода ответов с клавиатуры, полностью избежать ошибок трудно, по-

этому необходимо проверять введенные массивы данных, по крайне мере частично. Для

проверки правильности введенных данных применяется проверочный компьютер и второй

оператор. Второй оператор повторно вводит данные из закодированных анкет, после чего

преобразованные данные, введенные двумя операторами, сравниваются по записям. Любое

расхождение между двумя комплектами преобразованных данных исследуется с тем, чтобы

выявить и исправить ошибки в результате ввода данных с клавиатуры. Если проверяются

результаты ввода всего набора данных, время и затраты на преобразование данных удваива-

ются. Учитывая дополнительные временные и денежные затраты, а также то, что опытные

операторы по вводу данных работают довольно точно и практически без ошибок, обычно

достаточно сверить 20—25% данных.

Автоматизированные

ATI/CAP! -

Бланш,

заполненные методом,

позволяющим считывание

.- меток или маркеров с них-.

Огттическое

сканирование

Компьютеризированный

сенсорный анализ

Проверка достоверности

данных: Исправление ошибок s

результате ввода с клавиатуры~

ВНННВЯвВЯН^^^И

Диски

Преобразованные да

Рис. 14.4. Преобразование данных

Если используются автоматизированные системы CATI и CAPI, правильность ввода дан-

ных проверяется по мере их поступления. При вводе неприемлемого варианта ответа компью-

тер выдает респонденту или интервьюеру соответствующее предупреждение. Если же ответ

приемлем, интервьюер или респондент могут увидеть его на экране и проверить его правиль-

ность до передачи на дальнейшую обработку.

Выбор метода преобразования данных зависит от способа проведения интервью и наличия

необходимого оборудования. При использовании методов CAPI и CATI данные вводятся непо-

средственно в компьютер. Ввод данных с клавиатуры терминала с электронно-лучевой трубкой

(CRT) чаще всего применяется при опросе по телефону, при обходе домов, при опросах в уни-

вермагах и по почте. Поскольку при опросах на дому все чаше применяются специальные кла-

виатуры и портативные компьютеры, в последнее время интенсивно используются системы

для компьютеризированного сенсорного анализа. Оптическое сканирование широко применя-

ется при проведении струкурированных и периодически повторяющихся опросов, а метод

считывания меток или маркеров с бланков — при специальных наблюдениях [6].

Глава 14. Подготовка данных к анализу 529

ОЧИЩЕНИЕ ДАННЫХ

Процедура очищения данных (data cleaning) заключается в проверке состоятельности соб-

ранных данных и работе с пропущенными ответами.

Очищение данных (data cleaning)

Тщательная и всесторонняя проверка состоятельности собранных данных и работа с пропу-

щенными ответами.

Предварительная проверка состоятельности собранных данных проводится на этапе редак-

тирования, но проверка, которая проводится на стадии очищения данных, намного точнее и

тщательнее, поскольку выполняется с использованием компьютерной техники.

Проверка состоятельности данных

Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходя-

щие за пределы определенного диапазона, и логически непоследовательные ответы либо опре-

делить экстремальные значения.

Проверка состоятельности данных (consistency checks)

Часть процесса очищения собранных данных, когда исследователь выявляет данные, выхо-

дящие за пределы конкретного диапазона, и логически непоследовательные ответы либо

определяет экстремальные значения. Данные со значениями, не указанными в кодировоч-

ной схеме, не принимаются.

Значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их

необходимо исправить. Представим, например, что респондентов попросили выразить сте-

пень их согласия по ряду вопросов относительно стиля жизни по шкале от 1 до 5. Код 9 ис-

пользуется для обозначения пропущенных ответов, а значения 0, 6, 7 и 8 выходят за пределы

назначенного диапазона. Существует множество компьютерных пакетов, например APSS,

SAS, BMDP, Minitab и Excel, с помощью которых можно написать программы выявления по

каждой переменной значений, выходящих за пределы определенного диапазона, а также

распечатать код респондента, код переменной, название переменной, номер записи и столб-

ца и выпадающее из необходимого диапазона значение [7]. Все это значительно упрощает

процедуру систематической проверки каждой переменной по каждому ее значению, выхо-

дящему из определенного диапазона. Правильные ответы можно определить, возвратившись

к отредактированному и закодированному варианту анкеты,

Различают несколько типов логической непоследовательности ответов. Так, респондент

может указать, что обычно при междугородних переговорах пользуется специальной карточ-

кой, но при этом отметить, что ни разу не звонил. Либо респондент указывает, что часто поль-

зуется каким-то товаром, и в то же время отмечает, что никогда его не приобретал. Чтобы вы-

явить такие ответы и провести соответствующую корректировку, всю необходимую информа-

цию (код респондента, код переменной, название переменной, номер записи и столбца и

выпадающее из необходимого диапазона значение) нужно распечатать,

И наконец, необходимо тщательно проанализировать экстремальные значения. Следует

помнить, что экстремальные значения — не всегда результат ошибок, нередко они указыва-

ют на то, что существуют определенные проблемы с качеством собранных данных. Напри-

мер, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом то-

го, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой

шкале от 1 до 7).

530 Часть III. Сбор, подготовка и анализ данных

Работа с пропущенными ответами

Пропущенными ответами (missing responses) называют значения переменных, которые оста-

лись неизвестными исследователю либо потому, что ответы респондентов были неоднозначны,

либо неправильно или неразборчиво записаны.

Пропущенные ответы (missing responses)

Значения переменных, неизвестные по причине того, что респонденты не дали однозначных

ответов на предложенный вопрос.

Работа с пропущенными ответами связана с рядом проблем, особенно если доля таких отве-

тов превышает 10%. Существует несколько методов работы с пропущенными ответами [8].

Замена пропущенного значения нейтральным. По этому методу вместо пропущенных ответов

подставляются нейтральные значения, обычно среднее значение по данной переменной. При

этом среднее значение переменной остается неизменным, а другие статистические данные, на-

пример корреляция, искажаются незначительно. Хотя этот подход и имеет ряд преимуществ,

подстановка среднего значения (например, 4) вместо всех пропущенных ответов респондентов

весьма неоднозначна и сомнительна, если учесть, что если бы они все же ответили, то могли бы

выбрать значительно более высокий (например, 6 или 7) или более низкий (1 или 2) рейтинго-

вый показатель [9].

Замена пропущенного значения условным (вменение значений). Для определения условного

значения или вычисления подходящих ответов на пропущенные вопросы можно использовать

структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследова-

тель пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на

все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаи-

мосвязи между пропущенной переменной и другими переменными. Так, показатель частоты

использования товара можно связать с размером семей респондентов, предоставивших инфор-

мацию по этим показателям. Затем пропущенные данные по использованию товара можно вы-

числить, воспользовавшись показателем размера семьи респондента. Однако следует помнить,

что этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого,

для вычисления условных значений по пропущенным ответам разработаны сложные статисти-

ческие процедуры, о чем рассказывается в следующем примере.

ПРИМЕР. Вменение значений повышает целостность массива данных

Рассмотрим исследование, определяющее, насколько семьи желают учитывать рекомен-

дации служб, занимающихся аудитом расхода электроэнергии (зависимая переменная) с

учетом определенных финансовых факторов. В качестве независимых переменных исполь-

зовались пять финансовых факторов, которыми манипулировали на известных уровнях, их

значения благодаря удачно выбранному плану исследования были всегда известны. Однако

в анкетах некоторые значения зависимой переменной оказались пропущенными. Их заме-

нили условными (вмененными), вычисленными статистическим методом на основе соот-

ветствующих значений независимых переменных. Такая работа с отсутствующими значе-

ниями в огромной мере упростила последующий анализ и повысила достоверность его ре-

зультатов [10].

Исключение объекта целиком. При исключении объекта целиком (casewise deletion) все на-

блюдения или респонденты с пропущенными ответами исключаются из анализа.

Исключение объекта целиком (casewise deletion)

Метод работы с пропущенными ответами, при котором наблюдения или респонденты с

пропущенными ответами исключаются из анализа.

Глава 14. Подготовка данных к анализу 531

Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопро-

сы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что ис-

ключение большого количества данных нежелательно, поскольку процесс сбора данных дорог

и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями

систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях ис-

ключение по данному методу может значительно исказить результаты опроса.

Попарное исключение переменных. При попарном исключении (pairwise delition) вместо от-

браковывания всех случаев с любыми отсутствующими значениями исследователь во всех

своих вычислениях рассматривает только наблюдения или респондентов, по которым есть

полные ответы.

Попарное исключение (pairwise delition)

Метод работы с пропущенными значениями, в соответствии с которым наблюдения или

респонденты с пропущенными данными не отбраковываются автоматически; исследователь

во всех своих вычислениях учитывает только наблюдения или респондентов, по которым

есть полные ответы.

В результате разные вычисления в ходе анализа могут основываться на разных размерах вы-

борок. Такая процедура обычно применяется при следующих условиях: если размеры выборки

велики, если количество пропущенных ответов незначительно, если переменные не сильно

взаимосвязаны. Следует помнить, что и в этом случае данная процедура может привести к не-

достоверным и даже нелогичным результатам исследования.

Применение разных методов работы с пропущенными значениями нередко приводит к

разным итогам, особенно если пропуск ответов носит систематический характер, а переменные

тесно взаимосвязаны. Таким образом, исследователю необходимо свести к минимуму количе-

ство пропущенных ответов. Кроме того, прежде чем выбрать конкретный метод для работы с

пропущенными значениями, он должен тщательно проанализировать все последствия приме-

нения той или иной процедуры.

СТАТИСТИЧЕСКАЯ КОРРЕКТИРОВКА ДАННЫХ

Процедуры статистической корректировки данных включают взвешивание, переопределе-

ние переменной и преобразования шкалы. Все эти корректировки необязательны, но, приме-

няя их, можно значительно повысить качество анализа.

Взвешивание

При взвешивании (weighting) каждому наблюдению или респонденту в базе данных при-

сваивается весовой коэффициент, отображающий степень его значимости по сравнению с дру-

гими наблюдениями или респондентами.

Взвешивание (weighting)

Метод статистической корректировки данных, при котором каждому наблюдению или рес-

понденту в базе данных присваивается весовой коэффициент, отображающий степень его

значимости по сравнению с другими наблюдениями или респондентами.

Значение 1,0 применяется для обозначения наблюдения с отсутствием весового коэффици-

ента. Цель взвешивания заключается в том, чтобы увеличить либо уменьшить в выборке коли-

чество наблюдений с определенными характеристиками (в главе 12 обсуждалось использование

метода взвешивания для корректировки ситуаций с отказом отвечать на вопросы).

Взвешивание чаще всего применяется для того, чтобы выборочные данные максимально

точно представляли конкретные характеристики генеральной совокупности. Например, оно

может использоваться, чтобы повысить значимость наблюдений или респондентов, по кото-

532 Часть III. Сбор, подготовка и анализ данных

рым были собраны данные более высокого качества, чем по другим. Существует еще одно при-

менение взвешивания, которое заключается в корректировке выборки с тем, чтобы повысить

значимость ответов респондентов с определенными признаками. Если проводится опрос для

определения, какие изменения стоит вносить в существующую продукцию, исследователь мо-

жет принять решение присвоить больший весовой коэффициент ответам респондентов, кото-

рые пользуются данным товаром чаще других. Этого можно достичь присвоением весового ко-

эффициента 3,0 тем покупателям, которые покупают исследуемую продукцию чаще всех, ко-

эффициента 2,0 — тем, кто пользуется ею в средних пределах, и 1,0 •— тем, кто приобретает этот

товар редко либо не пользуется им никогда. Метод взвешивания следует применять с огромной

осторожностью, поскольку это разрушает саму природу самовзвешиваемости любого выбороч-

ного обследования. Если исследователь все же решил воспользоваться данным методом, он

должен тщательно задокументировать всю процедуру взвешивания и составить соответствую-

щую часть отчета по проекту [11]. Важность соблюдения данного принципа подтверждает при-

мер, описанный во врезке 14.1 "Практика маркетинговых исследований" [12].

Врезка 14.1. Практика маркетинговых исследований

Internet-исследование компании Nielsen Media Research: нужен ли весовой коэффициент

Совсем недавно компания Nielsen Media Research, долгое время занимающаяся маркетин-

говыми исследованиями, связанными с телевидением, стала объектом острой критики со

стороны ряда телевизионных сетей, не согласных с методами, используемыми компанией в

процессе опросов. Кроме того, в другой, новой и потенциально важной сфере этого бизнеса,

а именно, в проведении опросов с использованием Internet, Nielsen также столкнулась с тем,

что результаты се исследований нередко ставятся под сомнение. Вследствие огромного

влияния электронной торговли на мир бизнеса рекламодателям необходимо знать, какое

количество людей занимаются бизнесом с использованием Internet, чтобы определить, вы-

годно ли им размещать рекламу в этой сети.

Компания Nielsen провела исследование для CommerceNet, группе компаний, в которую

входят Sun Microsystems и American Express, цель которого — определить общее количество

пользователей Internet. Исследования показали, что доступ к Internet имеют 37 миллионов

людей старше 16 лет, и 24 миллиона пользовались им в последние три месяца. Известно, что

когда статистики подозревают, что собранные данные недостоверны, они пользуются мето-

дом взвешивания, который позволяет привести в соответствие выборку и генеральную сово-

купность. Взвешивание необходимо использовать с тем, чтобы избежать смещения в сторо-

ну одного демографического сегмента.

Данные, полученные компанией Nielsen, умножались на весовой коэффициент, выве-

денный на основе пола респондентов, а не на основе их образования, что могло бы привести

к тому, что генеральная совокупность сдвинулась бы в сторону взрослого населения, имею-

щего образование. Далее компания применила взвешивание с использованием весового ко-

эффициента по возрасту и доходу. По мнению многих специалистов, такой подход неправи-

лен, поскольку весовые коэффициенты должны использоваться одновременно, а не в про-

цессе отдельных расчетов. Исследователи компании Nielsen не согласны с тем, что их

выборка неверна, и считают, что не ошиблись в ходе проведения обследования. Однако, по-

скольку большинство третьих сторон не приняли методов работы этой компании, ей все еще

предстоит подтвердить достоверность результатов своих исследований.

ПРИМЕР. Получение весового коэффициента при анализе состава посетителей

сетей ресторанов быстрого обслуживания

В регионе Лос-Анджелес-Лонг-Бич был проведен почтовый опрос, цель которого — вы-

явить предпочтения той или иной сети ресторанов быстрого обслуживания. Полученный в

итоге состав выборки отличался по уровню образования респондентов от распределения это-

го признака в генеральной совокупности, составленного на основе данных, полученных в

Глава 14. Подготовка данных к анализу 533

результате недавно проведенной переписи населения. По этой причине выборку

"взвесили", чтобы сделать ее более репрезентативной с учетом уровня образования посети-

телей. Весовые коэффициенты определялись делением процента генеральной совокупности

на соответствующей процент выборки. Распределение образования по каждой выборке и ге-

неральной совокупности, а также использованные весовые коэффициенты, приведены в

следующей таблице.

Использование взвешивания для повышения репрезентативности данных

Уровень образования (в годах) Доля в выборке (%) Доля в генеральной совокупности <%) Вес

Начальное образование {от 0 до 7 лет)

8 лет

Среднее образование

от 1 до 3 лет

4 года

2,49

щи

6,39

25,39

4,23

2,19

8,65

29,24

1,70

1,74

1,35

1,15

Среднее специальное и высшее образование

от 1 до 3 лет

4 года

от 5 до 6 лет

7 лет и больше

1 Итого

22,33

15,02

14,94

12,18

100,00

29,42

12,01

7,36

6,90

100,00

1,32

0,80

0,49

0,57

Как мы видим, категории, недостаточно представленные в выборке, получили более вы-

сокие весовые коэффициенты, в то время как для категорий, представленных излишне пол-

но, назначены меньшие весовые коэффициенты. Таким образом, данные по респондентам,

имеющим 1—3-годичное среднее специальное образование, умножались на коэффициент

1,32, а данные по респондентам, которые учились в высших и средних учебных заведениях 7

лети больше, умножались на 0,57.

Переопределение переменной

Процедура переопределения переменной (variable respecification) заключается в преобразова-

нии данных для создания новых переменных либо изменения существующих.

Переопределение переменной (variable respecification)

Преобразование данных для создания новых переменных либо изменения существующих с

тем, чтобы они точнее соответствовали основным задачам исследования.

Цель переопределения состоит в создании переменных, максимально отвечающих основ-

ным задачам исследования. Предположим, что изначальной переменной был показатель ис-

пользования продукции по 10 категориям ответов. Их можно сократить до четырех категорий:

пользуюсь часто, средне, редко или никогда. Кроме того, исследователь может разработать ин-

декс информационного поиска (Index of Information Search— IIS), представляющий собой

сумму информации, которую клиенты стремятся получить от дилеров, менеджеров по продви-

жению товаров на рынке и из независимых источников. Можно воспользоваться коэффициен-

том соотношения переменных. Если, например, соизмеряется количество покупок в универма-

ге (А",) и количество покупок в кредит (Х2), доля покупок в кредит может стать новой перемен-

ной после вычисления соотношения двух исходных переменных (Х,/Х2). Другими способами

переопределения переменной являются извлечение квадратного корня и логарифмические

преобразования, которые часто применяются, чтобы точнее "подогнать" оцениваемую модель

к основным задачам исследования.

534 Часть III. Сбор, подготовка и анализ данных

К важнейшим процедурам переопределения переменной относится также использование

фиктивных переменных для переопределения категорий. Фиктивные переменные (dummy

variables) часто также называют двоичными, дихотомическими, инструментальными или качест-

венными. Это переменные, которые могут принимать только два значения, например, 0 или 1.

Фиктивные переменные (dummy variables)

Переменные, способные принимать только два значения, обычно 0 или 1.

Общее правило заключается в следующем: переопределить переменную категории для К-то

числа категорий можно К—1 фиктивными переменными. Почему их должно быть не К, а

именно К—1? Это объясняется тем, что только К—1 категорий независимы. С учетом данных

выборки информацию о f(-R категории можно получить на основе информации о других К— 1

категориях. Так, если рассматривается пол респондентов, переменная имеет две категории, и

при этом необходима только одна фиктивная переменная. Информацию о количестве или

проценте мужчин в выборке можно быстро получить на основе данных о количестве или про-

центе женщин в этой выборке. Концепция применения фиктивных переменных проиллюст-

рирована на следующем примере.

ПРИМЕР. Потребители замороженных продуктов: использование фиктивной

переменной

При исследовании потребления замороженных продуктов респонденты часто классифи-

цируются по таким категориям: "приобретаю часто", "средне", "редко" или "никогда". 1

Обычно этим категориям присваиваются значения 4, 3, 2 и 1 соответственно. Оказалось, что

такое кодирование не подходит для ряда методов статистического анализа. Как видно из ]

следующей таблицы, для проведения этих анализов уровень потребления данной продук- \

ции представлен тремя фиктивными переменными ЛТ,, Х2иХ3.

Код фиктивной переменной

,, Исходный код v v v

Категория использования продукции л. л. Л, переменной

Н е пользуюсь 1 1 0 0

Пользуюсь редко 0 1 0

Пользуюсь средне О О

Пользуюсь часто 4 0 0 0

Обратите внимание, что Х{ = 1 для категории людей, которые не потребляют заморожен-

ные продукты, и 0 — для всех остальных категорий. Подобным образом Х2 — 1 — для тех, кто

пользуется такой продукцией редко и 0 — для всех остальных категорий, а Хг = 1 для катего-

\ рии потребителей, пользующихся ею в среднем объеме, и 0 — для всех остальных. При ана-

] лизе фиктивные переменные А",, Х2 и А"3 используются для представления всех групп пользо-

вателей замороженной продукции и тех, кто ею не пользуется.

Преобразование шкалы измерения

Преобразование шкалы (scale transformation) заключается в манипулировании значениями

шкалы с тем, чтобы сравнивать ее с другими шкалами либо как-то иначе преобразовывать дан-

ные и делать их подходящими для анализа.

Преобразование шкалы (scale transformation)

Манипулирование значениями шкалы с тем, чтобы иметь возможность сравнивать ее с

другими шкалами либо каким-либо другим образом преобразовывать данные и делать их

подходящими для анализа.

Глава 14. Подготовка данных к анализу 535

Часто для измерения разных переменных используются разные шкалы. Так, переменные

для оценки имиджа товара измеряются с использованием семибалльной семантической

дифференциальной шкалы, переменные для оценки отношения — по интервальной рейтин-

говой шкале, а переменные для оценки образа жизни — по пятибалльной шкале Лайкерта.

Очевидно, бессмысленно сравнивать респондентов по показателям, зафиксированным с ис-

пользованием разных шкал. Чтобы сравнить баллы, оценивающие отношение, с баллами,

указанными респондентом относительно стиля жизни или имиджа, необходимо преобразо-

вать разные шкалы, Даже если для оценки всех переменных использовалась одна и та же

шкала, разные респонденты нередко пользуются ею по-разному. Некоторые респонденты

при ответах постоянно используют верхние градации рейтинговой шкалы, в то время как

другие — нижнюю ее часть. Различия подобного типа можно откорректировать соответст-

вующим преобразованием данных.

ПРИМЕР. Учреждения здравоохранения — преобразование данных, собранных

в процессе опроса пациентов

В ходе исследования, направленного на определение структуры распределения предпоч-

тений людей, пользующихся услугами учреждений здравоохранения, респондентов просили

оценить степень важности 18 факторов, влияющих на их мнение, по трехбалльной шкале

(очень важно, важно в определенной мере, неважно). Перед анализом все рейтинги, полу-

ченные от респондентов, были преобразованы. По каждому ответившему вывели средний

показатель ответов по всем 18 пунктам. Затем этот средний показатель вычли из каждого

элемента рейтинга, и к разнице прибавили определенную постоянную величину. Таким об-

разом, преобразованные данные А', получили в результате следующих действий:

X, = Хс — X + С

Вычитание среднего значения позволило откорректировать неравномерное использова-

ние респондентами шкалы для оценки важности. Постоянную величину С прибавили с тем,

чтобы все преобразованные данные имели положительные значения, поскольку отрица-

тельный рейтинг важности концептуально бессмыслен. Такое преобразование было жела-

тельным потому, что некоторые респонденты, особенно с невысоким доходом, оценили как

"очень важные" практически все характеристики учреждений здравоохранения. Другие рес-

понденты, особенно с высокими доходом, указали, что для них важные лишь некоторые

признаки. Таким образом, вычитание среднего значения позволило получить более точные

данные об относительной важности разных факторов [13].

В описанном выше примере результаты преобразования шкалы откорректированы только

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.686 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница