Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Глава 20. Кластерный анализ

Читайте также:

После изучения материала этой главы вы должны уметь...

1. Описывать основную идею, область применения кластерного анализа и его важность в мар-

кетинговых исследованиях.

2. Анализировать статистики, используемые в ходе кластерного анализа.

3. Объяснять ход выполнения кластерного анализа, включая формулирование проблемы, вы-

бор способа измерения расстояния, выбор метода кластеризации, принятие решения о чис-

ле кластеров, интерпретацию и профилирование кластеров.

4. Описывать цель и методы оценивания качества результатов кластеризации.

5. Рассматривать надежность и достоверность результатов кластеризации.

6. Обсуждать применение неиерархической кластеризации и кластеризации переменных.

КРАТКИЙ ОБЗОР

С помощью кластерного анализа, как и рассмотренного ранее факторного (глава 19), марке-

тологи проверяют весь набор взаимозависимых связей. В кластерном анализе не проводят раз-

личия между зависимыми и независимыми переменными. Более того, проверяются взаимоза-

висимые связи всего набора переменных. Цель кластерного анализа— классификация объек-

тов на относительно гомогенные (однородные) группы, исходя из рассматриваемого набора

переменных. Объекты в группе относительно схожи с точки зрения этих переменных и отли-

чаются от объектов в других группах. Если кластерный анализ использовать именно таким об-

разом, то он становится составной частью факторного анализа, так как снижает число объектов,

а не число переменных, сгруппировывая их в меньшее число кластеров.

В этой главе описана основная идея кластерного анализа. Этапы кластерного анализа

рассматриваются и иллюстрируются в контексте иерархической группировки с помощью

статистического программного пакета. Далее представлено применение не иерархи чес кой

кластеризации, которое следует за обсуждением разбиения переменных на кластеры. Начнем

с двух примеров.

СКВОЗНОЙ ПРИМЕР. ВЫБОР УНИВЕРМАГА

Кластерный анализ

Маркетологи разделили респондентов на группы (кластеры), исходя из оценок важности,

которую они присвоили каждому критерию выбора универмага. Результаты кластеризации

показали, что респондентов можно разбить на четыре сегмента. Различия между сегментами

были подвергуты статистической проверке. Маркетологи обнаружили, что в каждый сег-

мент входили респонденты, относительно однородные по критерию выбора магазина. Затем

отдельно для каждого сегмента разработали модель выбора магазина. В результате маркето-

j логи получили модели выбора магазина, достаточно хорошо показывающих то, как проис-

1 ходит выбор респондентами магазинов в конкретных сегментах.

Глава 20. Кластерный анализ 747

ПРИМЕР. Любители мороженого

Руководство компании ffaagen-Dazs Shoppe, которая имеет около 300 магазинов по про-

даже мороженого на всей территории Соединенных Штатов Америки, искало возможности

привлечения новых покупателей. С этой целью было решено провести маркетинговое ис-

следование для определения новых сегментов потенциальных потребителей, за счет которых

можно было бы увеличить объемы продаж. Для решения этой задачи применили геодемо-

графию, т.е. метод кластеризации потребителей, основанный на географических, демогра-

фических характеристиках, а также характеристиках образа жизни. Первоначально провели

исследование для разработки демографических и психографических профилей покупателей

продукции фирмы ffaagen-Dazs, включая частоту покупок, время, дни недели и другие пе-

ременные, связанные с использованием товара. Кроме того, маркетологи получили адреса и

почтовые индексы респондентов. Затем, исходя из метода кластеризации, разработанного

Claritas, респондентов распределили по 40 геодемографических кластерам. Используя эту

| информацию, компания ffaagen-Da& определила несколько потенциальных групп потреби-

I телей, которые могли увеличить объем продаж [1].

Пример компании Haagen-Dazs иллюстрирует использование кластерного анализа для по-

лучения однородных сегментов с целью формулирования конкретных маркетинговых страте-

гий. В примере с универмагами метод кластеризации использовался для разбивки респонден-

тов на группы для последующего выполнения многомерного анализа.

СУЩНОСТЬ КЛАСТЕРНОГО АНАЛИЗА

Кластерный анализ представляет собой класс методов, используемых для классификации

объектов или событий в относительно однородные группы, которые называют мастерами

(clusters). Объекты в каждом кластере должны быть похожи между собой и отличаться от объек-

тов в других кластерах. Кластерный анализ также называют классификационным анализом

(classification analysis) или численной таксономией (систематикой) (numerical taxonomy) [2]. Мы

рассмотрим процедуры кластеризации, которые относят каждый объект к одному и только од-

ному кластеру [3]. На рис. 20.1 показана идеальная ситуация кластеризации, когда кластеры

четко отделены друг от друга на основании различий двух переменных: ориентация на качество

(переменная 1), и чувствительность к цене (переменная 2),

Переменная 2

Рис. 20,1. Идеальная ситуация

кластеризации

Следует отметить, что каждый потребитель попадает в один из кластеров, и перекрываю-

щихся областей нет. С другой стороны, на рис. 20.2 представлена ситуация кластеризации, ко-

торая чаще всего встречается на практике.

748 Часть III. Сбор, подготовка и анализ данных

• • •

•. •

..v •%"•«

.•*.*

Переменная 2

Рис. 20.2. Реальная ситуация кластеризации

На рис. 20.2 границы некоторых кластеров очерчены нечетко, и отнесение некоторых по-

требителей к конкретному кластеру не очевидно, поскольку многие из них нельзя сгруппиро-

вать в тот или иной кластер.

Кластерный анализ, как и дискриминантный, предназначен для классификации перемен-

ных. Однако в дискриминантном анализе необходима предварительная информация о кла-

стерной (групповой) принадлежности каждого рассматриваемого объекта или события для то-

го, чтобы разработать правило классификации. В отличие от этого, в кластерном анализе нет

необходимости в предварительной информации о кластерной принадлежности любого из объ-

ектов. Группы, или кластеры, определяют с помощью собранных данных, а не заранее [4].

Кластерный анализ используют в маркетинге для различных целей [5].

• Сегментация рынка. Например, потребителей можно разбить на кластеры на основе

выгод, которые они ожидают получить от покупки данного товара. Каждый кластер

может состоять из потребителей, которые ищут схожие выгоды [6]. Этот метод назы-

вают сегментаций преимуществ (benefit segmentation). Мы проиллюстрируем его на

следующем примере.

ПРИМЕР. Отпускники бывают разными

В исследовании, посвященном моделям принятия решений людьми, проводящими

свой отпуск за рубежом, маркетологи получили от 260 респондентов информацию, ка-

сающуюся шести психографических направлений: психологического, образовательного,

социального, релаксационного, физиологического и эстетического. Для разбивки рес-

пондентов на психографические сегменты использовали кластерный анализ. Первый

сегмент (53%) состоял из людей с высоким (или близким к нему) уровнем жизни. Эту

группу назвали "требовательными". Во вторую группу (20%) входили лица с высоким об-

разовательным уровнем, ее назвали "интеллектуалы". Лица, входящие в последнюю груп-

пу (26%), оказались большими любителями релаксации (развлечений). Они получили

низкую оценку по социальной шкале, и были названы "беглецами" (от действительно-

сти). Чтобы привлечь отпускников в каждый из сегментов, разработали специальные

маркетинговые стратегии [7].

Глава 20. Кластерный анализ 749

• Понимание поведения покупателей. Кластерный анализ используется для идентифика-

ции однородных групп покупателей. Затем поведение каждой группы при покупке то-

вара изучается отдельно, как, например, в проекте "Выбор универмага". В этом случае

респондентов разбили на группы, исходя из оценок важности, которую они присвоили

каждому критерию, используемому для выбора универмага. Кластерный анализ также

использовали, чтобы определить виды стратегий, применяемых покупателями автомо-

билей для получения внешней информации.

• Определение возможностей нового товара. Кластеризацией торговых марок и товаров

можно определить конкурентоспособные наборы в пределах данного рынка. Торговые

марки в одном и том же кластере конкурируют более жестхо между собой, чем с марка-

ми других кластеров. Фирма может изучить свои текущие предложения в сравнении с

предложениями своих конкурентов, чтобы определить потенциальные возможности

новых товаров.

• Выбор тестовых рынков. Группировкой городов в однородные кластеры можно подоб-

рать сравнимые города для проверки различных маркетинговых стратегий,

• Сокращение размерности данных. Кластерный анализ можно использовать как основной

инструмент сокращения размерности данных при создании кластеров или подгрупп

данных, более удобных для анализа, чем отдельные наблюдения. Последующий много-

мерный анализ выполняют над кластерами, а не над отдельными наблюдениями. На-

пример, чтобы описать отличия в поведении потребителей по отношению к товарам, их

вначале разбивают на группы. Затем различия между группами проверяют с помощью

множественного дискриминантаого анализа.

СТАТИСТИКИ, СВЯЗАННЫЕ С КЛАСТЕРНЫМ

АНАЛИЗОМ

Прежде чем начать разговор о статистиках, соответствующих кластерному анализу, следует

упомянуть о том, что большинство методов кластеризации — относительно простые процеду-

ры, не требующие изощренных статистических расчетов. Можно даже сказать, что методы кла-

стеризации представляют собой эвристические методы, основанные на определенных алгорит-

мах действий исследователя. Тем самым кластерный анализ резко отличается от дисперсионно-

го, регрессионного, дискриминантного и факторного, которые базируются на обширных

статистических расчетах. Хотя многие методы кластеризации обладают важными статистиче-

скими свойствами, необходимо признать фундаментальную простоту этих методов [8]. Сле-

дующие статистики и понятия связаны с кластерным анализом.

• План агломерации, объединения (agglomeration schedule). Дает информацию об объектах

(событиях, случаях), которые должны быть объединены на каждой стадии процесса иерар-

хической кластеризации.

• Кластерный центроид (cluster centroid). Среднее значение переменных для всех случаев или

объектов в конкретном кластере,

• Кластерные центры (cluster centers). Исходные начальные точки в неиерархической класте-

ризации. Кластеры строят вокруг этих центров, или зерен кластеризации.

• Принадлежность кластеру (cluster membership). Указывает кластер, которому принадлежит

каждый случай или объект.

• Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный

граф— графическое средство для показа результатов кластеризации. Вертикальные линии

представляют объединяемые кластеры. Положение вертикальной линии на шкале расстоя-

ния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Дре-

вовидную диаграмму (рис, 20.8) читают слева направо.

750 Часть III. Сбор, подготовка и анализ данных

Расстояния между кластерными центрами (distances between cluster centres). Указывают, на-

сколько разнесены отдельные пары кластеров, Кластеры, которые разнесены широко, ясно

выражены и поэтому желательны.

Сосульчатая диаграмма (icicle diagram), Это графическое отображение результатов класте-

ризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши

дома. Сосульчатую диаграмму (рис. 20.7) читают сверху вниз.

Матрица сходства/матрица расстояний между объединяемыми объектами (similarity/distance

coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, со-

держащая значения расстояния между парами объектов или случаев.

ВЫПОЛНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА

Этапы выполнения кластерного анализа представлены на рис. 20.3.

терпретация и профилирование кластеров

Рис. 20.3. Выполнение кластерного

анализа

Первый этап — формулировка проблемы кластеризации путем определения переменных,

на базе которых она будет проводиться, Затем выбирается соответствующий способ измерения

расстояния. Мера расстояния показывает, насколько объекты, подвергнутые кластеризации,

схожи или не схожи между собой. Разработано несколько методов кластеризации, и исследова-

телю необходимо выбрать наиболее подходящий для решения данной проблемы. Решение о

числе кластеров также принимает исследователь. Сформированные кластеры нужно анализи-

ровать с точки зрения переменных, использованных для их получения, а также для профили-

рования кластеров можно использовать дополнительные явно выраженные переменные. И на-

конец, исследователь должен оценить достоверность (качество) процесса кластеризации.

Формулировка проблемы

Возможно, самая важная часть формулирования проблемы кластеризации — это выбор пере-

менных, на основе которых проводят кластеризацию. Включение даже одной или двух посторон-

них (не имеющих отношение к группированию) переменных может исказить результаты класте-

ризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между

объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового

исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории

или тестируемой гипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы.

Глава 20. Кластерный анализ 751

Для иллюстрации сказанного рассмотрим кластеризацию потребителей на основе их отно-

шения к посещению магазинов для покупки товаров. Опираясь на прошлый опыт, маркетоло-

ги определили шесть переменных. Потребителей попросили выразить их степень согласия со

следующими утверждениями по семибалльной шкале (1 — не согласен, 7 — согласен):

V\ Посещение магазинов для покупки товаров — приятный процесс.

1/2 Посещение магазинов для покупки товаров плохо сказывается на вашем бюджете,

^з Я совмещаю посещение магазинов для покупки товаров с питанием вне дома.

1/4 Я стараюсь сделать лучшие покупки при посещении магазинов.

/5 Мне не нравится посещение магазинов для покупки товаров.

VG Вы можете сэкономить много денег, сравнивая цены в разных магазинах,

Данные, полученные от 20 респондентов, приведены в табл. 20.1.

I Таблица 20.1. Данные для кластеризации

Номер п/п V, V2 Уз V4 Vs Ve

.•'

1 2

1".

*•!

-•:

•1

•;

На практике кластеризацию выполняют для значительно больших по размеру выборок, со-

стоящих из 100 и больше респондентов. Мы взяли небольшую выборку для иллюстрации про-

цесса кластеризации.

Выбор способа измерения расстояния или меры сходства

Цель кластеризация — группирование схожих объектов. Поэтому для того чтобы оценить,

насколько они похожи или непохожи, необходимо использовать некую единицу измерения.

Наиболее распространенный метод заключается в том, чтобы в качестве такой меры использо-

вать расстояния между двумя объектами. Объекты с меньшими расстояниями между собой

больше похожи, чем объекты с большими расстояниями. Существует несколько способов вы-

числения расстояния между двумя объектами [9].

752 Часть III. Сбор, подготовка и анализ данных

Наиболее часто используемая мера сходства— евклидово расстояние или его квадрат [10].

Евклидово расстояние (геометрическое расстояние в многомерном пространстве) равно квад-

ратному корню из суммы квадратов разностей значений для каждой переменной.

Евклидово расстояние (euclidean distance)

Квадратный корень из суммы квадратов разностей в значениях для каждой переменной

Существуют и другие способы измерения расстояния. Расстояние городских кварталов)

(city-block, или манхэттенское расстояние (Manhattan distance) между двумя объектами — это

сумма абсолютных разностей в значениях для каждой переменной. Расстояние Чебышева

(Chebychev distance) между двумя объектами — это максимальная абсолютная разность в значе-

ниях для любой переменной. Для нашего примера используем квадрат евклидова расстояния.

Если переменные измерены в различных единицах, то единица измерения влияет на реше-

ние кластеризации. В исследовании, посвященном посещению супермаркетов для покупки то-

варов, переменные, выражающие отношение к посещению магазина, можно измерить по шка-

ле Лайкерта; патронаж (постоянство в посещении магазина) можно выразить через частоту по-

сещений магазина в месяц и через сумму, потраченную на покупки; лояльность к торговой

марке — через процент средств, потраченных на покупку товаров в любимом супермаркете.

В этих случаях перед кластеризацией респондентов мы должны нормализовать данные, изме-

нив шкалу измерения каждой переменной таким образом, чтобы среднее равнялось нулю, а

стандартное отклонение — единице. Хотя нормализация может исключить влияние единицы

измерения, она также уменьшает различия между группами по переменным, которые наилуч-

шим образом дискриминируют (отличают) группы или кластеры. Кроме того, желательно уда-

лить выбросы (т.е. случаи с нетипичными значениями) [111.

Использование различных способов измерения расстояния ведет к разным результатам кла-

стеризации. Следовательно, целесообразно использовать различные меры сходства и затем

сравнить результаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.

Выбор метода кластеризации

На рис. 20.4 приведена классификация методов кластеризации.

Методы кластеризации могут быть иерархическими и неиерархическими. Иерархическая

кластеризация (hierarchical clustering) характеризуется построением иерархической, или древо-

видной, структуры.

Иерархическая кластеризация (hierarchical clustering)

Метод кластеризации, характеризующийся построением иерархической, или древовидной,

структуры.

Иерархические методы могут быть агломеративными (объединительными) и дивизивны-

ми. Агломеративная кластеризация (agglomerative clustering) начинается с каждого объекта в от-

дельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и более

крупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами

одного единственного кластера.

Агломеративная, или объединительная, кластеризация (agglomerative clustering)

Иерархический метод кластеризации, при которой каждый объект первоначально находится

в отдельном кластере. Кластеры формируют, группируя объекты каждый раз во все более и

более крупные кластеры.

Разделяющая, или дивизивная, кластеризация (divisive clustering) начинается со всех объек-

тов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока

каждый объект не окажется в отдельном кластере.

Глава 20. Кластерный анализ 753

Методы кластеризации

Рис, 20.4. Классификация методов кластеризации

Разделяющая, или дивизивная, кластеризация (divisive clustering)

Иерархический метод кластеризации, при котором все объекты первоначально находятся е

одном большом кластере. Кластеры формируют делением этого большого кластера на бо-

лее мелкие.

Обычно в маркетинговых исследованиях используют агломеративные методы, например

методы связи, дисперсионные и центроидные методы. Методы связи (linkage methods) вклю-

чают метол одиночной связи, метод полной связи и метод средней связи.

Методы связи (linkage methods)

Агломеративные методы иерархической кластеризации, которые объединяют объекты в

кластер, исходя из вычисленного расстояния между ними.

754 Часть III. Сбор, подготовка и анализ данных

В основе метода одиночной связи (single method) лежит минимальное расстояние, или пра-

вило ближайшего соседа.

Метод одиночной связи (single method)

Метод связи, в основе которого лежит минимальное расстояние между объектами, или

правило ближайшего соседа.

При формировании кластера первыми объединяют два объекта, расстояние между которы-

ми минимально. Далее определяют следующее по величине самое короткое расстояние, и в

кластер с первыми двумя объектами вводят третий объект. На каждой стадии расстояние между

двумя кластерами представляет собой расстояние между их ближайшими точками (рис. 20.5).

Одиночная связь

Минимальное

Кластер! расстояние ю,астер2

Полная связь

Максимальное

Кластер 1 расстояние Кластер 2

Средняя связь

Среднее

расстояние

Кластер 1 Кластер 2

Рис. 20.5. Методы связи для процедуры

кластеризации

На любой стадии два кластера объединяют по единственному кратчайшемурасстоянию ме-

жду ними. Этот процесс продолжают до тех пор, пока все объекты не будут объединены в кла-

стер. Если кластеры плохо определены, то метод одиночной связи работает недостаточно хоро-

шо. Метод полной связи (complete linkage) аналогичен методу одиночной связи, за исключени-

ем того, что в его основе лежит максимальное расстояние между объектами, или правило

дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как

расстояние между двумя их самыми удаленными точками.

Метод полной связи (complete linkage)

Метод связи, в основе которого лежит максимальное расстояние между объектами, или

правило дальнего соседа.

Глава 20. Кластерный анализ 755

Метод средней связи (average linkage) действует аналогично. Однако в этом методе рас-

стояние между двумя кластерами определяют как среднее значение всех расстояний, изме-

ренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных

кластеров (см. рис. 20.5).

Метод средней связи (average linkage)

Метод связи, в основе которого лежит среднее значение всех расстояний, измеренных

между объектами двух кластеров, при этом в каждую пару входят объекты из разных

кластеров.

Из рис. 20.5 видно, что метод средней связи использует информацию обо всех расстояниях

между парами, а не только минимальное или максимальное расстояние. По этой причине

обычно предпочитают метод средней связи, а не методы одиночной или полной связи.

Дисперсионные методы (variance methods) формируют кластеры таким образом, чтобы ми-

нимизировать внутрикластерную дисперсию.

Дисперсионный метод (variance methods)

Агломеративный метод иерархической кластеризации, в котором кластеры формируют так,

чтобы минимизировать внутрикластерную дисперсию.

Широко известным дисперсионным методом, используемым для этой цели, является метод

Варда (Ward's procedure).

Метод Варда (Ward's procedure)

Дисперсионный метод, в котором кластеры формируют таким образом, чтобы минимизиро-

вать квадраты евклидовых расстояний до кластерных средних.

Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вы-

числяют квадраты евклидовых расстояний до кластерных средних (рис. 20.6).

Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два

кластера с наименьшим приростом в полной внутрикластерной дисперсии. В центроидных ме-

тодах (centroid method) расстояние между двумя кластерами представляет собой расстояние ме-

жду их центроидами (средними для всех переменных), как показано на рис. 20.6.

Центроидный метод (centroid method)

Дисперсионный метод иерархической кластеризации, в котором расстояние между двумя

кластерами представляет собой расстояние между их центроидами (средними для всех пе-

ременных).

Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических

методов методы средней связи и Варда показывают наилучшие результаты по сравнению с дру-

гими методами [12].

К другому типу процедур кластеризации относятся неиерахические методы кластеризации

(nonhierarchical clustering), часто называемые методом А-средних.

Неиерархические методы кластеризации, метод k-средних (nonhierarchical clustering,

k-means clustering)

Метод, который вначале определяет центр кластера, а затем группирует все объекты в пре-

] делах заданного от центра порогового значения.

756 Часть III. Сбор, подготовка и анализ данных

Метод Варда

Центре идный метод

Рис. 20.6. Другие а&юмеративные методы кластеризации

Эти методы включают последовательный пороговый метод, параллельный пороговый

метод и оптимизирующее распределение. В последовательном пороговом методе (sequential

threshold method) выбирают центр кластера и все объекты, находящиеся в пределах задан-

ного от центра порогового значения, группируют вместе. Затем выбирают новый кластер-

ный центр, и процесс повторяют для несгруппированных точек. После того как объект

помещен в кластер с этим новым центром, его уже не рассматривают как объект для даль-

нейшей кластеризации.

Последовательный пороговый метод (sequential threshold method)

Неиерархический метод кластеризации, при котором выбирают кластер и все объекты, на-

ходящиеся а пределах заданного от центра порогового значения, группируют вместе.

Аналогично работает параллельный пороговый метод (parallel threshold method), за исключе-

нием того, что одновременно выбирают несколько кластерных центров и объекты в пределах

порогового уровня группируют с ближайшим центром.

Параллельный пороговый метод (parallel threshold method)

Неиерархический метод кластеризации, при котором одновременно определяют несколько

кластерных центров. Все объекты, находящиеся в пределах заданного центром порогового

значения, группируют вместе.

Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух

изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соот-

ветствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий,

такой как среднее внутри кластерное расстояние для данного числа кластеров.

Глава 20. Кластерный анализ 757

Метод оптимизирующего распределения (optimizing partitioning method)

Неиерархический метод кластеризации, который позволяет поставить объекты в соответствие

другим кластерам (перераспределить объекты), чтобы оптимизировать суммарный критерий.

Два главных недостатка неиерархических методов состоят в том, что число кластеров определя-

ется заранее и выбор кластерных центров происходит независимо. Более того, результаты класте-

ризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают

первые k случаев (k — число кластеров), не пропуская никаких значений в качестве начальных

кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в

данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использо-

вать при большом числе объектов или наблюдений, Высказано предположение о возможности

использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное

решение по кластеризации получают, используя такие иерархические методы, как метод средней

связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов

используют в качестве исходных данных в методе оптимизирующего распределения [ 13].

Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадра-

ты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Не-

которые из неиерархических методов также используют квадраты евклидовых расстояний.

Для иллюстрации иерархической кластеризации используем метод Варда. Результаты, по-

лученные при кластеризации данных табл. 20.1, приведены в табл, 20.2.

г Таблица 20.2. Результаты иерархической кластеризации

План агломерации на основании метода Варда

Объединяемые кластеры Стадия, на которой впервые появился

кластер

Стадия Кластер 1 Кластер 2 Коэффициент (расстояние между Кластер 1 Кластер 2 Следующая

объединяемыми кластерами) стадия

(

;.'

'О

1,000000

2,500000

4,000000

5,500000

7,000000

8,500000

10,166667

12,666667

15,250000

18,250000

22,750000

27,500000

32,700001

40,500000

51,000000

63,125000

78,291664

171,291656

330,450012

758 Часть III. Сбор, подготовка и анализ данных

Окончание табл. 20.2

Принадлежность кластеру при использовании метода Барда

Число кластеров

Меня (HOMepJ случая 4 3

•)

Полезную информацию можно извлечь из плана агломерации, где показано число случаев

или кластеров, которые нужно объединить на каждой стадии. Первая строка представляет пер-

вую стадию, когда есть 19 кластеров. На этой стадии объединены респонденты 14 и 16, что по-

казано в колонках, озаглавленных "Объединяемые кластеры". Квадрат евклидового расстояния

между точками, соответствующими этим двум респондентам, дан в колонке "Коэффициент",

Колонка "Стадия, на которой впервые появился кластер" показывает стадию, на которой впер-

вые был сформирован кластер. Например, цифра (входа в кластер) 1 на стадии 7 указывает на

то, что респондента 14 впервые включили в кластер на стадии 1. Последняя колонка,

"Следующая стадия", показывает стадию, на которой другой случай (респондент) или кластер

объединили с этим кластером. Поскольку число в первой строке последней колонки равно 7,

значит, респондента 10 объединили с респондентами 14 и 16 на стадии 7, чтобы сформировать

один кластер. Аналогично, вторая строка представляет стадию 2 с 18 кластерами. На стадии 2

респондентов 2 и 13 группируют вместе.

Другая важная часть результата кластеризации содержится в сосульчатой диаграмме, пред-

ставленной на рис. 20.7.

Глава 20. Кластерный анализ 759

Число кластеров

г г I i l Г! I I

Столбики соответствуют объектам, которые подлежат кластеризации, в этом случае респон-

дентам присвоили номера от I до 20. Ряды соответствуют числу кластеров. Эту диаграмму чи-

тают снизу вверх. Вначале все случаи считают отдельными кластерами. Так как мы имеем 20

респондентов, количество исходных кластеров равно 20. На первой стадии объединяют два

ближайших объекта, что приводит к 19 кластерам. Последняя строчка на рис. 20.7 показывает

эти 19 кластеров. Два случая, а именно респонденты 14 и 16, которых объединили на этой ста-

дии, не имеют между собой разделяющего пустого (белого) пространства. Ряд с номером 18 со-

ответствует следующей стадии с 18 кластерами. На этой стадии вместе группируют респонден-

тов 2 и 13. Таким образом на этой стадии мы имеем 18 кластеров, 16 из них состоят из отдель-

ных респондентов, а два содержат по два респондента. На каждой последующей стадии

формируется новый кластер одним из трех способов: два отдельных объекта группируют вме-

сте; объект присоединяют к уже существующему кластеру; два кластера группируют вместе.

Еще одно полезное графическое средство отображения результатов кластеризации — это

древовидная диаграмма (дендрограмма) (рис. 20.8).

Метка

объекта

Последовательность I- 4- 4

О 10 15 25

Шкапа расстояний объединяемых кластеров

Рис. 20.8. Древовидная диаграмма, используемая в методе Варда

Древовидную диаграмму читают слева направо. Вертикальные линии показывают класте-

ры, объединяемые вместе. Положение линии относительно шкалы расстояния показывает рас-

стояния, при которых кластеры объединили. Поскольку многие расстояния на первых стадиях

объединения примерно одинаковой величины, трудно описать последовательность, в которой

объединили первые кластеры. Однако понятно, что на последних двух стадиях расстояния, при

которых кластеры должны объединиться, достаточно большие. Эта информация имеет смысл

при принятии решения о количестве кластеров (см. следующий раздел).

Кроме того, если число кластеров определено, то можно получить информацию о принад-

лежности к кластеру, Хотя эта информация следует и из сосульчатой диаграммы, табличная

форма нагляднее, Табл. 20,2 содержит данные о кластерной принадлежности объектов, в зави-

симости от принятого решения; два, три или четыре кластера. Информацию такого рода можно

получить для любого числа кластеров, и она полезна при принятии решения о числе кластеров.

Глава 20. Кластерный анализ 761

Принятие решения о количестве кластеров

Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых

правил, позволяющих быстро принять решение, но можно руководствоваться следующим.

1. При определении количества кластеров руководствуются теоретическими и практическими

соображениями. Например, если цель кластеризации — выявление сегментов рынка, то

менеджмент может захотеть получить конкретное число кластеров.

2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при

которых объединяют кластеры, В нашем случае из плана агломерации в табл. 20.2 видно,

что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от

17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кла-

стеры объединяются при больших расстояниях. Следовательно, самое приемлемое реше-

ние — это решение о трех кластерах.

3. В неиерархической кластеризации чертят график зависимости отношения суммарной внут-

ригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой

наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров.

Увеличение числа кластеров за эту точку обычно безрезультативно.

4. Относительные размеры кластеров должны быть достаточно выразительными. Из табл. 20.2,

просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кла-

стерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к

четырем кластерам, то размеры кластеров будут 8, 6, 5 и I. Бессмысленно создавать кластер с

одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.

Интерпретация и профилирование кластеров

Интерпретация и профилирование кластеров включает проверку кластерных центроидов.

Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из

переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку.

Если компьютерная программа кластеризации не выдаст такую информацию, ее можно полу-

чить через д искри ми нантный анализ. В табл. 20.3 приведены центроиды или средние значе-

ния для каждого кластера в расматриваемом примере.

Таблица 20,3. Кластерные net

Средние переменных

Номер кластера Vi V2 V3 V4 V$ Vs

5,750

1,667

3,500

3,625

3,000

5,833

6,000

1,833

3,333

3,125

3,500

6,000

1,750

5,500

3,500

3,875

3,333

6,000

Кластер 1 имеет относительно высокие значения по переменной Vl (посещение магазинов —

приятный процесс) и переменной К, (я совмещаю посещение магазинов с питанием вне дома).

Он также имеет низкое значение по переменной У$ (меня не интересуют покупки). Следователь-

но, кластер I можно назвать так: "любители посещать магазины и делать покупки". Этот кластер

состоит из случаев 1, 3, 6, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он

имеет низкие значения по переменным К, и К3 и высокое значение по переменной У5, значит, этот

кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, II, 13 и 20. Кла-

стер 3 имеет высокие значения по переменным V2 (посещение магазинов плохо сказывается на

моем бюджете), У< (я стараюсь сделать лучшие покупки, посещая магазины) и У6 (можно сэконо-

мить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно на-

звать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14,16,18и 19.

762 Часть III. Сбор, подготовка и анализ данных

Часто имеет смысл профилировать кластеры через переменные, которые не явились ос-

нованием для кластеризации. Эти переменные могут включать демографические, психогра-

фические характеристики, использование продукта или другие переменные. Например, кла-

стеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осу-

ществляют через демографические или психографические переменные, чтобы определить

маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся

между кластерами, можно идентифицировать дискриминантным анализом и однофактор-

ным дисперсионным анализом.

Оценка надежности и достоверности

Имея несколько умозаключений, выведенных из кластерного анализа, не следует прини-

мать никакого решения по кластеризации, не выполнив оценку надежности и достоверности

этого решения. Формальные процедуры оценки надежности и достоверности решений класте-

ризации достаточно сложны и не всегда оправданы [14], поэтому мы их опустим. Однако сле-

дующие процедуры обеспечат адекватную проверку качества кластерного анализа.

1. Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием

различных способов измерения расстояния. Сравните результаты, полученные на основе

разных мер расстояния, чтобы определить, насколько совпадают полученные результаты.

2. Используйте разные методы кластерного анализа и сравните полученные результаты.

3. Разбейте данные на две равные части случайным образом. Выполните кластерный анализ

отдельно для каждой половины. Сравните кластерные центроиды двух подвыборок.

4. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по со-

кращенному набору переменных. Сравните результаты с полученными на основе полного

набора переменных.

5. В неиерархической кластеризации решение может зависеть от порядка случаев в наборе

данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабиль-

ного решения.

Ниже иерархическая кластеризация проиллюстрируется на примере изучения различий в

маркетинговой стратегии фирм США, Японии и Великобритании.

ПРИМЕР. Этот маленький и тесный мир

Данные для исследования конкурирующих между собой 90 компаний из Соединенных

Штатов Америки, Японии и Великобритании получены из подробных личных интервью с

президентами и высшими должностными лицами, принимающими маркетинговые реше-

ния по группам определенных товаров. В основе методологии контроля рыночных различий

лежало сопоставление 30 британских компаний с их главными американскими и японски-

ми конкурентами на британском рынке. В исследование включено 30 триад компаний, каж-

дая состояла из британских, американских и японских компаний, непосредственно конку-

рирующих между собой.

Большинство данных, касающихся эффективности компаний, стратегии и организации,

собраны с использованием пятибалльных семантических дифференциальных шкал. Первая

стадия анализа включала факторный анализ переменных, описывающих стратегии фирм и

маркетинговые виды деятельности. Для того чтобы идентифицировать группы аналогичных

компаний методом иерархической кластеризации Барда, использовали значения факторов.

В итоге получено шесть кластеров.

Затем принадлежность к одному из шести кластеров интерпретировали относительно ис-

ходных переменных: деятельность, стратегия и организационная структура. Во все кластеры

входило несколько преуспевающих компаний, хотя в некоторых кластерах таких компаний

было существенно больше^ чем в других. Распределение фирм по кластерам подтвердило ги-

потезу о том, что успех компании не зависит от национальной принадлежности, поскольку

американские, британские и японские компании обнаружились во всех кластерах. Однако j

Глава 20. Кластерный анализ 763

наблюдалось преобладание японских компаний в кластерах с наиболее преуспевающими

компаниями и преобладание британских компаний в двух кластерах с наименее преуспе-

ваюшими компаниями. По-видимому, японские компании не применяли свойственных

только им уникальных стратегий, скорее большинство из них следовало стратегиям, которые

эффективно работали на британском рынке.

Стратегические кластеры

'Кластер / II III IV V VI

Название Новаторы Продавцы товаров Законода Продавцы- Зрелые Агрессивные мало-

высокого качества гели цен производители продавцы ристые компании

14 13 13 17

36 38 77 41

Размер

Преуспевающие

компании (%)

Принадлежность

к стране {%)

Японские

Американские

Британские

22 31 15 18

14 31 54 53

64 38 31 29

Исследования показывают, что существуют общие стратегии, характерные для преуспе-

вающих компаний, независимо от отрасли промышленности, к которой они относятся. Оп-

ределены три стратегии успеха. Первая — это стратегия "Продавцов товаров высокого каче-

ства". Такие компании сильны в маркетинге и НИОКР (научно-исследовательских и опыт-

но-конструкторских работах). Их технические разработки концентрируются больше на

достижении высокого качества, а не на чистой инновации. Эти компании отличаются уме-

? нием принимать стратегические решения, долгосрочным планированием и хорошо разви-

I тым осознанием своей миссии, Вторая общая стратегия ("Новаторы") заключается в том,

что, компании, которые слабее в проведении НИОКР, более предприимчивы и заняты по-

иском и внедрением новых идей. Последняя преуспевающая группа— "Зрелые продавцы",

которые сильно ориентированы на получение прибыли и обладают высоким мастерством в

1 области маркетинга. Как оказаюсь, все три типа состоят из компаний, которые сильно ори-

! ентированы на маркетинг [15].

ПРИМЕНЕНИЕ НЕИЕРАРХИЧЕСКОЙ

КЛАСТЕРИЗАЦИИ

Проиллюстрируем неиерархический метод, используя данные табл. 20.1 и метод оптимизи-

рующего распределения. Исходя из результатов иерархической кластеризации, мы заранее оп-

ределили, что количество кластеров равно трем (трехкластерное решение). Результаты пред-

ставлены в табл. 20.4.

шяимнн^Н^^в^^^^Л^н^н^^в^^н^вв^шямш^^^^^вшщ^щ^нинмвяявц^шн^^^вщня^в^^^вшп Таблица 20.4. Результаты неиерархической кластеризации

Исходные кластерные центры

Кластер Vi Vz V3 Vt

4,0000

2,0000

7,0000

6,0000

3,0000

2,0000

3,0000

2,0000

6,0000

7,0000

4,0000

764 Часть III, Сбор, подготовка и анализ данных

Продолжение табл. 20.4

Кластер

\ 2,0000 7,0000

? 7,0000 2,0000

3 1,0000 3,0000

Классификационные кластерные центры

Кластер V, V2

Кластер

3,8135

1,85-7

6,3558

5,8992

3,0234

2,8356

3,2522

1,8327

6,1576

6,4891

3,7864

3,6736

! 2,5149 6,6957

2 6,4436 2,5056

3 1,3047 3,2010

Слисок кластерной принадлежности объектов

Номер Щ объекта Кластер Расстояние

1,780

2,254

1,174

1,882

2,525

2,340

1,862

1,410

1,843

2,112

1,923

2,400

3,382

1,772

3,605

2,137

3,760

4,421

0,853

0,813

Конечные кластерные центры

Кластер

3,5000

1,6667

5,7500

V2 V3 V*

5,8333 3,3333 6,0000

3,0000 1,8333 3,5000

3,6250 6,0000 3,1250

Глава 20. Кластерный анализ 765

Окончание табл. 20.4

Кластер

1 3,5000 6,0000

2 5,5000 3,3333

3 1,7500 3,8750

Расстояния между конечными кластерными центрами

Кластер 1 2 3

1 0,0000

2 5,5678 0,0000

3 5,7353 6,9944

Дисперсионный анализ

Переменная MS (средний Степени

квадрат) кластера свободы

0,0000

Ошибка MS Степени

свободы

VV,

29,1083

13,5458

31,3917

15,7125

24,1500

12,1708

0,6078

0,6299

0,8333

0,7279

0,7353

1,0711

17,0

F-статнстика

47,8879

21,5047

37,6700

21,5848

32,8440

11,3632

Уровень

значимости, р

0,000

Число объектов в каждом кластере

Кластер Невзвешенные случаи Взвешенные случаи

Пропущенный

Итого

6,0

8,0

0,0

20,0

6,0

8,0

20,0

Исходные кластерные центры — это значения первых трех объектов. Классификационные

кластерные центры — это промежуточные значения центров, используемые для отнесения объ-

екта к определенному кластеру. Каждый объект относят к ближайшему классификационному

кластерному центру. Классификационные центры обновляют до тех пор, пока не достигнут

критерия остановки. Конечные кластерные центры представляют средние значения перемен-

ных для объектов в конечных кластерах.

В табл. 20.4- также показана кластерная принадлежность объектов и расстояние между каж-

дым объектом и его классификационным центром. Следует отметить, что кластерные принад-

лежности, приведенные в табл. 20.2 (иерархическая кластеризация) и табл. 20.4 (неиерархичес-

кая кластеризация), идентичны (кластер 1 табл. 20.2 является кластером 3 в табл. 20.4, а кластер

3 табл. 20.2 — кластером 1 в табл. 20.4), Расстояния между конечными кластерными центрами

указывают, что пары кластеров хорошо разделены. Для каждой переменной, лежащей в основе

кластеризации, приведено только описательное значение /"-статистики для одномерной вы-

борки. Случаи или объекты систематично относят к кластерам, чтобы максимизировать разли-

чия по переменным, лежащим в основе кластеризации, поэтому полученные значения вероят-

ностей не следует интерпретировать как испытание нулевой гипотезы об отсутствии различий

среди кластеров. Следующий пример о выборе больницы продолжает иллюстрацию неиерар-

хической кластеризации.

766 Часть III. Сбор, подготовка и анализ данных

ПРИМЕР. Сегментация с хирургической точностью

Кластерный анализ использовался маркетологами для классификации пациентов, пред-

почитающих стационарное лечение. Цель анализа — идентификация этого сегмента паци-

ентов, предпочитающих стационарное лечение. Кластеризация опиралась на причины, по

которым респонденты предпочитали лечение в больнице. Для того чтобы узнать, насколько

эффективно можно идентифицировать сегменты, сравнивали демографические профили

сгруппированных респондентов.

Для группирования респондентов на основе их ответов на вопросы, касающиеся выбора

больницы, использовали метод кластеризации, минимизирующий дисперсию, который

выполнили с помощью программы Quick Cluster (программный пакет SPSS). Минимизиро-

вали квадраты евклидовых расстояний между всеми переменными, лежащими в основе кла-

стеризации. Поскольку разные респонденты воспринимали шкалы важности по-разному,

перед кластеризацией персональные рейтинги нормировали. Результаты показали, что рес-

пондентов наилучшим образом можно классифицировать на четыре кластера. Достоверность

результатов кластерного анализа проверили методом перекрестной проверки двух половинок

общей выборки.

Как и ожидалось, четыре группы существенно отличались по кривым распределения и

средним значениям ответов, касающихся причин выбора стационарного лечения. Назва-

ния, присвоенные каждой из четырех групп, отразили демографические характеристики и

причины выбора стационарного лечения; клиенты со старомодными взглядами; богатые

клиенты; клиенты, здраво оценивающие стоимость лечения; клиенты, желающие получить

1 профессиональное медицинское обслуживание [16].

КЛАСТЕРИЗАЦИЯ ПЕРЕМЕННЫХ

Иногда кластерный анализ используют для кластеризации переменных, чтобы опреде-

лить однородные (гомогенные) группы. В этом случае элементами, используемыми для

анализа, будут переменные, и меры расстояния вычисляют для всех пар переменных. На-

пример, коэффициент корреляции либо по абсолютной величине, либо с присущим ему

знаком можно использовать как меру сходства (в противоположность расстоянию) между

переменными.

Иерархическая кластеризация переменных помогает идентифицировать характерные

переменные или переменные, которые вносят уникальный вклад в данные. Кластериза-

ция также используется для уменьшения числа переменных. Связанную с каждым класте-

ром линейную комбинацию переменных в кластере называют кластерным компонентом.

Большой набор переменных часто можно заменить набором кластерных компонентов, по-

теряв при этом незначительную часть информации. Однако данное число кластерных

компонентов обычно не объясняет столько дисперсии, сколько такое же количество глав-

ных компонентов. Тогда возникает вопрос: зачем же использовать кластеризацию пере-

менных? Кластерные компоненты обычно легче интерпретировать, чем главные, даже ес-

ли последние повернутые [17]. Проиллюстрируем кластеризацию переменных на примере

из исследования рекламы.

ПРИМЕР. Эмоции — и ничего, кроме эмоций

Для того чтобы определить, какие эмоции вызывает у людей реклама, было проведено I

маркетинговое исследование. Набор из 655 эмоций уменьшили до 180, после этого их оце- |

нили респонденты, которые, вероятнее всего, наиболее подвержены рекламе. Эту группу |

разбили на 31 кластер похожих эмоций, исходя из оценок респондентов о влиянии на них I

| рекламы. Затем эти кластеры разделили на 16 кластеров с положительными эмоциями и ]

I 15 — с отрицательными [18].

Глава 20. Кластерный анализ 767

Положительные эмоции

1. Игривость-несерьезность

2. Дружелюбие

3. Юмор

4. Восхищение

5. Интерес

6. Сила-уверенность

7. Сердечность-нежность

8. Рассла&ленность

9. Энергия-импульсивность

10. Страстное желание-воэбуадение

11. Размышление

12. Гордость

13. Убежденность-ожидание

14. Бодрость-вызов

15. Изумление

16. Горячее желание-осведомленность

Отрицательные эмоции

1. Страх

2. Испорченное настроение-досада

3. Смущение

4. безразличие

5. Скука

6. Грусть

7. Беспокойство

8. Беспомощность-робость

9. Неприязнь-глупость

10. Сожаление-обман

11. Гнев

12. Неловкость

13. Отвращение

14. Раздражение

15. Дурное настроение-замешательство

Таким образом 665 эмоций — откликов на рекламу, снизили до основного набора из 31

i эмоции. Теперь менеджеры в сфере рекламы имеют управляемый набор эмоций (чувств),

I позволяющий понять и измерить эмоциональные отклики респондентов на рекламу. Буду-

| чи измеренными, эти эмоции предоставляют информацию о способности рекламы убеждать

| целевых потребителей.

Кластерный анализ может оказаться полезным при изучении проблем этики маркетинго-

вых исследований (врезка 20.1 "Практика маркетинговых исследований" [19]).

Врезка 20.1. Практика маркетинговых исследований

Кластеризация профессионалов в маркетинге на основе оценки этичности ситуаций

Кластерный анализ используется для объяснения различий в восприятии этических

норм. Для измерения этичности различных ситуаций разработаны шкалы, состоящие из не-

скольких разделов и многих пунктов (многоразмерные шкалы). Одна из таких шкал создана

Райденбахом и Робином (Reidenbach and Robin), она состоит из 29 пунктов, которые охваты-

вают пять областей этики, и служит для оценки респондентом конкретного действия. На-

пример, респондент прочтет о том, что исследователь-маркетолог предоставил частную ин-

формацию об одном из своих клиентов другому клиенту. Респондента попросят заполнить

анкету из 29 пунктов. Например, его просят указать, каким является это действие:

Справедливое (действие);__j;::::: Несправедливое

Обычно приемлемое::;::: _:: Неприемлемое

Имеет место нарушение:::;::::; Нет нарушения условий контракта

Эту шкалу использовали при опросе специалистов-маркетологов. На основе ответов на

29 пунктов анкеты респондентов разделили на кластеры, при этом изучались два основ-

ных вопроса. Во-первых, чем отличаются кластеры с точки зрения таких этических ком-

понентов, как справедливость, релятивизм, эгоизм, утилитаризм, деонтология

(подробности — в главе 24). Во-вторых, какие типы фирм входят в каждый из кластеров?

Кластеры можно описать с точки зрения стандартной промышленной классификации от-

раслей (SIC) и рентабельности фирм. Ответы на эти вопросы позволят увидеть, каким из

768 Часть 111, Сбор, подготовка и анализ данных

принципов этики руководствуется определенный тип руководителей фирм для оценки

этичности ситуаций. Например, попадут ли крупные и мелкие фирмы в один и тот же

кластер? Действительно ли рентабельные фирмы относятся к спорным ситуациям лояль-

нее, чем менее прибыльные фирмы?

ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА

В SPSS главной программой для иерархической кластеризации объектов является

CLUSTER. Можно вычислить различные значения меры расстояний, доступны также все ме-

тоды кластеризации, рассмотренные в этой главе. Для неиерархической кластеризации ис-

пользуется программа QUICK CLUSTER. Она чрезвычайно полезна для кластеризации боль-

шого количества случаев. Все опции по умолчанию приводят к кластеризации методом k-

средних. Для кластеризации переменных следует вычислять значения меры сходства по всем

переменным, используя программу PROXIMITIES. Матрицу близости можно получить с по-

мощью программы CLUSTER

В SAS используется программа CLUSTER для иерархической кластеризации случаев или

объектов. Доступны все методы кластеризации, описанные в данной главе, а также некоторые

дополнительные. Неиерархическая кластеризация случаев или объектов выполняется с помо-

щью FASTCLUS. Для кластеризации переменных используется программа VARCLUS. Дендро-

граммы не вычисляются автоматически, их можно получить с помощью программы TREE.

В программном пакете BMDP главной программой для кластеризации случаев с использо-

ванием иерархических методов является 2М. Она позволяет использовать несколько мер рас-

стояний, но только одну из процедур кластеризации: метод одиночной связи, центроидный

метод или правило k ближайших соседей. Для неиерархичсской кластеризации используется

программа КМ, позволяющая выполнять кластеризацию объектов с ^-средними. Кластериза-

ция переменных выполняется программой 1М. Она дает возможность использовать методы

одиночной, полной и средней связи. Существует также специальная программа ЗМ для по-

строения блок-кластеров для категориальных переменных. Поднаборы объектов объединяются

в кластеры, аналогичные поднаборам переменных.

В Minitab можно оценить кластерный анализ, используя функцию Multivariate>Cluster observation.

Кроме того, существуют функции Clustering of Variables и Cluster K-Means. Кластер-

ный анализ нельзя выполнить в Excel (версия 7.0 для PC).

В центре внимания Burke

Когда компания Burke представляет результаты кластерного анализа клиенту, он должен

получить ответы на следующие три существенных вопроса.

1. Что я могут узнать с помощью кластеров о моем рынке?

2. Какие переменные лежат в основе кластеризации?

3. Насколько отличаются кластеры?

Что я могут узнать с помощью кластеров о моем рынке?

Чтобы ответить на этот вопрос, компания Burke обычно использует данные респонден-

1 тов, которые не были включены в процедуру кластеризации. Например, нам удалось опре-

г делить четыре кластера респондентов, исходя из их оценок преимуществ товара. Для провер-

ки нашего предположения о наличии четырех кластеров мы также собрали фактические

данные о поведении покупателей и их намерениях относительно покупок. Если кластеры не

отражают каких-либо важных для руководства значимых различий по этим показателям,

описывающим поведение при покупке товара и намерения купить его, то сложно убедить

1 руководство компании-заказчика в том, что деление клиентов на кластеры целесообразно.

\ Поскольку цель кластеризации — создание групп, очень схожих между собой, то нет гаран-

| тии, что они будут отличаться чем-либо другим, кроме внешних признаков.

Глава 20. Кластерный анализ 769

Какие переменные лежат в основе кластеризации?

Если для создания кластеров мы используем несколько переменных, то следует быть

внимательным, чтобы не создать неявно взвешенную систему. Например, в маркетинговом

исследовании в сфере автоиндустрии заказчик предложил сгруппировать респондентов в со-

ответствии с ответами на 20 вопросов, касающихся желаемых преимуществ нового автомо-

биля. Уже при первом их рассмотрении стало ясно, что семь вопросов прямо или косвенно

связаны с экономией денег, восемь — с имиджем, три — с ценой и два отражали скоростные

качества автомобиля. Можно было спрогнозировать, что вопросы, лежащие в основе класте-

ризации, скорее всего приведут руководство компании к выводу о том, что группы респон-

дентов, по-видимому, больше всего отличаются отношением к экономии денег и имиджу

автомобиля. Но когда вы вычислите евклидовы расстояния, чтобы изучить различия между

респондентами, то в формулу их расчета будет входить данные, полученные при ответах на

!5 вопросов относительно экономии и имиджа и только пять, касающиеся вопросов из об-

ласти ценовых и скоростных характеристик автомобиля. Если эти вопросы имеют сопоста-

вимые шкалы, то явно будет завышено значение данных из первых двух категорий. Разум-

нее сократить как можно больше похожих вопросов, чтобы получить в каждой категории

одинаковое число вопросов, отражающее высоко коррелированные группы вопросов. Если

этого не сделать, то число вопросов, которые вы зададите по данной проблеме, может сильно

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.233 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница