|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Общие сведения. Главное назначение кластерного анализа — разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы
Главное назначение кластерного анализа — разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. Методы кластерного анализа можно применять даже тогда, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству. Техника кластеризации применяется в самых различных областях. Широкое применение нашел кластерный анализ в маркетинговых исследованиях. Всякий раз, когда необходимо классифицировать «горы» информации на пригодные для дальнейшей обработки группы, кластерный анализ оказывается весьма полезным и эффективным. Отличием кластерного анализа от других методов классификации является отсутствие обучающей выборки. Большое достоинство кластерного анализа в том, что он дает возможность производить разбиение объектов не по одному параметру, а по ряду признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет исследовать множество исходных данных практически произвольной природы. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве X, разбить множество объектов G на т (т — целое) кластеров Qt, Q2,..., Qm так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам, — разнородными. Решением задачи кластерного анализа являются разбиения, удовлетворяющие критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Сходство между объектами Gi, Gj определим через понятие расстояния между векторами измерений Xi, Xj, так как интуитивно понятно, что чем меньше расстояние между объектами, тем они более схожи. Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендрограммы, или диаграммы дерева. Дендрограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендрограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства. Существует много способов построения дендрограмм. В дендрограмме объекты располагаются вертикально слева, результаты кластеризации — справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются над горизонтальной прямой поверх дендрограмм. На рис.20 показан один из примеров дендрограммы.
Рисунок 20 Пример дендрограммы
Пример соответствует случаю шести объектов (n=6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. В результате имеем 4 кластера: (А, С), (F), (D,E), (В) на уровне 80% сходства. Далее образуются кластеры (А, С, F) и (E, D, В), соответствующие уровням близости, равным соответственно 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5. Вид дендрограммы зависит от выбора меры сходства или расстояния междуобъектом и кластером и метода кластеризации. Алгоритмы кластерного анализа имеют хорошую программную реализацию в ППП STATISTICA, которая позволяет решить задачи самой большой размерности. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |