|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Использ-е метода гл.компонент для построения скрытого фактора
= Более подробно. = Анализ главных компонент в «чистом виде» используется для решения одной из ключевых проблем факторного анализа - проблемы числа факторов. Принцип выделения «главных факторов» в факторном анализе тот же, что и при анализе главных компонент. Но в отличие от компонентного анализа факторный анализ направлен на объяснение корреляций между переменными, а не только компонент дисперсии. Решение основной задачи метода анализ главных компонент и классификация достигается созданием векторного пространства скрытых факторов с размерностью меньше исходной (исходная размерность определяется числом переменных для анализа в исходных данных). ~пояснение~ пусть, необходимо выбрать объект (например, автомобиль) по двум критериям(мощность двигателя, стоимость). Если значения этих двух критериев принять за координаты точек на плоскости, соответствующих различным автомобилям, то получим диаграмму рассеяния, которая покажет, что можно построить линию, проходящую через большинство точек и, в частности, через центр облака точек. В этом случае линия регрессии будет представлять два свойства автомобилей и, следовательно, может использоваться для выбора автомобиля. Тем не менее, если принять во внимание и другие технические параметры автомобиля, например время разгона до 100 км/ч, то обычная парная регрессия переменных не поможет в принятии решения, так как она уже не будет представлять все три свойства автомобиля. Таким образом, становится ясным, что раз число переменных больше двух, то регрессия двух переменных уже не подходит для нашей задачи. Для случая с несколькими переменными требуется что-то, что является общим для всех переменных и может быть использовано как «значение» вида объектов. Если выразить геометрически, то это должна быть линия или линии (оси факторов), которые проходят через центр облака точек многомерного пространства. Анализ главных компонент является тем методом, который может сделать это. Новые факторные оси построены в пр-ве меньшей размерности, на них можно спроектировать пр-во переменных анализа. Математически вычисление факторов в основном состоит в диагонализации симметричной матрицы: матрицы корреляций или ковариаций в зависимости от того, нужно ли данные стандартизировать или центрировать относительно ср.зн. В обоих случаях рез-том будет новый набор некоррелир.переменных (гл.компонент), которые явл-ся лин.комбинациями первоначальных переменных. Число переменных становится меньше, и внутренняя дисперсия данных стремится к максимально возможному значению. Фактически в этом случае создается новое пространство — факторное, на которое можно спроектировать переменные и наблюдения, затем можно классифицировать на категории.
Гл.компоненты —прямые линии, которые наилучшим образом соответствуют облакам точек в векторных пространствах переменных и наблюдений, согласно критерию наименьших квадратов. По критерию наименьших квадратов главные компоненты (факторы) получаются как результат максимальной суммы квадратов ортогональных проекций. Следовательно, строится векторное подпространство меньшей размерности, которое заменяет первоначальное векторное пространство. Хотя фактор извлекается так, чтобы максимально объяснить разброс данных, редко удается сделать это полностью. Поэтому извлекается еще один фактор и т.д. По крайней мере, число факторов, извлекаемых таким образом, никогда не превысит число переменных анализа. Метод гл.компонент позволяет вычислять гл.компоненты с помощью матрицы корреляций или матрицы ковариаций. При реализации метода на вычисляемые факторы будут влиять различия вариабельности (изменчивости) активных переменных. Следовательно, анализ будет успешным, только если такие различия представляют интерес для проводимых исследований. В большинстве случаев эти различия несущественны просто потому, что они связаны с измерениями в различных шкалах. Например, два различных типа измерений температуры по Цельсию и Фаренгейту могут исп-ся в двух переменных. Очевидно, что учет этих различий в анализе приведет к отрицательным результатам. В этом случае рекомендуется преобразовать данные, чтобы исключить различие в масштабах. Т.к.эти измерения произведены в шкале интервалов и измерения отличаются т.начала отсчета и масштабом, данные надо преобразовать, а именно: центрировать относительно средних и масштабировать ст.отклонениями, т.е. надо выбрать матрицу корреляций для вычисления главных компонент. Если измерения отличаются только точкой начала отсчета, данные нужно центрировать только относительно их средних, по этой причине гл.компоненты необходимо вычислять через матрицу ковариаций. Очевидно, если в таблице исходных данных присутствуют разнотипные переменные (например, вес, длина, температура) или дисперсии однотипных переменных существенно отл-ся, то для вычисления гл.компонент надо выбрать корреляционную матрицу. 24. Использование метода главных компонент для визуализации данных. Визуализацию технически делаем следующим образом: 1) Возьмем некоторую матрицу Y, где строка отвечает объекту, а столбец - признаку. 2) Центрируем столбцы: найдем среднее для каждого столбика и вычтем его (n – количество строк в матрице Y): mm=mean(Y) YY=Y- repmat(ma,n,1) 3) Находим сингулярную тройку матр.УУ (центрированная У): [z,mu,c]=svd(YY) 4) Вычислим две первые главные компоненты (получим два вектора, где каждая координата будет соответствовать некоторому объекту матрицы УУ): z1=z(:,l)*sqrt(mu(l,l)) z2=z(:,2)*sqrt(mu(2,2)) 5) строим точки на графике следующим образом: plot(z1, z2, ‘к.‘, z1(1:35),z2(1:35),’k^’, z1(70:100),z2(70:100),’kо'); где от 1 до 35 - объекты некоторого первого типа, от 36 до 69 - второго, и с 70 по 100 - третьего типа. Второй тип отмечаем просто точками (точки мы ставим на все точки, независимо от типа), первый тип отмечаем отдельно треугольниками («k^»), третий тип отмечаем кружочками («kо»). В итоге получается что-то вроде следующей картинки: Таким образом, мы разместили точки на плоскости, исходя из координат векторов двух главных компонент. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |