Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Вклад главной компоненты в разброс данных

Читайте также:

У нас есть k факторов, которыми мы хотим объяснить значение некоторой «зависимой» переменной. У каждого фактора выделим две составляющие: на примере студентов, это талант (z) и нагрузка (с).

Грубо говоря, - это некоторый k-тый талант i-го студента, - использование k-того таланта в предмете v (нагрузка), - оценка i-того студента по предмету v.

После сведения к задаче о сингулярной тройке получаем следующую задачу:

Решением являются первые k сингулярных троек, если М – диагональная.

Минимизируем ошибку. Например, сумму квадратов ошибок:

Главная компонента , нагрузка .

Если у нас k=1:

То есть,

В общем случае:

Если нам надо минимизировать это означает, что надо максимизировать все , потому что X задана.

- характеризует часть разброса данных объясненных главной компонентой .

21.Традиционная Формулировка Метода Главных Компонент

В английской литературе метод главных компонент определяется не через понятия сингулярных троек, а через некую эвристическую технику построения линейных комбинаций признаков с помощью матрицы ковариаций.

X -матрица данных; Y -центрированная X (центрируем столбцы).

A – матрица ковариаций: A= Y/N

Диагональные элементы этой матрицы – дисперсии признаков. Если хотим получить матрицу корреляций, то при стандартизации Y необх.ещё каждый столбец разделить на стандартное отклонение.

Можно сформулир.задачу метода гл.компонент след.образом:

Дана центрированная матрица Y. Мы находим такой V -мерный вектор «c», что сумма столбцов Y свесами «с_v» (f=Yc), имеет наибольшую дисперсию из возможных. Этот вектор и есть главная компонента, так как характеризует область наибольшего разброса данных. Вектор f – центрированный для любого с, так как Y – центрированная матрица.

Таким образом, его дисперсия равна: = /N = f/N.

Подставим f=Yc в последнее равенство для дисперсии, получим:

= /N = ( (Yc)/N = Yc/ N

Необходимо максимизир.эту дисперсию, исходя из того, что c – нормированный, то есть: c = 1.

Это эквивалентно безусловной максимизации функции q(c):

q(c) =

Этот показатель известен как показатель Релея для матрицы A= Y/N, которая явл-ся матр.ковариаций. Показатель Релея достигает макс.на соб.векторе матрицы A, соотв.макс.соб.числу q(c).

Т.о., 1ая гл. компонента традиционно определяется как соб.вектор матрицы ковариаций A, соотв-й максимальному соб.числу. 2ая гл. опр-ся как др.лин.комбинация столбцов Y, которая максимиз.её дисперсию, при условии ортогональности 2ой гл.компоненты к 1й. Т.к.соб.векторы, соответствующие разным собственным числам, ортогональны, то естественно, что 2ая гл. компонента опр-ся через второе по величине соб.число и соотв.соб.вектор. Все соб.числа матрицы ковариаций – действительные и положительные!

Далее 3я, 4ая и т.д. гл.компоненты опр-ся аналогично, учитывая, что кажд.след. гл.компонента ортогон.всем предыдущим. Несмотря на аналогичность вычислений в данной постановке задачи и при определении гл.компоненты через понятие сингуляр.тройки, существуют концептуальные различия в 2х опр-ях метода.

Формулировка метода гл.компонент через ковариационную матр.имеет смысл только для центрированных данных! Линейная зависимость гл.компоненты от признаков постулируется моделью, в то время как при формулировке через сингуляр.тройки – выводится.

1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.616 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница