|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Вклад главной компоненты в разброс данныхУ нас есть k факторов, которыми мы хотим объяснить значение некоторой «зависимой» переменной. У каждого фактора выделим две составляющие: на примере студентов, это талант (z) и нагрузка (с). Грубо говоря, После сведения к задаче о сингулярной тройке получаем следующую задачу: Решением являются первые k сингулярных троек, если Минимизируем ошибку. Например, сумму квадратов ошибок: Главная компонента Если у нас k=1: То есть, В общем случае: Если нам надо минимизировать
21.Традиционная Формулировка Метода Главных Компонент В английской литературе метод главных компонент определяется не через понятия сингулярных троек, а через некую эвристическую технику построения линейных комбинаций признаков с помощью матрицы ковариаций. X -матрица данных; Y -центрированная X (центрируем столбцы). A – матрица ковариаций: A= Диагональные элементы этой матрицы – дисперсии признаков. Если хотим получить матрицу корреляций, то при стандартизации Y необх.ещё каждый столбец разделить на стандартное отклонение. Можно сформулир.задачу метода гл.компонент след.образом: Дана центрированная матрица Y. Мы находим такой V -мерный вектор «c», что сумма столбцов Y свесами «с_v» (f=Yc), имеет наибольшую дисперсию из возможных. Этот вектор и есть главная компонента, так как характеризует область наибольшего разброса данных. Вектор f – центрированный для любого с, так как Y – центрированная матрица. Таким образом, его дисперсия равна: Подставим f=Yc в последнее равенство для дисперсии, получим:
Необходимо максимизир.эту дисперсию, исходя из того, что c – нормированный, то есть: Это эквивалентно безусловной максимизации функции q(c): q(c) = Этот показатель известен как показатель Релея для матрицы A= Т.о., 1ая гл. компонента традиционно определяется как соб.вектор матрицы ковариаций A, соотв-й максимальному соб.числу. 2ая гл. опр-ся как др.лин.комбинация столбцов Y, которая максимиз.её дисперсию, при условии ортогональности 2ой гл.компоненты к 1й. Т.к.соб.векторы, соответствующие разным собственным числам, ортогональны, то естественно, что 2ая гл. компонента опр-ся через второе по величине соб.число и соотв.соб.вектор. Все соб.числа матрицы ковариаций – действительные и положительные! Далее 3я, 4ая и т.д. гл.компоненты опр-ся аналогично, учитывая, что кажд.след. гл.компонента ортогон.всем предыдущим. Несмотря на аналогичность вычислений в данной постановке задачи и при определении гл.компоненты через понятие сингуляр.тройки, существуют концептуальные различия в 2х опр-ях метода. Формулировка метода гл.компонент через ковариационную матр.имеет смысл только для центрированных данных! Линейная зависимость гл.компоненты от признаков постулируется моделью, в то время как при формулировке через сингуляр.тройки – выводится.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |