|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Вклад главной компоненты в разброс данныхУ нас есть k факторов, которыми мы хотим объяснить значение некоторой «зависимой» переменной. У каждого фактора выделим две составляющие: на примере студентов, это талант (z) и нагрузка (с). Грубо говоря, - это некоторый k-тый талант i-го студента, - использование k-того таланта в предмете v (нагрузка), - оценка i-того студента по предмету v. После сведения к задаче о сингулярной тройке получаем следующую задачу: Решением являются первые k сингулярных троек, если М – диагональная. Минимизируем ошибку. Например, сумму квадратов ошибок: Главная компонента , нагрузка . Если у нас k=1: То есть, В общем случае: Если нам надо минимизировать это означает, что надо максимизировать все , потому что X задана. - характеризует часть разброса данных объясненных главной компонентой . 21.Традиционная Формулировка Метода Главных Компонент В английской литературе метод главных компонент определяется не через понятия сингулярных троек, а через некую эвристическую технику построения линейных комбинаций признаков с помощью матрицы ковариаций. X -матрица данных; Y -центрированная X (центрируем столбцы). A – матрица ковариаций: A= Y/N Диагональные элементы этой матрицы – дисперсии признаков. Если хотим получить матрицу корреляций, то при стандартизации Y необх.ещё каждый столбец разделить на стандартное отклонение. Можно сформулир.задачу метода гл.компонент след.образом: Дана центрированная матрица Y. Мы находим такой V -мерный вектор «c», что сумма столбцов Y свесами «с_v» (f=Yc), имеет наибольшую дисперсию из возможных. Этот вектор и есть главная компонента, так как характеризует область наибольшего разброса данных. Вектор f – центрированный для любого с, так как Y – центрированная матрица. Таким образом, его дисперсия равна: = /N = f/N. Подставим f=Yc в последнее равенство для дисперсии, получим: = /N = ( (Yc)/N = Yc/ N Необходимо максимизир.эту дисперсию, исходя из того, что c – нормированный, то есть: c = 1. Это эквивалентно безусловной максимизации функции q(c): q(c) = Этот показатель известен как показатель Релея для матрицы A= Y/N, которая явл-ся матр.ковариаций. Показатель Релея достигает макс.на соб.векторе матрицы A, соотв.макс.соб.числу q(c). Т.о., 1ая гл. компонента традиционно определяется как соб.вектор матрицы ковариаций A, соотв-й максимальному соб.числу. 2ая гл. опр-ся как др.лин.комбинация столбцов Y, которая максимиз.её дисперсию, при условии ортогональности 2ой гл.компоненты к 1й. Т.к.соб.векторы, соответствующие разным собственным числам, ортогональны, то естественно, что 2ая гл. компонента опр-ся через второе по величине соб.число и соотв.соб.вектор. Все соб.числа матрицы ковариаций – действительные и положительные! Далее 3я, 4ая и т.д. гл.компоненты опр-ся аналогично, учитывая, что кажд.след. гл.компонента ортогон.всем предыдущим. Несмотря на аналогичность вычислений в данной постановке задачи и при определении гл.компоненты через понятие сингуляр.тройки, существуют концептуальные различия в 2х опр-ях метода. Формулировка метода гл.компонент через ковариационную матр.имеет смысл только для центрированных данных! Линейная зависимость гл.компоненты от признаков постулируется моделью, в то время как при формулировке через сингуляр.тройки – выводится.
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |