АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Вклад главной компоненты в разброс данных

Читайте также:
  1. Безазотистые органические компоненты крови.
  2. Безвозмездная передача при вкладе в уставной капитал других организаций
  3. Ведение трудовых книжек; вкладыш в трудовую книжку, дубликат трудовой книжки. Выдача трудовой книжки при увольнении. Учёт трудовых книжек.
  4. Виконання і припинення договору банківського вкладу.
  5. Використання функцій і вкладених функцій у формулах
  6. Вклад А.Левенгука, Л. Пастера, Р. Коха в развитие микробиологии.
  7. Вклад Боаса в науку. Его ученики.
  8. Вклад ВТО в развитие международного туризма.
  9. Вклад индейцев в мировую цивилизацию слайд №15.
  10. Вклад коммерческих телекомпаний
  11. Вклад Н. И. Пирогова в развитие топографической анатомии.

У нас есть k факторов, которыми мы хотим объяснить значение некоторой «зависимой» переменной. У каждого фактора выделим две составляющие: на примере студентов, это талант (z) и нагрузка (с).

Грубо говоря, - это некоторый k-тый талант i-го студента, - использование k-того таланта в предмете v (нагрузка), - оценка i-того студента по предмету v.

После сведения к задаче о сингулярной тройке получаем следующую задачу:

Решением являются первые k сингулярных троек, если М – диагональная.

Минимизируем ошибку. Например, сумму квадратов ошибок:

Главная компонента , нагрузка .

Если у нас k=1:

То есть,

В общем случае:

Если нам надо минимизировать это означает, что надо максимизировать все , потому что X задана.

- характеризует часть разброса данных объясненных главной компонентой .

21.Традиционная Формулировка Метода Главных Компонент

В английской литературе метод главных компонент определяется не через понятия сингулярных троек, а через некую эвристическую технику построения линейных комбинаций признаков с помощью матрицы ковариаций.

X -матрица данных; Y -центрированная X (центрируем столбцы).

A – матрица ковариаций: A= Y/N

Диагональные элементы этой матрицы – дисперсии признаков. Если хотим получить матрицу корреляций, то при стандартизации Y необх.ещё каждый столбец разделить на стандартное отклонение.

Можно сформулир.задачу метода гл.компонент след.образом:

Дана центрированная матрица Y. Мы находим такой V -мерный вектор «c», что сумма столбцов Y свесами «с_v» (f=Yc), имеет наибольшую дисперсию из возможных. Этот вектор и есть главная компонента, так как характеризует область наибольшего разброса данных. Вектор f – центрированный для любого с, так как Y – центрированная матрица.

Таким образом, его дисперсия равна: = /N = f/N.

Подставим f=Yc в последнее равенство для дисперсии, получим:

= /N = ( (Yc)/N = Yc/ N

Необходимо максимизир.эту дисперсию, исходя из того, что c – нормированный, то есть: c = 1.

Это эквивалентно безусловной максимизации функции q(c):

q(c) =

Этот показатель известен как показатель Релея для матрицы A= Y/N, которая явл-ся матр.ковариаций. Показатель Релея достигает макс.на соб.векторе матрицы A, соотв.макс.соб.числу q(c).

Т.о., 1ая гл. компонента традиционно определяется как соб.вектор матрицы ковариаций A, соотв-й максимальному соб.числу. 2ая гл. опр-ся как др.лин.комбинация столбцов Y, которая максимиз.её дисперсию, при условии ортогональности 2ой гл.компоненты к 1й. Т.к.соб.векторы, соответствующие разным собственным числам, ортогональны, то естественно, что 2ая гл. компонента опр-ся через второе по величине соб.число и соотв.соб.вектор. Все соб.числа матрицы ковариаций – действительные и положительные!

Далее 3я, 4ая и т.д. гл.компоненты опр-ся аналогично, учитывая, что кажд.след. гл.компонента ортогон.всем предыдущим. Несмотря на аналогичность вычислений в данной постановке задачи и при определении гл.компоненты через понятие сингуляр.тройки, существуют концептуальные различия в 2х опр-ях метода.

Формулировка метода гл.компонент через ковариационную матр.имеет смысл только для центрированных данных! Линейная зависимость гл.компоненты от признаков постулируется моделью, в то время как при формулировке через сингуляр.тройки – выводится.

 

 


1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.008 сек.)