АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Компонентный анализ

Читайте также:
  1. II. Основные проблемы, вызовы и риски. SWOT-анализ Республики Карелия
  2. III. Анализ продукта (изделия) на качество
  3. III. Анализ результатов психологического анализа 1 и 2 периодов деятельности привел к следующему пониманию обобщенной структуры состояния психологической готовности.
  4. IX. Дисперсионный анализ
  5. Oанализ со стороны руководства организации.
  6. SWOT- анализ и составление матрицы.
  7. SWOT-анализ
  8. SWOT-анализ
  9. SWOT-анализ
  10. SWOT-анализ в качестве универсального метода анализа.
  11. SWOT-анализ.
  12. VI. АНАЛИЗ СЕГМЕНТА S—Т

 

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k- я наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

 

 

размерности п х k, где хij.— значение j -го показателя у i -го наблюдения (i = 1, 2,..., n; j = 1, 2,.... k), вычисляют средние значения показателей а также s1,..., sk и матрицу нормированных значений

 

с элементами

 

 

Рассчитывается матрица парных коэффициентов корреляции:

 

(53.24)

 

с элементами

 

(53.25)

 

где j, l= 1, 2, .... k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

 

 

Модель компонентного анализа имеет вид

 

(53.26)

 

где aiv — «вес», т.е. факторная нагрузка v -й главной компоненты на j -ю переменную;

f iv — значение v -й главной компоненты для i -го наблюдения (объекта), где v = 1, 2, ...,k.

В матричной форме модель (53.26) имеет вид

(53.27)

 

f iv — значение v -й главной компоненты для i -го наблюдения (объекта);

aiv — значение факторной нагрузки v -й главной компоненты на j -ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. fv = , a главные компоненты не коррелированы между собой. Из этого следует, что

 

(53.28)

 

Выражение (53.28) может быть представлено в виде

 

(53.29)

 

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной zj и, например, f1 -й главной компонентой. Так как zо и f1 нормированы, будем иметь с учетом (53.26):

 

 

Принимая во внимание (53.29), окончательно получим

 

 

Рассуждая аналогично, можно записать в общем виде

 

(53.30)

 

для всех j = 1, 2,.,., k и v = 1, 2,.... k.

Таким образом, элемент ajv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной zj и главной компонентой fv, т.е. –1 ≤ ajv +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной zj. С учетом (53.26) будем иметь

 

 

где v, v' = 1, 2,..., k.

Учитывая (53.29), окончательно получим

 

(53.31)

 

По условию, переменные zj нормированы и s = 1. Таким образом, дисперсия переменной zj, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v -й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

 

(53.32)

 

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

 

 

Учитывая (53.28), окончательно получим

 

(53.33)

 

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

 

(53.34)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ v > 0 для любых v =1, 2,..., k.

В компонентном анализе элементы матрицы Λ ранжированы: λ 1 ≥ λ 2... ≥λ v... ≥ λ k ≥ 0. Как будет показано ниже, собственное значение λ v характеризует вклад v -й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k- я, — наименьший.

В ортогональной матрице U собственных векторов v -й столбец является собственным вектором, соответствующим λ v -му значению.

Собственные значения λ 1 ≥... ≥ λ v.... ≥λ k находятся как корни характеристического уравнения

 

(53.35)

 

Собственный вектор Vv, соответствующий собственному значению λ v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

 

(53.36)

 

Нормированный собственный вектор Uv равен

 

 

Из условия ортогональности матрицы U следует, что U-1 = UT, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

 

 

Так как у подобных матриц суммы диагональных элементов равны, то

 

 

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

 

 

Таким образом,

 

(53.37)

 

Представим матрицу факторных нагрузок А в виде

 

(53.38)

 

а v -й столбец матрицы А — как

 

 

где Uv — собственный вектор матрицы R, соответствующий собственному значению λ v.

Найдем норму вектора Аv:

 

(53.39)

 

Здесь учитывалось, что вектор Uv — нормированный и U Uv = 1. Таким образом,

 

 

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ v характеризует вклад v -й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

 

(53.40)

 

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v -й главной компоненты определяется по формуле .

Суммарный вклад т первых главных компонент определяется из выражения .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f v используются лишь те хj, для которых |a jv | > 0,5.

Значения главных компонент для каждого i -го объекта (i = 1, 2,.... n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

 

 

откуда

 

 

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

 

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x1 и x4). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x1, х2, х3, х4, х5 (табл. 53.2).

Таблица 53.2


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 | 158 | 159 | 160 | 161 | 162 | 163 | 164 | 165 | 166 | 167 | 168 | 169 | 170 | 171 | 172 | 173 | 174 | 175 | 176 | 177 | 178 | 179 | 180 | 181 | 182 | 183 | 184 | 185 | 186 | 187 | 188 | 189 | 190 | 191 | 192 | 193 | 194 | 195 | 196 | 197 | 198 | 199 | 200 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.012 сек.)