АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Коэффициент корреляционного отношения

Читайте также:
  1. A) представляет собой соотношение нормы резервирования депозитов к коэффициенту депонирования
  2. I. Личные отношения между супругами
  3. I. Юридические отношения по вещам как вещное право и его виды
  4. II. Имущественные отношения между супругами
  5. II. Личные отношения между родителями и детьми, законными и другими
  6. II. Основные моменты содержания обязательства как правоотношения
  7. III. Имущественные отношения
  8. VI. Взаимоотношения (служебные связи).
  9. VII. Международные отношения
  10. Автокорреляция уровней временного ряда. Анализ структуры временного ряда на основании коэффициентов автокорреляции
  11. Аксиома вторая. Вопрос о производственных отношениях вторичен по отношению к вопросу о типе жизнедеятельности.
  12. Активная передача мыслей — способ достижения хорошего отношения к вам людей

- это мера связи между дисперсией по группам и дисперсией по всей выборке. Он показывает насколько снизится дисперсия у-ка если категория х будет известна.

Корреляционный коэффициент отношений как правило обозначается как и он равен

Коэффициент корреляционного отношения по смыслу схож по смыслу с коэффициентом R^2 показывает долю объясненной дисперсии, но относительно категорий

Значение коэффициент корреляционного отношения принадлежит [0;1]

=

Рассмотри коэффициент корреляционного отношения на примере:

х Номер в группе Среднее по группе Sum(std^2)
A 5 36 1952
G 4 33 308
S 6 78 60
Total по всей группе 15 52 9640

Тогда ,

То есть дисперсия в данном случае большей частью обусловлена различием значений по группам а не внутри групп.

Пример из его книги: Tabular regression of Age over Occupation in Students data.

Occupation Age Mean Age StD
IT 28.2 5.6
BA 39.3 7.3
AN 33.7 8.7

 

Tabular regression OOProg/ Occupation

Occupation OOP Mean OOP StD
IT 76.1 12.9
BA 56.7 12.3
AN 50.7 12.4
Total 61.6 16.5

В какой таблице корреляция больше?

 
Occupation/age 28.1%
Occupation/ooprog 42.3%

Вторая таблица показывает большую корреляцию.

Таблица сопряженности, условные вероятности и коэффициент Кетле.

Таблица сопряженности: два множества категорий. Nij – число случаев, когда две градации совпали. (На пересечении строки и столбца указывается частота совместного появления Nij соответствующих значений двух признаков xi и yj.) Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними.

Protocol/Attack таблица сопряженности (100 attacks):

Category appache saint surf norm Total
Tcp          
Udp          
Icmp          
Total          

 

Благодаря большому количеству нулей, из таблицы можно вывести следующие зависимости между двумя множествами признаков:

Udp → norm

Icmp ↔ surf attack

Пусть имеется ряд из m сопряженных наблюдений двух переменных A = (a 1 ,..., am) и B = (b 1 ,..., bm), причем, предполагается, что A – независимая переменная (фактор) влияет на значения B – зависимой переменной (отклик).

Предположим, что признак А имеет r градаций (или уровней) A1, A2, …, Ar, а признак В подразделяется на s градаций B1, B2, …, Bs. В "свернутом" виде результаты наблюдений можно представить таблицей сопряженности, состоящей из r строк и s столбцов, в ячейках которых проставлены частоты событий nij, т.е. количество объектов выборки, обладающих комбинацией уровней Ai и Bj.

Если между переменными A и B имеется взаимно однозначная прямая или обратная функциональная связь, то все частоты nij концентрируются по одной из диагоналей таблицы. При связи не столь сильной некоторое число наблюдений попадает и на недиагональные элементы.

Пример:

Количество человек Расходы М/Ж
  500р 50:50
  1000р 90:10
  2000р 0:100

 

Построить таблицу сопряженности двух характеристик:

Пол\Расходы       Total
Ж        
М        
total        

200 – баланс, 78 – сколько всего женщин.

Сама таблица – двумерное распределение. В анализе данных обычно рассматривается список:

  Пол Расходы
     
     
   
     

 

Quetelet index(1832)/ Коэффициент Кетле:

l = 1…L; k = 1…K – два множества категорий

Сумма частот по строке Ni называется маргинальной частотой строки; сумма частот по столбцу Nj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки N; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

N(kl) в сумме дают N, p(kl) = N(kl)/N

N(k+) = Например, N(k+) = 78

N(+l) = – сумма по столбцу. Например, N(+1) = 100

Это маргинальные распределения. Получим их для таблицы сопряженности, разделив все компоненты на 200.

    a b c Итого
N(1+)   0.25 0.04 0.1 0.39
N(2+)   0.25 0.36 0.00 0.61
Итого   0.5 0.4 0.1  

Признаки А и В будут независимыми, если значение, принятое признаком А не влияет на вероятности возможных значений признака В:

P (Bj / Ai) = P (Bi) или P (Ai, Bj) = P (Ai) P (Bj

Значения использованных вероятностей нам неизвестны, однако, по теореме Бернулли, при большом объеме выборки (n ® ¥) частоты в ячейках таблицы сопряженности будут являться оценками этих вероятностей. При выполнении гипотезы о независимости признаков справедливо

pij = pi. × p.j

где следующие величины трактуются как ожидаемые частоты:

Связь между категориями k и l: на сколько процентов попадание в категорию l увеличивает вероятность попасть в k по сравнению со средним по выборке?

p(k|l) – вероятность l при условии k.

Пусть — фиксированное вероятностное пространство. Пусть суть два случайных события, причём . Тогда условной вероятностью события A при условии события B называется

 

q(k|l) = - коэффициент Кетле (для измерения частоты связи)

Посчитаем число Кетле для женщин, используя таблицу сопряженности:

k = Ж, l = 1000

p(l) = 0.4 = p(+l)

p(1000/Ж) = 8/78 = 0.1

q(k|l) = (0.1-0.4)/0.4 = -0.75 = -75% - Женщины склонны совершать этот вид поведения (расходы в 1000р) на 75% меньше, чем в среднем.

Если посчитать коэффициент Кетле для мужчин: к – М, l = 1000, то получим 47.5%. Рассчитаем q(M|1000).

p(M|1000) = 72/80 = 0.9

p(l) = 0.61

q(M|1000) = (0.9-0.61)/0.61=0.475 – получили то же самое, он симметричен, следовательно, не указывает, кто есть причина, а кто – следствие.

Пример:

К – болезнь, l – плохие жилищные условия

P(k) = 0.001 – средняя вероятность заболеть по выборке 0.1%

p(k|l) = 0.01 – средняя вероятность заболеть при наличии плохих жилищных условий.

q(k|l) =

16. Коэффициент хи-квадрат: традиционная формулировка

Хи-квадрат определяет величину отклонения от «независимости» - т.к. категории k и l независимы, то .

При K<L Хи-квадрат обладает свойствами:

- Принадлежит отрезку [0: k-l]

- Равен 0, если все категории независимы (для каждой клетки таблицы сопряженности выполняется )

- Равен K-1, если каждый столбец содержит только один ненулевой элемент (равный ), из чего можно вывести ассоциативные правила вида

 

 


1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.009 сек.)