|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Коэффициент корреляционного отношения- это мера связи между дисперсией по группам и дисперсией по всей выборке. Он показывает насколько снизится дисперсия у-ка если категория х будет известна. Корреляционный коэффициент отношений как правило обозначается как и он равен Коэффициент корреляционного отношения по смыслу схож по смыслу с коэффициентом R^2 показывает долю объясненной дисперсии, но относительно категорий Значение коэффициент корреляционного отношения принадлежит [0;1] = Рассмотри коэффициент корреляционного отношения на примере:
Тогда , То есть дисперсия в данном случае большей частью обусловлена различием значений по группам а не внутри групп. Пример из его книги: Tabular regression of Age over Occupation in Students data.
Tabular regression OOProg/ Occupation
В какой таблице корреляция больше?
Вторая таблица показывает большую корреляцию. Таблица сопряженности, условные вероятности и коэффициент Кетле. Таблица сопряженности: два множества категорий. Nij – число случаев, когда две градации совпали. (На пересечении строки и столбца указывается частота совместного появления Nij соответствующих значений двух признаков xi и yj.) Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Protocol/Attack таблица сопряженности (100 attacks):
Благодаря большому количеству нулей, из таблицы можно вывести следующие зависимости между двумя множествами признаков: Udp → norm Icmp ↔ surf attack Пусть имеется ряд из m сопряженных наблюдений двух переменных A = (a 1 ,..., am) и B = (b 1 ,..., bm), причем, предполагается, что A – независимая переменная (фактор) влияет на значения B – зависимой переменной (отклик). Предположим, что признак А имеет r градаций (или уровней) A1, A2, …, Ar, а признак В подразделяется на s градаций B1, B2, …, Bs. В "свернутом" виде результаты наблюдений можно представить таблицей сопряженности, состоящей из r строк и s столбцов, в ячейках которых проставлены частоты событий nij, т.е. количество объектов выборки, обладающих комбинацией уровней Ai и Bj. Если между переменными A и B имеется взаимно однозначная прямая или обратная функциональная связь, то все частоты nij концентрируются по одной из диагоналей таблицы. При связи не столь сильной некоторое число наблюдений попадает и на недиагональные элементы. Пример:
Построить таблицу сопряженности двух характеристик:
200 – баланс, 78 – сколько всего женщин. Сама таблица – двумерное распределение. В анализе данных обычно рассматривается список:
Quetelet index(1832)/ Коэффициент Кетле: l = 1…L; k = 1…K – два множества категорий Сумма частот по строке Ni называется маргинальной частотой строки; сумма частот по столбцу Nj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки N; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы. N(kl) в сумме дают N, p(kl) = N(kl)/N N(k+) = Например, N(k+) = 78 N(+l) = – сумма по столбцу. Например, N(+1) = 100 Это маргинальные распределения. Получим их для таблицы сопряженности, разделив все компоненты на 200.
Признаки А и В будут независимыми, если значение, принятое признаком А не влияет на вероятности возможных значений признака В: P (Bj / Ai) = P (Bi) или P (Ai, Bj) = P (Ai) P (Bj Значения использованных вероятностей нам неизвестны, однако, по теореме Бернулли, при большом объеме выборки (n ® ¥) частоты в ячейках таблицы сопряженности будут являться оценками этих вероятностей. При выполнении гипотезы о независимости признаков справедливо pij = pi. × p.j где следующие величины трактуются как ожидаемые частоты: Связь между категориями k и l: на сколько процентов попадание в категорию l увеличивает вероятность попасть в k по сравнению со средним по выборке? p(k|l) – вероятность l при условии k. Пусть — фиксированное вероятностное пространство. Пусть суть два случайных события, причём . Тогда условной вероятностью события A при условии события B называется
q(k|l) = - коэффициент Кетле (для измерения частоты связи) Посчитаем число Кетле для женщин, используя таблицу сопряженности: k = Ж, l = 1000 p(l) = 0.4 = p(+l) p(1000/Ж) = 8/78 = 0.1 q(k|l) = (0.1-0.4)/0.4 = -0.75 = -75% - Женщины склонны совершать этот вид поведения (расходы в 1000р) на 75% меньше, чем в среднем. Если посчитать коэффициент Кетле для мужчин: к – М, l = 1000, то получим 47.5%. Рассчитаем q(M|1000). p(M|1000) = 72/80 = 0.9 p(l) = 0.61 q(M|1000) = (0.9-0.61)/0.61=0.475 – получили то же самое, он симметричен, следовательно, не указывает, кто есть причина, а кто – следствие. Пример: К – болезнь, l – плохие жилищные условия P(k) = 0.001 – средняя вероятность заболеть по выборке 0.1% p(k|l) = 0.01 – средняя вероятность заболеть при наличии плохих жилищных условий. q(k|l) = 16. Коэффициент хи-квадрат: традиционная формулировка Хи-квадрат определяет величину отклонения от «независимости» - т.к. категории k и l независимы, то . При K<L Хи-квадрат обладает свойствами: - Принадлежит отрезку [0: k-l] - Равен 0, если все категории независимы (для каждой клетки таблицы сопряженности выполняется ) - Равен K-1, если каждый столбец содержит только один ненулевой элемент (равный ), из чего можно вывести ассоциативные правила вида
Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.008 сек.) |