АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Статистические взаимосвязи и их анализ

Читайте также:
  1. B) должен хорошо знать только физико-химические методы анализа
  2. I. Анализ социального окружения
  3. II. ИСТОРИЯ НАШЕЙ КАНАЛИЗАЦИИ
  4. III. Психологический анализ деятельности
  5. IV. Схема анализа внеклассного мероприятия
  6. IX. ЛЕКСИЧЕСКИЙ АНАЛИЗ
  7. PEST-анализ
  8. SWOT – анализ
  9. SWOT – анализ раздела
  10. SWOT-анализ
  11. SWOT-анализ
  12. SWOT-анализ раздела «ОБРАЗОВАТЕЛЬНЫЕ РЕЗУЛЬТАТЫ, ЭФФЕКТИВНОСТЬ»

 

Понятие о статистической зависимости. Исходя из известного положения исторического материализма о всеобщей взаимозависимо­сти и взаимообусловленности явлений общественной жизни, социо­лог-марксист не может ограничиться изучением отдельно взятого явления изолированно от других процессов и событий, а должен стремиться по возможности охватить весь комплекс явлений, отно­сящихся к тому или иному социальному процессу и изучить суще­ствующие между ними зависимости.

Различают два вида зависимостей: функциональные (примером которых могут служить законы Ньютона в классической физике) и статистические.

Закономерности массовых общественных явлений складываются под влиянием Множества причин, которые действуют одновременно и взаимосвязанно. Изучение такого рода закономерностей в стати­стике и называется задачей о статистической зависимости. В этой задаче полезно различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. В основном первый аспект связан с теорией корреляции (корреляционный анализ), второй — с теорией регрессии (регрессионный анализ). Основное внимание в этом параграфе уделено изучению взаимозависимостей нескольких признаков, а основные принципы регрессионного анализа рассмотре­ны очень кратко.

В основе регрессионного анализа статистической зависимости ряда признаков лежит представление о форме, направлении и тес­ноте (плотности) взаимосвязи.

В табл. 7 приведено эмпирическое распределение заработной пла­ты рабочих в зависимости от общего стажа работы (условные

данные) для выборки в 25 человек, а на рис. 9 эти численные данные представлены в виде так называемой диаграммы рассеяния, или разброса. Вообще говоря, визуально не всегда можно определить, су­ществует или нет значимая взаимосвязь между рассматриваемыми признаками и насколько она значима, хотя очень часто уже на диаграмме просматривается общая тенденция в изменении значе­ний признаков и направление связи между изучаемыми признаками. Уравнение регрессии. Статистическая зависимость одного или большего числа признаков от остальных выражается спомощью уравнений регрессии. Рассмотрим две величины х и у, такие, например, как на рис. 9. Зафиксируем какое-либо значение пере­менной х, тогда у принимает целый ряд значений. Обозначим у среднюю величину этих значений у при данном фиксированном х. Уравнение, описывающее зависимость средней величины ух от x называется уравнением регрессии у по х:

Аналогичным образом можно дать геометрическую интерпрета­цию регрессионному уравнению22

Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию (или убыванию) одной переменной величины при возрастании (убывании) другой. Эта тенденция проявляется на основе некоторого чис­ла наблюдений, когда из общей, массы выделяются, контролируют­ся, измеряются главные, решающие факторы.

Характер связи взаимодействующих признаков отражается в ее форме. В этом отношении полезно различать линейную и нелиней­ную регрессии. На рис. 10, 11 приведены графики линейной и кри­волинейной форм линий регрессии и их диаграммы разброса для случая двух переменных величин.

Направление и плотность (теснота) линейной связи между дву­мя переменными измеряются с помощью коэффициента корреляции.

Меры взаимозависимости для интервального уровня измерения. Наиболее широко известной мерой связи служит коэффициент кор­реляций Пирсона (или, как его иногда называют, коэффициент кор­реляции, равный произведению моментов). Одно из важнейших предположений, на котором покоится использование коэффициента г, состоит в том, что регрессионные уравнения для изучаемых переменных имеют линейную форму23, т. е.

где у — среднее арифметическое для переменной у; х — среднее арифметическое для переменной х; b1 и b2 - некоторые коэффи­циенты.

Поскольку вычисление коэффициента корреляции и коэффици­ентов регрессии b1 и b2 проводится по схожим формулам, то, вычисляя r, получаем сразу же и приближенные регрессионные модели24.

 

Выборочные коэффициенты регрессии и корреляции вычисляются по формулам

Здесь s2x —дисперсия признака х; s2x дисперсия признака у.Величина sxy, называется ковариацией х и у.

Расчет r для не с группированных данных. Для вычислительных целей эти выражения в случае не сгруппированных данных можно переписать в следующем виде:

Рассчитаем коэффициент корреляции и коэффициенты регрессии для данных табл. 7:

Тогда уравнение регрессии имеет вид

Линии регрессии y = F(x) изображены на рис. 10-. Отсюда вид­но, что между заработной платой и общим стажем работы сущест­вует прямая зависимость: по мере увеличения общего стажа рабо­ты на предприятии растет и заработная плата. Величина коэффи­циента корреляции довольно большая и свидетельствует о положи­тельной связи между переменными величинами. Следует отметить, что вопрос о том, какую переменную в данном случае принимать в качестве зависимой величины, а какую — в качестве независимой, исследователь решает на основе качественного анализа и профес­сионального опыта. Коэффициент корреляции по определению яв­ляется симметричным показателем связи: rxy = ryx. Область возмож­ного изменения коэффициента корреляции г лежит в пределах от +1 до —1.

Вычисление r для сгруппированных данных. Для сгруппирован­ных данных примем ширину интервала по каждой переменной за единицу (если по какой-либо переменной имеются неодинаковые размеры интервала, то возьмем из них наименьший). Выберем так­же начало координат для каждой переменной где-нибудь возле среднего значения, оцененного на глаз.

Для условных данных, помещенных в табл. 8, за нулевую точ­ку отсчета выберем значение у, равное 64, а по x — значение 134,5.

Тогда коэффициент корреляции определяется по следующей формуле:

 

Для вышеприведенного примера порядок вычислений представлен в табл. 9. Для определения Snijaxby вычислим последовательно все произведения частоты в каждой клетке таблицы на ее коор­динаты. Так

В соответствии с формулой вычисляем

Таким образом, величина связи достаточно велика, как, впрочем, и следовало ожидать на основе визуального анализа таблицы.

Статистическая значимость r. После вычисления коэффициента корреляции возникает вопрос, насколько показателен этот коэффи­циент и не обусловлена ли зависимость, которую он фиксирует, случайными отклонениями. Иначе говоря, необходимо проверить гипотезу о том, что полученное значение r значимо отличается от 0.

Если гипотеза H0 (r = 0) будет отвергнута, говорят, что величи­на коэффициента корреляции статистически значима (т. е. эта ве­личина не обусловлена случайностью) при уровне значимости a.

Для случая, когда п < 50, применяется критерий t, вычисляе­мый по формуле

Распределение t дано в табл. В приложения.

Если п > 50, то необходимо использовать Z-критерий

В табл. А приложения приведены значения величины ZKp для соответствующих a.

Вычислим величину Z для коэффициента корреляции по табл. 7 (вычисление проделаем лишь для иллюстрации, так как число на­блюдений п — 25 и нужно применять критерий t). Величина r (см. табл. 7) равна 0,86. Тогда

Для уровня значимости a = 0,01 ZKp = 2,33 (см. табл. А прило­жения).

Поскольку Z > ZKp, мы должны констатировать, что коэффици­ент корреляции г = 0,86 значим и лишь в 1 % случаев может ока­заться равным нулю. Аналогичный результат дает и проверка по критерию t для а = 0,01 (односторонняя область); tкр— 2,509, tвы­борочное равно 8,08.

Другой часто встречающейся задачей, является проверка равен­ства на значимом уровне двух коэффициентов корреляции. i = г2 при заданном уровне а, т. е. различия между r1 и r2 обусловлены лишь колебаниями выборочной совокупности.

Критерий для проверки значимости следующий:

где значения zrj и zr находят по табл. Д приложения для r1 и r2.

Значения ZКp определяют по табл. А. приложения аналогично вышеприведенному примеру.

Частная и множественная регрессия и корреляция. Ранее нами было показано, как можно по опытным данным найти зависимость одной переменной от другой, а именно как построить уравнение регрессии вида у = а + bх. Если исследователь изучает влияние не­скольких переменных х1, х2,..., хk результатирующий признак y, то возникает необходимость в умении строить регрессионное урав­нение более общего вида, т. е.

где a, b1,. b2,..., bk — постоянные коэффициенты, коэффициенты регрессии.

В связи с уравнением (26) необходимо рассмотреть следующие вопросы: а) как по эмпирическим данным вычислить коэффициенту регрессии а, b1, b2…bк; б)какую интерпретацию можно припи­сать этим коэффициентам; в) оценить тесноту связи между у и каждым из Xi в отдельности (при элиминировании действия остальных); г) оценить тесноту связи между у и всеми переменными х1,..., xк в совокупности.

Рассмотрим этот вопрос на примере построения двухфакторного регрессионного уравнения. Предположим, что изучается зависимость недельного бюджета свободного времени (у) от уровня образования i) и возраста 2) определенной группы трудящихся по данным выборочного обследования. Будем искать эту зависимость в виде линейного уравнения следующего вида:

При расчете коэффициентов уравнения множественной регрессии полезно преобразовать исходные эмпирические данные следующим образом. Пусть в результате обследования п человек получены эм­пирические значения, сведенные в следующую таблицу (в каждом столбце представлены не сгруппированные данные):

Каждое значение переменной в таблице преобразуем по формулам

Коэффициенты с1 и сг находятся по следующим формулам

с1 и с2 называются стандартизированными коэффициентами регрес­сии. Следовательно, зная коэффициенты корреляции между изучае­мыми признаками, можно подсчитать коэффициенты регрессии. Подставим конкретные значения rij из следующей таблицы25;

Коэффициенты исходного регрессионного уравнения b0, b1 и b2 на­ходятся по формулам

Подставляя сюда данные из вышеприведенной таблицы, получим b1= 3,13; b2= -0,17; b0= - 8,56.

Как же следует интерпретировать это уравнение? Например, значение b2 показывает, что в среднем недельный бюджет свободного времени при увеличении возраста на один год и при фиксированном признаке Xi уменьшается на 0,17 час. Аналогично интер­претируется b1. (Исходные эмпирические данные можно изобразить на диаграмме рассеяния аналогично тому, как это сделано на рис. 10, но уже в трехмерном пространстве (у, xt, х2).

Коэффициенты х1 и х2 можно в то же время рассматривать и как показатели тесноты связи между переменными у и, например, Xi при постоянстве хг.

Аналогичную интерпретацию можно применять и к стандарти­зированным коэффициентам регрессии сi. Однако поскольку ci вы­числяются исходя из нормированных переменных, они являются безразмерными и позволяют сравнивать тесноту связи между пере­менными, измеряемыми в различных единицах. Например, в выше­приведенном примере Xi измеряется в классах, a x 2 в годах. C1и с2 позволяют сравнить, насколько z1 теснее связан с у, чем хг 26.

Поскольку коэффициенты biи сi измеряют частную односторон­нюю связь, возникает необходимость иметь показатель, характери­зующий связь в обоих направлениях. Таким показателем является частный коэффициент корреляции

Для рассматриваемого примера ry1.2 = 0,558, rу2.1 i = —0,140.

Для любых трех переменных x1, х2, х3частный коэффициент корреляции между двумя из них при элиминировании третьей стро­ится следующим образом:

Аналогично можно определить и частные коэффициенты корре­ляции для большего числа переменных (r12, 34...). Однако ввиду громоздкости вычисления они применяются достаточно редко.

Для характеристики степени связи результатирующего признака у с совокупностью независимых переменных служит множествен­ный коэффициент корреляции R2y, который вычисляется по формуле (иногда он выражается в процентах)

Так, для вышеприведенного примера он равен

Множественный коэффициент корреляции показывает, что включе­ние признаков х1 и х2 в уравнение

на 32% объясняет изменчивость результатирующего фактора. Чем больше Rt, тем полнее независимые переменные х2..., xk описы­вают признак у. Обычно служит критерием включения или ис­ключения новой переменпой в регрессионное уравнение. Если Л мало изменяется при включении новой переменной в уравнение, то такая переменная отбрасывается.

Корреляционное отношение. Наиболее общим показателем связи при любой форме зависимости между переменными является корре­ляционное отношение h2. Корреляционное отношение h2у/х опреде­ляется через отношение межгрупповой дисперсии к общей диспер­сии по признаку у:

где уi среднее значение i-ro y -сечения (среднее признака у для объектов, у которых x=xi, т. е. столбец «г»); xi —среднее значе­ние i-го x-сечения т. е. строка «i» nyi —число наблюдений в y сечении; nXi — число наблюдений в x -сечении; у — среднее зна­чение у.

Величина h2у/х показывает, какая доля изменчивости значений у обусловлена изменением значения х. В отличие от коэффициента корреляции h2у/х не является симметричным показателем связи, т. е, h2у/х не равно h2х/y. Аналогично определяется корреляционное отношение х по у 27.

Пример. По данным таблицы сопряженности (табл. 9) найдем h2у/х. Вычислим общую среднюю

Сравнение статистических показателей r и h2у/х. Приведем сравнительную характеристику коэффициента корреляции (будем срав­нивать r2) и корреляционного отношения h2у/х.

а) r2 = 0, если x и у независимы (обратное утверждение не­верно);

б) r2 = h2у/х =1 тогда и только тогда, когда имеется строгая ли­нейная функциональная зависимость у от х.

в) r2 = r\y/x<i тогда и только тогда, когда регрессия х и у стро­го линейна, но нет функциональной зависимости;

г) r2 < h2у/х < 1 указывает на то, что нет функциональной зави­симости и существует нелинейная кривая регрессии.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.011 сек.)