Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Измерение дисперсии

Читайте также:

Частотное распределение раскрывает не только центральную тенденцию, но и дисперсию данных. Дисперсия характеризует разброс значений переменной. Для данных номинального уровня наибольший уровень дисперсии проявляется, когда наблюдения распределены поровну между категориями. Поэтому можно считать, что данные табл. 25 весьма дисперсны, поскольку имеется приблизительно одинаковое число мужчин и женщин. Полное отсутствие дисперсии проявляется в тех случаях, когда все наблюдаемые значения переменной совершенно однородны, т.е. попадают в одну и ту же категорию, например, в категорию в основном мужчин, или женщин, или к людям пожилого возраста (табл.50).

Проблемы с дисперсией данных могут возникнуть в связи с некачественным составлением выборки, т.е. ошибками выборки. О значении и расчете дисперсии поговорим более подробно далее.

Таблица 50

Распределение респондентов по полу

Пол	Частота	Процент
Мужской	З99	44,3
Женский		55,0
Всего		100,0

Представьте себе, что вы намереваетесь изучить взаимосвязь между полом и родом занятий, и обнаружили, что в выборке опроса оказались в основном мужчины. Поскольку налицо отсутствие дисперсии (т.е. нет вариации по одной из ключевых переменных – по полу), каких-либо сравнений провести нельзя. А процедура сравнения являет собою, по сути своей, ядро анализа. Нет изменения – нет сравнения.

Показатели разброса данных интервального и пропорционального (номинального) уровня включают среднее отклонение. Среднее отклонение (MD) представляет собой меру разброса, основанную на отклонении каждого из значений от среднего, т.е. она делит упорядоченный вариационный ряд на две равные по численности группы.

Пример ее вычисления приведен ниже в табл. 51.

Таблица 51

Распределение отклонений и среднее распределение доходов среди жильцов подъезда № 2

Номер квартиры	2-й подъезд
		-1050
		-1050
		-850
		-150
		-50





Среднее

Таким образом, уравнение для среднего отклонения выглядит следующим образом:

где - символ абсолютной величины (модуля).

Если мы берем каждую отметку и вычитаем из нее среднее, мы вычисляем ту величину, на которую каждая из отметок (вторая колонка) отличается от среднего (нижняя ячейка второй колонки). Сумма этих отклонений всегда равна нулю – математическое свойство среднего (проверьте это сами, сложив числа в третьей колонке). Поскольку мы интересуемся только величиной отклонения, то находим абсолютные значения отклонения (четвертая колонка). Затем мы берем их сумму и делим на число отметок, чтобы найти среднее отклонение отметок от среднего; получаем MD = 630. Чем больше среднее отклонение, тем сильнее разброс вокруг среднего.

Хотя среднее отклонение и выявляет разброс, чаще для его измерения используется дисперсия и среднеквадратическое отклонение.

Дисперсия представляет собой сумму квадратов отклонений от среднего, разделенную на число отметок:

Среднеквадратическое отклонение представляет собой корень квадратный из дисперсии:

Чем больше разброс данных вокруг среднего, тем выше значения и S. Это означает, что если все данные одинаковы, то и S равны нулю.

Таким образом, для вычисления дисперсии и среднеквадратического отклонения надо пройти последовательно семь этапов:

· вычислить среднее;

· вычислить разности между средним и каждым из значений;

· возвести в квадрат разности, вычисленные на этапе 2;

· умножить квадраты разностей, на частоты наблюдений каждого из значений;

· просуммировать квадраты разностей, вычисленные на этапе 4;

· разделить сумму квадратов, полученную на этапе 5, на N; Это равняется дисперсии;

· извлечь квадратный корень из числа, вычисленного на этапе 6; Это равняется среднеквадратическому отклонению.

Приведем пример расчета дисперсии и среднеквадратического отклонения. В одном опросе просили оценить некоторые личностные качества недавно избранного мэра, используя для этого так называемый семантический дифференциал. Одно из предложенных для оценки качеств мэра – доступность – было выражено с помощью такой шкалы:

Доступный

неприступный

Результаты опроса распределились следующим образом (табл.52):

Таблица 52

Распределение оценок качества «доступность»

Оценочный балл	Абсолютная частота
Нет ответа









Всего

Отбросив нули (табл. 53), т.е. варианты «нет ответа» (после чего N становится равным 368), мы подсчитываем, что среднее значение оценки (по формуле среднеарифметического) составляет:

5,42.

Обратим внимание: если бы мы не отбросили значение «нет ответа», т.е. приняли бы эту позицию за нуль как математическую величину, то получили бы среднее значение:

4,67,

т.е. заметно меньшее, нежели рассчитанное выше. Оно более точно в математическом смысле, но искажает социологический смысл, поскольку ведь те, кто не дали ответа, вовсе не выставляли оценку «0», они просто не выставили никакой оценки.

Рассчитаем отклонение от среднего и квадрат отклонения от среднего по каждому баллу (табл.53).

Таблица 53

Образец расчета

(оценочный балл)
	-4,4	135, 52
	-3,4	127,16
	-2,4	230,4
	-1,4	90,16
	-0,4	17,28
	0,6	18,36
	1,6	140,8
	2,6	162,24
	3,6	336,96

Сложив числа правой крайней колонки, мы получим:

;

дисперсия:

среднеквадратическое отклонение:

Что дает для анализа значение дисперсии? Напомним, что дисперсия по-английски означает «разбрасывание, рассеивание». В данном случае это рассеяние реально полученных эмпирических данных вокруг среднего значения. В зависимости от того, насколько велика (точнее мала) дисперсия или среднеквадратическое отклонение, мы можем судить, насколько единодушны были в своих оценках респонденты (при меньшем значении дисперсии), или наоборот – насколько сильно они расходятся в своих мнениях (при большом значении дисперсии).

Сравним, к примеру, разброс оценок (по пятибалльной шкале: от 5 – очень важное, до 1 – затрудняюсь ответить), которую в ходе исследования особенностей сексуального поведения, дали респонденты степени влияния на их «сексуальное образование» различных источников информации (табл.54):

Таблица 541

Оценка степени влияния различных источников информированность о сфере интимных отношений (в средних значениях по 5-ти балльной шкале)

Источник	Среднее	S (дисперсия)
Cексуальный партнер	3,55	1,36
Супруг (а)	3,12	1,58
Друзья	3,07	1,14
Эротические фильмы	3,02	1,09
Популярные издания	2,93	1,20
Научная литература	2,81	1,14
Эротическая литература	2,81	1,14
Родители	2,36	0,92
Педагоги	2,13	0,82
Другие источники	2,38	1,25

Из этой таблицы помимо сведений о том, что максимальное влияние на информированность о наиболее интимных сторонах жизни оказывает сексуальный партнер, а наименьшее родители и педагоги, мы узнаем также, что с наибольшим единодушием респонденты оценили низкую степень влияния такого источника, как педагоги, о чем говорит минимальное значение среднеквадратического отклонения, а наибольшее расхождение в оценках вызвал такой источник, как супруг (а), - максимальное значение S.

Еще одно значение измерения основной тенденции это размах. Размах представляет собой разность между наибольшим и наименьшим из встретившихся в выборке респондентов значениями измеряемого показателя и рассчитывается по формуле:

2. Парное (двумерное) распределение: выявление связей между двумя переменными

В описательных исследованиях чаще всего используется внешнее соотнесение рядов распределения. Внешнее соотнесение – сравнение двух или нескольких рядов распределения, построенных по двум и более признакам. Например, можно сравнить распределение двух разных групп (половых, возрастных и т.д.) по одному и тому же признаку, например, как в табл. 56 «Участие в выборах в зависимости от возраста».

Хотя результаты внешнего соотнесения данных имеют самостоятельное значение, большинство исследователей уделяют основное внимание анализу связей между переменными. Такая сложная процедура характерна для аналитических исследований. В аналитическом исследовании кроме вышеназванных форм анализа или соотнесения данных осуществляется поиск связи между характеристиками объекта, их взаимовлияния, тенденций и причин изменения, используется и метод последовательного исключения.

Самым простым и типичным в таком виде исследования является случай анализа взаимосвязи (сопряженности) двух переменных. Как мы уже отмечали, одной из важных задач любого анализа данных является проверка гипотез, сформулированных в программе исследования. В гипотезе, как правило, формулируется предположение о наличии связи между двумя и более переменными. И на определенном этапе анализа следует заняться поиском таких связей. Чтобы проделать это, необходимо в идеале найти ответ на следующие вопросы:

1. Существует ли в реальности обозначенная в гипотезе связь между независимой и зависимой переменной? Вспомните наш разговор о гипотезах, где мы выявляли зависимые и независимые переменные. Напомним, что в качестве независимых переменных выступают, как правило, социально-демографические данные респондентов: пол, возраст, социальный статус, стаж, квалификация и т.д., а зависимые переменные – это оценки, мнения, удовлетворенность и т.д.

1. Каково направление этой связи (прямая, обратная, положительная, отрицательная)? Пример обратной положительной связи: «Чем меньше женщину мы любим, тем больше нравимся мы ей».

3. Насколько сильна связь?

2. Является ли связь статистически значимой? (Мо, Мd, средние).

4. Является ли связь каузальной, т.е. причинно-следственной?

(Понятие «сила связи» имеет отношение к тому, насколько сильно различаются наблюдаемые значения зависимой переменной при изменении значений независимой переменной.

Если, предположим, характер голосования одной категории избирателей (к примеру, мужчин) значительно отличается от характера голосования другой категории (женщин), тогда мы можем утверждать, что имеет место сильная связь между двумя переменными. Если степень различия мала, имеет место слабая связь).

Итак, приступим к процедуре поиска ответа на первый вопрос. Предположим, мы сформулировали гипотезу о том, что чем старше избиратели, тем больше вероятность того, что они примут участие в выборах. Т.е. здесь проявляется прямая, положительная сильная связь.

С целью проверки данной гипотезы в анкете мы задаем вопрос с вариантами ответов:

Принимали ли Вы участие в последних выборах главы города?

1- да

2 - нет

3 – не помню

Для анализа взаимосвязи (сопряженности) необходимо сопоставить значения независимой переменной (возраст) с соответствующими им значениями зависимой переменной (участие или неучастие в выборах). С целью такого сопоставления мы после соответствующей обработки данных (вручную или с помощью компьютерной программы SPSS) составляем таблицу 56.

Такая таблица называется «кросстаб», или таблица сопряженности, а процесс ее создания – «кросстабуляция» или перекрестная классификация. Это один из основных способов анализа, используемых для того, чтобы увидеть, какую связь переменные имеют друг с другом.

Вообще говоря, категории независимой переменной могут размещаться как по строкам, так и по столбцам (графам) кросстаба. Обычно независимую переменную помещают в верхней части кросстаба, формируя, таким образом, столбцы из значений зависимой переменной.

Однако на практике – из соображений удобства и наглядности, его чаще конструируют так, чтобы сверху вниз шла переменная с большим числом категорий. Хотя, конечно, не имеет значения, как сконструирована таблица сопряженности.

Давайте на примере таблицы сопряженности 55. посмотрим, как производиться чтение таблицы – процесс, в ходе которого и выявляется наличие или отсутствие связи между переменными и ее параметры, а заодно увидим, в какой степени будет подтверждена связь между возрастом и участием респондентов в голосовании.

Таблица 55

Участие в выборах в зависимости от возраста

(таблица сопряженности)

Возраст	Участие в голосовании	Всего
Нет ответа	Да	Нет	Не помнят
18-24 года
Процент по строке		34,8	58,7	6,5	9,2
Процент по столбцу		5,	17,4	7,9
25-29 лет
Процент по строке		54,5	32,7	12,7	11,0
Процент по столбцу		10,0	11,6	18,4
30-39
Процент по строке	3,1	59,8	27,8	9,3	19,4
Процент по столбцу	50,0	19,4	17,4	23,7
40-49
Процент по строке	0,9	65,2	27,8	6,1	23,0
Процент по столбцу	16,7	34,9	0,6	18,4
50-59
Процент по строке		64,9	27,0	8,1	14,8
Процент по столбцу		15,9	12,9	15,8
60-70 лет
Процент по строке		70,0	25,7	4,3	14,0
Процент по столбцу		16,3	11,6	7,9
Старше 70 лет
Процент по строке	4,7	58,1	30,2	7,0	8,6
Процент по столбцу	33,3	8,3	8,4	7,9
Всего
Процент	1,2	60,2	31,0	7,6	100,0

Прежде всего, обратим внимание на крайний правый столбец и две нижние строки. Здесь сведены контрольные суммы по каждой из строк. Смысл приведенных цифр таков: число в верхней правой ячейке говорит о том, что общее число опрошенных в возрасте от 18 до 24 лет составляет 46 человек; цифра в ячейке ниже сообщает, что это составляет 9,2% от общей численности опрошенных (500 человек, которые принимаются за 100%, - данные в клетках в правом нижнем углу таблицы);

Общее число опрошенных в возрасте от 25 до 29 лет – 55человек, это составляет 11,0% от общей численности опрошенных и т.д. В самой нижней строке приведены контрольные суммы количества тех, кто дал различные ответы об участии в голосовании по всем возрастным группам.

Так, общее число принимавших участие в голосовании («да») – 301 человек, что составляет 60,2% от общего числа выборки; тех, кто не принимал участие («нет»), было в выборке155 или 31% и т.д.

Итак, анализ проводят, отслеживая изменения значений зависимой переменной. В данном примере в качестве независимой переменной выступает возраст респондентов, в качестве зависимой – их электоральная активность.

Процедуру отслеживания изменений значения зависимой переменной можно проводить как по строкам, так и по столбцам.

Двигаясь по строкам, мы начинаем с первого значения независимой переменной (возраст) 18-24 года. Мы видим, что здесь число принимавших участие в выборах более чем в полтора раза – меньше числа тех, кто не участвовал.

Перейдя к следующей строке – 25-29 лет, мы убеждаемся, что в этой возрастной категории соотношение между числом участвовавших и не участвовавших противоположное: первых уже больше почти в два раза.

Это соотношение еще более возрастает при переходе к следующим возрастным категориям, хотя и несколько снижается для самой старшей группы избирателей (старше 70 лет). Это позволяет нам сделать выводы:

· О наличии прямой положительной связи между независимой (возраст) и зависимой (участие в выборах) переменными.

· О направлении этой связи, а именно, чем больше значения независимой переменной (возраст), тем больше значения зависимой переменной (процент участия в выборах).

Фактически, мы видим, непосредственному анализу здесь подверглись далеко не все цифры, а лишь некоторые из них – те, которые можно было бы свести в сокращенном варианте в виде табл. 56.

Таблица 56

Участие в выборах различных возрастных групп (в % от численности каждой возрастной группы)

Возраст	Участвовали	Не участвовали
18-24	34,8	58,7
25-29	54,5	32,7
30-39	59,8	27,8
40-49	65,2	27,8
50-59	64,9	27,0
60-70		25,7
Старше 70	58,1	30,2

Таким образом, данные, приведенные в табл.55 и 56, позволяют нам сделать следующие выводы:

· Существует отчетливо выраженная связь между возрастом избирателей и их электоральной активностью;

· Эта связь в основном положительная: чем больше возраст, тем выше процент участия;

· Связь сильная.

· Исключение составляет лишь самая верхняя возрастная группа, где электоральная активность по вполне понятным причинам снижается.

Таким образом, проверяются гипотезы. Возможно, одни гипотезы будут подтверждаться, другие – уточняться, третьи – опровергаться, а на их место выдвигаться дополнительные гипотезы.

Иногда для большей наглядности и убедительности анализа информации в социологических исследованиях используют различные индексы.

Индекс – статистический показатель, представляющий количественную форму выделенного значимого признака. Это специально создаваемые показатели, с помощью которых связь между переменными проявляется более зримо и отчетливо.

Индексы могут быть простыми и сложными. Если простой индекс есть количественное выражение какого-либо одного из признаков, то сложный - уже является комбинацией ряда простых признаков.

Например, индекс политической культуры может быть представлен в виде суммы различных индексов, характеризующих такие ее составные части, как политические знания, настроения, поведение.

Мы могли бы, например, сконструировать по данным табл.56. «индекс электорального участия», равный частотному от деления числа принимавших участие в каждой из возрастных групп на число тех, кто не голосовал. Например, 16 человек, ответивших «да» делим на 27 человек, ответивших «нет» получим 16: 27 = 0,59. Результаты отражены в табл.57.

Или, если хотим посчитать и тех, кто не помнит, то получится: 16 человек, ответивших «да» делим на сумму ответов «нет» и «не помню» (27+3=30), т.е. 16 / 30 = 0,50 и т.д.

Таблица 57

Индекс электорального участия в различных возрастных группах

Возраст	Индекс участия
18-24	0,59
25-29	1,67
30-39	2,15
40-49	2,34
50-50	2,40
60-70	2,72
Старше 70	1,92

Нередко в социологических, особенно маркетинговых исследованиях рассчитывается разного рода индексы: удовлетворенности, важности, значимости, вероятности и др. Рассмотрим гипотетический пример расчета индекса удовлетворенности персонала.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.268 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница