АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Коефіцієнт зв'язку між двома ознаками. Кореляційний і регресійний аналіз

Одним з важливих завдань аналізу є встановлення та оцінка взаємозв'язків між окремими ознаками для певної сукупності об'єктів. Цю роботу починають з по­
будови кореляційних таблиць (таблиць спряженості двох ознак, двовимірними таблицями). Вони дають змогу впорядковувати інформацію про розподіл сукуп­ності об'єктів за двома ознаками. Такі таблиці мають прямокутну форму. Кількість рядків у них дорівнює кількості можливих значень однієї ознаки, а кількість
стовпчиків кількості можливих значень другої ознаки. У таблиці 9 у клітинці на перетині другого рядка і третього стовпчика знаходиться число 42 (в центрі клітинки) — кількість робітниць (значення ознаки «стать» — «жіноча»), що незадоволені умова­ми праці (значення ознаки «задоволеність умовами праці» — «незадоволений»).

Двовимірна таблиця (ознаки «Стать» та «Задоволеність умовами праці»)

 

  Задоволений Не зовсім задоволений Не задоволе­ний Всього
Чоловіки 18,40% 39 86,67% 75,94% 161 64,66% 5,66% 12 22,22% 212 60,92%
Жінки 4,41% 6 13,33% 64,71% 88 35,34% 30,88% 42 77,78.% 39,08%
Всього 45 12,93% 71,55% 54 15,52 348 100%

Крім того, двовимірна таблиця, як правило, міс­тить ще один додатковий стовпчик і ще один додатко­вий рядок — так звані маргінальні стовпчик і рядок. У таблиці маргінали позначені словом «Всього». Кож­на клітинка маргінального стовпчика містить суму чи­сел відповідного рядка, тобто кількість об'єктів, що мають відповідне значення першої ознаки (незалежно від того, якого значення для цих об'єктів набуває дру­га ознака), а також відсоток, який становить це число щодо загальної кількості об'єктів. Так, з маргінально­го стовпчика таблиці бачимо, що на підприємстві пра­цює 136 жінок (39,08% загальної кількості працю­ючих). Маргінальний рядок містить відповідні суми стовпчиків таблиці.

У кожній клітинці таблиці, як правило, записують відсоток стосовно відповідного значення в маргіналь­ному стовпчику (цей відсоток записують вище від самого числа) та відсоток стосовно відповідного зна­чення в маргінальному рядку (записують нижче від числа). Якщо знову повернутися до клітинки в друго­му рядку третього стовпчика таблиці, побачимо, що кількість незадоволених умовами праці жінок (таких на підприємстві 42) становить 30,88 % від загальної кількості жінок (всього на підприємстві 136 жінок) та 77,78% від загальної кількості незадоволених умова­ми праці (всього умовами праці на підприємстві не за­доволені 54 працівники).

Числа в таблиці свідчать, що серед жінок відсоток незадоволених умовами праці на підприємстві значно вищий, ніж серед чоловіків. Отже, є підстави для гіпотези, що стать працівника та його задоволеність умовами праці взаємопов'язані.

Вміння читати двовимірні таблиці приходить з досвідом. Нелегко знаходити закономірності в досить великих за розміром таблицях. Крім того, далеко не завжди зв'язок між ознаками простежується. Тому на практиці наявність зв'язку між двома ознаками вста­новлюють за допомогою так званого критерію %2, який базується на аналізі частот, записаних у клітинках таблиці. Це дає змогу дійти висновків про те, чи мож­на висувати та аналізувати гіпотезу про наявність зв'язку між двома ознаками.

Застосовуючи зазначений критерій, необхідно об­числити коефіцієнт хі-квадрат за формулою (формула залежить від частот у клітинках таблиці та маргіналь­них частот), а одержане значення порівняти з таблич­ним (критичним). При цьому слід мати на увазі пев­ний рівень значущості (ймовірність прийняття хибно­го рішення) — в соціології, як правило, 0,05 або 0,01. Крім того, табличне значення залежить від кількості ступенів свободи, що визначають за кількістю рядків і стовпчиків таблиці. Отже, для заданого рівня значу­щості та кількості ступенів свободи необхідно знайти в таблиці критичне значення і порівняти його з обчи­сленим. Якщо обчислене значення більше від критич­ного, то факт існування зв'язку можна вважати вста­новленим.

Силу зв'язку можна оцінити обчисленням та аналі­зом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера). Значення цих коефіцієнтів перебувають в інтер­валі від нуля до одиниці та мають такий зміст: чим ближче значення до одиниці, тим тісніший зв'язок. Якщо обидві ознаки, між якими вивчають зв'язок, ма­ють лише по два значення (тобто фіксують наявність або відсутність даної ознаки в об'єкті), то для таких «чотириклітинкових» таблиць обчислюють коефіцієн­ти асоціації та контингенції.

Якщо певному значенню однієї величини відпові­дає сукупність значень другої, то між цими двома ве­личинами існує кореляційний зв'язок. Він вияв­ляється тоді, коли на досліджуване явище впливає не один, а багато чинників. Наприклад, стаж впливає на продуктивність праці, але не остаточно визначає її, бо

залежить від рівня освіти, віку, кваліфікації працівника та інших факторів. Оскільки явища суспільного життя складні та багатофакторні, зв'язок між ознаки ми в соціології практично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідне сукупність значень другої ознаки, близько розміщених біля свого середнього значення (тобто всі значення су­купності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вва­жають сильнішим. Кількісно силу кореляційного зв'язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефі­цієнт Пірсона (г), який оцінює силу зв'язку за ліній­ної кореляції (тобто в припущенні, що значення однієї ознаки пов'язані з відповідними середніми другої озна­ки лінійною залежністю). Всі значення коефіцієнта ко­реляції Пірсона належать інтервалу від -1 до 1. Знак коефіцієнта показує напрям зв'язку: додатне значення свідчить про «прямий» зв'язок (зростання однієї озна­ки зумовлює зростання другої), від'ємне значення - про «зворотний» зв'язок, а значення «О» — про відсут­ність лінійного кореляційного зв'язку. Наприклад, зв'язок між заробітною платою робітника та кількістю виготовлених ним деталей — прямий, а між заробіт­ною платою та кількістю бракованих деталей — зво­ротний. При г =1 або г = -1 маємо функціональний зв'язок між ознаками (тобто кожному значенню одні­єї ознаки відповідає одне значення другої ознаки і ці значення пов'язані лінійною залежністю). Отже, чим далі значення коефіцієнта Пірсона від нуля (чим біль­ша його абсолютна величина), тим тісніший лінійний кореляційний зв'язок існує між ознаками. Але якщо г = 0, то це означає відсутність лише лінійного зв'яз­ку, а не відсутність зв'язку між ознаками взагалі: зв'я­зок може існувати, але нелінійний. Для оцінювання сили нелінійного зв'язку використовують кореляційне відношення, що набуває значення між 0 та 1 (0 озна­чає відсутність зв'язку, 1 — функціональний зв'язок).

Для ознак, заданих у порядкових шкалах, обчис­люють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між -1 та 1 та інтерпретуються так само, як і коефіцієнт кореля­ції Пірсона.

Встановлення кореляції між двома ознаками ще не означає встановлення причинного зв'язку між ними. Це лише свідчення того, що одна з ознак частково спричинила іншу або обидві ознаки і є наслідком де­яких спільних для них причин. Зауважимо, що кіль­кісна оцінка кореляційних зв'язків не може замінити спеціальних знань, але може допомогти дослідникові відкинути несуттєві зв'язки, чіткіше окреслити на­прям пошуків, порівняти вплив різних чинників то­що. Крім того, коефіцієнти часткової кореляції дають змогу оцінити зв'язок між двома ознаками, усуваючи вплив однієї або кількох інших ознак. Якщо після усунення впливу третьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака по­слаблює зв'язок, а якщо зменшується, то саме ця тре­тя ознака певною мірою спричиняє наявність цього зв'язку (тобто зв'язок, можливо, є лише наслідком впливу цієї третьої ознаки). Обчислити коефіцієнти часткової кореляції досить складно через коефіцієнти кореляції Пірсона. Обсяг обчислень зростає з кількіс­тю тих ознак, вплив яких бажають усунути. Силу спільного зв'язку сукупності ознак дає змогу оцінити коефіцієнт множинної кореляції.

Методи регресійного аналізу забезпечують не тіль­ки оцінку сили зв'язку між двома ознаками, а й вста­новлення виду цього зв'язку у вигляді рівняння (рів­няння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) та значеннями певної сукупності ознак (не­залежних, вплив яких на залежну ознаку намагають­ся оцінити). У соціологічних дослідженнях, як прави­ло, відбувається пошук такої залежності у лінійному вигляді (у вигляді лінійного рівняння), тому йдеться про рівняння багатовимірної (множинної) лінійної ре­гресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснювати поведінку залежної ознаки, а й прогнозувати її значення за різних змін значень неза­лежних ознак. Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприєм­стві, було побудовано рівняння лінійної регресії: у = 4,27 х} - 1,83 х„ -9,20. Воно описує зв'язок між за­робітною платою у (залежна ознака, вимірюється в гри­внях) і двома незалежними ознаками працівника: стаж х1 (вимірюється в роках) та освітній рівень х2 (вимі­рюється в роках). Аналіз цього рівняння наводить на думку, що зростання трудового стажу працівника на один рік зумовлює зростання його середньої заробіт­ної плати на 4,27 грн., а зростання освітнього рівня

залежить від рівня освіти, віку, кваліфікації працівника та інших факторів. Оскільки явища суспільне життя складні та багатофакторні, зв'язок між ознаки ми в соціології практично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідне сукупність значень другої ознаки, близько розміщених біля свого середнього значення (тобто всі значення су­купності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вва­жають сильнішим. Кількісно силу кореляційного зв'язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефі­цієнт Пірсона (г), який оцінює силу зв'язку за ліній­ної кореляції (тобто в припущенні, що значення однієї ознаки пов'язані з відповідними середніми другої озна­ки лінійною залежністю). Всі значення коефіцієнта ко­реляції Пірсона належать інтервалу від -1 до 1. Знак коефіцієнта показує напрям зв'язку: додатне значення свідчить про «прямий» зв'язок (зростання однієї озна­ки зумовлює зростання другої), від'ємне значення -про «зворотний» зв'язок, а значення «О» — про відсут­ність лінійного кореляційного зв'язку. Наприклад, зв'язок між заробітною платою робітника та кількістю виготовлених ним деталей — прямий, а між заробіт­ною платою та кількістю бракованих деталей — зво­ротний. При г =1 або г = -1 маємо функціональний зв'язок між ознаками (тобто кожному значенню одні­єї ознаки відповідає одне значення другої ознаки і ці значення пов'язані лінійною залежністю). Отже, чим далі значення коефіцієнта Пірсона від нуля (чим біль­ша його абсолютна величина), тим тісніший лінійний кореляційний зв'язок існує між ознаками. Але якщо г = 0, то це означає відсутність лише лінійного зв'яз­ку, а не відсутність зв'язку між ознаками взагалі: зв'я­зок може існувати, але нелінійний. Для оцінювання сили нелінійного зв'язку використовують кореляційне відношення, що набуває значення між 0 та 1 (0 озна­чає відсутність зв'язку, 1 — функціональний зв'язок).

Для ознак, заданих у порядкових шкалах, обчис­люють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між -1 та 1 та інтерпретуються так само, як і коефіцієнт кореля­ції Пірсона.

Встановлення кореляції між двома ознаками ще не означає встановлення причинного зв'язку між ними. Це лише свідчення того, що одна з ознак частково

спричинила іншу або обидві ознаки і є наслідком де­яких спільних для них причин. Зауважимо, що кіль­кісна оцінка кореляційних зв'язків не може замінити спеціальних знань, але може допомогти дослідникові відкинути несуттєві зв'язки, чіткіше окреслити на­прям пошуків, порівняти вплив різних чинників то­що. Крім того, коефіцієнти часткової кореляції дають змогу оцінити зв'язок між двома ознаками, усуваючи вплив однієї або кількох інших ознак. Якщо після усунення впливу третьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака по­слаблює зв'язок, а якщо зменшується, то саме ця тре­тя ознака певною мірою спричиняє наявність цього зв'язку (тобто зв'язок, можливо, є лише наслідком впливу цієї третьої ознаки). Обчислити коефіцієнти часткової кореляції досить складно через коефіцієнти кореляції Пірсона. Обсяг обчислень зростає з кількіс­тю тих ознак, вплив яких бажають усунути. Силу спільного зв'язку сукупності ознак дає змогу оцінити коефіцієнт множинної кореляції.

Методи регресійного аналізу забезпечують не тіль­ки оцінку сили зв'язку між двома ознаками, а й вста­новлення виду цього зв'язку у вигляді рівняння (рів­няння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вивчають) та значеннями певної сукупності ознак (не­залежних, вплив яких на залежну ознаку намагають­ся оцінити). У соціологічних дослідженнях, як прави­ло, відбувається пошук такої залежності у лінійному вигляді (у вигляді лінійного рівняння), тому йдеться про рівняння багатовимірної (множинної) лінійної ре­гресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснювати поведінку залежної ознаки, а й прогнозувати її значення за різних змін значень неза­лежних ознак. Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприєм­стві, було побудовано рівняння лінійної регресії: у = 4,27 х} - 1,83 х„ -9,20. Воно описує зв'язок між за­робітною платою у (залежна ознака, вимірюється в гри­внях) і двома незалежними ознаками працівника: стаж х1 (вимірюється в роках) та освітній рівень х2 (вимі­рюється в роках). Аналіз цього рівняння наводить на думку, що зростання трудового стажу працівника на один рік зумовлює зростання його середньої заробіт­ної плати на 4,27 грн., а зростання освітнього рівня

на один рік — зростання середньої заробітної плати лише на 1,83 грн. Отже, на даному підприємстві тру­довий стаж суттєвіше впливає на середню заробітну плату працівника, ніж його освітній рівень. Якість рівняння регресії (наскільки точно рівняння регресії описує зв'язок між ознаками) оцінюють коефіцієнтом множинної кореляції.

Суттєвим для одержання надійних, статистичне об­ґрунтованих результатів є оцінка значущості статис­тичних показників. Це — комплекс математичних про­цедур, що дають змогу відповісти на низку питань що­до розрахованих статистичних показників і параметрів вибіркової сукупності. Так, обчисливши коефіцієнт ко­реляції між двома ознаками та одержавши число, що не дорівнює нулю, цілком логічно постають запитання: чи справді цей коефіцієнт суттєво відрізняється від ну­ля (а отже, фіксує наявність лінійного кореляційного зв'язку), чи ця різниця випадкова і спричинена лише похибкою нашої вибірки? Відповідь на них можна да­ти, оцінивши значущість відмінності коефіцієнта коре­ляції від нуля і звернувши особливу увагу на обсяг ви­бірки та рівень значущості (ймовірність прийняття хибного рішення). Ця процедура така ж, як і процеду­ра застосування критерію %2, і дає змогу обчислити за певною формулою критерій. Одержане ж значення по­рівнюється з табличним. На основі результатів порів­няння і робиться висновок.

Крім оцінки значущості відмінності від нуля кое­фіцієнта кореляції між двома ознаками, часто застосо­вують і процедури оцінки значущості різниці між дво­ма відсотками (наприклад, різниці між відсотками незадоволених умовами праці на даному підприємстві серед жінок і чоловіків), різниці між двома середніми (між середньою заробітною платою на одному та іншо­му підприємствах), двох коефіцієнтів кореляції. Для кожної такої задачі існують формула обчислення кри­терію та статистичні таблиці, якими користуються для порівняння.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)