Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Оцінка тісноти, суттєвості й лінійності (нелінійності) зв'язку між змінними

Тіснота зв'язку між змінними характеризується ступенем відхилення (розсіяння) досліджуваних точок біля теоретичної лінії регресії. Чим ближче окремі спостереження розташовані до теоретичної лінії регресії, тим більше повна залежність у по х.

Кутовий коефіцієнт лінійного кореляційного зв'язку між у і х, який показує, на скільки одиниць в середньому зміниться функція, якщо аргумент збільшується (зменшується) на одиницю свого вимірювання не може служити показником тісноти зв'язку між змінними. У цьому випадку його чисельне значення залежить від прийнятих одиниць вимірювання змінних.

Для оцінки тісноти зв'язку між змінними використовується емпіричне кореляційне відношення (η²_y_/х), яке є часткою дисперсії (коливаємості) функції у за рахунок впливу даного аргументу х. У даному випадку загальна (повна) дисперсія розкладається на дві частини – дисперсію усередині кожного інтервалу зміни функції σ ²_y_/х, яка не залежить від впливу Х, і дисперсію середніх значень функції δ , яка викликана впливом аргументу, тобто

σ²_y= σ²_y_/х+ δ . (3.14)

Звідси формула для оцінки тісноти зв'язку між змінними має вигляд

, (3.15)

а в разі згрупованих даних

, (3.16)

де _I - розрахункове значення функції;

- середнє значення функції за вибіркою;

n - обсяг вибірки;

к - кількість інтервалів зміни функції;

m_i – число спостережень у в кожному інтервалі зміни.

Кореляційне відношення не залежить від одиниць вимірювання змінних, що вивчаються. Воно показує, яку частину загальної дисперсії σ²_y можна віднести за рахунок зміни аргументу на одну σ²_х.

При цьому характеристика η²_y/хтим точніше визначає частку впливу Х на загальну дисперсію у, чим менше варіюється залишкова дисперсія σ²_y/хпри кожному Х. Якщо η_y/х=1, то має місце функціональна залежність у від х. Якщо η_y/х=0 – у кореляційно не залежить від х.

У разі лінійної залежності змінних дисперсію середніх значень функції можна записати у вигляді

(3.17)

Спростивши це відношення:

δ_y²= К²σ²_х. (3.18)

Тоді показник тісноти зв'язку для випадку лінійної залежності буде

(3.19)

Отримане відношення служить для визначення вимірника тісноти зв'язку між змінними в разі їх лінійної залежності, і має назву коефіцієнта кореляції r_y_/х.

Якщо замість К підставити формулу для його обчислень , то матимемо

. (3.20)

Коефіцієнт кореляції показує, на яку частину середнього квадратичного відхилення або σ_y змінюється функція у, якщо аргумент Х збільшується (зменшується) на своє середньоквадратичне відхилення σ_х. Знак коефіцієнта кореляції співпадає із знаком коефіцієнта регресії, а його чисельне значення коливається в межах

-1≤r_y_/х≤1. (3.21)

Суттєвість коефіцієнта кореляції при заданому рівні значущості =0,05 або 5% перевіряємо за умовою

, (3.22)

де tвизначається за умовою 2ф(t).

Приклад. Визначити гарантійну вірогідність істотності коефіцієнта кореляції r_y/х =-0,745 при n=52 спостережень.

Вирішення

. (3.23)

При =0,05 табличне значення t=1,96, що значно менше розрахункового. При t=12,07 довірчий інтервал в генеральній сукупності містить коефіцієнт кореляції з довірчою вірогідністю

P=2ф(12,07)=100%. (3.24)

Лінійність (нелінійність) зв'язку між змінними перевіряється шляхом:

- порівняння абсолютних значень (r_y/х)= η_y/х;

- статистично з використанням довірчого інтервалу. При цьому кореляційне емпіричне відношення η_y/хповинне покриватися довірчим інтервалів для (r_y/х):

(3.25)

з довірчою вірогідністю 2ф(t_α)=1-α.

Отже, якщо нерівність задовольняється при =0,05, то приймаємо гіпотезу лінійності, якщо ж нерівність не задовольняється, то приймаємо гіпотезу нелінійної кореляційної залежності між у і х.

Приклад. Виявити лінійність (нелінійність) кореляційної залежності у разі, коли η_y/х =0,525

r_y/х =0,439 і n=154 при =0,05.

Вирішення.

Визначаємо межі довірчого інтервалу:

0,365≤ η_y/х≤0,513.

Значення η_y/х =0,525 не потрапляє в довірчий інтервал, що свідчить про нелінійність зв'язку.

Завершальним дослідженням парного рівняння є перевірка відповідності виведеного рівняння описуваному реальному процесу. Якщо отримано декілька рівнянь регресії, то кращим слід читати те з них, яке ближче до закономірності по суті досліджуваного процесу, що вивчається. Слід оцінити ступінь близькості результатів розрахунків по кожному з отриманих рівнянь до звітних даних. Цей ступінь оцінюється по залишковій теоретичній дисперсії , яка характеризує розкид досліджених точок кореляційного поля навколо теоретичної лінії регресії під впливом чинників, що не враховані в отриманому рівнянні.

Залишкова теоретична дисперсія визначається з рівняння

, (3.26)

де n - обсяг вибірки;

Р - число параметрів рівняння;

К - число інтервалів;

h - число спостережень в i-му інтервалі;

y_ij - значення досліджених даних функціональної ознаки;

- розрахункове значення функціональної ознаки, обчислене за рівнянням регресії.

Якщо складено декілька рівнянь регресії і для кожного обчислена залишкова дисперсія, то з декількох рівнянь регресії, рівноцінних по суті, перевагу слід віддати тому, в якого залишкова дисперсія менше.

Для управління регресії з одним аргументом Х залишкову дисперсію обчислюємо за формулою

. (3.27)

Одним з ознак згоди початкових даних з отриманим рівнянням служить нормальність розподілу відхилень досліджених даних від розрахункових (y_ij- _xi) зі середнім значенням, рівним нулю, і середнім квадратичним відхиленням, рівним σ_y_/х. Чим ближче розподіл цих відхилень до вказаного нормального закону, тим краще узгоджуються вихідні дані з виведеним рівнянням регресії. Обчисливши всі відхилення (y_ij- _xi), перевіряємо наявність нормального закону їх розподілу візуально і за критерієм згоди.

Таким чином, дослідження управління в тій або іншій формі полягає у визначенні його параметрів (із вирішення системи нормальних рівнянь), підстановці в отримане рівняння всіх вихідних значень аргументу, розрахунку відповідних значень _ij, порівнянні розрахункових значень _iіз вихідними значеннями, обчисленні суми квадратів відхилень розрахункових значень від вихідних і визначення залишкової дисперсії ^2y/х_.Найкраща форма визначається за найменшою залишковою дисперсією. За такою схемою визначаються форми зв'язку у по всіх аргументах.

Існує і критерій адекватності, запропонований Фішером, заснований на порівнянні залишкової теоретичної дисперсії ²_y_/хі загальної дисперсії σ_y². Розглядається відношення і порівнюється з табличним (для % Фішера знайдено розподіл і складена спеціальна таблиця) при заданому рівні значущості і різних ступенях свободи.

Загальна дисперсія σ_y² досліджених даних від їх середнього значення встановлюється з урахуванням числа ступенів свободи :

, (3.28)

де К – число інтервалів у вибіркових даних.

Залишкова теоретична дисперсія ^2y/х встановлюється як різниця розрахункових _iі середніх інтервальних значень _iз урахуванням числа ступенів свободи d₁=K-P і d₂=n-K,

де Р – число параметрів управління.

Якщо _рас≤ _табл, то при заданому рівні значущості складене рівняння регресії затверджується. Вірогідність помилки тим менше чим більше рівень значущості α%.

У разі, коли чисельник ^2y/хменше знаменника σ_y², то міняємо їх місцями разом з відповідними ступенями свободи d₁=K-P і d₂=n-K.

Приклад. Загальна дисперсія σ_y²=41,5 при n=154 і К=12.

Залишкова дисперсія ^2y/х=34,44 при К=12 і Р=3 (Р=3 в квадратному рівнянні регресії).

Вирішення.

, оскільки σ_y²> ²_y/х, переходимо до відношення із ступенями свободи D₁=154-12=142, d₂=12-3=9 _р_озр_.= =1,21,

за таблицею _5%(142,9)=2,75 _20%(142,9)=1,7.

Отже, знайдене квадратне рівняння регресії з високою надійністю узгоджується з вихідними даними.

Приклад. З метою кореляційного аналізу собівартості перевезення 10 пасажирів по одному з депо зібрано щомісячні дані за останні три роки. Обсяг вибірки складає n=36 спостережень (табл. 3.1).

Таблиця 3.1 – Показники діяльності депо

№ n/n	Собівартість перевезення 10 пасажирів, (у) коп.	Середньодобове перебування на лінії рухомого складу, (х) год.	№ n/n	Собівартість перевезення 10 пасажирів, (у) коп.	Середньодобове перебування рухомого складу на лінії, (х) год.
		80,94	11,61		79,98	11,85
		82,79	11,52		77,72	11,78
		72,23	12,18 max		80,11	11,63
		72,11 min	12,18		81,50	11?59
		78,92	11,72		81,94	11,67
		74,76	11,98		81,98	11,61
		77,91	11,67		85,98 max	11,55
		77,84	11,68		78,36	11,72
		76,14	11,83		79,51	11,78
		74,66	12,03		74,24	11,91
		79,02	11,76		73,10	11,95
		83,34	11,56		75,92	11,87
		79,20	11,78		81,31	11,66
		78,96	11,80		83,05	11,55
		76,79	11,94		84,90	11,51 min
		79,68	11,82		83,14	11,58
		74,08	11,88		81,99	11,67
		77,72	11,77		85,69	11,58
					2847,5	423,15

1. Оскільки вихідні дані зібрані по одному об'єкту, їх статистична однорідність не перевіряємо.

2.Визначаємо статистичні характеристики ряду розподілу.

Варіаційний розмах у коливається наступним чином: R^a_y =y_max-y_min=85,98-72,11=13,87; відносний розмах , розмах варіювання (розмір інтервалу) розраховуємо за формулою Стерджеса:

. (3.29)

Визначаємо початок першого інтервалу:

. (3.30)

Аналогічні розрахунки виконані для аргументу:

R^a_x=X_max-X_min=12,18-11,51=0,67, (3.31)

(3.32)

3. Складакємо ряди розподілу у і Х (таб.3.2).

Таблиця 3.2 - Ряди розподілу у і Х

Інтервали	Середина інтервалу	Частота	Інтервали	Середина інтервалу	Частота
∆y	y_i _ср.	m_i	∆X	X_{i ср.}	m_i
71-73			11,5-11,6	11,55
73-75			11,6-11,7	11,65
75-77			11,7-11,8	11,75
77-79			11,8-11,9	11,85
79-81			11,9-12,0	11,95
81-83			12,0-12,1	12,05
83-85			12,1-12,2	12,15
85-87			12,2-12,3	12,25	-

4. Розраховуємо основні числові характеристики: середня арифметична для показника у:

. (3.33)

Середньоквадратичне відхилення і дисперсія:

; (3.34)

. (3.35)

Коефіцієнт варіації:

. (3.36)

Аналогічно для Х

, (3.37)

5. Досліджуємо закон розподілу.

5.1.Складаємо таблицю розподілу дослідних даних у, обчислюємо середнє значення і дисперсію σ²_y_.

5.2.Будуємо гістограму і розробляємо припущення про закон розподілу у.

5.3.Накладаємо відповідну диференціальну криву розподілу і візуально визначаємо ступінь близькості гістограми до гіпотетичної теоретичної кривої.

5.4.Перевіряємо наявність передбачуваного закону розподілу за допомогою деякого статистичного критерію згоди.

Таблиця 3.3 - Розподіл досліджених значень у

Інтервали	Середнє значення інтервалу	частота	Відносна частота	Умовні варіації	Розрахунок середнього значення	Розрахунок дисперсії	Значення у в стандартизованномумасштабі	Значення диференційованої функції	Емпіричні частоти	Ординати теоретичного розподілу	Розрахункові частоти
y_k-1-y_k	y_cp.	m_i	m_i/n	y¹_cp/	m_i y¹_cp.	M_i y¹²_cp.	(y¹_cp/- )² m_i	Формула	формула	формула	формула	формула
71-73			0,055	-4	-8		41,496	2,502	0,0175	0,027	0,0064	0,461
73-75			0,111	-3	-12		50,552	1,776	0,084	0,056	0,031	2,232
75-77			0,167	-2	-12		39,168	1,049	0,231	0,083	0,084	6,048
77-79			0,194	-1	-7		16,926	0,323	0,379	0,097	0,1376	9,907
79-81			0,194				2,156	0,403	0,363	0,09	0,131	9,489

Продовження табл. 3.3

81-83			0,594	1,129	0,212	0,042	0,077	25,544
83-85	0,139		10,440	1,856	0,072	0,069	0,0262	11,886
85-87	0,055		11,956	2,583	0,014	0,027	0,0051	00,367
		-20	1173.83					J35.924

Для побудови гістограми обчислюємо висоти прямокутників

. (3.38)

Розрахунки наведені в табл.3.3. Гістограма і полігон нагадують нормальний розподіл (рис.3.1).

Рис.3.1 - Гістограма і полігон

(3.39)

Порівнюється відношення Х²_табл при п'яти ступенях свободи з розрахунковим Х²_р_озр_.:

. (3.40)

Таким чином, Х²_{стат. 5%}>Х²_расч.,_.тобто статистичне значення Х² потрапляє в допустиму область при 95% рівні значущості. Гіпотеза наявності нормального закону розподілу собівартості пасажироперевезень затверджується.

6. Відкидаємо окремі значення, різко відмінні від основної маси спостережень. Якщо значення у розподілене нормально, найбільші випадкові відхилення від середнього за абсолютною величиною не перевищують 3 з достовірною вірогідністю 99,7%.

У даній статистичній сукупності =78,89 і σ_y =2,753. Отже, в масив для подальшої обробки слід включати всі значення у, що не виходять за межі 78,89-3.2,753=70,631 і 78,89+3.2,753=87,149.

У прикладі, що розглядаємо, у_min=72,11 і у_max=85,98, отже, всі значення включаються для подальшої обробки.

7.Перевіряємо достатність кількості спостережень за умови, що відхилення середнього вибіркового _в_и_б. від середнього генерального _ген_. не перевершує певну величину ε з гарантійною вірогідністю Р=95%.

У даному прикладі σ_y²=7,580, тоді маємо 2Ф(t)=0,95 t=1,96;

. (3.41)

Отже, вибірка в 36 спостережень задовольняє поставленій вимозі.

8. Складаємо рівняння регресії у собівартості пасажироперевезень по Х (середньодобовому перебуванню рухомого складу на лінії).

8.1. За дослідженими даними будуємо кореляційне поле в декартовій системі координат (рис.3.2). Для наближеного співвідношення сторін графіка у по Х використовуємо відносний варіаційний розмах

. (3.42)

Рис. 3.2 - Кореляційне поле, емпірична і теоретична лінії регресії

8.2. Складаємо кореляційну таблицю (табл. 3.4.), обчислюємо інтервальні середні _I і будуємо емпіричну лінію регресії по Х.

8.3. Складаємо рівняння собівартості пасажироперевезень за середньодобовим перебуванням рухомого складу на лінії. Розрахунки всіх потрібних сум в умовних варіантах наведені в табл. 3.4, =кх+b:

(3.43)

σх²= σх^{1 2}. (3.44)

∆Х²=2,559*0,1²=0,0256; (3.45)

σх=0,160; (3.46)

b= +к ; b=79,12-(-19,843)*11,753=312,24. (3.47)

Отже, рівняння регресії має вигляд:

=312,24-19,843 Х. (3.48)

8.4. Визначаємо емпіричне кореляційне відношення η_у/х, коефіцієнт кореляції r_y_/_x і його середнє квадратичне відхилення σ₂.

Коефіцієнт кореляції рівний

(3.49)

Коефіцієнт кореляції достатньо великий і суттєвий при високій гарантійній ймовірності:

(3.50)

Кореляційне відношення

(3.51)

Лінійність кореляційної залежності гарантується при високому рівні значущості. Дійсно, кореляційне співвідношення η_у/х знаходиться в довірчому інтервалі для r_y/x:

(3.52)

при 5% рівні значущості t=1,96.

. (3.53)

0,854 ≤ 0,965 ≤ 0,967 (3.54)

Теоретична лінія регресії представлена на рис.3.2.

Парні рівняння регресії _xj=d(xj) описують залежність функціональної ознаки від кожного окремо взятого чинника - аргументу без урахування його взаємозв'язку з іншими. Це може спотворювати дійсне положення, призводити до невиправданих висновків і пропозицій. Треба виявити відособлений "приватний вплив" кожного окремого чинника, які в досліджуваному процесі виступають у взаємозв'язку.

Проблема відшукання такого рівняння, яке показало б ізольований вплив на показник кожного окремого чинника, що вивчається, розв'язується за допомогою рівняння множинної регресії.

Ставиться завдання визначення такої функції F(X1,X2...X_p), яка математично описувала б зміну середнього значення ознаки у, що вивчається, залежно від аргументу Х1, Х2..Хр з урахуванням особливостей процесу і близьким охопленням вихідних даних:

_х1, _{х2,....хр=F}(Х1, Х2...Хр). (3.55)

Поставлене завдання розв'язується на основі знання сутності процесу і попереднього виявлення одновимірної залежності

_хj=dj(Xj), де j=1,2...P. (3.56)

При об'єднанні парних рівнянь в єдине множинне необхідно чітко розрізняти дві ситуації:

- при виборі рівнянь парної регресії _хj=d (Xj) (1) змінна у не піддавалася функціональним перетворенням;

- при виборі рівнянь парної регресії _хj1= d (Xj) (2) величина у піддавалася функціональним перетворенням виду , ℓ_gy, y² та ін.

У першій ситуації будь-яка парна залежність може бути з'єднана в множинне рівняння, яке можна отримати підсумовуванням виразів типу (1):

_х1, _х2.._хр=F(X1, X2...Xp)= ₁(x1) + ₂(x2)+ _.+ p(_xp) (3),

де j=d(xj) – функція типу ij (xj) з невизначеними коефіцієнтами, обчисленими за способом найменших квадратів. Так, рівняння прямої =А₁Х1+В1 і гіперболи об'єднуються в рівняння множинної регресії в якому параметри а, b і с визначаються методом найменших квадратів з системи нормальних рівнянь:

(3.57)

У другій ситуації парні рівняння (1) об'єднуються в єдине множинне при будь-якому виді функції (2), але тільки у тому випадку, коли всі функціональні перетворення у однакові. У такій ситуації функціональні середні всіх парних рівнянь (2) співпадають і за допомогою загального множника перетворюють в шукану середню (звичайно в арифметичну середньою).

Як було рекомендовано вище, підбираємо функціональні перетворення змінних, рівняння виду (2) до лінійного виду, а значить шукане допоміжне множинне рівняння (3): перетвориться до вигляду

_u1,_u2…._up=a₁u₁+ a₂u₂+….a_p u_p. (3.58)

Отже, оперуючи далі перетвореними змінними V і Uj, можна обмежитися методикою складання лінійного множинного рівняння, використовуючи всі переваги лінійної регресії:

- попереднє знаходження стандартизованого рівняння V по U1, U2... Up за допомогою кореляційної матриці;

- дослідження зворотної кореляційної матриці;

- дослідження суттєвості й незалежності коефіцієнтів регресії;

- аналіз бета – коефіцієнтів;

- аналіз зміни детермінації як показника тісноти зв'язку.

Якщо об'єднується парна лінійна залежність виду =kx+b, то приходимо до вирішення задачі визначення множинної регресії вигляду

_{х1, х2}…_хр=а₁ х₁ + а₂ х₂ +…+а_р х_р (3.59)

або інакше як і в разі, коли у функціонально не перетворювався, коефіцієнти а₁, а₂…а_ррівняння множинної регресії можуть бути визначені методом найменших квадратів:

_{х1, х2}…_хр- у=а₁ (х₁- ₁) а₂ (х₂- ₂)+……а_р(х_р- _р). (3.60)

Проте при цьому буде утруднене зіставлення ступеня впливу окремих чинників-аргументів на функцію.

Більш зручно переходити до стандартизованого масштабу змінних, використовуючи формули

, (3.61)

При цьому слід мати на увазі, що всі середні значення стандартизованих величин t_yx1, x₂…x_p т.е. і t_xi або x_i рівні нулю, а їх дисперсії σ_ij² и σ_txi² =1.

Разом з тим коефіцієнти кореляції між стандартизованими величинами зберігають колишні значення, тобто r_ty = r_yti, r_txi = r_xi. У результаті стандартизації рівняння множинної регресії набуває вигляду

t _xi = β₁ t₁ + β₂ t₂ +… + β_p t_p, (3.62)

де, β₁, β₂…. β_р – невідомі коефіцієнти регресії в стандартизованому масштабі;

t_yx₁, t₁, t₂….tp – стандартизовані значення змінних.

Для визначення β- коефіцієнтів виходимо з принципу найкращого наближення розрахункових значень до вихідних даних, що лежить в основі методу найменших квадратів. Відсівається таке лінійне рівняння, щодо якого сума квадратів відхилень заданих значень t_y, _1,2…. _p від розрахункових по рівнянню якнайменша з усіх можливих для рівнянь такого виду.

Ця вимога приводить до системи лінійних рівнянь щодо шуканих β-коефіцієнтів і називається системою нормальних рівнянь:

r_y₁ = β₁ + r₁₂ β₂ +……+ r₁_p β_p

r_y₂ = r_{2 1}β₁ + β₂+……+ r₂_p β_p

................................................ (3.63)

r_yp = r_p₁β₁ + r_p₂β₂+…….+ β_p.

Як видно, для отримання багатофакторного рівняння, крім "зовнішніх парних коефіцієнтів" кореляції між у і х_i, тобто r_y₁, r_y₂ і т.д. вимагається знайти "внутрішні коефіцієнти" кореляції між чинниками-аргументами, тобто r₁₂, r₁₃…… r_1р.

Правило складання системи нормальних рівнянь для відшукання β- коефіцієнтів формулюється таким чином: за коефіцієнти при невідомих β₁, β₂….. β_р приймаються "внутрішні коефіцієнти" кореляції між чинниками-аргументами, а як вільні члени - "зовнішні коефіцієнти" кореляції між функцією і кожним з чинників.

Регресійну модель в більшості випадків розглядають як інструмент аналізу, планування і управління виробництвом. Звідси особливо строгі вимоги ставляться до надійності, адекватності й точності кожного коефіцієнта моделі. Якщо стандартна помилка знайденого коефіцієнта регресії перевершує його за абсолютною величиною, то не можна поручитися за достовірність не тільки того, на скільки одиниць свого найменування в середньому змінюється при зміні Х на одиницю свого вимірювання, але і за напрям впливу даного чинника-аргументу.

Точність визначення коефіцієнтів множинної регресії суттєво залежить від ступеня стійкості системи нормальних рівнянь або, інакше, від ступеня обумовленості кореляційної матриці.

Система нормальних рівнянь є добре обумовленою, якщо малим змінам коефіцієнтів відповідають малі (того ж порядку) зміни рішень. Інакше кажучи, має місце безперервний зв'язок між коефіцієнтами системи рівнянь і її коренями - корені системи стійкі при малих змінах її коефіцієнтів.

Приклад. У табл. 3.5 наведена матриця коефіцієнтів кореляції собівартості перевезення пасажирів міським транспортом по трьох чинниках

Таблиця 3.5 – Матриця коефіцієнтів кореляції

	Х₁= t_{ср. сут.}	Х₂= А_ср.сут.	Х₃ = П_км.	r_y_/_xj
-0,8803 -0,7294	-0,8803 0,9376	-0,7294 0,9376	-0,9108 0,9012 0,9055

При визначенні залежності собівартості перевезення пасажирів від Х₁ і Х₃, β-коефіцієнти знаходимо з вирішення системи нормальних рівнянь

β₁- 0,7294 β₃ = -0,9108; (3.64)

-0,7294 β₁+ β₃ = 0,9055. (3.65)

Система має рішення

β₁ = -0,5348, β₃ = 0,5208. (3.66)

Якщо провести округлення всіх коефіцієнтів до десятих часток одиниці, отримаємо систему

β₁ – 0,7 β₃ = -0,9; (3.67)

-0,7 β₁ - β₃ = 0,9. (3.68)

Система має рішення

β₁ = -0,5294, β₃ = 0,5185. (3.69)

При цьому зміни коефіцієнтів:

∆а₁₃ = -0,7294-(-0,7)= -0,0294; (3.70)

∆b₁ = -0,9108-(-0,9)= -0,0108; (3.71)

∆b₃ = 0,9055-0,9 = 0,055. (3.72)

І відповідні зміни коренів:

∆ β₁ = -0,5348-(-0,5294)= -0,0054, (3.73)

∆ β₃ = 0,5208-0,5185= 0,0023 (3.74)

того ж порядку; корені системи стійкі.

Проте існують системи, погано обумовлені, в яких малим змінам коефіцієнтів відповідають значні зміни рішень.

Приклад. Розглянемо систему нормальних рівнянь для визначення β- коефіцієнтів двофакторної моделі залежності собівартості перевезення пасажирів від Х₁ і Х₂, β- коефіцієнти знаходимо з вирішення системи нормальних рівнянь:

β₁ – 0,8803 β₂ = -0,9108; (3.75)

-0,8803 β₁ + β₂ = 0,9012. (3.76)

Система має рішення

β₁ = -0,5219, β₂ = 0,4418. (3.77)

Якщо провести округлення всіх коефіцієнтів до десятих часток одиниці, отримаємо систему

β₁ – 0,9 β₂= -0,9; (3.78)

-0,9 β₁+ β₂ = 0,9. (3.79)

Система має рішення:

β₁ = 0,4737, β₂ = 0,4736. (3.80)

При цьому зміни коефіцієнтів

∆а₁₂ = -0,8803-(-0,9)= -0,0119; (3.81)

∆b₁ = -0,9108-(-0,9)= -0,0108; (3.82)

∆b₂= 0,9012-0,9= -0,001 (3.83)

і відповідні зміни коренів:

∆ β₁ = -0,5219-(-0,4737)= -0,048; (3.84)

∆ β₂ = 0,4418-0,4736= -0,0318. (3.85)

Зміна другого кореня перевищує його значення. Змінився навіть знак кореня. Крім того, отримане рішення значно перевищує зміни коефіцієнтів системи. Отже регресійна модель, побудована за допомогою β-коефіцієнтів, знайдених по цій матриці, виявилася б нестійкою і економічні висновки з неї б були неточні й ненадійні. Стійкість системи нормальних рівнянь є необхідною умовою надійності економіко-математичної моделі.

Особливо часто явище нестійкої системи має місце в моделях з великим числом параметрів, де проблема обумовленості має найважливіше значення.

Виявивши нестійкість системи нормальних рівнянь, треба знайти причину цього явища і можливість його усунення.

Звичайно погано обумовлена система нормальних рівнянь має місце за наявності тісних кореляційних зв'язків між аргументами, що включаються в модель.

Лінійна залежність деяких аргументах в генеральній сукупності інших називається мультиколінеарністю.

Якщо в генеральній сукупності два аргументи, наприклад Х₁ и Х₂ лінійно залежать один від одного, то система з Р невідомими зводиться до системи Р-1 невідомими. Така система Р рівнянь є невизначеною, а її матриця виродженою. За допомогою такої системи β- коефіцієнти не можуть бути однозначно визначеними. Отже, багатофакторна модель, що включає обидва аргументи Х₁ и Х₂, не може бути складеною.

Система рівнянь може виявитися погано обумовленою і її рішення будуть нестійкі, якщо в стовпцях або в рядках матриці розташовуються пропорційні значення "внутрішніх коефіцієнтів" кореляції між коефіцієнтами.

Явище мультиколінеарністі, тобто лінійна залежність одного з аргументу від інших виявляється декількома способами:

- професійними міркуваннями по суті досліджуваного явища;

- інструкцією заснованої на складанні "внутрішніх і "зовнішніх" коефіцієнтів" кореляції кожного з аргументів. Якщо "внутрішній коефіцієнт" кореляції більше "зовнішнього", то даний аргумент в рівняння множинної кореляції не слід включати;

- використанням статистичного критерію мультиколінеарністі (Феррара і Гюбера). Для цього розглядається величина

_j = (C_ij-1) , (3.86)

де Cij – діагональні елементи матриці, зворотної до кореляційної, знайденої за вибірковими даними;

n – обсяг вибірки;

p – число аргументів у рівнянні множинної регресії.

Зворотною по відношенню до даної називається матриця, яка, будучи помноженою як справа, так і зліва на дану матрицю, дає одиничну матрицю.

Для матриці А зворотна їй позначається через А^-1. Тоді за визначенням маємо:

А^-1*А = А* А^-1 = Е (3.87)

Якщо існує зворотна матриця А^-1, то матриця А називається зворотною. Для виродженої матриці зворотної матриці не існує, оскільки її визначник рівний нулю.

Визначник зворотної матриці рівний зворотній величині визначника даної матриці, що дає можливість обчислення зворотної матриці за допомогою визначників. Для цього використовуються поняття мінору і доповнення алгебри.

Мінором М_ij елемента а_ij визначника Д=(О_ij) називається такий новий визначник, який отриманий з даного визначника викреслюванням рядка і стовпця, що знаходиться через даний елемент матриці А.

Доповненням алгебри елемента а_ij визначника називається мінор М_ij цього елемента, взятий зі знаком (-1). Доповнення алгебри елемента а_ij позначається через А_ij. У прийнятому нами позначенні матимемо:

(3.88)

Ферраром і Глобером доведено, що статична величина _j підкоряється розподілу Фішера з (n-p) і (р-1) ступенями свободи. Отже, для виявлення мультиколінеарності використовується звичайний прийом перевірки статистичних гіпотез. Обчисливши вираз _j (j=1,2…р), порівнюємо їх значення з табличними значеннями _5% и _1% при відповідних ступенях свободи [ (n-p) (p-10) ].

Якщо _j < _5%, то гіпотеза відсутності мультиколінеарності j-го аргументу з іншими в генеральній сукупності стверджується. Навпаки, при _j > _5%- відкидається гіпотеза відсутності мультиколінеарності j-го аргументу з іншими в генеральній сукупності. При _5% < _j < _1% використовуються засоби послаблення мультиколінеарності шляхом переходу до нелінійних залежностей та ін.

Висновки про виключення якогось аргументу супроводяться логічним аналізом. По аргументах, що збереглися, повторюється перевірка мультиколінеарності.

Управління множинної регресії виявляється тим точніше і надійніше, чим слабше внутрішні кореляційні зв'язки між аргументами.

Знайдені в результаті рішення кореляційної матриці β- коефіцієнти показують на яку частину середньоквадратичного відхилення σу змінюється середнє значення функції, якщо відповідний аргумент зменшується або збільшується на юшок, а інші аргументи залишаються незмінними.

Найбільш доцільно відшукувати рівняння множинної регресії шляхом послідовного підключення до парного рівняння решти аргументів в порядку їх значущості (економічної, технологічної і т.п.). У цьому випадку виявляється можливість на кожному етапі аналізувати:

- обумовленість вирішуваної системи за чисельним значенням її визначника (детермінатора);

- зміна β- коефіцієнтів, чисельне значення яких має бути менше 1, а знак не суперечити логіці;

- зростання коефіцієнта множинної кореляції R і убування залишкової дисперсії .

Методика послідовного підключення аргументів складається з наступних операцій.

1.Обирається аргумент Х₁, якому відповідає найбільший за абсолютним значенням "зовнішній коефіцієнт" кореляції

| r _y₁| = max | r _yi|, j = 1,2….q. (3.89)

За аргументом Х₁ записується рівняння

t_y₁ = t_y₁t_x₁. (3.90)

2. Приєднується аргумент Х_io, для якого

| r _xj X₁ | = min | r _xj _x₁ |, j = 2,3,… q. (3.91)

Складається система нормальних рівнянь

r _y_х1= β₁+ r _х_jo β₂; (3.92)

r _y _xjo = β₁ r _х_jo _x₁+ β₂ (3.93)

і обчислюються значення β₁и β₂. Визначаються

R²_y_,_x_{1 х}_jo = β₁ r_yx₁ + β₂r _y _xjo; (3.94)

σу, _х1_xjo = (3.95)

Порівнюється R²_y_,_x_{1 х}_jo, σу, _х1_xjo відповідно з r²_yx_1,σу_х1.

Переконуються в справедливості нерівності

R²_y_,_x_{1 х}_jo ≥ r²_yx₁; σу, _xjo ≤ σу_х1. (3.96)

У противному разі замінюється чинник аргумент іншим X_j₁_,а аргумент X_j₀ переноситься на останнє місце.

3. Далі приєднується наступний аргумент X_j₁ і розв'язується система з трьома невідомими:

r _y_х1= β₁+ β₂r_х1_xjo + β₃r_х1_xj₁; (3.97)

r _y _xjo = β₁r_х1_xjo + β₂+ β₃r _xjo _xj₁; (3.98)

r _y _xj₁ = β₁r_х1_xjo + β₂r _xjo _xj₁+ β₃. (3.99)

Обчислюються значення β_1, β₂и β₃. Визначаються

R²_y_,_x_{1 х}_jo _xj₁= β₁ r _y_х1 + β₂r _y _xjo + β₃r _y _xj₁; (3.100)

σу, _xjo _xj₁= σу (3.101)

і порівнюються з R²_y_,_x_{1 х}_jo і σу, _x_{1 х}_jo. Переконуються в справедливості нерівності

R²_y_,_x_{1 х}_jo _xj₁≥ R²_y_,_x_{1 х}_jo; (3.102)

σу, _x_{1 х}_jo _xj₁≤ σу, _x_{1 х}_jo. (3.103)

У противному разі поступають аналогічно П.2.

Дослідження ведуть до тих пір, поки не будуть апробовані чинники-аргументи і збережені тільки ті з них, для яких β_j–коефіцієнти суттєві й лінійно незалежні. У результаті виходить множинне рівняння в стандартизованому масштабі.

Від рівняння множинної регресії в стандартизованому масштабі

t _xi = β₁t₁ + β₂t₂ + ….+ β_pt_n (3.104)

до рівняння множинної регресії в натуральному масштабі

_{х1, х2…Хр} = а₁х₁ + а₂х₂ + ….+ а_рх_р+b. (3.105)

Перехід здійснюється подвійно.

1. Шляхом використання формул

(3.106)

При цьому маємо

(3.107)

Підставивши відомі значення , σxi, σу, β_i і _I, отримаємо рівняння множинної регресії в натуральному масштабі, в якому чисельне значення вільного члена додатково визначати не потрібно.

2. Невідомі коефіцієнти а_i в рівнянні множинної регресії в натуральному масштабі визначають з виразу

. (3.108)

Чисельне значення вільного члена

b = -(а_{1 1}+ а_{2 2} + …+ а_{р р}). (3.109)

Для з'ясування математико-статистичного змісту множинної кореляції всю досліджувану групу змінних слід розглядати як один чинник-аргумент. Чисельне значення коефіцієнта множинної кореляції визначають за формулою

R= . (3.110)

При цьому 0≤ R≤1. Коефіцієнт надійності

М = . (3.111)

Стандартну помилку (середню квадратичну похибку) коефіцієнта множинної кореляції визначають за формулою

σ_R = (1-R)/ , (3.112)

де n-обсяг вибірки.

Сукупний вплив врахованих змінних на функцію визначається коефіцієнтом загальної детермінації R², а окремих чинників-аргументів за чисельними значеннями приватної детермінації r_iβ_i:

R² = r₁β₁+ r₂β₂+…..+ r_pβ_p. (3.113)

Стандартну (систематичну) похибку ²обчислюють за формулою

²= 1-(1- R²) , (3.114)

де Р - число параметрів рівняння регресії. З рівняння множинної регресії можна отримати рівняння чистої (приватної) регресії по кожному з аргументу X_i. Для цього фіксується значення всіх аргументів, окрім X_i, на середньому рівні.

Отримане рівняння описує, як в середньому змінюється із зміною X_i, якщо всі інші аргументи постійні й закріплені саме на своїх середніх рівнях.

Приклад. Відповідно до наведеною методики скласти рівняння множинної регресії собівартості перевезення пасажирів від чинників: X₁ – середньодобове перебування рухомого складу на лінії; X₂ – середньодобова кількість пасажирів, що перевозяться, тис. чол.; X₃ – пробіг рухомого складу на 1000 пасажирів, км, що перевозяться. Відомо, що = 78,9 коп., σу =3,5104, а в таблиці матриці наведені внутрішні й зовнішні коефіцієнти кореляції.

Таблиця 3.6 - Внутрішні й зовнішні коефіцієнти кореляції

	Х₁ = t	X₂ = ¹/_A	X₃ = П	r_yxi	_i	σ_xi
t 1/A П	-0,8803 -0,7294	-0,8803 0,9376	-0,7294 0,9376	-0,9108 0,9012 0,9055	11,757 0,0187 167,14	0,1611 0,00122 7,3996

Етап 1. Послідовно підключаються чинники-аргументи, в першу чергу з найбільшим "зовнішнім коефіцієнтом" кореляції і найменшим "внутрішнім". У нашому прикладі найбільше "зовнішні коефіцієнти" кореляції з мають Х₁ и Х₃.

Система нормальних рівнянь має вигляд

β₁– 0,7294 β₃ = -0,9108; (3.115)

-0,7294 β₁+ β₃= 0,9055. (3.116)

Отримане рішення

β₁= -0,5348 и β₃= 0,515. (3.117)

Визначаємо R²_{у, Х1 Х3}и σу,_Х1Х3

R²_{у, Х1 Х3}= -0,9108 (-0,5348) + 0,9055 * 0,515 = 0,9534; (3.118)

σу,_Х1Х3= 3,51104 = 0,7578. (3.119)

Порівнюємо R²_{у, Х1 Х3}і σу,_Х1Х3з r²_yx, и σу,_Х1, де справедливі рівняння 0,9534 >0,9108, 0,7578 < 3,5104.

Складаємо рівняння множинної регресії по двох чинниках-аргументах:

= -0,5348 + 0,515 (3.120)

Після відповідних перетворень виходить рівняння множинної регресії собівартості по двох чинниках–аргументах, середньодобовому перебуванні рухомого складу на лінії і пробігу рухомого складу на 1000 перевезених пасажирів

. (3.121)

Етап 2. Приєднуємо наступний аргумент А- середньодобова кількість пасажирів, чол, що перевозяться. Складаємо систему нормальних рівнянь

(3.122)

Обчислюємо .

Рівняння множинної регресії по трьох чинниках–аргументах має вигляд:

. (3.123)

Після відповідних перетворень виходить управління множинної регресії пасажироперевезень по трьох чинниках – аргументах:

(3.124)

Сукупний вплив облікових чинників на собівартість пасажироперевезень визначається загальною детермінацією, а окремих чинників аргументів за чисельними значеннями часткової детермінації , які складають:

Отримані результати свідчать, що три чинники – аргументи, включені в множинну кореляційну залежність, на 92% обумовлюють собівартість пасажироперевезень міським електричним транспортом, у тому числі: середньодобове перебування рухомого складу на лінії - на 25,64%; середньодобова кількість пасажирів, що перевозяться - на 54,69%; пробіг рухомого складу на 1000 пасажирів, що перевозяться - на 11,93% при досить високому коефіцієнті кореляції R=0,9593.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (6.405 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница