Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Нормальное распределение

Читайте также:

Многочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.

В качестве примера рассмотрим нормальное распределение возраста, которое строится по данным исследований гипертонии (файл hyper.sav) с помощью команд меню Graphs (Графы) ► Histogramm... (Гистограмма) (см. рис. 5.1).

Рис. 5.1: Распределение возраста

На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.

Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок — U-тест Манна и Уитни.

Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова, который находится в меню Analyze (анализ данных) в наборе непараметрических тестов.

В нашем примере с распределением возрастов тест Колмогорова-Смирнова не показывает значительного отклонения от нормального распределения.

Еще одну возможность проверки наличия нормального распределения дает построение графика нормального распределения (см. разделы 10.4.1, 22.12), в котором наблюдаемые значения сопоставляются с ожидаемыми при нормальном распределении.

Как правило, подчиняются нормальному распределению. Исходя из этого выбираются критерии для проверки статистических гипотез. Однако, если распределение отличается от нормального, то критерии для нормального распределения (такие, как критерий Стьюдента) применять нельзя.

Поэтому вид распределения нужно предварительно проверять. Существуют статистические критерии подчинения нормальному закону распределения.

Таблица значений Q-критерия

1) Грубые критерии. Эти критерии определяют, есть ли резко выпадающие данные (грубые ошибки, промахи, выбросы). Эти критерии не рассматривают всей совокупности данных, а только крайние значение. Примером может служить Q-критерий. Тестовая статистика Q-критерия вычисляется по формуле:

где x_? - "подозрительное" значение (вероятный промах) - это максимальное или минимальное значение выборки, x_{ближайшее} - ближайшее к подозрительному значение, x_мин и x_макс - максимальное и минимальное значения выборки (эта формула верна для числа измерений n = 3..7. При n = 8..10 в знаменателе должна стоять разница между подозрительным значением и ближайшем к максимальному (или минимальному)). Значение Q сравнивают с табличным значением, и если табличное значение критерия меньше тестовой статистики, то подозрительный результат является промахом и исключается из дальнейшего рассмотрения. При этом обычно доверительную вероятность берут равной 0.90, а не 0.95. В данном случае это является некоторым "ужесточением" требований: лучше выбросить значение, не являющееся промахом, чем оставить промах в выборке. Как правило, на промах проверяют минимальное и максимальное значение выборки.

Q-критерий работает для выборок, содержащих 3 - 10 значений, при больших объемах выборки он становится нечувствителен к промахам.

2) Критерии, которые определяют, подчиняется ли вся совокупность нормальному распределению. Для применения этих критериев обычно требуется большой набор данных (чем больше, тем лучше, как правило, не меньше 30 единичных измерений).

Один из наиболее простых критериев этого типа - критерий Пирсена.

Проверка гипотезы о нормальном распределении случайной величины осуществляется по следующей схеме:

Дана выборка из n значений: x₁, x₂... x_n, _{причем n > 30}

Значения упорядочиваются по возрастанию, и вся выборка разбивается на m интервалов, m > 5, (обычно берут ), причем в каждый интервал должно попадать не менее 5 значений:

Строится гистограмма, площадь прямоугольника над отрезком должна быть пропорциональна числу точек, попавшему в отрезок (N_i):

Нужно выяснить, случайно ли отличие от нормального распределения, другими словами, случайно ли различие между экспериментальной кривой и теоретической кривой. Теоретическая кривая строится по формуле:

причем в качестве и берутся соответственно значения среднего и стандартного отклонения S, вычисленные для тестируемой выборки.

Нужно охарактеризовать различие между площадью экспериментальной гистограммы и площадью под теоретической кривой. Интеграл от функции Гаусса не выражается в элементарных функциях, но существуют таблицы интегралов для функции:

Для того, чтобы теоретическую кривую привести к такому виду, нужно произвести замену переменных:

Аналогично преобразовываются координаты отрезков:

Строится таблица:

отрезок	исходные границы	преобразованные границы	интеграл от функции гаусса
левая	правая	левая	правая	(вычисляется по таблице)
		a₁		b₁	I₁
2...	a₁	a₂	b₁	b₂	I₂
m	a_m-1		b_m-1		I_m

Поскольку интеграл I_i равен доле точек (сумма этих интегралов должна быть равна 1), то его нужно умножить на число точек:Вычисляется тестовая статистика:

Тестовая статистика сравнивается с табличным значением . Если тестовая статистика больше табличного значения, гипотеза о нормальном распределении отбрасывается, если меньше - данные подчиняются нормальному распределению.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (1.6 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница