Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

II. Дисперсионный анализ

Читайте также:

Трудно представить любое медицинское исследование (социально-гигиеническое, гигиеническое, клиническое, экспериментальное и др.), в котором не ставилась бы в той или иной мере задача определения силы влияния различных факторов на размеры изучаемого признака. Определяя различия средних арифметических двух выборочных групп наблюдения путем расчета критерия Стьюдента t, который позволяет выявить статистическую значимость разницы средних, исследователь подразумевает, как само собой разумеющееся, что группы исследуемых совершенно однородны и отличаются только по одному какому-то признаку или методу воздействия на них.

Между тем на практике это условие соблюдается далеко не всегда. На изучаемое явление и, следовательно, его средний уровень оказывают влияние многочисленные факторы, как постоянные (планируемые или сознательно выделяемые для их изучения), так и случайные (неопределенные). Например, больные гипертонической болезнью, отобранные по полу, возрасту, стадии и длительности заболевания, помимо болезни, подвергаются воздействию других неучтенных факторов, в результате чего у разных больных наблюдается различный уровень артериального давления.

При изучении явлений, сравнении их друг с другом в поисках сходства и различий необходимо обращать внимание не только на величину средних, но и на разнообразие вариант, а также вариабельность изучаемых признаков. Исследователь может встретить вариационные ряды, не отличающиеся по центральной тенденции (размеру средней арифметической), но различные по степени варьирования. И наоборот - ряды, одинаковые по величине разброса вариант, могут различаться по размерам средней арифметической. Установление значимости различий средних арифметических, измерение степени влияния факторов и их градаций на варьирующий (результативный) признак наиболее эффективно достигаются путем применения дисперсионного анализа.

Впервые основа дисперсионного анализа была разработана известным английским статистиком Р. Фишером в 1925 году. В нашей стране наиболее полно и систематизировано этот метод представлен в трудах Н.А. Плохинского.

Дисперсионный анализ – это метод в статистической математике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий вариабельности признака в исследуемой совокупности. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance). Он базируется на определении степени рассеяния (дисперсии) оцениваемых признаков в нескольких группах. Это позволяет измерить силу влияния отдельных факторов на значения показателей.

Известно, что величина отдельных признаков представляет собой результат воздействия разнообразных факторов, различных по силе влияния. Одни факторы имеют значительно большую силу влияния, другие - меньшую. Причем, как правило, факторы сами воздействуют друг на друга, сочетая свое влияние, иногда усиливают действие друг друга, иногда, наоборот, погашают это действие. Преимуществом дисперсионного анализа является то, что он дает возможность изучить и сравнить роль каждого из них.

В отличие от дисперсионного анализа другие общепринятые в медицинских исследованиях статистические методы обработки, как правило, предусматривают проведение попарных сравнений, что приводит к огромному объему расчетов и часто не дает полной оценки.

Сущность дисперсионного анализа заключается в изучении статистического влияния одного или нескольких факторов на результативный признак.

Результативный признак - это элементарное свойство объектов, изучаемое как результат влияния факторов: организованных в исследовании (основных - х) и всех остальных, неорганизованных, не учтенных в данном исследовании (случайных - z).

Фактор - это влияние, воздействие или состояние, которое отражается на размерах и разнообразии результативного признака.

Градации фактора - это степень его воздействия (нулевое действие в контрольной группе) или состояние объектов изучения (пол, возраст и т.д.).

Дисперсионный комплекс - это совокупность градаций комплекса данных (опытных групп исследования) с привлеченными для исследования значениями и средними величинами по каждой градации.

Комплексы, составленные по принципу случайной выборки, называются рандомизированными.

При изучении количественных признаков в градации комплекса заносятся числовые результаты измерения изучаемого признака у каждого отдельного объекта. При изучении качественных признаков в градации комплекса заносится число объектов с наличием признака и общее число объектов.

Статистическое влияние - это отражение в разнообразии результативного признака того разнообразия фактора (его градаций), которое организовано в исследовании.

Сумма основных и случайных факторов составит общие факторы (у). Результативный признак изучается как результат воздействия факторов, организованных в исследовании (х) и неорганизованных (z).

Общее влияние как раз и определяет влияние всех организованных и неорганизованных (случайных) факторов, определивших такое развитие признака, которое наблюдалось в дисперсионном комплексе. Общее влияние служит базой для определения доли влияний - факториальных и случайных.

Факториальное влияние - это простое или комбинированное статистическое влияние изучаемых (учтенных) факторов.

Случайное влияние - это действие тех факторов, которые не учтены в дисперсионном комплексе и составляют общий фон, на котором действуют учитываемые факторы.

Таким образом, дисперсионный анализ исследует важнейшее свойство совокупности – разнообразие (вариабельность, дисперсию) признака. Для этого выделяется три вида разнообразия: межгрупповое, внутригрупповое и общее. Межгрупповое разнообразие зависит от влияния исследуемого фактора, по которому выделяется каждая группа. Иными словами, межгрупповое разнообразие - это различие средних в каждой группе. Внутригрупповое разнообразие зависит от силы влияния каких-то неучтенных случайных факторов. Общее разнообразие складывается из межгруппового и внутригруппового.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): f₁, …, f_k, а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа является исследование значимости различия между группами с помощью сравнения дисперсий. Разделение общей дисперсии на несколько источников позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если выполняется сравнение средних в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий Стьюдента. Однако, помимо этого, он позволяет оценить степень такого влияния, а также может использоваться при сопоставлении более чем 2-х групп.

Сущность дисперсионного анализа заключается в расчленении общей дисперсии (D или SS) изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Обозначение SS - это сокращение от фразы "суммы квадратов" (Англ. sum of squares). Оно чаще всего используется в зарубежных источниках.

Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Критерий Фишера экспериментальных (эмпирических) данных (F _Эмп.) вычисляется как отношение среднего квадрата дисперсии, обусловленной изучаемым фактором, к среднему квадрату случайной дисперсии:

где: F _Эмп. – критерий Фишера, вычисленный в исследуемой совокупности,

MS _Факт. – средний квадрат дисперсии, обусловленной изучаемым фактором,

MS _Случ. – средний квадрат дисперсии, обусловленной случайными факторами.

Для оценки достоверности полученного результата вычисленный на экспериментальных данных критерий Фишера сравнивают с его критическим значением (F _Крит.) для принятого уровня вероятности (p) и степеней свободы (df).

С целью уменьшения объема вычислений в программе Excel может применяться надстройка «Анализ данных» и ее модуль «Однофакторный дисперсионный анализ».

Пример задачи на выявление степени влияния изучаемого фактора.

Условие задачи: три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью - 1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты измерений представлены в таблице 26.

Таблица 26

Результаты запоминания слов, предъявляемых испытуемым

№ испытуемого	Группа 1 (низкая скорость)	Группа 2 (средняя скорость)	Группа 3 (высокая скорость)






суммы
средние	7,17	6,17
Общая сумма

Статистическая гипотеза:

- Основная (H₀): различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.

- Альтернативная (H₁): Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.

Решение: запустите программу Excel, откройте требуемый файл в папке своей учебной группы под именем «Статистика–Фамилии студентов». Создайте НОВЫЙ лист, переименуйте его, обозначив названием «Дисп_анализ». На этом листе введите данные и решение задачи, как показано ниже, сохраните изменения и покажите результат работы преподавателю.

Этапы выполнения дисперсионного анализа.

1. Подсчет SS_Факт. - вариативности признака, обусловленную действием исследуемого фактора (межгрупповое разнообразие):

где: Т_с – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. таблицу);

с – количество условий (градаций) фактора (=3);

n – количество испытуемых в каждой группе (=6);

N – общее количество индивидуальных значений (=18);

– квадрат общей суммы индивидуальных значений (=104²=10816).

Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.

По формуле (1) рассчитав фактическую вариативность признака, получаем:

2. Вычисление SS_Общ. – общей вариативности признака:

3. Вычисление случайной (остаточной) величины дисперсии SS_Сл., обусловленной неучтенными факторами (внутригрупповое разнообразие):

4. Определение числа степеней свободы df_Общ., df_Факт., df_Сл.:

5. Математическое ожидание суммы квадратов или «средний квадрат»,усредненная величина соответствующих сумм квадратов SS равна:

6. Значение статистики критерия F _Эмп. вычисляется по формуле:

Для нашего примера имеем: F _Эмп .= 7,45

7. Определение F _Крит. выполняется по статистическим таблицам для степеней свободы df₁ = k₁ =2 и df₂ = k₂ =15 и уровне значимости 0,05. Табличное значение статистики равно F _Крит. = 3,68.

В программе Excel критическое значение критерия Фишера определяется функцией =FРАСПОБР(Уровень значимости; df₁; df₂) =FРАСПОБР(0,05;2;15) = 3,68232034.

8. Если F _Эмп. < F _Крит., то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера F _Эмп. > F _Крит. (7,45>3,68), следовательно, принимается альтернативная гипотеза - влияние существует.

В программе Excel с помощью функции ФТЕСТ можно сразу вычислить вероятность различий двух массивов данных. Вводим в ячейку функцию =ФТЕСТ(Первый диапазон данных; Второй диапазон данных).

Получаем вероятность 0,99999999 > 0,95 (95%).

Аналогичные вычисления выполняются с помощью надстройки «Анализ данных» в модуле «Однофакторный дисперсионный анализ». Результат обработки данных задачи этой командой показан в таблице 27.

Таблица 27

Однофакторный дисперсионный анализ

ИТОГИ
Группы	Счет	Сумма	Среднее	Дисперсия
Группа 1 (низкая скорость)			7,16667	2,1666667
Группа 2 (средняя скорость)			6,16667	2,1666667
Группа 3 (высокая скорость)


Дисперсионный анализ
Источник вариации	SS	df	MS	F	P-Значение	F критическое
Между группами	31,444		15,7222	7,4473684	0,00567184	3,682320344
Внутри групп	31,667		2,11111

Итого	63,111

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Таким образом, скорость предъявления слов влияет на объем их воспроизведения.

1 | 2 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.175 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница