Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Способы отбора выборок из генеральной совокупности

Читайте также:

I. Повторный отбор – производят по схеме возвращения

учтенных единиц в генеральную совокупность, так что одна и та же

единица может попасть в выборку повторно (отлов окольцованных

птиц, суточный количественный учет животных на пробной

площадке, повторное использование объектов для экспериментов).

Подобный отбор не влияет на состав генеральной совокупности, и

возможность каждой единицы попасть в выборку не меняется.

II. Бесповторный отбор – учтенные единицы не возвращают-

ся в генеральную совокупность, каждая отобранная единица ре-

гистрируется только один раз (отлов животных для изучения

питания, отбор почвенных или водных проб). Этот отбор влияет

на состав генеральной совокупности и возможность каждой

единицы попасть в выборку меняется.

Оба способа отбора (повторный и бесповторный) делятся

на 2 типа:

1. Отбор, не требующий расчленения генеральной совокуп-

ности на части, – простой случайный отбор – элементы извлека-

ются '84_случайным образом непосредственно из генеральной

совокупности (отбор животных для эксперимента, отлов живот-

ных из популяции, выборка из рабочих вредного производства).

Человек весьма несовершенное ｫорудиеｻ случайного отбора.

В психике каждого из нас, даже при кажущейся беспристраст-

ности, заложено подсознательное предпочтение определенного

облика объекта, а значит и стремление к тенденциозному субъ-

ективному отбору элементов наблюдения. Независимо от наших

попыток соблюдать максимальное благоразумие и честность при

формировании выборок всегда имеется определенная вероят-

ность того, что появится невольная систематическая ошибка.

На практике для осуществления случайного отбора применяют

метод случайных чисел: для этого можно воспользоваться либо

таблицами случайных чисел, либо соответствующими модулями

(процедурами) в статистических программах.

Пример: для проведения эксперимента из 100 подопытных

мышей необходимо отобрать 10 особей. Конечно, исследователь

может отобрать тех животных, которые первыми выбегут из

клетки после открывания дверцы. Но в этом случае он должен

будет понимать, что его отбор является довольно субъективным и

не лишен скрытых систематических ошибок. В результате этого

выборка может неадекватно отражать свойства генеральной

совокупности или опытная и контрольная группы животных

могут оказаться изначально неоднородными, что будет влиять

на результаты эксперимента. Чтобы произвести действительно

простой случайный отбор, необходимо создать равную вероят-

ность для всех мышей быть включенными в выборку. Для этого

исследователь предварительно может пронумеровать (от 1 до

100) всех животных (генеральная совокупность) и для отбора

воспользоваться таблицей случайных чисел (табл. 1.2).

Таблица 1.2

С лу ча йн ые ч ис ла(п о: Л ак ин, 1990)

3393 6270 4228 6069 9407 1865 8549 3217 2351 8410

9108 2330 2157 7416 0388 6173 1703 8132 9065 6717

7891 3590 2502 5945 3402 0491 4328 2365 6175 7695

9085 6307 6910 9174 1753 1797 9229 3422 9861 8357

2638 2908 6368 0398 5495 3283 0031 5955 6544 3883

Случайные числа –это последовательность чисел, выбранных

из некоторой генеральной совокупности чисел при помощи какого-

нибудь случайного процесса (жеребьевка). Из таблицы необходимо

отобрать 10 чисел, не превышающих значение 100 (т. к. в нашем

случае N = 100). Просматривание таблицы можно начинать

в любом месте и вести в произвольном направлении. Допустим, мы

начнем с первого столбца таблицы и будем двигаться последова-

тельно сверху вниз, учитывая 2 последних цифры четырехзначных

чисел. В итоге мышей под номерами 93, 8, 91, 85, 38, 70, 30, 90, 7,

28 необходимо будет отобрать для эксперимента.

Более удобный способ составления случайных выборок

исследователь может найти, открыв табличный процессор MS

EXCEL: в меню С ер ви с нужно выделить строку А на ли з

д ан ны х, найти процедуру В ыб ор каи щелкнуть на кнопку О К

(рис. 1.7).

Рис. 1.7. Общий вид меню пакета ｫАнализ данныхｻ

и диалоговое окно процедуры ｫВыборкаｻ

В диалоговом окне процедуры В ыб ор канеобходимо лишь

установить С лу ча йн ыйметод выборки, мышкой указать

В хо дн ойи нт ер ва л (столбец электронной таблицы с порядко-

выми номерами животных) и ввести объем выборки в поле

Ч ис лов ыб ор ок(в нашем примере 10). Необходимо отметить,

что данная процедура реализует повторную случайную выборку,

поэтому заранее полезно указывать немного больший объем

выборки, чем требуется отобрать для исключения повторяю-

щихся объектов.

Не менее удобным для целей формирования выборок

является модуль Р ан до ми за ци я статистической программы

ATTESTAT (рис. 1.8).

Рис. 1.8. Диалоговое окно модуля ｫРандомизацияｻ

К примеру, с помощью данного модуля можно случайным

образом распределять объекты в контрольные и опытные группы.

Простой случайный отбор имеет преимущества в тех слу-

чаях, когда объем генеральной совокупности не слишком велик.

Но каким образом можно создать равную вероятность попадания

в выборку единиц наблюдения, если исследователь имеет дело,

например, с насекомыми или планктонными животными или его

целью является экологическое исследование обширного геогра-

фического района? Предварительно отловить и пронумеровать

всех особей для того, чтобы произвести простой случайный

отбор, явно не получится. В этом случае можно использовать

отбор второго типа.

2. Отбор, при котором генеральная совокупность разбивается

на части:

А. Серийный отбор –генеральную совокупность предвари-

тельно делят на классы (серии), затем из общего количества

серий случайным способом отбирают несколько серий для

сплошного изучения. Подобный вариант отбора следует приме-

нять при работе с относительно однородными объектами

исследования (агроэкосистемы, группы испытуемых одинакового

возраста, небольшие и простые по морфологии водоемы).

Пример: необходимо составить выборку из жуков люцерно-

вого поля. Предварительно нужно разбить всю площадь поля

на небольшие пробные площадки, присвоить им порядковые

номера и с помощью уже известных нам способов случайным

образом отобрать ряд пробных площадок, на которых произвести

сплошное обследование по учету жуков.

Б. Типический отбор –генеральная совокупность делится

на несколько классов (типических групп), а затем случайным обра-

зом делается выборка из каждой отдельной типической группы

(т. е. в отличие от серийного отбора сплошного изучения каждой

типической группы не производится). Используется этот способ

с успехом в тех случаях, когда исследуемые объекты неравномерно

распределены в определенном объеме или на определенной терри-

тории, что и встречается наиболее часто в природных условиях.

Пример: необходимо установить размерно-возрастную

структуру популяции ящерицы живородящей на определенной

территории, включающей различного типа лесные и луговые

участки, вырубки, дороги и т. д. Для получения репрезентативной

выборки всю территорию нужно поделить на ряд типических

групп (участки леса, луг, опушки, вырубка, обочины дорог),

в наибольшей степени различающихся между собой. Затем

каждую типическую группу можно разбить на ряд пробных

площадок, случайным способом выбрать в каждой группе

несколько таких площадок, на которых и произвести отлов

животных. Таким образом, общий объем выборки будет

включать особи из каждой типической группы, что обеспечит

репрезентативное описание всей генеральной совокупности.

В. Механический отбор –генеральная совокупность ｫмеха-

ническиｻ делится на столько групп, сколько объектов должно

войти в выборку, а из каждой группы отбирается один объект.

Пример: при обследовании посева ржи на урожайность

намечено отобрать 100 колосьев. Следовательно, поле ржи можно

разбить на 100 равных делянок и с каждой случайным образом

отобрать по 1 растению; при изучении питания можно

отлавливать каждый пятый, десятый и т. п. экземпляр животного

данного вида на маршруте. В последнем случае, однако, нужно

следить за тем, чтобы алгоритм составления выборки не совпадал

с каким-либо периодическим процессом в природе, способным

повлиять на репрезентативность выборки.

П ри ме ча ни е 1. Несмотря на то, что методы матема-

тической статистики построены на предположении случай-

ности формирования выборочной совокупности, на практике не

исключены ситуации, когда именно в силу случайности

в выборку могут попасть экземпляры с преимущественно край-

ними вариантами признаков (нерепрезентативная выборка)

(Шмидт, 1984). Исследователь должен понимать, что веро-

ятность подобного будет тем выше, чем малочисленнее

формируемая выборка.

П ри ме ча ни е 2. Следует признать, что описанные в данном

разделе методы выборочного исследования в практике биоло-

гических и экологических работ применяются далеко не всегда.

Причинами этого могут быть неосведомленность исследователей,

дань традициям, иногда трудности технической реализации того

или иного способа случайного составления выборки, недостаток

времени и т. д. В конечном итоге изучается совсем не то, что

декларируется в названиях статей на страницах рецензируемых

журналов. К примеру, часто исследователи приводят результаты

изучения водных экосистем, при этом имея в наличии данные

лишь с одной, так называемой ｫстандартнойｻ, станции (точки)

отбора проб. Теория выборочного исследования редко исполь-

зуется при изучении бентоса с его крайне неравномерным

распределением в донных биотопах (Баканов и др., 2001). Многие

методы количественного учета животных и растений на практике

применяют, игнорируя описанные в разделе принципы. При этом

данные, полученные по нерепрезентативной выборке, никаким

образом нельзя будет ｫисправитьｻ или ｫподправитьｻ в процессе

их статистической обработки. Какие бы мощные методы матема-

тической обработки ни применялись, получить адекватное пред-

ставление о генеральной совокупности не удастся.

Г ла ва2. П ри ем ы п ер ви чн ой с та ти ст ич ес ко й о бр аб от кид ан ны х

Объектами исследований биологов и экологов могут быть

системы различного уровня (клетка, орган, организм, популяция,

биоценоз, экосистема) и разнообразные биологические (экологи-

ческие) процессы и явления (размножение, питание, динамика

численности популяций, сукцессия экосистем). Для изучения

этих объектов необходимо получить, обработать и проанализи-

ровать соответствующие данные. Данные –это исходная инфор-

мация об объекте исследования, полученная путем наблюдения

или эксперимента и представленная в форме, пригодной для по-

стоянного хранения, передачи, обработки и анализа (например,

набор конкретных чисел).

В биологических и экологических исследованиях принято

регистрировать первичные данные в специальных журналах,

дневниках, бланках, ведомостях.

Пример:

1. Учетная (маршрутная) ведомость встречаемости птиц.

2. Бланки обработки гидробиологических проб.

3. Ихтиологический журнал траловой съемки озера.

4. Лабораторный журнал обработки проб.

Зафиксированные в подобных документах учета сведения

об изучаемом объекте представляют собой беспорядочную массу

фактического материала, выраженного, как правило, в числовой,

балльной, текстовой, знаковой формах. В современных условиях

внедрения в научные исследования компьютерных технологий

следующим обязательным этапом является ввод этих данных

в одну из программ статистического анализа, к примеру в элект-

ронную таблицу MS EXCEL или пакет STATISTICA. Форма

организации первичных данных в электронных таблицах,

естественно, будет различаться в зависимости от цели ста-

тистической обработки.

Пример: для вычисления описательных статистик необходим

ввод всех числовых значений исследуемого показателя в один

столбец электронной таблицы, а для проведения дисперсионного

анализа требуется ввод в соседний столбец некой группирующей

переменной или разбивка этих значений по нескольким столбцам.

Фактически уже на этом этапе исследователь приступает

к простейшей статистической обработке собранных данных для

выявления скрытых в первичной информации закономерностей.

Овладение приемами статистической обработки первичных

данных необходимо в первую очередь для последующего освое-

ния более сложных статистических методов, поскольку эти прие-

мы часто являются важными этапами к проведению дальнейшего

количественного анализа.

Пример: построение статистических рядов является первым

этапом осуществления анализа временных рядов, корреляцион-

ного и регрессионного анализов; графическое представление

данных –неотъемлемая часть кластерного анализа; расчет ряда

описательных статистик (среднего значения или дисперсии)

необходим при проверке статистических гипотез.

Статистическая обработка первичных данных имеет и само-

стоятельное значение. Так, построение вариационных рядов и

кривых может дать исследователю ценную информацию о законе

распределения изучаемого признака или показателя, в даль-

нейшем это может помочь как в выборе корректных методов

математической обработки, так и в определении факторов,

вызывающих подобное вариационное распределение; вычисление

средних значений и показателей вариации само по себе является

важной характеристикой объекта исследований.

Методы, рассматриваемые в данной главе, относятся, пожа-

луй, к наиболее популярным и часто используемым формам

статистической обработки данных и в научных работах студентов

вузов, и в подавляющем большинстве статей, публикуемых

в ведущих научных журналах. Такие элементарные статисти-

ческие процедуры, как расчет среднего значения, показателей

вариации, построение статистических графиков и таблиц,

приходится применять биологам и экологам, вероятно, в 95%

случаев. Проще найти множество работ, где не применяются

необходимые относительно сложные методы статистической

обработки данных (например, корреляционный или диспер-

сионный анализы), чем работы, в которых не представлены

расчеты средних значений исследуемых показателей или

графический анализ.

2.1. С та ти ст ич ес ки е р яд ы

Математическая обработка собранных данных часто (но

далеко не всегда!) начинается с построения так называемых

статистических рядов, представляющих собой набор числовых

значений признака, расположенных в определенном порядке.

Рассмотрим более подробно типы статистических рядов.

1. Ранжированный ряд –одинарный ряд, в котором значения

признака располагаются в возрастающем (или убывающем)

порядке.

Пример:

23333444455 –ранжированный ряд.

Значение ряда: можно определить размах изменчивости

признака (от 2 до 5), наиболее часто встречающееся значение (3 и

4), подготовительный этап для построения вариационного ряда.

2. Вариационный ряд (ряд распределения) –двойной ряд

чисел, отражающий соотношение ранжированных значений

признака с частотой их встречаемости в данной выборке.

Пример:

23333444455 –ранжированный ряд,

2345 –значение признака,

1442 –частота встречаемости.

Значение ряда: позволяет определить закономерность варьи-

рования (закон распределения) изучаемого признака.

В зависимости от того, в каком диапазоне и как варьирует

признак –дискретно или непрерывно, –статистическая совокуп-

ность может распределяться в безынтервальный или интерваль-

ный вариационные ряды. Тип вариационного ряда можно

определить по формуле (Лакин, 1990):

λ = хmax –xmin / k,

где λ –ширина классового интервала,

хmax; xmin –максимальное и минимальное значение выборки,

k –число классов, на которые следует разбить вариацию

признака, рассчитывается по формуле Стерджеса:

k = 1 + 3.32 ｷ lg(n), где n –объем выборки.

Таким образом, если λ = 1 или λ ≈1, то строится безынтер-

вальный ряд, если λ ≠ 1, то строится интервальный ряд.

Если признак варьирует дискретно и в узких границах (λ = 1

или λ ≈1), то строится безынтервальный вариационный ряд.

Рассмотрим данные о количестве птенцов в гнездах древесной

ласточки Tachycineta bicolor (Рокицкий, 1973):

4 6 6 4 5 5 5 5 5 5 5 1 4 5 4 5 4 5 5 7 4 6 6 5 6 4 4 5 6 5 5 4 2 6 4 6 2 5 6 5 5 4

Данный признак является дискретным и λ ≈1, значит доста-

точно подсчитать встречаемость конкретных значений, не разби-

вая их на классовые интервалы. Искомый безынтервальный

вариационный ряд будет выглядеть следующим образом:

Количество птенцов Частота встречаемости

1 1

2 2

4 11

5 18

6 9

7 1

Интервальный вариационный ряд применяется, если изучае-

мый признак изменяется непрерывно (λ ≠ 1) или значения дис-

кретного признака, варьирующего в широких пределах, имеют

малую повторяемость. В воде мелководного озера Неро (Яро-

славская область) в течение года были измерены концентрации

общего фосфора (в мкг/л):

46 41 153 98 140 95 208 88 65 108

60 41 179 320 176 118 191 108 62 91

90 66 189 274 170 95 62 108 45 58

90 83 202 134 166 82 117 62 91 37

80 45 111 83 120 108 91 241 90 66

163 110 117 91 180 104 91 134 92 83

Для построения интервального вариационного ряда сначала

весь диапазон изменчивости концентраций общего фосфора раз-

бивается на серию равных классовых интервалов, затем подсчи-

тывается, сколько вариант попало в каждый интервал. В нашем

примере ширина классового интервала λ = 41, число классовых

интервалов k = 7, соответственно вариационный ряд имеет вид:

Классовые интервалы концентраций

(мкг/л)

Частота

встречаемости

37−78 14

78.1−119 28

119.1−160 5

160.1−201 8

201.1−242 3

242.1−283 1

283.1−324 1

3. Временной ряд (ряд динамики) –двойной ряд чисел,

отражающий __________варьирование вариант изучаемого признака во вре-

мени (по годам, месяцам, дням, часам).

Пример: сезонные изменения биомассы фитопланктона

в озере можно охарактеризовать следующим временным рядом

2 11 6 1 20 30 10 2 –биомасса фитопланктона (мг/л),

III IV V VI VII VIII IX X –месяцы.

4. Эмпирический ряд регрессии –двойной ряд чисел, отра-

жающий связь между значениями сопряженных признаков.

Пример: в 2011 г. в районе биостанции ｫУлеймаｻ студен-

тами ЯрГУ были получены следующие данные о численности

насекомых-опылителей на пробной площадке (Х) и температуре

воздуха в периоды учета насекомых (У):

Х: 17 19 59 114 94 78 78 64 78 48 35 36 5 5 11

У: 17 16.8 23.8 25.6 27 24.7 21.8 22.7 23.1 21.8 20.3 19 15 14.5 18.8

2.2. Г ра фи че ск ийа на ли з

Визуализация, или наглядное представление, результатов

исследований является важным этапом при первичной матема-

тической обработке данных. Графическое осмысление фактов

входит почти в каждую научную работу, и к нему следует при-

бегать, где только возможно и целесообразно. Построение гра-

фиков различных типов упрощает содержательный анализ коли-

чественных данных и во многих случаях является эффективным

средством контроля возможных ошибок при интерпретации

результатов, полученных __________тем или иным статистическим методом.

В данном разделе мы начнем знакомство с возможностями

графического анализа при математической обработке биологи-

ческих и экологических материалов на примере наглядной иллю-

страции закономерностей, заключенных в статистических рядах.

Изложение иных способов визуализации результатов количест-

венного анализа будет продолжено в последующих главах.

Графическое представление закономерностей варьирования

количественных признаков осуществляется с помощью вариаци-

онных кривых (полигон распределения частот) (рис. 2.1 а)

и гистограмм распределения (частот встречаемости значений

признака) (рис. 2.1 б).

Вариационные кривые строятся для безынтервальных вариа-

ционных рядов в осях: значения признака (абсцисса) –частота

встречаемости значений признака (ордината). Данный график

представляют собой ряд точек, соединенных прямыми линиями,

при этом каждая точка отражает частоту встречаемости конкрет-

ного значения дискретного признака. Анализ вариационной

кривой на рис. 2.1 а обнаруживает характерную закономерность

поведения количественного признака –число птенцов в гнездах

древесной ласточки: высокие частоты встречаемости вариант

наблюдаются в центре распределения, а низкие по периферии.

Весьма сходны с вариационными кривыми так называемые

гистограммы распределения частот –столбчатые диаграммы,

отражающие распределение частот встречаемости значений

признака по отдельным классовым интервалам. Соответственно,

в отличие от вариационной кривой на гистограмме распре-

деления частот по оси абсцисс откладываются классовые

интервалы. Подобные графики применяются для интервальных

вариационных рядов. Возвращаясь к ранее описанному примеру,

можно заключить, что закономерность варьирования концен-

траций общего фосфора значительно отличается от распреде-

ления количества птенцов в гнездах древесной ласточки: наблю-

дается смещение наиболее часто встречающихся концентраций

фосфора в область меньших значений (рис. 2.1 б).

Рис. 2.1. Графическое представление закономерностей статистических рядов:

а –вариационная кривая распределения количества птенцов в гнездах

древесной ласточки Tachycineta bicolor; б –гистограмма распределения

концентраций общего фосфора; в –сезонная динамика биомассы

фитопланктона в озере; г –точечная диаграмма, отражающая связь

температуры воздуха и численности насекомых-опылителей

на пробной площадке

Табличный процессор MS EXCEL содержит процедуру авто-

матического построения из исходных данных одновременно

вариационного ряда и гистограммы распределения частот этого

ряда. Для этого в диалоговом окне А на ли з д ан ны х надо

выделить процедуру Г ис то гр ам маи нажать кнопку О К

(рис. 2.2). Для построения гистограммы распределения частот

необходимо установить флажок В ыв одг ра фи ка(рис. 2.2).

а 0

1 2 4 5 6 7

Количество птенцов

Частота

встречаемости

б 0

37−78

78.1−119

119.1−160

160.1−201

201.1−242

242.1−283

283.1−324

Классовые интервалы концентраций (мкг/л)

Частота

встречаемости

в 0

III IV V VI VII VIII IX X

Месяцы

Биомасса

фитопланктона, мг/л

г 0

14 16 18 20 22 24 26 28

Температура, оС

Численность, экз.

Рис. 2.2. Общий вид меню пакета ｫАнализ данныхｻ

и диалоговое окно процедуры ｫГистограммаｻ

По данным рядов динамики строится график в осях: время

(абсцисса) –значение признака (ордината) (рис. 2.1 в). Графи-

ческий анализ сезонной динамики биомассы фитопланктона

выявляет наличие весеннего и позднелетнего пика в обилии

микроводорослей. Спад в развитии приходится на ранее лето,

в гидробиологии этот период именуется стадией ｫчистой водыｻ,

что часто связано либо с биогенным лимитированием, либо с

выеданием фитопланктона зоопланктоном.

На основе эмпирических рядов регрессии строится точечная

диаграмма (диаграмма рассеяния), отражающая связь между

парой признаков (показателей) (рис. 2.1 г). По оси абсцисс откла-

дываются значения одного признака, по оси ординат –другого

признака, сопряженного с первым. Таким образом, каждая точка

на подобной диаграмме отражает значения пары признаков.

Форма фигуры, создаваемой совокупностью точек на графике,

является показателем связи двух признаков. Если между

переменными существует сильная связь, то точки на графике

образуют упорядоченную форму (например, близкую к прямой

или кривой линии). Если переменные не связаны, то точки

образуют ｫоблакоｻ. Из рисунка 2.1 г видно, что точки образуют

фигуру вытянутой формы, через которую в первом приближении

можно провести прямую линию, при этом более высоким

значениям температуры воздуха соответствуют более высокие

численности насекомых-опылителей на пробной площадке. Это

указывает на существование связи между двумя переменными.

Программное обеспечение графического анализа. Удобным

средством проведения графического анализа является М ас те р

д иа гр ам м в электронных таблицах MS EXCEL. В программном

пакете STATISTICA предлагаются ещё более разнообразные

графические методы, с помощью которых исследователь может

запрашивать или самостоятельно организовывать построение

графиков (рис. 2.3). Доступ к графическим средствам осущест-

вляется через верхнее меню и команду Graphs (графики).

Так, программа STATISTICA дает возможность анализи-

ровать данные в трехмерном пространстве, для этого исполь-

зуются многообразные трехмерные графики (3D Graphs). Можно

одновременно посмотреть, каким образом могут быть связаны

между собой несколько переменных: к примеру, численность

насекомых-опылителей на пробной площадке, температура воз-

духа и атмосферное давление. Это позволяет сделать трехмерная

диаграмма рассеяния (3D XYZ Graphs), где каждая точка

отображает значения 3-х переменных (рис. 2.4).

Рис. 2.3. Графическое представление данных в пакете STATISTICA

3D Scatterplot (Spreadsheet1 10v*16c)

Рис. 2.4. Трехмерная диаграмма рассеяния, построенная

в программе STATISTICA

2.3. Т аб ли цы Табличный способ представления данных является не менее

важным, наряду с графическим анализом, средством первичного

упорядочения, систематизации и группировки результатов иссле-

дований (Терентьев, Ростова, 1977; Лакин, 1990).

Статистические таблицы внешне представляют пересечения

вертикальных граф и горизонтальных строк, которые образуют

клетки, предназначенные для записи в них статистического

материала. Статистическая таблица от других табличных форм

отличается тем, что она должна содержать результаты подсчета

(обработки) исходных количественных данных. Важным требо-

ванием является отсутствие перегруженности таблицы ｫизлиш-

нейｻ числовой информацией, которая может затушевывать

основную количественную закономерность. В задачи данного

пособия не входит подробное изложение структуры, типов

и правил оформления статистических таблиц, поэтому

остановимся лишь на нескольких наглядных примерах.

Таблица 2.1

С пе кт р п ит ан ияя ще ри цыж ив ор од ящ ейвр аз ны х б ио то па х

Объект питания Тип биотопа В се го Вырубка Хвойный лес шт. %

Пауки 10 4 14 38

Двукрылые 9 2 11 30

Жуки 3 5 8 22

Саранчовые 3 - 3 8

Дождевые черви 1 - 1 2

Всего, шт. 26 11

Таблица 2.2

З на че ни е р аз ли чн ыхг ру ппк ор мо в вп ит ан иин ек от ор ых з ем но во дн ых(п о: Б ан ни ко в, Д ен ис ов а, 1956)

Виды амфибий % наземных

кормов

% кормов,

могущих быть

добытыми и в

воде, и на суше

% водных кормов

Серая жаба 100 0 0

Травяная лягушка 94.2 3.6 2.2

Прудовая

лягушка

78.6 4.2 17.2

Озерная лягушка 67.5 9.1 23.4

Таблица 2.3

Б ио ма сс а б ен то са(г/м2) во зе ра х р аз ны х п ри ро дн ыхз он (п о: К ит ае в, 1984)

Биомасса бентоса

Тундра Северная тайга Средняя тайга Смешанный лес

5.00 4.04 5.17 3.73

3.21 3.85 3.92 7.56

3.75 4.02 5.10 8.74

3.85 3.32 3.80 8.75

5.39 2.23 3.77 15.39

3.59 2.11 2.56 11.85

8.44 1.87 1.94 9.84

Таблица 2.4

Б ио ма сс а б ен то са(г/м2) вз ав ис им ос тио т п ло ща дио зе ра ип ри ро дн ойз он ы (п о: К ит ае в, 1984)

Биомасса бентоса Среднее

Площадь озер Тундра Северная значение

тайга

Средняя

тайга

Смешанный

лес

<10 га 5.00 4.04 5.17 3.73 4.5

10–0 га 3.21 3.85 3.92 7.56 4.6

50–00 га 3.75 4.02 5.10 8.74 5.4

100–00 га 3.85 3.32 3.80 8.75 4.9

500–000 га 5.39 2.23 3.77 15.39 6.7

1000–000 га 3.59 2.11 2.56 11.85 5.0

>5000 га 8.44 1.87 1.94 9.84 5.5

Среднее значение 4.7 3.1 3.8 9.4

Что показывают приведенные таблицы? В таблице 2.1 груп-

пировка содержимого желудков ящериц, обитающих в разных

биотопах, позволяет выдвинуть на основе выборочных данных

по крайней мере 4 гипотезы:

1. Главными пищевыми компонентами ящериц на иссле-

дованных участках являются пауки (38%), двукрылые (30%)

и жуки (22%).

2. Главными компонентами питания ящериц на вырубке вы-

ступают пауки (10 шт__________.) и двукрылые (9 шт.), а в хвойном лесу – жуки (5 шт.) и пауки (4 шт.).

3. На вырубке рацион разнообразнее (5 объектов), чем в

хвойном лесу (3 объекта).

4. Интенсивность питания ящериц в хвойном лесу (11 шт.)

меньше, чем на вырубке (26 шт.).

Упорядочение количественных данных о группах кормов

в питании некоторых земноводных (в относительных единицах)

в табличной форме не только показывает их соотношение

в спектре питания разных видов амфибий, но и позволяет

сравнить рассматриваемых животных по образу жизни и особен-

ностям их местообитания (табл. 2.2). Главная количественная

закономерность в ряду «серая жаба –травяная лягушка – прудовая лягушка –озерная лягушка» заключается в уменьшении

доли наземных кормов и одновременном увеличении доли

водных кормов в питании этих земноводных. Известно, что жабы

по сравнению с другими амфибиями более устойчивы к засуш-

ливым условиям и, являясь типичной лесной формой, около

водоемов концентрируются только на период икрометания. Этим

можно объяснить отсутствие водных форм в питании серой

жабы. Травяные лягушки более гигрофильны, однако способны

удаляться от водоемов после периода размножения на значи-

тельные расстояния, проводя всё лето на суше. По-видимому,

в связи с этим травяные лягушки очень редко кормятся водными

формами. И, наконец, зеленые лягушки (прудовая и озерная) всю

жизнь проводят в воде или около воды, поэтому доля наземных

кормов в их питании снижается и повышается процент водных

форм. Более высокая доля наземных кормов у прудовых лягушек

по сравнению с озерными может быть связана со способностью

первых удаляться от водоемов на более значительные расстояния

в поисках пищи (Банников, Денисова, 1956).

Способы группировки количественных данных, применяе-

мых при выяснении причинно-следственных отношений между

признаками, представлены в таблицах 2.3 и 2.4. В таблице 2.3

показано, каким образом изменяется биомасса бентоса в озерах,

расположенных в разных природных зонах. При первичном

анализе таблицы трудно определить, действительно ли биомасса

бентоса зависит от природной зоны, в которой находятся озера.

Для этого необходимо провести дисперсионный анализ, пред-

ставленный в главе 6. Единственное, что бросается в глаза при

анализе таблицы, –это более высокие биомассы бентоса в озерах,

расположенных в зоне смешанных лесов. Ещё более сложный

вариант группировки данных представлен в таблице 2.4. В данном

случае вводится дополнительный фактор –площадь озер, и все

количественные данные по биомассе бентоса группируются

в «осях» двух факторов. При этом, в отличие от природной зоны,

даже без проведения специального статистического анализа видно,

что биомасса бентоса мало зависит от вариаций площади озер,

поскольку при значительном увеличении площади от <10 га

до >5000 га средние значения биомассы бентоса изменяются слабо

(4.5–.7 г/м2) (табл. 2.4). В заключение следует отметить, что

единственный количественный показатель, представленный в таб-

лице 2.4 и не оговоренный до сих пор, –это среднее значение

признака. Этим мы займемся в следующем разделе.

2.4. С та ти ст ич ес ки е х ар ак те ри ст ик и

в ыб ор оч но й с ов ок уп но ст и,

и лик акс жа тоо пи са тьд ан ны е

В предыдущих разделах были представлены элементарные

приемы упорядочения и визуализации количественных данных,

полученных с использованием выборочного метода исследова-

ния. Однако до сих пор речь в основном шла лишь о различных

способах группировки исходных выборочных данных, без расче-

та каких-либо (отличающихся от исходных вариант) обобщаю-

щих числовых показателей, способных характеризовать выборку

целиком. Для более полного описания выборочной совокупности

используются специально разработанные статистические харак-

теристики –средние значения и показатели вариации. При изуче-

нии биологических и экологических объектов расчет выборочных

характеристик составляет основу первичной математической

обработки данных.

Средние величины

Необходимость определения средней величины какого-либо

количественного признака обычно возникает тогда, когда иссле-

дователю предстоит сравнить между собой выборки по степени

выраженности данного признака. Рассмотрим, к примеру, данные о

росте девочек и мальчиков дошкольного возраста.

Рост 6-летних девочек, см Рост 6-летних мальчиков, см

128.5 111

135 112

126 125

124 116

128.5 120

124.6 127

124 119

124 127

130 135

125 116

Возникает вопрос: отличаются ли в выборках девочки 6-лет-

него возраста от мальчиков этого же возраста по росту? Уже инту-

итивно ясно, что пытаться ответить на данный вопрос, сравнивая

между собой отдельных детей по росту, было бы нецеле-

сообразным. Во-первых, в силу изменчивости признака в выборке

есть девочки, которые как выше, так и ниже отдельных мальчиков,

точно так же встречаются и мальчики, которые выше или ниже

некоторых девочек. Во-вторых, как правило, получаемые

исследователями реальные выборки часто бывают значительно

многочисленней той, что рассматривается в данном примере. Уже

одно это будет затруднять сопоставление отдельных значений

признака 2-х выборок между собой. Таким образом, чтобы

сравнить выборки мальчиков и девочек по росту, необходимо

учитывать все значения признака одновременно, т. е. рассмат-

ривать выборку из мальчиков и выборку из девочек в целом. Сде-

лать это можно, вычисляя средние значения изучаемого признака.

Средние величины принято разделять на степенные

и структурные.

I. Степенные средние величины. Существует несколько видов

степенных средних (средняя арифметическая, средняя геометри-

ческая, средняя квадратичная, средняя кубическая), но в практике

биологических и экологических исследований наибольшее зна-

чение имеет средняя арифметическая –величина, вокруг которой

ｫконцентрируютсяｻ отдельные значения признака.

1. Средняя арифметическая –это отношение суммы отдель-

ных значений признака (Хi) в выборке к их числу (объему

выборки, n). Если средняя арифметическая рассчитывается

на основе данных выборки (выборочное среднее значение), то её

обозначают символами с чертой наверху –X, Y и т. д. или М.

Если среднюю арифметическую получают при изучении всей

генеральной совокупности (генеральное среднее значение),

то используют символ μ(читается как ｫмюｻ).

Общая формула для определения средней арифметической

имеет вид:

1 2 3 1...

n i

X Х Х Х Х

n n

    

 



Рассчитав по данной формуле средние значения роста в вы-

борках, для девочек получим величину 127 см, а для мальчиков – 121 см. В итоге можно утверждать, что в полученных выборках

девочки в среднем выше мальчиков.

Значение средней арифметической:

–обладает способностью характеризовать целую группу

однородных единиц наблюдения одним числом;

–является центром вариационного распределения, вокруг ко-

торого группируются отдельные значения выборочной сово-

купности, взаимопогашаются и отметаются случайные колебания

от центральной тенденции;

–позволяет легко и быстро производить сравнительный ана-

лиз выборок разного объема.

Кратко рассмотрим другие степенные средние значения,

получившие в биологии и экологии в целом меньшее рас-

пространение, по-видимому, из-за большей сложности вычисле-

ний и отсутствия необходимости в большинстве исследований

расчета более точных средних показателей, нежели средняя

арифметическая.

2. Средняя квадратическая –применяется для более точной

характеристики мер площади, т. е. когда изучаются признаки,

выраженные в единицах площади (смｲ, мｲ), или для того, чтобы

вычислить среднее арифметическое значение площади на основа-

нии замеров линейного показателя (диаметр), характеризующего

эту площадь. В последнем случае определяют среднюю квадра-

тическую для линейного показателя.

Ее можно использовать при расчете среднего диаметра эри-

троцитов, величины листовой пластинки у растений, размеров

колоний микробов, площади поверхности покровов тела и т. д.

Средняя квадратичная равняется корню квадратному из

суммы квадратов отдельных значений признака, отнесенной к их

общему числу (объему выборки), и рассчитывается по формуле:

 



3. Средняя кубическая используется в качестве характерис-

тики объемных признаков или для того, чтобы вычислить среднее

арифметическое значение объема на основании замеров линей-

ного показателя (диаметр), характеризующего этот объем. В по-

следнем случае определяют среднюю кубическую для линейного

показателя. Средняя кубическая равняется корню кубическому из

суммы кубов отдельных значений признака, отнесенной к их

общему числу (объему выборки), и рассчитывается по формуле:

3 1

 



Средняя кубическая может быть полезной при расчетах

среднего размера клеток микроскопических водорослей (мкм3),

определении среднего суммарного объема (биомассы) бактерио-

и фитопланктона и т. д.

4. Средняя геометрическая –используется при исследовании

средней скорости прироста какой-то величины с течением време-

ни, характеризует процесс. Средняя геометрическая обычно при-

меняется при анализе признаков, величина которых во времени

изменяется по закону геометрической прогрессии. Сюда отно-

сятся изменение веса тела в начальном периоде роста организма

или рост численности популяции в естественных условиях.

Скорость прироста часто выражают в относительных

величинах. Относительную скорость роста можно вычислить

по формуле Ч. Майнота:

100%

2 1 





V t t,

где t1 и t2 –значения признака в начале и конце исследуемого

отрезка времени.

Если вычислены величины относительной скорости роста V1,

V2, V3 …Vn для последовательных равных промежутков времени,

то средняя относительная скорость роста (средняя геометри-

ческая) для всего периода исследования вычисляется по следую-

щей формуле:

1 2 3 n...

g n X  V V V V.

II. Структурные (нестепенные) средние величины харак-

теризуют структуру распределения признака.

1. Медиана (Ме) –значение признака, относительно которого

ранжированный ряд делится на 2 равные части: в обе стороны от

медианы располагается одинаковое число вариант.

2. Мода (Мо) –значение признака, наиболее часто встречаю-

щееся в выборочной совокупности. Класс с наибольшей частотой

называется модальным. На гистограмме распределения частот

моде соответствует самый высокий столбец, на вариационной

кривой –самая высокая точка.

Пример: вернемся к данным о количестве птенцов в гнездах

древесной ласточки Tachycineta bicolor (Рокицкий, 1973):

4 6 6 4 5 5 5 5 5 5 5 1 4 5 4 5 4 5 5 7 4 6 6 5 6 4 4 5 6

1 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 7 –ранжированный ряд.

Расположив данные в ранжированный ряд, легко можно най-

ти медиану, т. е. значение признака, разделяющее ряд на 2 равные

части (Ме = 5) и наиболее часто встречающееся значение

признака (Мо = 5).

Значение структурных средних

–Эти величины менее чувствительны по сравнению со сред-

ней арифметической к крайним членам (наиболее низким

и наиболее высоким значениям) выборочной совокупности,

которые бывают для неё как раз менее характерными.

2 3 3 4 4 4 4 5 5 5 5 5 5 5 5 5 60 –значения признака

X (со значением 60) = 7.6, X (без значения 60) = 4.3, Мо = 5, Ме = 5.

Так, наличие в выборке лишь одного значения признака (60),

резко отклоняющегося от всех остальных, приводит к значи-

тельному смещению средней арифметической. Структурные

средние в данном случае являются более устойчивыми харак-

теристиками выборки.

–Если исследователь имеет дело с качественными данными,

часто структурные средние оказываются единственно возможной

количественной характеристикой ｫцентраｻ (средней величины)

признака. Таковой может быть мода. Достаточно подсчитать

частоту встречаемости того или иного качественного признака

в популяции (серая, белая, черная окраска особей), при этом мода

будет указывать, к примеру, на наиболее типичный (ｫсреднийｻ

для популяции) тип окраски.

П ри ме ча ни е. По рекомендациям некоторых авторов (Гланц,

1999; Платонов, 2000), при наличии нормального распределения

значений признака расчет средней арифметической является

лучшей характеристикой выборки. Напротив, когда значения

признака распределены несимметрично относительно среднего

(сильно отклоняются от нормального распределения), среднее

выборочное значение лучше описывать с помощью медианы.

Понятие закона нормального распределения случайной величины

будет дано в главе 3.

Показатели вариации

Средние величины не являются универсальными характеристи-

ками варьирующих признаков. При одинаковых средних значениях

признаки могут различаться по степени и характеру варьирования.

Пример:

Выборка 1: 1 2 3 4 5 1 X = 3

Выборка 2: 3 3 3 3 3 2 X = 3

Таким образом, для полной количественной характеристики

любого признака (показателя) на основе выборочной совокуп-

ности его значений, помимо средней величины, необходимо учи-

тывать степень отклонения от неё вариант, а также знать

существенные черты варьирования признака.

Для этих целей разработаны разные показатели вариации,

которые находят широкое применение в биологии и экологии.

Вариацию признаков можно оценить с помощью следующих

количественных характеристик:

1. Лимиты (пределы вариации) –минимальное и максималь-

ное значение признака в выборочной совокупности. Указывают

границы варьирования признака. Обозначаются как lim.

2. Размах вариации –разность между максимальным и мини-

мальным значением признака. Обозначается буквой R.

Чем сильнее варьирует признак, тем больше показатели

пределов и размаха вариации, и наоборот.

Пример: диаметры (мм) колоний 2 штаммов бактерий

составили:

Х1 2.0 2.2 2.4 2.6 2.8 1 X = 2.4, lim = 2.0-2.8, R = 0.8

Х2 1.6 2.0 2.4 2.8 3.2 2 X = 2.4, lim = 1.6-3.2, R = 1.6

Из примера видно, что вариабельность диаметра колоний

2-го штамма бактерий больше. Однако применение этих 2-х пока-

зателей в биологии и экологии для оценки вариации признаков

имеет ограниченное значение, поскольку они зачастую не отра-

жают сам характер варьирования признаков.

Пример: рассмотрим 2 выборочные совокупности:

Х1 100 110 120 130 140 150 160 170 180 190 1 X = 145, lim = 100-190, R = 90

Х2 100 145 145 145 145 145 145 145 145 190 2 X = 145, lim = 100-190, R = 90

Лимиты и размах вариации имеют одинаковые значения

в обеих выборках, однако если внимательно присмотреться, то

сам характер варьирования значений в каждой из выборок

существенно различается. Если в первой выборке все варианты

отличаются друг от друга, то во второй выборке из 10 вариант

8 имеют одинаковые значения. Таким образом, в первой выборке

рассеяние вариант больше, чем во второй, но это никак не сказы-

вается на лимитах и размахе вариации.

Очевидно, чтобы преодолеть отмеченные недостатки,

необходимо учитывать не только крайние значения признака

(лимиты), но и все варианты в выборке. Наиболее рациональный

путь заключается в определении отклонений каждого отдельного

значения признака от средней величины –  Хi  X , затем все полу-

ченные отклонения можно просуммировать и разделить на объем

выборки. В итоге мы получим некое среднее линейное откло-

нение, которое будет тем больше, чем значительнее каждая

варианта будет отклоняться от среднего значения. Таким обра-

зом, с помощью этого показателя можно было бы сравнивать раз-

ные выборки по степени варьирования признака и одновременно

учитывать внутренние черты вариации (степень отличия каждой

варианты). Обратимся к предыдущему примеру и рассчитаем

среднее линейное отклонение для каждой из выборок:

(Хi  X 1): -45 -35 -25 -15 -5 +5 +15 +25 +35 +45

2 () i Х  X: -45 0 0 0 0 0 0 0 0 +45

Попытавшись просуммировать все полученные отклонения,

мы натолкнемся на весьма существенное затруднение, которое

легко будет увидеть, приступив к вычислению: сумма

отклонений в обеих выборках будет равна 0.

И это не случайная игра чисел – данное затруднение будет

возникать всякий раз для любой другой выборки при сумми-

ровании отклонений вариант от средней арифметической. Один

из математических приемов избавления от отрицательных

значений полученных отклонений – возведение их в квадрат. Так

мы подходим к одному из ключевых понятий биометрии

и показателей вариации.

3. Дисперсия (σ2, S2) – это отношение суммы квадратов

отклонений отдельных значений признака от средней арифме-

тической к объему выборки за вычетом единицы:

2 1

()

X X











Из двух обозначений дисперсии пока будем применять

символ S2, он используется, если дисперсия рассчитывается по

выборочным данным. В числителе данной формулы сумми-

руются не отдельные отклонения, а квадраты отклонений – таким

образом мы избавляемся от нулевой суммы.

  i 1 Х  X: -452 -352 -252 -152 -52 +52 +152 +252 +352 +452

  i 2 Х  X: -452 02 02 02 02 02 02 02 02 +452

  i 1 Х  X 2: 2025 1225 625 225 25 25 225 625 1225 2025 Σ = 8250

  i 2 Х  X 2: 2025 0 0 0 0 0 0 0 0 2025 Σ = 4050

В итоге получаем:

8250 916.7

10 1

S  

 2

4050 450

10 1

S  

.

Как и следовало ожидать, при одинаковых значениях размаха

вариации и лимитов вариабельность значений по показателю

дисперсии в первой выборке оказалась выше, чем во второй

выборке. Единственное, что не было отмечено в формуле

дисперсии, – это находящаяся в знаменателе разность n – 1. Эта

разность называется в статистике числом степеней свободы. Дело

в том, что, когда исследователь рассчитывает дисперсию на

основе выборки, взятой из генеральной совокупности (а это бы-

вает, как правило, в большинстве случаев), получаемое выбороч-

ное значение дисперсии, строго говоря, оказывается заниженным

(или, как говорят, смещенным) относительно реально сущест-

вующей генеральной дисперсии, т. е. того значения дисперсии,

которое могло бы быть получено, если бы исследователь исполь-

зовал все значения признака из генеральной совокупности. Чтобы

скорректировать существующее занижение дисперсии,

получаемую сумму в числителе делят не на n, а на немного

меньшее число – n – 1, что приводит к возрастанию величины

дисперсии, рассчитанной на основе выборочных данных.

В некоторых случаях использование дисперсии оказывается

не очень удобным, поскольку в формуле каждое отклонение

варианты от среднего значения возводится в квадрат, в итоге дис-

персия измеряется в единицах, равных квадрату единицы изме-

рения. Так, например, если высчитывается дисперсия измеряе-

мого в килограммах веса, то сама дисперсия будет выражаться

в квадратных килограммах, что само по себе бессмысленно.

Поэтому часто используется другой, очень близкий к дисперсии

показатель вариации.

4. Среднее квадратическое (стандартное) отклонение (σ,

S) – корень квадратный из дисперсии. Если стандартное отклоне-

ние рассчитывается по выборочным данным, то используется

обозначение S, если на основе генеральной совокупности, то сим-

вол σ (читается как «сигма»). Действительно, для избавления от

квадратов отклонений прибегают к действию, противоположному

возведению в степень, т. е. извлекают квадратный корень. В ито-

ге стандартное отклонение является в ряде случаев более удоб-

ной характеристикой вариации признаков, поскольку измеряется

в тех же единицах, что и исходные данные.

S 1  916.7  30.3 2 S  450  21.2

Таким образом, дисперсия и стандартное отклонение являют-

ся мерой варьирования числовых значений признака вокруг их

средней арифметической и одновременно отражают внутреннюю

изменчивость значений признака, зависящую от разностей между

отдельными значениями признака.

Однако эти показатели затруднительно использовать при реше-

нии ряда задач сравнения признаков по степени варьирования.

Поэтому в биологии и экологии широкое распространение получи-

ла также относительная количественная характеристика вариации.

5. Коэффициент вариации (Сv) – отношение стандартного

отклонения к средней арифметической величине, выраженное

в процентах:

100% v

C S

 .

Варьирование считается слабым при Сv ≤ 10%, средним

при Сv – 11–25 %, сильным при Сv > 25 % (Лакин, 1990).

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (5.137 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница