АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

ВВЕДЕНИЕ. Методы и средства исследования - название курса, предназначенного для получения студентами навыков работы с экспериментальными данными на основе современных

Читайте также:
  1. I Введение
  2. I ВВЕДЕНИЕ.
  3. I. ВВЕДЕНИЕ
  4. I. Введение
  5. I. Введение
  6. I. Введение
  7. I. ВВЕДЕНИЕ
  8. I. ВВЕДЕНИЕ В ИНФОРМАТИКУ
  9. I. ВВЕДЕНИЕ В ПРОБЛЕМУ
  10. I. Введение.
  11. V2: ДЕ 29 - Введение в анализ. Предел функции на бесконечности
  12. Балла). Введение импортных пошлин повысило цены ввозимых потребительских товаров. Как это отразится на индексе цен?

Методы и средства исследования - название курса, предназначенного для получения студентами навыков работы с экспериментальными данными на основе современных методов статистической обработки информации. Правильный подход при обработке экспериментальных данных необходим для последующего осмысления и использования полученных выводов в дальнейшей работе. В основе этого курса лежат такие разделы математики, как математическая статистика, теория вероятностей, планирование эксперимента.

Математическая статистика – это раздел математики, посвящённый математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов. При этом статистическими данными мы называем сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

Предмет и метод математической статистики. Статистическое описание совокупности объектов занимает промежуточное положение между индивидуальным описанием каждого из объектов совокупности, с одной стороны, и описанием совокупности по её общим свойствам, совсем не требующим её расчленения на отдельные объекты - с другой.

Метод исследования, опирающийся на рассмотрение статистических данных о тех или иных совокупностях объектов, называется статистическим. Статистический подход используется в самых различных областях знания.

Общие черты статистического метода в различных областях знания сводятся к подсчёту числа объектов, входящих в те или иные группы, дальнейшему рассмотрению распределения количественных признаков, применению выборочного метода (когда детальное исследование всех объектов совокупности затруднительно), использованию теории вероятностей при оценке достаточного числа наблюдений для тех или иных выводов и т.п. Эта формальная математическая сторона статистических методов исследования, безразличная к специфической природе изучаемых объектов, и составляет предмет математической статистики.

Математическая статистика тесно связана с теорией вероятностей. Эта связь в разных ситуациях носит различный характер. Теория вероятностей изучает не любые явления, а вероятностно случайные, то есть такие, для которых существуют распределения вероятностей. Тем не менее, теория вероятностей играет определённую роль и при изучении массовых явлений различного характера, которые могут и не относиться к категории вероятностно случайных. Это осуществляется через основанные на теории вероятностей выборочном методе и теории ошибок, для которых вероятностным закономерностям подчиняются не сами изучаемые явления, а приёмы их исследования.

Более важную роль играет теория вероятностей при статистических исследованиях вероятностных явлений. Здесь в полной мере находят применения, основанные на теории вероятностей, такие разделы математической статистики, как проверка статистических гипотез, статистическая оценка распределений вероятностей и входящих в них параметров и т.д. Область использования этих более глубоких статистических методов значительно уже, так как здесь требуется, чтобы изучаемые явления были подчинены в достаточной мере определённым вероятностным закономерностям. Вероятностные закономерности получают статистическое выражение в силу закона больших чисел.

С позиций системного анализа бурящаяся скважина представляет собой сложную инженерно-строительную систему. Характерными особенностями этой системы являются:

1. Динамичность. На эффективность (быстрее, лучше, дешевле) процесса бурения и отдельных его составляющих влияет большое число качественных и количественных факторов, которые изменяются во времени и в пространстве, причем как систематически, так и случайно (бесконтрольно).

Например, на скорость бурения Vм оказывают влияние:

· осевая нагрузка,

· частота вращения долота,

· степень его износа (изменяется во времени),

· типоразмер долота,

· расход бурового раствора,

· скорость истечения бурового раствора и насадок долота,

· тип бурового раствора (качественный фактор),

· показатели свойств бурового раствора,

· дифференциальное давление на забой,

· физико-механические свойства разбуриваемых пород, изменяющихся в пространстве и во времени, и еще целый ряд других факторов.

2. Недостаточность информации. Дефицит информации о происходящих в скважине процессах обусловлен:

· большим разнообразием геолого-технических условий бурения;

· случайным характером их изменения;

· невозможностью непосредственных наблюдений за разрушением горных пород на забое;

· удалением шлама с забоя и транспортированием его на поверхность;

· превращением тампонажного раствора в тампонажный камень и многими другими протекающими в скважине процессами и явлениями.

3. Отсутствие функциональных связей между влияющими на процессы бурения факторами и характеризующими эти процессы параметрами. (Это неизбежно вытекает из предыдущих особенностей системы).

Примером функциональной связи является, например, закон Ома для участка цепи «Сила тока прямо пропорциональна напряжению и обратно пропорциональна сопротивлению участка цепи». Отсюда, при любом изменении напряжения V или сопротивления R закономерно меняется сила тока I. При V = const каждому конкретному значению R будет соответствовать строго определенное значение I.

К сожалению, в бурении дважды получить один и тот же результат, даже при проведении специально запланированных опытов, практически невозможно.

Например, рассмотрим процесс отбора керна. Пусть исходные данные будут одинаковыми (керноотборные снаряды, параметры режима бурения, тип и показатели свойств бурового раствора, длина рейса, горные породы и глубина их залегания), тем не менее, выход керна получаем разный, потому что на выход керна оказывают влияние не только перечисленные нами основные качественные и количественные факторы (например, трещиноватость и рассланцеватость горной породы), но и такие, о влиянии которых на процесс кернообразования мы пока и не подозреваем, а следовательно, не можем это влияние учесть и оценить.

Поэтому механическая скорость бурения, проходка на долото, выход керна, свойства бурового раствора, свойства тампонажных растворов и камня, интенсивность искривления ствола скважин, межремонтный период работы забойных двигателей, проходка на буровую бригаду, время безотказной работы буровых машин (механизмов) и многие другие показатели или параметры, характеризующие процессы бурения, являются случайными величинами (СВ).

Случайной величиной называется величина, которая принимает то или иное значение, заранее неизвестное, из множества значений, которые известны Вкерн = 0 - 100%.

Связь между случайными величинами является стохастической, т.е. случайной или вероятностной. Это значит, что точно предсказать значение того или иного параметра заранее невозможно. Это можно сделать лишь с определенной вероятностью (±) 90%.

В связи с этим решение разнообразных научно-исследовательских и инженерных задач базируется на использовании методов теории вероятностей и математической статистики.

Очевидно, что для решения любой задачи необходимы исходные данные, т.е. нужна определенная информация.

Основным источником получения информации является эксперимент. В ходе эксперимента мы выбираем объект исследования, то есть носитель некоторых неизвестных характеристик, которые подлежат изучению или определению.

В теории эксперимента реальный объект принято представлять в абстрактном виде: в виде «черного ящика» с одним или несколькими входами или выходами.

Величины x1, x2,..., xi, принято называть входными факторами (или просто факторами), а Y1, Y2,..., Yi – выходными параметрами (или просто параметрами), С – фактор случайности, объединяющий все случайные факторы.

 

Рис.1. Многомерно- многомерная схема исследований

Схема объекта исследований, когда на объект воздействует множество факторов и его поведение оценивается по множеству параметров, называется многомерно - многомерной. В зависимости от того, участвует ли экспериментатор в изменении входных факторов (X1, X2,... Xi) или нет, эксперимент подразделяется на пассивный и активный.

Если в процессе эксперимента входные факторы только регистрируются, то есть намеренно не изменяются или не могут быть изменены экспериментатором, то такой эксперимент называется пассивным (X1, X2,... Xi – контролируемые, но неуправляемые факторы).

По оценке английского ученого Джона Бернала коэффициент полезного действия пассивных экспериментов не превышает 2% (хорошо известный нам метод «проб и ошибок»).

Если же в процессе эксперимента значения входных факторов экспериментатор изменяет по определенному, заранее составленному плану, то такой эксперимент называется активным, и в этом случаеX1, X2, Xi – контролируемые и управляемые факторы.

Планирование экспериментов – это процедура выбора условий проведения и числа опытов, необходимых и достаточных для решения поставленной задачи с требуемой точностью.

Использование методов планирования экспериментов вместо традиционного подхода (пассивный эксперимент) позволяет повысить эффективность научных исследований от 2 до 10 раз.

Применительно к бурению скважин, знание и использование оптимальных методов планирования экспериментов и обработки экспериментальных данных позволяет:

· осуществлять поиск оптимальных рецептур многокомпонентных систем и параметров режима бурения;

· прогнозировать параметры;

· находить и принимать эффективные технические и технологические решения (управляющие воздействия);

· создавать предпосылки к переходу на автоматизированное управление процессом бурения;

· обеспечивать надежность и достоверность результатов исследований;

· повышать эффективность труда ИТР;

· сокращать сроки и затраты на исследования.

 

 

1. ОБРАБОТКА РЕЗУЛЬТАТОВ ПАССИВНЫХ ЭКСПЕРИМЕНТОВ

1.1. Первичный статистический анализ

1.1.1. Понятие о генеральной совокупности и выборке

Генеральной совокупностью называется полный набор всех значений, которые принимает или может принять случайная величина.

Например, генеральная совокупность «проходка на долото» охватывает все значения проходки на долото, которые были и могут быть получены при бурении долотами. Другую, меньшую по объему генеральную совокупность, будут составлять значения проходки на долото, отнесенные к какому-либо диаметру долот, например Ø 215,9 мм.

Теоретически количество значений случайной величины в генеральной совокупности бесконечно. Практически же это количество ограничено, хотя, как правило, и очень велико. Часть генеральной совокупности из n значений случайной величины, выделенных из этой совокупности с целью приближенной оценки ее характеристик, называется выборкой.

Число значений случайной величины, входящих в выборку, называется ее объемом.

Выборки объемом до 30 значений случайной величины условно принято считать малыми, а свыше 30 – большими.

Чтобы ошибка, возникающая при отождествлении характеристик выборки и генеральной совокупности, оказалась минимальной, при выделении выборки необходимо соблюдать следующие правила:

1. В выборку можно включать только те данные, которые относятся к исследуемой генеральной совокупности.

2. Все значения случайной величины, принадлежащие к исследуемой генеральной совокупности, должны иметь одинаковую возможность быть включенными с выборку, т.е. нельзя отдавать предпочтение одним значениям случайной величины, исключая другие. Это требование называется требованием случайности или равновозможности.

Для гарантированного выполнения этого требования необходимо или включать в выборку данные всех измерений или формирований в выборку случайным образом (наугад, путем розыгрыша, с использованием таблиц случайных чисел).

3. Выборка должна быть репрезентативной (представительной), т.е. она должна включать в себя достаточное число значений случайной величины для представления об особенностях генеральной совокупности.

При определении объема выборки следует помнить, что ошибка выводов уменьшается в раз по отношению к объёму:

Однако проведение большого числа замеров сопряжено с экономическими и техническими трудностями (требует больших затрат средств и времени). Поэтому чуть позже, в конце раздела 1.1., мы с вами рассмотрим статистический приём, позволяющий определить минимально необходимый и достаточный объем выборки.

1.1.2. Статистический анализ больших выборок

Первичный статистический анализ больших выборок проводится в следующем порядке:

1. Производят упорядочивание выборки путем составления вариационного ряда, в котором значения случайной величины располагают в порядке их возрастания

.

Отдельные конкретные значения случайной величины в вариационном ряду принято называть вариантами, а изменение значений случайной величины – варьированием.

2. Определяют размах (R) вариационного ряда

. (1)

3. Выбирают число интервалов (k) разбиения вариационного ряда.

Число интервалов зависит от размаха (R) и объема (n) выборки. Оно может выбираться как произвольно (обычно не менее 5 и не более 15), так и формально с помощью формулы Стерджеса или другой формулы:

; (2)

. (2*)

Результаты расчетов по формулам (2) или (2*) округляют до ближайшего целого числа, причём всегда в большую сторону.

4. По известным значениям R и k находят длину интервала разбиения (шаг) h:

(3)

Результат расчета округляют до ближайшего целого числа по обычным правилам округления. За начало или нижнюю границу первого интервала (h0) рекомендуют принимать величину

(4)

Естественно, что конец (верхняя граница) первого интервала будет совпадать с началом (нижней границей) второго и т.д.

5. Составляют интервальный (группированный) вариационный ряд в виде табл. 1.

При этом вводят понятие частости.

Частостью называется относительная частота попадания случайной величины в i‑й интервал (число значений случайной величины в определенном интервале, отнесенное к общему объему выборки).

Таблица 1

Интервальный вариационный ряд

Номер интервала Границы интервала Частота mi Частность
  h0 ¸ h0 + h m1 ω1
  (h0 + h) ¸ (h0 + 2h) m2 w2
  (h0 + 2h) ¸ (h0 + 3h) m3 w2
к mk wk
 

6. В масштабе строят гистограмму – ступенчатую фигуру, состоящую из прямоугольников с основанием в виде отрезков, соответствующих длинам интервалов, и высотами, соответствующими частостям.

7. Определяют закон распределения случайной величины. Законом распределения называют математическое соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями.

8. В масштабе строят гистограмму – ступенчатую фигуру, состоящую из прямоугольников с основанием в виде отрезков, соответствующих длинам интервалов, и высотами, соответствующими частостям.

9. Определяют закон распределения случайной величины.

Законом распределения называют математическое соотношение, устанавливающее связь между возможными значениями случайной величины и соответствующими им вероятностями.

Закон распределения можно представлять в виде таблицы, аналитически и графически. Наиболее просто и наглядно, хотя в определенной степени субъективно и приближенно, представлять закон распределения графически на основе гистограммы. Действительно, если необходимое число интервалов разбиения выборки определять по формуле (2), то очевидно, что для теоретической генеральной совокупности, т.е. при n → ∞, число интервалов k также будет стремиться к бесконечности (k → ∞), хотя и с меньшей скоростью. С ростом числа интервалов, будет уменьшаться их длина и, таким образом, ломаная линия гистограммы превратится в плавную кривую (рис.3). При этом относящееся к выборке понятие частость (ωi) для генеральной совокупности заменяется на понятие вероятность (рi): при n → ∞ ωi = рi. Например, вероятность того, что случайная величина примет значение xi равна рi.

Известно, что многие показатели, характеризующие процессы бурения, подчиняются нормальному закону распределения (закону Гаусса), который является основным законом в теории вероятности.

Нормальный закон распределения случайной величины имеет следующие особенности:

1. Количество вариантов (значений СВ), превышающих среднее значение, равно количеству вариантов, которые меньше его (примерная симметричность гистограммы).

2. Частота вариантов тем больше, чем ближе к среднему значению они расположены - гистограмма имеет наибольшие ординаты в центре и наименьшие – у краев (рис. 4).

 

Особая роль нормального закона распределения (НЗ) среди прочих законов обусловлена следующими причинами:

· Нормальный закон хорошо изучен, а посему методика обработки данных, подчиняющихся этому закону, достаточно разработана и относительно проста (именно поэтому на начальном этапе обработки данных эксперимента важно убедиться в том, что их распределение подчиняется нормальному закону).

· При увеличении объема данных (объема выборки) целый ряд других законов распределения (Стьюдента, c2 и др.) стремятся превратиться в нормальный закон.

Из сказанного следует простой вывод: если выборка (отобранные данные) вызывают сомнение в нормальности закона их распределения, то для решения вопроса о пригодности или непригодности этого закона нужно увеличить объем выборки (число измерений, включённых в рассмотрение).

 

По своему виду кривые нормального распределения могут быть:

Ø нормальновершинными;

Ø туповершинными;

Ø островершинными (рис. 5);

Ø иметь положительную асимметрию (рис.6а);

Ø иметь отрицательную асиметрию (рис.6б).

В практике бурения приходится иметь дело не только с симметричными, но и с явно асимметричными кривыми распределения. Наиболее известные из них – логарифмически - нормальный и экспоненциальный законы.

Логарифмически - нормальный (ЛНЗ), имеет умеренно асимметричную кривую распределения, показательный (экспоненциальный), имеет резко асимметричную кривую распределения.

Логарифмически - нормальное распределение чаще всего имеет место, когда значения случайной величины ограничены некоторыми пределами. Например, величина выхода керна ограничена сверху значением 100%, а снизу - 0%. В породах, где значения выхода керна в среднем далеки от этих пределов (например, если средний выход керна составляет 50%), распределение может быть близким к нормальному виду.

В то же время в крепких и монолитных породах, где выход керна близок к верхнему пределу (100%), распределение будет явно асимметричным и сдвинутым в сторону больших значений случайной величины (рис. 7, а). В рыхлых нецементированных породах, где выход керна близок к нулю, будет наблюдаться правосторонняя асимметрия распределения (рис.7, б).

Если случайная величина x подчинена логарифмически - нормальному закону, то из этого следует, что величина Z = ln x распределена нормально (т.е. исходные данные необходимо прологарифмировать).

 

Показательное (экспоненциальное) распределение имеет место лишь при определении характеристик надежности и долговечности бурового оборудования, инструмента, приборов, средств механизации производственных процессов и т.п.

10. Находят точечные оценки параметров нормального распределения случайной величины. Правила определения оценок параметров НР (нормального распределения) по совокупности независимых измерений случайной величины регламентируются ГОСТ 11.004 - 74.

Наиболее достоверной оценкой измаеряемой случайной величины является ее среднее арифметическое или среднее взвешанное значение.

Среднее арифметическое значение определяется тогда, когда все варианты (значения случайной величины) имеют одну и ту же частоту, равную единице (нет одинаковых значений случайной величины), что характерно для малых выборок.

Если варианты имеют различные частоты, что характерно для больших выборок, то рассчитывают среднее взвешанное значение случайной величины по формуле:

 

(5)

где

· - значение варианта (случайной величины) в середине i-го интервала вариационного ряда;

· mi – частота (число вариантов случайной величины), соответствующая i-му интервалу;

· k – число интервалов разбиения.

Наряду со средним взвешенным значением случайной величины в качестве характеристик вариационного ряда, дающих информацию о законе распределения, используют медиану и моду.

Медиана (m0,5) – это значение случайной величины, которое делит вариационный ряд или площадь, ограниченную кривой распределения, на две равные части. При нечетном объеме выборки медиана равна

, (6)

а при четном объеме

, (7)

где

· xm – значение средней по порядку вариационного ряда случайной величины. (Например, если в вариационном ряду 51 значение случайной величины, то m0,5 будет равна значению 26.)

Модой m0 называют варианту, которая имеет наибольшую частоту, т.е. соответствует вершине распределения (это наиболее вероятное значение случайной величины).

Оценивают моду по формуле:

(8)

где

· - нижняя граница модального интервала, т.е. интервала, имеющего наибольшую частоту;

· h – длина интервала разбиения (шаг);

· - частота модального интервала;

· - частота интервала, предшествующего модальному интервалу;

· - частота интервала, следующего за модальным интервалом.

Для нормального симметричного распределения

(9)

Весьма важной характеристикой нормального распределения является степень разброса (рассеивания) отдельных частей случайной величины относительно ее среднего значения.

Для оценки степени разброса пользуются несколькими показателями, из которых наиболее широко распространены следующие:

Ø размах (R), представляющий собой разность между наибольшим (xmax) и наименьшим (xmin) значениями вариант (формула 1);

Ø дисперсия (D) – это среднее арифметическое значение квадратов отклонений отдельных вариант от их средней арифметической.

Оценивается дисперсия по следующей формуле:

(10)

где

· - значение случайной величины в середине i-го интервала;

· - среднее взвешенное значение случайной величины;

· mi – частота соответствующая i-му интервалу;

· k – число интервалов;

· n – объем выборки.

Ø среднее квадратичное отклонение (s) – это значение корня квадратного из дисперсии.

(11)

Ø коэффициент вариации () – это отношение среднего квадратичного отклонения к среднему значению случайной величины, выраженное в процентах

. (12)

Чем больше коэффициент вариации , тем больше разброс значений случайной величины вокруг среднего значения, тем менее представительно .

Принято считать, что инструментальные лабораторные исследования обеспечивают n £ 8%. Экспериментальные исследования в производственных условиях обычно дают n £ 8 - 15%. В бурении n, как правило, находится в пределах от 12 до 27%.

В зависимости от величины коэффициента вариации технологические показатели и расчеты разбиты на 5 классов точности (табл.2).

 

 

Таблица 2

Классы точности в зависимости от величины

коэффициента вариации

 

Класс точности          
n,% < 8 8 - 15 15 - 25 25 - 35 > 35

 

11. Находят интервальную оценку параметров распределения случайной величины.

При анализе эмпирических данных, т.е. полученных экспериментальным путем, точечная оценка среднего взвешенного значения информации о степени близости его к математическому ожиданию а (генеральной средней) не дает.

В связи с этим более информированной оценкой среднего взвешенного значения является не точечная, а интервальная оценка, заключающаяся в установлении некоторого интервала, внутри которого с определенной вероятностью и находится истинное значение т. е. генеральная средняя исследуемой случайной величины.

Если среднее взвешенное значение , найденное по результатам анализа выборки объемом n, является точечной оценкой математического ожидания а, то чем меньше разность , тем точнее оценка.

Точность этой оценки можно выразить следующим неравенством:

, (13)

где величина Δ, являющаяся пределом, который с определенной вероятностью не превосходит разность , называется предельной ошибкой выборки.

Вероятность того, что действительное значение измеряемой величины лежит в пределах , представляет собой доверительную вероятность

, (14)

где

· - доверительная вероятность (статистическая надежность);

· α – уровень значимости.

В технике, в большинстве случаев надежность P принимается равной 0,9 - 0,95 (90 - 95%).

При исследовании процессов, связанных с бурением скважин, минимально допустимая надежность по ГОСТ 21153.2-84 равна 0,8 (80%).

Надежности равной 0,8; 0,9; 0,95 соответствуют уровни значимости α, равные соответственно 0,2 (20%); 0,1 (10%); 0,05 (5%).

Для нормального распределения случайной величины это означает, что вероятность выхода за границу составляет соответственно в 20, 10 и 5% случаев.

Интервал , который с заданной доверительной вероятностью или надежностью покрывает оцениваемый параметр, называется доверительным интервалом.

Таким образом, зная предельную ошибку выборки Δ, можно определить доверительный интервал, в котором заключена генеральная средняя:

.

 

Очевидно, чем меньше длина доверительного интервала, тем точнее оценка.

Предельную ошибку выборки определяют по формуле:

, (15)

где

· - коэффициент Стьюдента (псевдоним английского статистика Госсеша), зависящий от принятого уровня значимости α и числа степеней свободы m: .

 

С помощью математической аппроксимации табличных данных удалось получить формулы для расчета значений коэффициента Стьюдента:

 

(17)

Например, если m = 8, то t0,05 ; 8 = 2,30.

(18)

Например, если m = 40, то t0,1 ; 40 = 1,69.

Формулы (17) и (18) справедливы для значений m от 2 до ∞.

Есть и более точные формулы для расчёта этого коэффициента:

 

В литературе по математической статистике значения коэффициента Стьюдента обычно приводят в табличной форме (табл.1. Приложения).

1.1.3. Статистический анализ малых выборок (n < 30)

Первичный статистический анализ малых выборок проводится в следующем порядке:

1. Проверяют принадлежность имеющихся данных нормальному закону распределения с помощью критерия Шапиро - Уилка.

Для этого необходимо:

Ø упорядочить выборку, т.е. составить вариационный ряд:

;

Ø вычислить сумму квадратов отклонений - S2 (x):

; (19)

Ø определить вспомогательную величину - в:

(20)

где

· L = n/2 – для четного объема выборки;

· L = (n-1)/2 – для нечетного объема выборки;

· - табулированный коэффициент, значения которого для разных n и i приведены в табл.2. Приложения.

Ø найти расчетное значение критерия Шапиро - Уилка - W:

; (21)

Ø найти табличное значение критерия Шапиро - Уилка – Wt при заданном (выбранном) уровне значимости α по следующим формулам:

Ø сравнить расчетное значение критерия Шапиро - Уилка с табличным: при W > Wt можно считать, что распределение случайной величины подчиняется нормальному закону.

(22)

(23)

2. Рассчитывают среднее арифметическое значение случайной величины:

(24)

3. Оценивают характеристики степени разброса (отклонения) экспериментальных данных относительно среднего арифметического значения:

Ø дисперсию - D

; (25)

Ø среднее квадратичное отклонение s:

;

Ø коэффициент вариации n:

.

4. Задаются величиной уровня значимости α и по формуле (15) рассчитывают предельную ошибку выборки – Δ

.

5. Находят доверительный интервал для математического ожидания (генеральной средней) по формуле (14):

.

1.1.4. Отбраковка резко выделяющихся результатов (промахов)

Среди значений случайных величин, включенных в выборку, иногда присутствуют значения, которые весьма существенно отличаются от других. Такие значения появляются, как правило, вследствие грубых ошибок субъективного происхождения или так называемых промахов.

Промахи, как правило, обусловлены следующими причинами:

ü неправильным использованием измерительной техники;

ü ошибками в отчетах по измерительным приборам;

ü ошибками в записях экспериментальных данных;

ü ошибками в вычислениях при обработке результатов измерений.

Естественно, что в связи с этим возникает задача выявления и исключения таких сомнительных измерений, иначе они будут искажать результаты статистического анализа и сделанные по нему выводы.

Для этого используют различные правила и критерии. Рассмотрим наиболее употребительные из них.

1.1.4.1. Правило трёх сигм

При объеме выборки n > 50 для отбраковки резко выделяющихся замеров можно использовать так называемое правило «трех сигм»: «Вероятность попадания случайной величины в интервал с размерами от

равна 0,997 (99,7 %)».

Если такая надежность является приемлемой, то все значения случайной величины, отклоняющиеся от среднего взвешенного или среднеарифметического значения больше, чем на 3s (среднеквадратичное отклонение), можно отбросить, как весьма маловероятные.

При объеме выборки n < 50 и для всех малых (n < 30) для исключения резко выделяющихся замеров пользуются методами С.В. Башинского и Ф. Греббса – Н.В.Смирнова.

1.1.4.2. Метод С.В. Башинского

По методу С.В. Башинского для исключения «промахов» необходимо определить предельно возможные максимальные (lim xmax) и минимальные (lim xmin) значения случайной величины в выборке по следующим формулам:

(26)

(27)

где

· Кδ – коэффициент М.В. Башинского, зависящий от объема выборки.

Значения коэффициента М.В. Башинского можно рассчитать по формуле:

(28)

Формула (28) справедлива для объёма выборки n, включающего от 5 до 69 значений случайных величин.

Те из крайних значений, которые не вписываются в рассчитанные пределы, следует исключить, после чего вновь определить оставшейся выборки и повторить процедуру исключения резко выделяющихся замеров и т.д.

1.1.4.3. Метод Греббса - Смирнова

По наиболее широко используемому методу Греббса-Смирнова исключение резко выделяющихся замеров производится с помощью безразмерных статистических критериев ξmax и ξmin.

(29)

. (30)

Минимально допустимые значения статистического критерия ξ0 в зависимости от объема выборки n и принятого уровня значимости α находят по следующим формулам:

(31)

(32)

Формулы (31) и (32) справедливы при объёме выборки n от 4 до 150 значений случайных величин.

Если расчетные значения статистического критерия ξmax min) > ξ0, то xmax > (xmin) отбрасываются, как содержащие грубую ошибку. После этого вновь производится статистический анализ оставшейся выборки и т.д.

1.1.5. Определение минимально необходимого числа замеров

 

Объем выборки определяется исходя из следующих условий:

· объема экспериментальных исследований;

· сроков, в которые будут проведены предполагаемые эксперименты;

· финансовые затраты, сопровождающие проведение экспериментальных исследований;

· требуемой точности и надежности предполагаемых результатов.

Очевидно, что нужно стремиться к тому, чтобы объем выборки был минимально необходимым и в то же время вполне достаточным для получения результатов с желаемой точностью и надежностью. При этом точность и надежность в значительной мере определяются изменчивостью изучаемого свойства или показателя, которая оценивается среднеквадратичным отклонением s или коэффициентом вариации ν (для разнородных величин). Значения s или ν могут быть рассчитаны только по результатам уже проведенных измерений. В то же время необходимое количество измерений нужно знать еще до начала эксперимента.

Это кажущееся противоречие разрешается следующим образом:

· сначала производится оценочная серия измерений,

· по результатам оценочной серии измерений рассчитываются необходимые точечные оценки s, ν и другие,

· делается окончательный расчет необходимого числа замеров по одной из следующих методик.

1.1.5.1. Методика приближенного расчета объема выборки

В соответствии с этой методикой для расчета необходимого объема выборки нужно располагать следующей информацией:

· значением коэффициента вариации – ν;

· значением допустимой погрешности (Кдоп) в процентах от среднего арифметического (например, Кдоп ≤ 10%).

По имеющимся данным рассчитывают величину () и, по приведенной ниже формуле, с надежностью Р = 0,95 (95%) определяют необходимое число замеров, округлив полученный результат в большую сторону

. (33)

Формула (33) справедлива для отношения Кдоп / ν в интервале от 0,4 до 1,4.

1.1.5.2. Методика В.И. Романовского

Данная методика пригодна для случая, когда распределение случайной величины подчиняется нормальному закону.

По этой методике для определения необходимого объема выборки требуется знать следующие характеристики распределения:

· среднеквадратическое отклонение s;

· среднее арифметическое значение случайной величины ;

· допустимую погрешность (Кдоп) в процентах от среднего арифметического;

· заданную статистическую надежность Р (или уровень значимости a).

По известным значениям , s и Кдоп рассчитывают параметр q (критерий Романовского):

. (34)

Затем, по приведенным ниже формулам, задавшись уровнем значимости α, для найденного значения параметра q рассчитывают соответствующее ему минимально необходимое число замеров (опытов)

 

(35)

. (36)

 

Формула (35) справедлива для значений параметра q от 1,18 до 0,2, а (36) – от 1,05 до 0,24.

1.2. Графическая обработка результатов исследований

Человек гораздо легче опознает закономерности в рисунках, чем в таблицах. Поэтому при обработке результатов измерений широко используют методы графического изображения.

Графическое изображение позволяет:

· дать наиболее наглядное представление о результатах эксперимента;

· лучше понять физическую сущность исследуемого объекта (процесса);

· выявить общий характер зависимости между изучаемыми факторами и параметрами;

· установить наличие максимума или минимума функции и т.д.

Поэтому необходимо строить график, даже если заранее не предполагается, что между исследуемыми факторами и параметрами существует какая-то зависимость. Гораздо хуже упустить эту зависимость на том лишь основании, что мы ее не ожидали.

Графики принято делить на черновые (первичные) и чистовые.

Особенности построения первичных графиков:

1. На первичные графики наносят, как правило, все экспериментальные «точки» (пусть даже 256 или 512), поскольку график без «точек» бессмыслица.

2. «Точки никогда не обозначают точками – это кружок, треугольник, квадрат и т. д. (иначе после проведения кривых точки не разглядишь). Аналогично точки обозначают и на чистовых графиках.

3. Координаты графика (ось абсцисс и ось ординат) начинаются с нуля, что позволяет выявить отношение кривых к началу координат.

Назначение первичных графиков:

1. Обнаружение скачков или закономерных колебаний условий измерения, которые из табличных данных не улавливаются.

2. Подготовка к обработке результатов. Прежде чем пускаться в расчеты, в том числе и с помощью ПЭВМ, нужно убедиться в том, стоит ли этот экспериментальный материал обрабатывать или рассеяние, и выбросы лишают его всякого смысла. Однако, если вместо четкого графика получается «облако точек», это не значит, что он бесполезный. По форме облака можно обнаружить косвенные связи и скрытые закономерности.

Особенности построения чистовых графиков:

1. При 3 - 5 и большем числе измерений на «точку» на чистовые графики обычно наносят только средние значения.

2. При необходимости в качестве меры рассеивания среднего значения на график наносят доверительный интервал ± Δ (обычно штрихуется).

3. В том случае, когда данных мало (1 - 2 измерения на «точку») или наблюдаются какие-либо аномалии графика, т.е. скачки, на него наносят все точки.

Резкое искривление графика, как правило, объясняется погрешностями измерений (промахами), грубыми ошибками или наличием аномалий. В любом случае, измерения в интервале резкого отклонения данных необходимо повторить.

Ø Если прежние измерения окажутся ошибочными, то на график наносят новые точки.

Ø Если же повторные измерения дадут прежние значения, то к аномальному интервалу кривой необходимо отнестись особенно внимательно и проанализировать физико‑химическую сущность изучаемого процесса (именно этим обычно объясняется скачкообразное изменение одной из координат), а также повторить измерения столько раз, чтобы аномалия стала статистически значимой (очевидной).

Для графического анализа функции применяют систему прямоугольных координат на плоскости.

1. Построение любого (чернового и чистового) графика начинают с выбора масштаба. От правильного его выбора зависит форма графика: он может быть плоским, вытянутым и нормальным.

Плоские графики дают большую погрешность по оси y, а вытянутые по оси x. Для нормального расположения графика пропорции по обеим осям должны быть такими, чтобы кривая просматривалась под углом ≈ 45˚ (глаз лучше всего различает именно такие наклоны).

Это особенно важно для расчетных графиков, служащих для нахождения значений одних величин по значениям других. Расчетные графики, как правило, делают на миллиметровке размером 15×20 см (не менее), поскольку, чем крупнее масштаб (график), тем выше точность снимаемых значений.

Рис. 9. Равномерная координатная сетка

Высоки требования к точности вычерчивания кривых на расчетных графиках. Обратите внимание, что на таких графиках 100 кг могут соответствовать 20 или 50 клеточкам миллиметровки, а не 30 или 70, поскольку в последнем случае построение и чтение графиков превратится в устный счет с дробями.

После выбора масштаба графика переходят к построению координатной сетки. Координатные оси всегда проводят жирными линиями (или по жирным линиям миллиметровки).

Рис. 10. Полулогарифмическая координатная сетка

· Для построения графиков обычно используют равномерные координатные сетки, у которых ординаты и абсциссы имеют равномерную шкалу (длина откладываемых по каждой из осей единичных отрезков одинаковая).

· Но иногда удобнее использовать неравномерные координатные сетки:

ü полулогарифмическую;

ü логарифмическую.

Полулогарифмическая координатная сетка имеет равномерную ординату и логарифмическую абсциссу.

Рис.11. Логарифмическая координатная сетка

Ее чаще всего используют как временную координатную ось, когда время изучаемого процесса отличается порядком величин (от секунд до часов), т.е. чтобы они были обозримы вместе.

У логарифмической координатной сетки обе оси логарифмические.

Логарифмическую сетку удобно использовать тогда, когда в логарифмических координатах ожидается линейная зависимость . Тогда любое отклонение от линейной модели (кривизна) сразу проявится.

Например, (модель Оствальда - де Вааля - степенной многочлен в логарифмических координатах представляет собой прямую линию).

Другим примером может служить двойной логарифмический бланк для ускоренного определения показателя фильтрации Ф (объем фильтрации прямо пропорционален корню квадратному из времени фильтрации, т.е. имеет место степенная зависимость).

Следующий этап графической обработки результатов опытов – проведение кривой через эти точки. «Точки» отражают экспериментальные факты, а кривая на графике – мнение экспериментатора об этих фактах. И это мнение не должно противоречить фактам, т.е. если все точки ложатся на прямую линию, то и должно проводить прямую, хотя возможно вы ожидали совсем иной характер зависимости.

Точки на графике нужно соединять не ломаной, а плавной линией и так, чтобы она по возможности проходила как можно ближе ко всем экспериментальным точкам (функции обычно имеют плавный характер).

Все кривые на графиках должны быть простейшими из возможных

в пределах доверительного интервала.

При графическом изображении результатов экспериментов нередко приходится иметь дело и с многомерными зависимостями, например

.

Существуют два способа изображения многомерных зависимостей:

1. Способ разделения переменных (изображение семейства кривых на плоскости); когда одной из переменных, например z, задают несколько последовательных значений в пределах интервала ее измерения (z1zn), а для другой переменной x строят графики функций при . В результате на графике получают семейство кривых для различных значений z.

2. Способ горизонталей (изображение кривых в пространстве или «вид сверху»).

При изображении «вида сверху»:

Ø на плоскость (x, z) наносят все точки,

Ø подписав значение y около каждой из них, выделяют разные уровни у,

Ø проводят систему горизонталей у = const между точками, указывая, как у топографов, высоту уровня в разрывах горизонталей.

В соответствии со СТП ТПУ 202 - 93 «Общие требования к содержанию и оформлению курсовых работ и дипломных проектов (работ)» при оформлении графиков необходимо руководствоваться следующими правилами:

· перед построением графика чертится прямоугольник, две стороны которого служат осями координат, (оси показываются жирными линиями);

· по осям координат наносятся масштабные цифры (становятся вне контура) и вычерчивается координатная сетка;

· надписи, обозначающие величины, отложенные по осям, располагают строкой, параллельной оси;

· в надписи указывают название величины и единицу измерений, (надписи выполняются чертежным шрифтом размером 3,5 мм);

· графики должны иметь название, помещаемое сверху над графиком, и поясняющие данные (подрисуночный текст), которые помещают над графиком.

1.3. Корреляционно - регрессионный анализ

Рис. 12. Схемы объектов исследований

Воспроизведем схемы одномерно - одномерного (а), одномерно - многомерного (б), и многомерно - одномерного (в), объектов исследований.

1. В случае одномерно ‑ одномерного объекта исследований (а) при наличии статистически достоверной связи между x и y может быть получено уравнение , описывающее эту связь. Такое уравнение, называемое уравнением однофакторной регрессии или просто регрессии, дает возможность рассчитывать (прогнозировать) значения выходного параметра y по известным значениям входного фактора x, не прибегая к помощи каких - либо расчетных графиков.

2. В случае одномерно ‑ многомерного объекта исследований (б) статистически достоверная связь между какими - либо выходными параметрами yi позволяет сократить их число, и тем самым, сократить затраты времени и средств на исследовательский процесс. Так, например, при наличии статистически достоверной связи между y1 и y2, можно определять (измерять) только один из этих параметров. Как правило, оставляют тот из параметров, который проще и точнее измеряется.

3. В случае многомерно - одномерного объекта исследований (в), являющегося частным случаем многомерно - многомерного объекта, при наличии связи между входными факторами, например, между x1 и x2, возникают некоторые закономерности:

Ø появляется возможность одновременного контроля того и другого фактора по одному из них;

Ø наличие связи между выходным параметром y и всеми входными факторами xi дает возможность получить многофакторное уравнение регрессии или так называемую математическую модель процесса, позволяющую оптимизировать этот процесс и прогнозировать значения выходного параметра при любых сочетаниях значений входных факторов.

Наличие, форма и сила (степень тесноты) связи между СВ, имеющими нормальное распределение, устанавливаются с помощью корреляционного анализа.

Различают:

Ø парную корреляцию (связь между двумя случайными величинами);

Ø множественную корреляцию (связь между тремя и большим числом случайных величин).

1.3.1. Парная корреляция

Предварительную характеристику корреляционной связи между случайными величинами x и y можно найти путем построения так называемого корреляционного поля, т.е. графика зависимости с нанесением на него всех экспериментальных точек.

В качестве примера приведем ряд корреляционных полей различной формы.

О наличии связи между двумя случайными величинами можно судить по тесноте группирования точек на корреляционном поле вокруг условной прямой или кривой линии.

Так, из рис.13а,в,г видно, что между х и у определенная связь существует, а вот по данным, приведенным на рис. 13б, связь между х и у отсутствует.

По форме корреляционного поля можно судить и о предполагаемой форме связи между двумя случайными величинами, которая может быть:

· линейной (рис.13а,в);

· нелинейной (рис.13г);

· прямой (рис.13а);

· обратной (рис,13в).

 

Рис.13. Корреляционные поля различной конфигурации

Кроме этого степень разбросанности точек на корреляционном поле в определенной мере свидетельствует и о силе связи между х и у. Так, очевидно, что для данных, приведенных на рисунке а, связь между х и у слабая, тогда как для данных, показанных на рисунках в и г – связь между х и у – достаточно сильная. Но такая визуальная и качественная оценка, хотя и дает определенную информацию, не может заменить количественной оценки существования связи между х и у, а также оценки формы и силы этой связи. Сила связи между двумя случайными величинами оценивается величиной коэффициента парной корреляции или просто коэффициента корреляции, определяемого по следующей формуле:

 

, (37)

 

где

· n – число пар наблюдений (измерений);

· - средние арифметические значения х и у;

· sх, sу – среднеквадратические отклонения х и у, рассчитываемые по формулам (25) и (11).

Значения коэффициента корреляции ryx изменяются в пределах от -1 до +1, т.е. -1£ ryx £ +1.

Если с ростом значения х значение у растёт, то rух будет иметь знак плюс (положительная или прямая связь), а если уменьшается, то – знак минус (отрицательная или обратная связь). Чем ближе абсолютное значение rух к 1, тем сильнее значения одной случайной величины зависят от того, какие значения принимает другая случайная величина, то есть, тем сильнее связь между ними.

Тесноту связи между х и у обычно считают:

Ø удовлетворительной при rух ≥ |0,5|;

Ø хорошей - при rух = |0,8 ÷ 0,85|.

Следует помнить о том, что rух является случайной величиной, т.е. может принимать различные значения при повторных измерениях. Кроме этого, величина rух зависит от числа пар наблюдений. С их уменьшением и достоверность выводов, формулируемых после определения rух, снижается.

При rух = ±1 – две случайных величины связаны линейной, функциональной связью, т.е. каждому конкретному значению х соответствует только одно, строго определенное, значение у.

При rух = 0 случайные величины называют некоррелированными (независимыми). Однако обратное утверждение, что случайные величины независимы, если rух = 0, несправедливо, так как rух как мера тесноты связи имеет четкий математический смысл только при линейной зависимости между случайными величинами и при нормальном их распределении. Поэтому значение rух может быть равным нулю, когда случайные величины связаны нелинейной связью, а следовательно, зависимы друг от друга.

Достоверность коэффициента корреляции оценивают критерием надежности:

(39)

где

. (40)

При Qr > 2,6 с доверительной вероятностью равной 0,95 можно утверждать о значимости найденного коэффициента корреляции rух, т.е. о существовании между х и у линейной связи.

По известным значениям величин rух, sх и, sу несложно определить линейное уравнение регрессии, описывающее связь между х и у, т.е.

, (41)

где

(42)

. (43)

После нахождения линейной математической модели, следует оценить возможность улучшения описания связи между х и у, путём перехода к нелинейной модели. Вначале эту нелинейную модель изучают. После этого необходимо вычислить корреляционное отношение по следующей формуле:

, (44)

где

· - значение выходного параметра в i - м опыте, рассчитанное по найденной нелинейной модели,

· yi - фактическое значение параметра в i - ом опыте.

Корреляционное отношение hу характеризует силу (степень тесноты) связи между двумя случайными величинами при отсутствии между ними линейной зависимости, т.е. связанными не линейно. Значения hу могут находиться в пределах от 0 до 1. Для некоррелированных (независимых) случайных величин hу = 0, а в случае функциональной зависимости между ними hу = 1. Если связь между двумя случайными величинами линейна, то корреляционное отношение равно абсолютному значению коэффициента корреляции, т.е.

.

Следует отметить, что значимое различие значений hу и rух проявляется только при достаточно большом числе пар измерений.

Достоверность корреляционного отношения оценивается по критерию его надежности.

. (45)

При Θr > 2,6 с доверительной вероятностью равной 0,95 можно утверждать, что найденное корреляционное отношение значимо.

По известным значениям hу и rух оценивают степень нелинейности:

. (46)

Если n02 < (12/n), то переход к нелинейной модели не улучшит связи между х и у, а в противном случае – может привести к лучшим результатам.

1.3.1.1. Применение корреляционного анализа для уменьшения

числа параметров (факторов)

Очевидно, что если две случайные величины являются коррелированными, т.е. зависимыми друг от друга, о чем свидетельствует значимость коэффициента корреляции rух, то любая из них (х или у) может быть исключена из рассмотрения.


1 | 2 | 3 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.107 сек.)