АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Стандартизация данных

Читайте также:
  1. Вклад главной компоненты в разброс данных.
  2. Вопрос. Объектные типы данных.
  3. Глава 1. Графическое представление данных. Определение основных статистических характеристик исходных данных
  4. Интеллектуальные агенты. Системы интеллектуального анализа данных. Управление знаниями
  5. Информационное обеспечение. Базы данных, информационные хранилища, витрины данных.
  6. Информационное обеспечение. Файлы данных. Принципы передачи и кодирования информации.
  7. Классификация видов эконометрических переменных и типов данных. Проблемы, связанные с данными
  8. Кодирование данных.
  9. Контрольные работы для студентов заочной формы обучения по дисциплине «Метрология, стандартизация и сертификация»
  10. Методы измерения сил резания и математической обработке экспериментальных данных. Эмпирические зависимости для определения сил резания.
  11. Национальная стандартизация в развитых странах
  12. Обработка данных.

Виды шкал признаков

3 типа основных шкал:

1. Количественный à среднее значение имеет смысл

(Здесь можно сказать, во сколько раз одно измерение больше другого. К примеру, человек ростом 180 см в 2 раза выше 90 см-ого. Все арифметические операции здесь не только допустимы, но просто необходимы. Эта шкала самая богатая из всех выше перечисленных на возможности передачи информации.)

2. Категоризованный (качественный, номинальный) à можем сравнивать: та или не та категория

(используется для обозначении групп объектов, например, 1- «женщины», 2 – «мужчины». Структура шкалы не изменится, если мы произведем взаимнооднозначную подстановку значений (вместо 1 можно взять 0, а вместо2 - 9). Очевидно, что арифметические операции неприменимы к подобной шкале, поскольку числа в ней всего лишь метки классов (отсюда следует, что для такой шкалы нельзя вычислять количественные характеристики типа средней; что, скажем, обозначает средняя признака пол, равная 4.27?!).

3. Бинарный (булевские РФ) à отражают одну категорию (1/0; да/нет)

 

Стандартизация данных.

Дано:

, i – объекты, v – признаки.

На лекции рассматривалось три подхода:

1. Статистический (z-scoring).

– выборочное среднее.

- стандартное отклонение.

2. SVM learning.

– полусумма крайних значений.

– полуразмах.

3. Миркин.

- выборочное среднее.

размах.

Размах- длина интервала, на котором распределена величина x, или

Полуразмах – размах, деленный на два.

Стандартизация данных.

Опишем процесс стандартизации в общем виде. Пусть? - это линейное преобразование следующего вида:

Здесь - значение v-го признака для i-го объекта,

Такое линейное преобразование переводит каждую координату объекта в некий стандартный вид. В зависимости от выбора величин выделяют различные способы стандартизации. Рассмотрим несколько вариантов:

(1) - оценка математического ожидания величины .

.

(2) – среднее значение размаха выборки .

- размах выборки

(3) - оценка математического ожидания величины

- размах выборки .

Вариант (2) чаще всего исп для реш-я задач в области нейронных сетей.

1й вариант - наиб популяр метод стандартизации в статистике, благодаря многочислен хорошим св-вам станд норм величин. Однако для решения задач кластерного анализа наиб подходящим явл-ся 3й способ. Причина именно такого выбора состоит в том, что деление на среднеквадратич отклонение может привести к рез-там, противоречащим интуиции. Проиллюстрируем эти слова. Пусть признак I (рис.1(а)) имеет унимодальное распр-е, тогда как распределение признака j (рис.1(б)) – бимодальное.

рис1,а рис1,б

На гф a изображен пример унимодального распределения, на б – бимодальное. Очевидно, что станд отклонение во втором случае больше, чем в первом. В такой ситуации стандартизация данных первым способом (статистическим) приведет к тому, что мы увеличим значимость того признака, который «против» разбиения на кластеры, уменьшив вес других.

Видно, что . Отсюда следует, что если размахи исходной выборки значений признаков I и j были примерно одинаковыми, то преобразование переведет вектор значений признака I в сравнительно больший (покомпонентно), чем вектор значений признака j. Однако, интуитивно понятно, что для задачи кластеризации искусственное увеличение вклада переменных с унимодальной плотностью распределения нежелательно. Таким образом, общепринятый подход может привести к некачественным результатам.

 

6.Аппроксимация данных центральным значением в метрике Минковского.

Центр число a: где ei - невязка. а определено т.о., чтобы е было как можно меньше.

f(|e1|,…,|en|) - функция от остатков монотонная.

Метрика Минковского: xi=a+ei, , где верхнее р – это показатели степени, а нижнее индекс.

1. р=1 – сумма модулей отклонения(L1) , а- медиана, сер. отсортированного ряда

2. р=2 – евклидова метрика , f(a) – парабола,ветви которой направлены вверх=> минимум в вершине, т.е. необх. у-е минимума является и достаточным. Поэтому

3. - Чебышев, - метрика максимума, – середина интервала


1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)