Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Стандартизация данных

Читайте также:

Виды шкал признаков

3 типа основных шкал:

1. Количественный à среднее значение имеет смысл

(Здесь можно сказать, во сколько раз одно измерение больше другого. К примеру, человек ростом 180 см в 2 раза выше 90 см-ого. Все арифметические операции здесь не только допустимы, но просто необходимы. Эта шкала самая богатая из всех выше перечисленных на возможности передачи информации.)

2. Категоризованный (качественный, номинальный) à можем сравнивать: та или не та категория

(используется для обозначении групп объектов, например, 1- «женщины», 2 – «мужчины». Структура шкалы не изменится, если мы произведем взаимнооднозначную подстановку значений (вместо 1 можно взять 0, а вместо2 - 9). Очевидно, что арифметические операции неприменимы к подобной шкале, поскольку числа в ней всего лишь метки классов (отсюда следует, что для такой шкалы нельзя вычислять количественные характеристики типа средней; что, скажем, обозначает средняя признака пол, равная 4.27?!).

3. Бинарный (булевские РФ) à отражают одну категорию (1/0; да/нет)

Стандартизация данных.

Дано:

, i – объекты, v – признаки.

На лекции рассматривалось три подхода:

1. Статистический (z-scoring).

– выборочное среднее.

- стандартное отклонение.

2. SVM learning.

– полусумма крайних значений.

– полуразмах.

3. Миркин.

- выборочное среднее.

размах.

Размах- длина интервала, на котором распределена величина x, или

Полуразмах – размах, деленный на два.

Стандартизация данных.

Опишем процесс стандартизации в общем виде. Пусть? - это линейное преобразование следующего вида:

Здесь - значение v-го признака для i-го объекта,

Такое линейное преобразование переводит каждую координату объекта в некий стандартный вид. В зависимости от выбора величин выделяют различные способы стандартизации. Рассмотрим несколько вариантов:

(1) - оценка математического ожидания величины .

(2) – среднее значение размаха выборки .

- размах выборки

(3) - оценка математического ожидания величины

- размах выборки .

Вариант (2) чаще всего исп для реш-я задач в области нейронных сетей.

1й вариант - наиб популяр метод стандартизации в статистике, благодаря многочислен хорошим св-вам станд норм величин. Однако для решения задач кластерного анализа наиб подходящим явл-ся 3й способ. Причина именно такого выбора состоит в том, что деление на среднеквадратич отклонение может привести к рез-там, противоречащим интуиции. Проиллюстрируем эти слова. Пусть признак I (рис.1(а)) имеет унимодальное распр-е, тогда как распределение признака j (рис.1(б)) – бимодальное.

рис1,а рис1,б

На гф a изображен пример унимодального распределения, на б – бимодальное. Очевидно, что станд отклонение во втором случае больше, чем в первом. В такой ситуации стандартизация данных первым способом (статистическим) приведет к тому, что мы увеличим значимость того признака, который «против» разбиения на кластеры, уменьшив вес других.

Видно, что . Отсюда следует, что если размахи исходной выборки значений признаков I и j были примерно одинаковыми, то преобразование переведет вектор значений признака I в сравнительно больший (покомпонентно), чем вектор значений признака j. Однако, интуитивно понятно, что для задачи кластеризации искусственное увеличение вклада переменных с унимодальной плотностью распределения нежелательно. Таким образом, общепринятый подход может привести к некачественным результатам.

6.Аппроксимация данных центральным значением в метрике Минковского.

Центр число a: где e_i - невязка. а определено т.о., чтобы е было как можно меньше.

f(|e₁|,…,|e_n|) - функция от остатков монотонная.

Метрика Минковского: x_i=a+e_i, , где верхнее р – это показатели степени, а нижнее индекс.

1. р=1 – сумма модулей отклонения(L₁) , а- медиана, сер. отсортированного ряда

2. р=2 – евклидова метрика , f(a) – парабола,ветви которой направлены вверх=> минимум в вершине, т.е. необх. у-е минимума является и достаточным. Поэтому

3. - Чебышев, - метрика максимума, – середина интервала

1 | 2 | 3 | 4 | 5 | 6 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница