|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Стандартизация данныхВиды шкал признаков 3 типа основных шкал: 1. Количественный à среднее значение имеет смысл (Здесь можно сказать, во сколько раз одно измерение больше другого. К примеру, человек ростом 180 см в 2 раза выше 90 см-ого. Все арифметические операции здесь не только допустимы, но просто необходимы. Эта шкала самая богатая из всех выше перечисленных на возможности передачи информации.) 2. Категоризованный (качественный, номинальный) à можем сравнивать: та или не та категория (используется для обозначении групп объектов, например, 1- «женщины», 2 – «мужчины». Структура шкалы не изменится, если мы произведем взаимнооднозначную подстановку значений (вместо 1 можно взять 0, а вместо2 - 9). Очевидно, что арифметические операции неприменимы к подобной шкале, поскольку числа в ней всего лишь метки классов (отсюда следует, что для такой шкалы нельзя вычислять количественные характеристики типа средней; что, скажем, обозначает средняя признака пол, равная 4.27?!). 3. Бинарный (булевские РФ) à отражают одну категорию (1/0; да/нет)
Стандартизация данных. Дано: , i – объекты, v – признаки. На лекции рассматривалось три подхода: 1. Статистический (z-scoring). – выборочное среднее. - стандартное отклонение. 2. SVM learning. – полусумма крайних значений. – полуразмах. 3. Миркин. - выборочное среднее. размах. Размах- длина интервала, на котором распределена величина x, или Полуразмах – размах, деленный на два. Стандартизация данных. Опишем процесс стандартизации в общем виде. Пусть? - это линейное преобразование следующего вида: Здесь - значение v-го признака для i-го объекта, Такое линейное преобразование переводит каждую координату объекта в некий стандартный вид. В зависимости от выбора величин выделяют различные способы стандартизации. Рассмотрим несколько вариантов: (1) - оценка математического ожидания величины . . (2) – среднее значение размаха выборки . - размах выборки (3) - оценка математического ожидания величины - размах выборки . Вариант (2) чаще всего исп для реш-я задач в области нейронных сетей. 1й вариант - наиб популяр метод стандартизации в статистике, благодаря многочислен хорошим св-вам станд норм величин. Однако для решения задач кластерного анализа наиб подходящим явл-ся 3й способ. Причина именно такого выбора состоит в том, что деление на среднеквадратич отклонение может привести к рез-там, противоречащим интуиции. Проиллюстрируем эти слова. Пусть признак I (рис.1(а)) имеет унимодальное распр-е, тогда как распределение признака j (рис.1(б)) – бимодальное. рис1,а рис1,б На гф a изображен пример унимодального распределения, на б – бимодальное. Очевидно, что станд отклонение во втором случае больше, чем в первом. В такой ситуации стандартизация данных первым способом (статистическим) приведет к тому, что мы увеличим значимость того признака, который «против» разбиения на кластеры, уменьшив вес других. Видно, что . Отсюда следует, что если размахи исходной выборки значений признаков I и j были примерно одинаковыми, то преобразование переведет вектор значений признака I в сравнительно больший (покомпонентно), чем вектор значений признака j. Однако, интуитивно понятно, что для задачи кластеризации искусственное увеличение вклада переменных с унимодальной плотностью распределения нежелательно. Таким образом, общепринятый подход может привести к некачественным результатам.
6.Аппроксимация данных центральным значением в метрике Минковского. Центр число a: где ei - невязка. а определено т.о., чтобы е было как можно меньше. f(|e1|,…,|en|) - функция от остатков монотонная. Метрика Минковского: xi=a+ei, , где верхнее р – это показатели степени, а нижнее индекс. 1. р=1 – сумма модулей отклонения(L1) , а- медиана, сер. отсортированного ряда 2. р=2 – евклидова метрика , f(a) – парабола,ветви которой направлены вверх=> минимум в вершине, т.е. необх. у-е минимума является и достаточным. Поэтому 3. - Чебышев, - метрика максимума, – середина интервала Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |