|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Стандартизация данныхВиды шкал признаков 3 типа основных шкал: 1. Количественный à среднее значение имеет смысл (Здесь можно сказать, во сколько раз одно измерение больше другого. К примеру, человек ростом 180 см в 2 раза выше 90 см-ого. Все арифметические операции здесь не только допустимы, но просто необходимы. Эта шкала самая богатая из всех выше перечисленных на возможности передачи информации.) 2. Категоризованный (качественный, номинальный) à можем сравнивать: та или не та категория (используется для обозначении групп объектов, например, 1- «женщины», 2 – «мужчины». Структура шкалы не изменится, если мы произведем взаимнооднозначную подстановку значений (вместо 1 можно взять 0, а вместо2 - 9). Очевидно, что арифметические операции неприменимы к подобной шкале, поскольку числа в ней всего лишь метки классов (отсюда следует, что для такой шкалы нельзя вычислять количественные характеристики типа средней; что, скажем, обозначает средняя признака пол, равная 4.27?!). 3. Бинарный (булевские РФ) à отражают одну категорию (1/0; да/нет)
Стандартизация данных. Дано:
На лекции рассматривалось три подхода: 1. Статистический (z-scoring).
2. SVM learning.
3. Миркин.
Размах- длина интервала, на котором распределена величина x, или Полуразмах – размах, деленный на два. Стандартизация данных. Опишем процесс стандартизации в общем виде. Пусть? - это линейное преобразование следующего вида: Здесь Такое линейное преобразование переводит каждую координату объекта в некий стандартный вид. В зависимости от выбора величин (1)
(2)
(3)
Вариант (2) чаще всего исп для реш-я задач в области нейронных сетей. 1й вариант - наиб популяр метод стандартизации в статистике, благодаря многочислен хорошим св-вам станд норм величин. Однако для решения задач кластерного анализа наиб подходящим явл-ся 3й способ. Причина именно такого выбора состоит в том, что деление на среднеквадратич отклонение может привести к рез-там, противоречащим интуиции. Проиллюстрируем эти слова. Пусть признак I (рис.1(а)) имеет унимодальное распр-е, тогда как распределение признака j (рис.1(б)) – бимодальное.
На гф a изображен пример унимодального распределения, на б – бимодальное. Очевидно, что станд отклонение во втором случае больше, чем в первом. В такой ситуации стандартизация данных первым способом (статистическим) приведет к тому, что мы увеличим значимость того признака, который «против» разбиения на кластеры, уменьшив вес других. Видно, что
6.Аппроксимация данных центральным значением в метрике Минковского. Центр число a: где ei - невязка. а определено т.о., чтобы е было как можно меньше. f(|e1|,…,|en|) - функция от остатков монотонная. Метрика Минковского: xi=a+ei, 1. р=1 – сумма модулей отклонения(L1) 2. р=2 – евклидова метрика 3. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.) |