АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Дубликаты и противоречия

Читайте также:
  1. Аграрный сектор экономики СССР в 1965-1985 гг. : достижения и противоречия в развитии.
  2. Антиполия-противоречие в в законе. Противоречие разрешаясь делает чего то возможным. Отрицание-отрицания ( разрешение противоречия (синтез))
  3. Внешняя политика СССР в 1953- 1965 гг.: достижения противоречия во взаимоотношениях со странами «социалистического лагеря».
  4. Возникали противоречия между приборными служилыми людьми и более богатыми детьми боярскими.
  5. Гармонические и антагонистические противоречия
  6. Глава 4. Противоречия международной торговли («торговые войны»)
  7. Закон непротиворечия
  8. Историческое развитие общества, его движущие силы. Социальные противоречия и способы их разрешения (революция и реформы).
  9. Межнациональные противоречия, конфликты и пути их разрешения
  10. Образования. Основные противоречия
  11. Общая характеристика противоречия

Одна из серьезных проблем, часто встречающаяся на практике, – наличие в данных дубликатов и противоречий.

Противоречивыми являются группы записей, в которых содержатся строки с одинаковыми входными факторами, но разными выходными. В такой ситуации непонятно, какое результирующее значение верное. Если противоречивые данные использовать для построения модели, то она окажется неадекватной. Поэтому противоречивые данные чаще всего лучше вообще исключить из исходной выборки.

Также в данных могут встречаться записи с одинаковыми входными факторами и одинаковыми выходными, т.е. дубликаты. Таким образом, данные несут избыточность. В большинстве случаев дубликаты в данных являются следствием ошибок при подготовке данных.

В Deductor Studio для автоматизации этого процесса есть соответствующий инструмент – обработка «Дубликаты и противоречия».

Суть обработки состоит в том, что определяются входные (факторы) и выходные (результаты) поля. Алгоритм ищет во всем наборе записи, для которых одинаковым входным полям соответствуют одинаковые (дубликаты) или разные (противоречия) выходные поля. На основании этой информации создаются два дополнительных логических поля – «Дубликат» и «Противоречие», принимающие значения «истина» или «ложь». В дополнительные числовые поля " Группа дубликатов " и " Группа противоречий " записываются номер группы дубликатов и группы противоречий, в которые попадает данная запись. Если запись не является дубликатом или противоречием, то соответствующее поле будет пустым.

Рассмотрим механизм выявления дубликатов на примере данных файла «Anketa.txt». В этом файле находится информация об анкетных данных граждан, участвующих в кредитовании. Попробуем вычислить присутствие дубликатов.

Импортируем данные из текстового файла и посмотрим их в виде таблицы. Для выявления дубликатов запустить Мастер обработки. В нем выбрать тип обработки «Дубликаты и противоречия». На 2 шаге Мастера необходимо настроить назначение полей. Поля «Фамилия», «Имя», «Отчество» определить как входные, «Код Анкеты» – как выходное, а «Сумма кредита» оставить информационным.

После завершения выявления дубликатов просмотреть результат в виде таблицы дубликатов и противоречий.

В первом случае видно, что существуют одинаковые строки, являющиеся дубликатами. Данный обработчик показывает дубликаты и их принадлежность к группам дубликатов (рис. 5.3).

Рис. 5.3

Во втором случае видно, что при одинаковых «Фамилия», «Имя», «Отчество» оказываются различные «Коды Анкет» (рис. 5.4).

Рис. 5.4

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.002 сек.)