Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Деревья решений

Читайте также:

Деревья решений применяются для решения задачи классификации. Дерево представляет собой иерархический набор условий (правил), согласно которым данные относятся к тому или иному классу. В построенном дереве присутствует информация о достоверности того или иного правила. Рассчитывается значимость каждого входного поля.

Пусть аналитик имеет данные по тому, как голосуют депутаты конгресса США по различным законопроектам. Также известна партийная принадлежность каждого депутата – республиканец или демократ. Перед аналитиком поставлена задача: классифицировать депутатов на демократов и республиканцев в зависимости от того, как они голосуют.

Данные по голосованию находятся в файле «Голосование конгресса.txt». Таблица содержит следующие поле «Класс» – класс голосующего (демократ или республиканец) и поля, информирующие о том, как голосовали депутаты за принятие различных законопроектов («да», «нет», «воздержался»).

Для решения задачи нужно импортировать файл Голосование конгресса.txt (все типы полей указать как строковые), и запустить Мастер обработки. Выбрать в качестве обработки дерево решений. В Мастере построения на 2 шаге сделать поле «Класс» выходным, а остальные поля входными. Далее предлагается настроить способ разбиения исходного множества данных на обучающее и тестовое. Зададим случайный способ разбиения, когда данные для тестового и обучающего множества берутся из исходного набора случайным образом.

На следующем шаге Мастера предлагается настроить параметры процесса обучения, а именно минимальное количество примеров, при котором будет создан новый узел (пусть узел создается, если в него попали два и более примеров), а также предлагается возможность строить дерево с более достоверными правилами.

На следующем шаге Мастера запускается сам процесс построения дерева. Также можно увидеть информацию о количестве распознанных примеров (рис. 6.1).

Рис. 6.1

После построения дерева можно увидеть, что почти все примеры и на обучающей и на тестовой выборке распознаны.

Перейти на следующий шаг Мастера для выбора способа визуализации. Основной целью аналитика является отнесение депутата к той или иной партии. Механизм отнесения должен быть таким, чтобы депутат указал, как он будет голосовать за различные законопроекты, а дерево решений ответит на вопрос, кто он – демократ или республиканец. Такой механизм предлагает визуализатор «Что-если».

Не менее важным является и просмотр самого дерева решений, на котором можно определить, какие факторы являются более важными (верхние узлы дерева), какие второстепенными, а какие вообще не оказывают влияния (входные факторы, вообще не присутствующие в дереве решений). Поэтому выберем также и визуализатор «Дерево решений».

Формализованные правила классификации, выраженные в форме «Если <Условие>, тогда <Класс>», можно увидеть, выбрав визуализатор «Правила (дерево решений)».

Часто аналитику бывает полезно узнать, сколько примеров было распознано неверно, какие именно примеры были отнесены к какому классу ошибочно. На этот вопрос дает ответ визуализатор «Таблица сопряженности».

Важную информацию предоставляет визуализатор «Значимость атрибутов». С помощью него можно определить, насколько сильно выходное поле зависит от каждого из входных факторов. Чем больше значимость атрибута, тем больший вклад он вносит при классификации.

Проведем анализ полученных данных. Для начала посмотрим на «Таблицу сопряженности» (рис. 6.2).

Рис. 6.2

По диагонали таблицы расположены примеры, которые были правильно распознаны, в остальных ячейках – те, которые были отнесены к другому классу. В данном случае дерево правильно классифицировало практически все примеры.

Перейдем к визуализатору «Дерево решений» (рис. 7.3). Как видно, дерево решений получилось не очень громоздкое, большая часть факторов (законопроектов) была отсечена, т.е. влияние их на принадлежность к партии минимальна или его вообще нет (по-видимому, по этим вопросам у партий нет принципиального противостояния).

Рис. 6.3

Самым значимым фактором оказалась позиция, занимаемая депутатами по пакету законов, касающихся врачей. Это же подтверждает и визуализатор «Значимость атрибутов».

На визуализаторе «Правила» представлен список всех правил, согласно которым можно отнести депутата к той или иной партии. Правила можно сортировать по поддержке, достоверности, фильтровать по выходному классу (к примеру, показать только те правила, согласно которым депутат является демократом с сортировкой по поддержке).

Данные представлены в виде таблицы. Полями этой таблицы являются:

- номер правила,

- условие, которое однозначно определяет принадлежность к партии,

- решение – то, кем является депутат, голосовавший согласно этому условию,

- поддержка – количество и процент примеров из исходной выборки, которые отвечают этому условию,

- достоверность – процентное отношение количества верно распознанных примеров, отвечающих данному условию, к общему количеству примеров, отвечающих данному условию.

Исходя из данных этой таблицы, аналитик может сказать, что именно влияет на то, что депутат является демократом или республиканцем, какова цена этого влияния (поддержка) и какова достоверность правила.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.047 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница