|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Прогнозирование с помощью нейронной сетиОсобенностью процесса оценки стоимости объекта имущества является его рыночный характер. Это означает, что процесс оценки объекта не ограничивается учетом одних только затрат на создание или приобретение оцениваемого объекта собственности - необходим учет совокупности рыночных факторов, экономических особенностей оцениваемого объекта, а также макроэкономического и микроэкономического окружения. Кроме того, рынок недвижимости очень динамичный, поэтому требуется периодическая переоценка объектов собственности. Нейросети как универсальные аппроксиматоры позволяют строить сложные нелинейные регрессионные модели типа "черный ящик". Создание моделей для оценки стоимости недвижимости могут существенно повысить эффективность работы организаций, занимающихся риэлтерской деятельностью. Рассмотрим данный механизм на примере таблицы продаж из файла «Недвижимость.txt». При импорте обратите внимание на типы и виды числовых данных (при необходимости их нужно изменить). Для построения модели использовались данные по стоимости квартир на вторичном рынке жилья одного из крупных городов России (2011 год). Каждая квартира характеризуется следующими свойствами: · Количество комнат (1-3); · Признак этажности (первый/последний или нет); · Площадь общая, м2; · Площадь жилая, м2; · Площадь кухни, м2; · Наличие агентства – продается объект напрямую или через агентство; · Состояние квартиры – экспертная оценка по шкале от 2 до 5 (2 – нуждается в ремонте, 5 – отличное состояние квартиры); · Тип планировки; · Район – географическая принадлежность; Результирующий признак – стоимость квартиры в тыс. рублей.
Предварительно проведем аудит выборки при помощи узла «Качество данных». Все настройки мастера обработки этого узла оставим предлагаемыми по умолчанию. В результате откроется визуализатор «Оценка качества данных». Аудит данных обнаружил несколько выбросов (выходящих за границы 3-сигма) и экстремальных значений (выходящих за границы 5-сигма). В частности, детализация показывает, что для поля «Общая площадь» есть три экстремальных значения 133 и 134 м2 (рис. 10.1). Вообще, нейросетевые модели достаточно устойчивы к шумам и выбросам, тем не менее, экстремальные значения лучше все-таки удалить. По умолчанию предлагается ограничить найденные выбросы и экстремальные значения. Переопределим это действие: · для выбросов выбрать пункт «Оставить без изменения»; · для экстремальных значений – «Удалять». Для того чтобы эти действия были произведены, после узла «Качество данных» добавьте узел «Редактирование выбросов». Для оценки качества нейросетевой модели можно использовать прием перекрестной проверки (cross-validation). Это повторение всего процесса обучения и тестирования несколько раз при различных случайных выборках.
Рис. 10.1 Для определения ошибки принято делать десятиблочную перекрестную проверку. Данные случайным образом разделяются на 10 блоков, в каждом из которых классы наблюдений представлены приблизительно так же, как и в исходном множестве. Затем модель обучается на 9/10 данных и тестируется на оставшейся 1/10 части. Полученные 10 значений ошибки усредняются, и результат рассматривается как общая ошибка модели. Для того, чтобы заложить эту логику в сценарий необходимо разделить выборку на 10 примерно равных частей. Это делается при помощи нескольких узлов. а) Узел «Квантование» выделяет 10 квантилей, в каждом от 212 до 213 записей (рис. 10.2). Рис. 10.2 б) Узел «Группировка» производит группировку по полю «ID объекта» (рис. 10.3). Рис. 10.3 в) Узел «Настройка набора данных» формируют список уникальных номеров блоков с меткой № блока и именем Block (рис. 10.4). Рис. 10.4 г) Узел «Слияние с узлом» (полное внешнее соединение) «размножает» записи исходной выборки (узел «Квантование») в число раз, равное количеству блоков – в итоге имеем 21280 записей и идентификатор группы для каждой из них. Проведем построение нейросети для нулевого блока. Для этого необходимо использовать фильтр. Выделите тестовое и обучающее множество при помощи «Калькулятора», записав в него логическое выражение (рис. 10.5). Рис. 10.5
Теперь все готово к построению модели нейросети. Запустите мастер обработки и выберите обработчик «Нейросеть» (рис. 10.6). Рис. 10.6 Для полей, содержащих информацию о состоянии, комнатах, этажах и агентстве назначить нормализатор «Уникальные значения». На 3 шаге указать способ разделения – «по столбцу» и столбец «Тестовое множество». На 4 шаге настраивается структура нейронной сети. Укажите количество скрытых слоев – 1, а количество нейронов – 5. На следующих шагах настройки измените только количество эпох, по достижению которых нейросеть останавливает обучение, на 1000. После чего запустите нейросеть на обучение. Для отображения полученных результатов выберите следующие визуализаторы: «Граф нейросети» для отображения структурной схемы построенной нейронной сети; «Диаграмма рассеяния» для просмотра качества обучения; «Что-если» для расчета стоимости квартиры по введенным пользователям характеристикам. Рассмотрим визуализатор «Граф нейросети» (рис. 10.7). На нем графически отображается нейронная сеть со всеми ее нейронами и синаптическими связями. Значения весов, отображаются определенным цветом, посмотреть которое можно по цветовой шкале, расположенной внизу окна. Рис. 10.7 Диаграмма рассеяния показывает качество регрессионной модели. Большая масса точек сосредоточена вблизи линии идеальных значений, поэтому можно сказать, что модель обучилась хорошо (рис. 10.8). Рис. 10.8 Построение нейросетевой модели для одного блока окончено. Рассчитаем среднюю ошибку аппроксимации для стоимости недвижимости при помощи калькулятора. Это позволит более точно численно оценить качество модели. Для этого используем «Калькулятор» (рис. 10.9). Для расчета количества записей в область Выражение ввести 1. Рис. 10.9 Сгруппируйте данные как показано на рис. 10.10. Рис. 10.10 Используя «Калькулятор», добавим новое поле «Средняя ошибка аппроксимации», рассчитываемое как отношение ошибки и количества записей. Ошибка получилась в районе 8,0%. Хорошим результатом считается ошибка до 10-12%. Модель является применимой для расчета стоимости недвижимости. Для проведения 10-блочной кросс-валидации требуется проделать последовательность действий как в предыдущем шаге, но для всех блоков. Это делается при помощи «Групповой обработки» от узла «Внешнее соединение». На первом шаге мастера обработки этого узла укажем поле «№ блока» как поле, по которому будет проводиться групповая обработка. На следующих двух шагах нужно указать цепочку узлов для групповой обработки. Это будет ветвь от узла фильтра блока до расчета средней ошибки аппроксимации. В параметрах групповой обработки поставить первый, третий и четвертый флажок. Запуск групповой обработки всегда приведет к построению 10 моделей нейросетей. В итоге мы получим 10 оценок средней ошибки аппроксимации на обучающем и на тестовом множествах. Из рис. 10.11 видно, что минимальная ошибка достигается на подвыборке под номером 6. Выберем эту модель как основную и перенастроим ветвь с фильтром на этот номер блока. Рис. 10.11 На основе лучшей модели, построенной на подвыборке № 7, спрогнозируем стоимость следующего объекта недвижимости: · количество комнат – 3; · район – Орджоникидзевский; · планировка – Свердловский вариант; · этаж – последний; · площадь – 63; · жилая площадь – 41; · кухня – 8; · состояние – 4; · наличие агентства - нет. Для этого воспользуемся визуализатором Что-Если (рис. 10.12). Рис. 10.12 По прогнозу нейронной сети стоимость квартиры составляет 1856,5 тыс. рублей. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.006 сек.) |