|
||||||||||||||||||||||||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Приобретение и формализация знанийЛ. Я. Аверкин, Л. Ф. Блишун, Т. А. Гаврилова, Г. С. Осипов Основные определения Приобретением знаний называется выявление знаний из источников и преобразование их в нужную форму, а также перенос в базу знаний ИС. Источниками знаний могут быть книги, архивные документы, содержимое других баз знаний и т. п., т. е. некоторые объективизированные знания, переведенные в форму, которая делает их доступными для потребителя. Другим типом знаний являются экспертные знания, которые имеются у специалистов, но не зафиксированы во внешних по отношению к нему хранилищах. Экспертные знания являются субъективными. Еще одним видом субъективных знаний являются эмпирические знания. Такие знания могут добываться ИС путем наблюдения зз окружающей средой (если у ИС есть средства наблюдения). Ввод в базу знаний объективизированных знаний не представляет особой проблемы, выявление и ввод субъективных и особенно экспертных знаний достаточно трудны. Чтобы разработать методологию приобретения субъективных знаний, получаемых от эксперта, надо четко различать две формы репрезентации знаний. Одна форма связана с тем, как и в каких моделях хранятся эти знания у человека-эксперта. При этом эксперт не всегда осознает полностью, как репрезентированы у него знания. Другая форма связана с тем, как инженер по знаниям, проектирующий ИС, собирается их описывать и представлять. От степени согласованности этих двух форм репрезентации между собой зависит эффективность работы инженера по знаниям. В когнитивной психологии изучаются формы репрезентации знаний (когнитивные структуры знаний) характерные для человека. Примерами могут служить [Хафман, 1986]: представление класса понятий через его элементы (например, понятие «птица» репрезентируется рядом «чайка, воробей, скворец,...»); представление понятий класса с помощью базового прототипа, отражающего наиболее типичные свойства объектов класса (например, понятие «птица» репрезентируется прототипом «нечто с крыльями, клювом, летает...»); представление с помощью признаков (для понятия «птица», например, наличие крыльев, клюва, двух лап, перьев....). Кроме понятий репрезентируются и отношения между ними. Как правило, отношения между понятиями определяются процедурным способом, а отношения между составляющими понятий (определяющими структуру понятия) —декларативным способом. Наличие двух видов описаний заставляет в моделях представления знаний одновременно иметь оба компонента, например семантическую сеть и продукционную систему, как это представлено в когнитивной модели [Anderson, 1983]. При приобретении знаний важную роль играют так называемое поле знаний, в котором содержатся основные понятия, используемые при описании предметной области, и свойства всех отношений, используемых для установления связей 3—6943 между понятиями. Поле знаний связано с концептуальной моделью проблемной области, в которой еще не учтены ограничения, которые неизбежно возникают при формальном представлении знаний в базе знаний. Переход от описания некоторой области в поле знаний к описанию в базе знаний аналогичен переходу от концептуальной модели базы данных к ее логической схеме, когда уже зафиксирована система управления базой данных. Важно отметить, что переход непосредственно к формальным представлениям в базе знаний без этапа концептуального описания в поле знаний приводит к многочисленным ошибкам, что замедляет процесс формирования базы знаний ИС. Возможны три режима взаимодействия инженера по знаниям с экспертом-специалистом: протокольный анализ, интервью и игровая имитация профессиональной деятельности. Протокольный анализ заключается в фиксации (например, путем записи на магнитную ленту) «мыслей вслух> эксперта во время решения проблемы и в последующем анализе полученной информации В режиме интервью инженер по знаниям ведет с экспертом активный диалог, направляя его в нужную сторону. При игровой имитации эксперт помещается в ситуации, похожие на те, в которых протекает его профессиональная деятельность. Наблюдая за его действиями в различных ситуациях, инженер по знаниям, формирует свои соображения об экспертных знаниях, которые впоследствии могут быть уточнены с экспертом в режиме интервью. Принципы игровой имитации нашли применение в разнообразных деловых играх, специальных тренажерах. Каждый из упомянутых способов извлечения знаний имеет свои преимущества и недостатки. Так, при анализе протоколов инженеру по знаниям нелегко отделить понятия, важные для включения в словарь предметной области, от тех, которые при «мыслях вслух» появляются случайно. Кроме того, в протоколах обнаруживаются пробелы, когда рассуждение эксперта как бы прерывается и продолжается уже на основе пропущенных шагов вывода. Заполнение подобных лакун возможно лишь в режиме интервью. Таким образом, во всех трех подходах к извлечению знаний из экспертов необходим этап интервью, что делает его одним из важнейших методов приобретения знаний. Существует не менее двух десятков стратегий интервьюирования. Наиболее известны три: разбиение на ступени, репертуарная решетка и подтверждение сходства. При разбиении на ступени эксперту предлагается назвать наиболее важные, по его мнению, понятия предметной области и указать между ними отношения структуризации, т, е. отношения типа «род —вид», «элемент — класс», «целое — часть» и т. п. Эти понятия используются на следующем шаге опроса как базовые. Стратегия нацелена на создание иерархии понятий предметной области, выделение в понятиях тесно связанных между собой групп — таксЪнов (кластеров). Стратегия репертуарной решетки направлена на выявление характеристических свойств понятий, позволяющих отделять одни понятия от других. Методика состоит в предъявлении эксперту троек понятий с предложением назвать признаки для каждых двух понятий, которые отделяли бы их от третьего. Так как каждое понятие входит в несколько троек, то на основании такой процедуры происходит уточнение объемов понятий и формируются «симптокомплексы» понятий, с помощью которых эти понятия могут идентифицироваться в базе знаний. Стратегия подтверждения сходства состоит в том, что эксперту предлагается установить принадлежность каждой пары понятий из предметной области к некоторому отношению сходства (толерантности). Для этого эксперту задается последовательность достаточно простых вопросов, цель которых заключается в уточнении того понимания сходства, которое вкладывает эксперт в утверждение о сходстве двух понятий предметной области. Процесс взаимодействия инженера по знаниям (аналитика) с экспертом-специалистом включает три основных этапа. 1. Подготовительный этап. Для успеха общения оба участника должны тщательно подготовиться к диалогу или игре. Желательно, чтобы эксперт был 66 не только компетентным специалистом, но и заинтересованным (морально или материально) лицом в достижении конечной цели — построении ИС. Он должен быть доброжелателен к аналитику и уметь объяснять свои знания (наилучший случай, когда эксперт имеет опыт преподавательской работы). Аналитику необходимо: глубоко познакомиться со специальной литературой по предметной области, чтобы не задавать очень «глупых» вопросов (просто «глупые» вопросы бывают чрезвычайно полезны), а также увеличить количество «пакетов ожиданий» [Шенк и др., 1987J; уметь слушать и грамотно задавать вопросы; настроиться на роль «ученика», а не «экзаменатора»; разбираться в моделях когнитивной психологии, а также в моделях представления знаний, чтобы из знаний эксперта выделять четкие структуры. В любой совместной деятельности большое значение имеют психологические качества исследователей, такие как личность, манера поведения, стиль научного мышления. Существуют различные классификации научных работников. В качестве примера приведем следующую: инициатор — быстро реагирует на перспективные проблемы, т. е. один из первых ощущает необходимость решения проблемы с элементами неопределенности; диагност — способен к быстрой оценке сильных и слабых сторон решения задачи; эрудит — наделен исключительной памятью, отличается повышенным вниманием к деталям и стремлением к упорядоченности; ремесленник — способен воплощать в жизнь плохо оформленные' идеи других; эстет — стремится исследовать проблемы, приводящие к изящным решениям, не склонен к кропотливому труду; методолог — заинтересован методологическими аспектами исследований; независимый — стремится к индивидуальному решению проблем; фанатик — самоотверженно увлечен своей научной проблемой, того же требует и от окружающих. Принадлежность научного работника к тому или иному типу определяется с помощью косвенных методик (тестов личности, интеллекта, когнитивных стилей, проектных методик). Автоматизация опроса и получения психологического портрета испытуемого реализована, например, в системе АВТАНТЕСТ [Гаври-лова, 1984]. Для роли эксперта наиболее предпочтительны инициатор, эрудит, диагност и ремесленник (в паре с аналитиком-эрудитом), а для роли аналитика ■— диагност, методолог, эрудит, инициатор. При этом наилучшее сочетание дают сочетания разных типов. Благодаря различиям в подходах к решению задачи, в точках зрения, стиле мышления, восприятия, памяти и т. п. участники в такой паре с разных сторон подходят к поставленной цели, в результате увеличивается общее количество гипотез, идей, альтернативных вариантов, а следовательно, обогашДется поле знаний. Однако не все сочетания даже из приемлемых типов улучшают взаимодействие, а некоторые типы (например, фанатик, эстет, независимый, ремесленник) часто слабо приспособлены для творческого взаимодействия, что приводит к возникновению скрытых н явных конфликтов, которые усложняют процесс продуктивного общения. Важное значение имеет также лидерство в паре. В ходе любого диалрга одна сторона обычно занимает позицию ведущей, чаще эту роль берет интервьюер, т. е. аналитик. Роль лидера в диалоге позволяет аналитику направлять и систематизировать процесс создания поля знания, не давая эксперту «размыть» илн излишне детализовать процесс. С другой стороны, догматизм и настойчивость могут привести к неадекватному полю. Имеет место также эффект «фасада», т. е. желание эксперта не ударить «в грязь лицом» перед аналитиком, и отсюда генерирование неподтвержденных гипотез. 2. Установление «общего кода». Для создания лингвистического альянса 3. Гносеологический этап. На этом этапе происходит выяснение закономер является определяющим во взаимодействии аналитика и эксперта. В процессе анализа игры или диалога вербализуется и формализуется знание эксперта и зачастую для него самого порождается новое знание. Репрезентация внешнего мира в его памяти получает материальное воплощение в форме поля знаний. В процессе извлечения знаний сначала желательно получить от эксперта поверхностные знания (такие, например, как репрезентация признаков), постепенно переходя к глубинным структурам и более абстрактным понятиям (таким, например, как прототипы). При формировании поля знаний учитываются особенности эмпирического знания: модальность, противоречивость, неполнота и т. д. Аналитик должен за частным всегда видеть общее, т. е. строить цепочки «.факт — обобщенный факт — эмпирический закон — теоретический закон». Центральное звено цепочки — формализация эмпирики. При этом иногда основным на этапе формализации становится не извлечение «слепых» непонятных связей, а понимание внутренней структурной связи понятий предметной области. Искусство аналитика состоит в стремлении к созданию ясной и понятной модели проблемной области. Следует также учитывать, что эксперты в проблемной области не всегда опираются на логические рассуждения. В их представлениях о проблемной области и методах решения задач, характерных для нее, широкое применение находят ассоциативные рассуждения и рассуждения правдоподобия (см. § 2.5). Опишем примерную методику работы с экспертом по формированию поля знаний. Подготовительный этап 1. Четкое определение задач проектируемой системы (сужение поля знаний): 2. Выбор экспертов: определение количества экспертов; выбор уровня ком 3. Знакомство аналитика со специальной литературой в предметной области. 4. Знакомство аналитика и экспертов (в дальнейшем для простоты будем 5. Знакомство эксперта с популярной литературой по искусственному ин 6. Попытка аналитика создать поле знаний первого приближения априор Основной этап 1. «Накачка» поля знаний: а) в зависимости от предметной области выбор 2. «Домашняя работа». Попытка аналитика выделить некоторые причинно- 3. «Подкачка» поля зрения. Обсуждение с экспертом прототипа поля знаний 4. Формализация концептуальной модели. 5. Построение поля знаний второго приближения. 6. При необходимости повторение пп. 16, 2, 3, 4 и 5. Системы приобретения знаний от экспертов Одно из первых рассмотрений интервью как метода инженерии знаний проведено в [Newel, 1972]. Проблемы, возникающие при извлечении экспертных знаний, некоторые психологи связывают с так называемой когнитивной защитой. В [Kelly, 1985] была развита теория человеческого познания, основанная на понятии «персональных конструктов», которые человек создает и пытается приспособить к реалиям мира. В [Bose, 1984] теория «персональных конструктов» использована для создания системы извлечения экспертных знаний и показала свою способность успешно преодолевать когнитивную защиту, т. е. нежелание экспертов достичь четкого и осознанного ими истолкования основных понятий, отношений между понятиями и приемов решения задач в интересующей инженера по знаниям проблемной области. Методы интервьюирования эксперта предметной области знаний с использованием нескольких различных стратегий применены при создании системы TEIRESIAS [Davis, 1982]. В [Kahn et al., 1984] выделено восемь различных стратегий интервью, в [Kahn et al., 1985] на основе этих стратегий исследуется возможность автоматического интервьюирования. Автоматизации метода протокольного анализа посвящены работы [Waterman, 1971, 1973; Krippendorf, 1980]. В [Kahn et al., 1985] на примере диагностической системы MORE; описана техника интервьюирования, направленная на выяснение следующих сущностей: гипотез, симптомов, условий, связей и путей. Гипотеза — событие, идентификация которого имеет своим результатом диагноз. Симптом — событие, являющееся следствием существования гипотезы, наблюдение которого приближает последующее принятие гипотезы. Условие — событие или некоторое множество событий, которое не является непосредственно симптоматическим для какой-либо гипотезы, но которое может иметь диагностическое значение для некоторых других событий. Связи — соединения сущностей (в том числе, других связей). Путь —■ выделенный тип связи, который соединяет гипотезы с симптомами. В соответствии с этим используются следующие стратегии интервью: дифференциация гипотез, различение симптомов, симптомная обусловленность, деление пути и др. Дифференциация гипотез направлена на поиск симптомов, которые обеспечивают более точное различение гипотез. Наиболее мощными в этом смысле являются те симптомы, которые происходят из одного диагностируемого события. Различение симптомов выявляет специфические характеристики симптома, которые, с одной стороны, идентифицируют его как следствие некоторой гипс тезы, с другой — противопоставляют другим. Симптомная обусловленность направлена на выявление негативных симптомов, т. е. симптомов, отсутствие которых имеет больший диагностический вес, чем их присутствие. Деление пути обеспечивает нахождение симптоматических событий, которые лежат на пути к уже найденному симптому. Если такой симптом существует, то он имеет большее диагностическое значение, чем уже найденный. Аналогичные стратегии интервьюирования эксперта использованы при создании инструментальной диагностической системы ИДИС [Голубев н др., 1987]. В системе KRITON [Diederich et al., 1987] для приобретения знаний используются два источника: эксперт с его знаниями, полученными на практике (эти знания, как правило, неполны, отрывочны, плохо структурированы); книжные знания, документы, описания инструкции (эти знания хорошо структурированы и фиксированы традиционными средствами). Для извлечения знаний из первого источника в KRITON применена техника интервью, использующая стратегии репертуарной решетки и разбиения на ступени. При этом применяется прием переключения стратегий: если при предъявлении тройки семантически связанных понятий эксперт не в состоянии назвать признак, отличающий два из них от третьего, система запускает стратегию разбиения на ступени и предпринимает попытку выяснения таксономической структуры этих понятий с целью выявления признаков, их различающих. Для выявления процедурных знаний эксперта в KRITON применен метод протокольного анализа. Он осуществляется в пять шагов. На первом шаге протокол делится на сегмент;-' на основании пауз, которые делает эксперт в про- I *• цессе записи. Второй шаг —семантический анализ сегментов, формирование высказываний для каждого сегмента. На третьем шаге из текста выделяются операторы и аргументы. Далее делается попытка поиска по образцу в базе знаний для обнаружения переменных в высказываниях (переменная вставляется в высказывание, если соответствующая ссылка в тексте не обнаружена). На последнем шаге утверждения упорядочиваются в соответствии с их появлением в протоколе. Анализ текста используется в KRITON для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций. В [Morik, 1987] описан метод выявления модели предметной области. Первая фаза — формирование инженером знаний грубой модели предметной области путем определения предикатов и сортов их возможных аргументов и сообщения системе фактов об области, выразимых этими предикатами. Система выявляет свойства предикатов и устанавливает отношения между ними, структурируя таким образом предметную область. На второй фазе с помощью метазнании (общих структур), отражающих особенности человеческого мышления, осуществляется проверка соответствия фактов предикатам, индуктивный вывод правил из фактов, вывод правил из других правил. В системах SIMER и ДИАПС [Осипов, 1987; Osipov et al., 1987] основным методом приобретения знаний является автоматизированное интервьюирование эксперта, которое управляется знаниями, приобретенными системой- В системах SIMER и ДИАПС не выявляется предварительная модель области. Все объекты (события) и их атрибуты определяются в режиме прямого интервьюирования эксперта. Предполагается только, что на множестве объектов могут быть заданы ряд отношений из известного (конечного) множества: «элемент — множество», «часть — целое», «пример — прототип», отношения структурного сходства объектов, структурной иерархии и некоторые другие. Все отношения попарно различаются формальными свойствами. Так, отношений структурного сходства не обладает транзитивностью, но симметрично. Отношение структурной иерархии, напротив, не обладает симметричностью, однако транзитивно. На выяснение этих и ряда других свойств отношений и объектов направлено интервью. В частности, для установления структурного сходства на первой фазе интервью для каждого вновь вводимого понятия эксперту предлагается указать (с помощью меню) те понятия предметной области, с которыми может быть связано данное (без спецификации отношения). Затем в процессе интервью для каждой пары понятий (из выделенных на первой фазе) связь специфицируется, устанавливаются свойства и тип отношения, в число элементов которого включается исследуемая пара. Так, для включения некоторой пары понятий X и У, о которых эксперт сообщил, что X влияет на Y (например X увеличивает возможность К), в число элементов некоторого отношения R, обладающего среди прочих свойств симметричностью, необходимо задать эксперту вопрос: «Увеличивает ли Y возможность Я?». При положительном ответе на этот вопрос (и если прочие свойства уже установлены и удовлетворяют определению отношения R) пара (X, У) включается в R. Для установления структурного сходства и структурной иерархии понятий используются стратегии подтверждения сходства и разбиения на ступени. В модели имеются метапроцедуры и метаправила, которые проверяют корректность модели, используют формальные свойства отношений для пополнения модели и генерируют правила. Сформулируем основные этапы реализации системы приобретения знаний. 1. Интервью для определения актуальной области, в которой происходит 2. Автоматизированное интервью для выявления и формирования деклара 3. Протокольный анализ к выявленным на предыдущем этапе понятиям и (этапы 2 и 3 можно использовать попеременно до тех пор, пока модель не достигнет нужной полноты). 4. Протокольный анализ для попонения декларативных знаний модели. 5, Проверка полноты модели. Обычно протокольный анализ выявляет пусто Формализация качественных знаний При формализации качественных знаний может быть использована теория нечетких множеств [Заде, 1974], особенно те ее аспекты, которые связаны с лингвистической неопределенностью, наиболее часто возникающей при работе с экспертами на естественном языке. Под лингвистической неопределенностью подразумевается не полиморфизм слов естественного языка, который может быть преодолен на уровне понимания смысла высказываний в рамках байесовской модели [Налимов, 1974], а качественные оценки естественного языка для длины, времени, интенсивности, для целей логического вывода, принятия решений, планирования. Лингвистическая неопределенность в системах представления знаний задается с помощью лингвистических моделей, основанных на теории лингвистических переменных и теории приближенных рассуждений [Kikert, 1978]. Эти теории опираются на понятие нечеткого множества, систему операций над нечеткими множествами и методы построения функций принадлежности. Одним из основных понятий, используемых в лингвистических моделях, является понятие лингвистической переменной. Значениями лингвистических переменных являются не числа, а слова или предложения некоторого искусственного либо естественного языка. Например, числовая переменная «возраст» принимает дискретные значения между нулем и сотней, а целое число является значением переменной. Лингвистическая переменная «возраст» может принимать значения: молодой, старый, довольно старый, очень молодой и т. д. Эти термы — лингвистические значения переменной. На &то множество (как и на числа) также налагаются ограничения. Множество допустимых значений лингвистической переменной называется терм-множеством. При вводе в ЭВМ информации о лингвистических переменных и терм-множестве ее необходимо представить в форме, пригодной для работы на ЭВМ. Лингвистическая переменная задается набором из пяти компонентов: <А, Т(А), О, G, Af>, где Л—имя лингвистической переменной; Г (Л)—ее терм-множество; U — область, на которой определены значения лингвистической переменной; G описывает операции по порождению производных значений лингвистической переменной на основе тех значений, которые входят в тер м-множество. С помощью правил нз G можно расширить число значений лингвистической переменной, т. е. расширить ее терм-множество. Каждому значению с лингвистической переменной А соответствует нечеткое множество Ха, являющееся подмножеством U. По аналогии с формальными системами (см. § 1.1) правила из G часто называют синтаксическими. Наконец, компонент М образует набор семантических правил. С их помощью происходит отображение значений лингвистической переменной а в нечеткие множества Ха и выполняются обратные преобразования. Именно эти правила обеспечивают формализацию качественных утверждений экспертов при формировании проблемной области в памяти ИС. На рис. 2.1 показаны все компоненты, определяющие лингвистическую переменную «возраста». В качестве терм-множества использовано множество, состоящее из трех значений: очень молодой (ом), пожилой (п) и старый (с), задаваемых функциями принадлежности на области I), которую называют носителем лингвистических значений. В примере область t/ —года жизни от 0 до 154) лет. В качестве семантических правил выступают отображения, задаваемые функциями принадлежности 0<р.а(«)<1 к нечетким множествам Хон, Хп, Хс. Как видно из рис. 2.1, человек, возраст которого равен 60 годам, принадлежит
to to to n s n a
to • aJ-S-5"*»^ a£*
н re •*■ -^ н j-
ecpfiSo^gg-g^sg- fa to'-a S ю чэ *-»!giag§*|! e*3gKag|ggg| R-iO и Sis I Е*з£2 X to to „ то to a Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.014 сек.) |