|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
ИПТ: эволюция взглядов в эпоху ИнтернетВ течение более тридцати лет – с 1960-х по 1980-е гг. одним из основных способов поиска в информационно-поисковых системах был поиск с использованием ИПТ. К достоинствам использования тезаурусов при индексировании и поиске документов по праву были отнесены возможности уточнения запроса пользователем и автоматического расширения запроса на основе тезаурусных связей. Однако стремительное внедрение информационно-коммуникационных технологий, массовый переход к персональным компьютерам, появление полнотекстовых баз данных и развитие сети Интернет, смена поколения разработчиков АИС, как ни парадоксально, негативным образом сказалось на использовании ИПТ (3, 11). Оно привело к ситуации, когда использование тезаурусов в информационных системах стало скорее исключением, чем правилом. Причиной этому явились следующие ошибочные, не оправдавшие себя на практике представления: 1) быстродействие и значительные объемы памяти современных компьютеров позволят обеспечить приемлемое качество информационного поиска за счет использования естественного языка (ключевых слов), следовательно, можно отказаться от ИПТ, т.е. обойтись без ИПЯ с контролируемой лексикой. 2) Разработка и ведение ИПТ в эпоху Интернета и полнотекстовых баз данных является излишним, дорогостоящим и не оправдывающим себя процессом с точки зрения эффективности информационного поиска. На основании этого делался ложный вывод о том, что совершенствование работы современных АИС можно обеспечить за счет мощи и быстродействия компьютеров, не прибегая к разработке лингвистических средств, включая ИПТ. Практика современного информационного поиска полностью опровергла эти неверные суждения, разрушила иллюзорные представления о том, что развитие информационно-коммуникационных технологий и сети Интернет обеспечит простое и легкое разыскание нужной информации исключительно за счет быстродействия поисковых машин. Несмотря на то, что в распоряжении современного пользователя полнотекстовых информационных систем имеются многомиллионные массивы документов, результаты поиска информации зачастую неудовлетворительны. Теоретически это было предсказано информационной наукой довольно давно. Еще в 60-е годы ХХ в. было показало, что когда в ИПС достигнуто оптимальное соотношение полноты и точности поиска, то дальнейшее увеличение полноты возможно только за счет уменьшения точности и наоборот Как отмечают многие исследователи, точность словарного информационного поиска в Интернете составляет в среднем всего лишь 10%, причем ни одна из известных поисковых машин не обеспечивает полноту поиска. Оказалось, что и в классификационных системах (Yahoo!), и в поисковых машинах словарного типа (AltaVista) поиск научно-технической информации в ресурсах Интернет по ключевым словам, даже с применением встроенных рубрикаторов, без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск в тех же ресурсах с использованием парадигматических отношений (7). Выводы российских исследователей согласуются с данными зарубежных специалистов. Еще в 2000 г. World Wide Web насчитывала около 1,2 млрд. вебстраниц, причем, ежегодно это число удваивается. В этих условиях объем выдач на запрос в Интернет подчас составляет 10-20 тыс. документов, из которых реально пользователь просматривает только три-четыре эшелона. При этом современные средства поиска не обеспечивают ни его приемлемой точности, ни полноты. Следует подчеркнуть, что при поиске в базах данных объемом в миллионы документов именно проблема точности выходит на первый план. Таким образом, рост объема баз данных, громадная выдача в ответ на запрос в Интернете явно показывают, что главной информационной проблемой XXI века становится улучшение точности поиска. Современные методы автоматического индексирования приводят к потере значительного количества релевантных документов. Устранение неоднозначности терминов для того, чтобы сделать более точными их значения – это наиболее эффективный способ оптимизации информационного поиска. Как известно, основная масса пользователей формулирует свои запросы слишком широко, поэтому не получает высокорелевантной выдачи. Вот почему использование тезауруса как части информационно-поисковой системы получает все большую актуальность. Проведенные эксперименты при поиске в Интернет свидетельствуют, что применение ИПТ, обеспечивающих использование парадигматических (иерархических и синонимических) отношений между лексическими единицами при формулировании поискового предписания позволило увеличить точность информационного поиска в 3,3 раза (9). Таким образом, следует согласиться с выводом о том, что «идея употребления «естественного языка» в качестве поискового средства является обманом со стороны разработчика системы и наивной иллюзией со стороны ее пользователя» (8, с.26). Проблему точности информационного поиска может решить только тезаурус. Следовательно, целесообразно не противопоставлять, а развивать идеи ИПТ, используя для этого возросшие возможности современной компьютерной техники и ИКТ. Необходимо рассматривать ИПТ как лингвистическое средство, которое может повысить и полноту, и точность поиска в условиях Интернет. Изменение состава, структуры и функций ИПТ в эпоху Интернет Развитие ИКТ и Интернета обусловило ряд новых особенностей, отличающих современные ИПТ от ИПТ «доинтернетовской» эпохи. Традиционные ИПТ разрабатывались для ручного индексирования человеком-индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке. Состав лексики и характер парадигматических отношений в современных автоматизированных тезаурусах, по сравнению с тезаурусами, разработанными для ручного индексирования, характеризуются следующими отличительными чертам (11): - расширяется и детализируется система понятий, необходимых для описания предметной области, в силу того, что индексирование и поиск документов осуществляется без участия человека с его знаниями и представлениями. В частности, синонимические ряды понятий должны быть значительно богаче, чем совокупности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы описывают различные способы выражения данного понятия в тексте. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Особое место отводится многословным синонимам. В тезаурусах для ручного индексирования большинство таких вариантов рассматривались как избыточные, поскольку индексаторы могли узнать такие синонимы в тексте благодаря своим знаниям языка. - конкретизируются и детализируются система парадигматических отношений между дескрипторами. Изменяется и структура современного тезауруса: в нем могут не выделяться дескрипторы, и все лексические единицы ИПТ считаются дескрипторами. Это новое качество информационно-поисковых тезаурусов нашло отражение в ГОСТ 7.25.2001: «По своему построению ИПТ подразделяются на два типа: — тезаурусы, выделяющие из своих лексических единиц дескрипторы. — тезаурусы, все лексические единицы которых являются дескрипторами» (1, п. 4.1). ИПТ может способствовать увеличению точности информационного поиска в Интернет ввиду своей особой функции – быть пособием, которое бы помогало ищущему информацию находить правильные дескрипторы для выражения его информационной потребности (8). В современной ситуации именно точное выражение информационной потребности, наряду с точным отнесением документа к той или иной директории базы данных с помощью тезауруса, могут послужить основой повышения точности информационного поиска. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |