АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

ИПТ: эволюция взглядов в эпоху Интернет

Читайте также:
  1. II. Учебники, учебные пособия, монографии, статьи в журналах, Интернет-источники
  2. PR и маркетинг: эволюция развития конфликта
  3. WWW и Интернет. Основные сведения об интернете. Сервисы интернета.
  4. Бергсон А. «Творческая эволюция»
  5. Билет№14 Эволюция лирического героя в поэзии Маяковского
  6. Биосфера эволюциясы
  7. В эпоху великих загонщиков
  8. В) Интернет-ресурсы
  9. В) программное обеспечение и интернет-ресурсы
  10. В3.Систематика, эволюция растений, животных
  11. ВЗГЛЯДОВ В ПРАКТИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ ВРАЧА
  12. Визуальное развитие в ледниковую эпоху

В течение более тридцати лет – с 1960-х по 1980-е гг. одним из основных способов поиска в информационно-поисковых системах был поиск с использованием ИПТ. К достоинствам использования тезаурусов при индексировании и поиске документов по праву были отнесены возможности уточнения запроса пользователем и автоматического расширения запроса на основе тезаурусных связей.

Однако стремительное внедрение информационно-коммуникационных технологий, массовый переход к персональным компьютерам, появление полнотекстовых баз данных и развитие сети Интернет, смена поколения разработчиков АИС, как ни парадоксально, негативным образом сказалось на использовании ИПТ (3, 11). Оно привело к ситуации, когда использование тезаурусов в информационных системах стало скорее ис­ключением, чем правилом. Причиной этому явились следующие ошибочные, не оправдавшие себя на практике представления:

1) быстродействие и значительные объемы памяти современных компьютеров позволят обеспечить приемлемое качество информационного поиска за счет использования естественного языка (ключевых слов), следовательно, можно отказаться от ИПТ, т.е. обойтись без ИПЯ с контролируемой лексикой.

2) Разработка и ведение ИПТ в эпоху Интернета и полнотекстовых баз данных является излишним, дорогостоящим и не оправдывающим себя процессом с точки зрения эффективности информационного поиска.

На основании этого делался ложный вывод о том, что совершенствование работы современных АИС можно обеспечить за счет мощи и быстродействия компьютеров, не прибегая к разработке лингвистических средств, включая ИПТ.

Практика современного информационного поиска полностью опровергла эти неверные суждения, разрушила иллюзорные представления о том, что развитие информационно-коммуникационных технологий и сети Интернет обеспечит простое и легкое разыскание нужной информации исключительно за счет быстродействия поисковых машин. Несмотря на то, что в распоряжении современного пользователя полнотекстовых информационных систем имеются многомиллионные массивы документов, результаты поиска информации зачастую неудовлетворительны. Теоретически это было предсказано информационной наукой довольно давно. Еще в 60-е годы ХХ в. было показало, что когда в ИПС достигнуто оптимальное соотношение полноты и точности поиска, то дальнейшее увеличение полноты возможно только за счет уменьшения точности и наоборот

Как отмечают многие исследователи, точность словарного информационного поиска в Интернете составляет в среднем всего лишь 10%, причем ни одна из известных поисковых машин не обеспечивает полноту поиска. Оказалось, что и в классификационных системах (Yahoo!), и в поисковых машинах словарного ти­па (AltaVista) поиск научно-технической информа­ции в ресурсах Интернет по ключевым словам, да­же с применением встроенных рубрикаторов, без выявления и использования парадигматических (иерархических и синонимических) отношений между терминами дает в 3,3 раза меньше пертинентных результатов, чем информационный поиск в тех же ресурсах с использованием парадигматических отношений (7).

Выводы российских исследователей согласуются с данными зарубежных специалистов. Еще в 2000 г. World Wide Web насчитывала около 1,2 млрд. вебстраниц, причем, ежегодно это число удваивается. В этих условиях объем выдач на запрос в Интернет подчас составляет 10-20 тыс. документов, из которых реально пользователь просматривает только три-четыре эшелона. При этом современные средства поиска не обеспечивают ни его приемлемой точности, ни полноты. Следует подчеркнуть, что при поиске в базах данных объемом в миллионы документов именно проблема точности выходит на первый план.

Таким образом, рост объема баз данных, громадная выдача в ответ на запрос в Интернете явно показывают, что главной информационной проблемой XXI века становится улучшение точности поиска. Современные методы автоматического индексирования приводят к потере значительного количества релевантных документов. Устранение неоднозначности терминов для того, чтобы сделать более точными их значения – это наиболее эффективный способ оптимизации информационного поиска. Как известно, основная масса пользователей формулирует свои запросы слишком широко, поэтому не получает высокорелевантной выдачи. Вот почему использование тезауруса как части информационно-поисковой системы получает все большую актуальность.

Проведенные эксперименты при поиске в Интернет свидетельствуют, что применение ИПТ, обеспечивающих использование парадигматических (иерархических и синонимических) отношений между лексическими единицами при формулировании поискового предписания позволило увеличить точность информационного поиска в 3,3 раза (9).

Таким образом, следует согласиться с выводом о том, что «идея употребления «естественного языка» в качестве поискового средства является обманом со стороны разработчика системы и наивной иллюзией со стороны ее пользователя» (8, с.26). Проблему точности информационного поиска может решить только тезаурус. Следовательно, целесообразно не противопоставлять, а развивать идеи ИПТ, используя для этого возросшие возможности современной компьютерной техники и ИКТ. Необходимо рассматривать ИПТ как лингвистическое средство, которое может повысить и полноту, и точность поиска в условиях Интернет.

Изменение состава, структуры и функций ИПТ в эпоху Интернет Развитие ИКТ и Интернета обусловило ряд новых особенностей, отличающих современные ИПТ от ИПТ «доинтернетовской» эпохи. Традиционные ИПТ разрабатывались для ручного индексирования человеком-индексатором, а объем потоков информации в настоящее время значительно превосходит возможности индексаторов по их тематической обработке.

Состав лексики и характер парадигматических отношений в современных автоматизированных тезаурусах, по сравнению с тезаурусами, разработанными для ручного индексирования, характеризуются следующими отличительными чертам (11):

- расширяется и детализируется система понятий, необходимых для описания предметной области, в силу того, что индексирование и поиск документов осуществляется без участия человека с его знаниями и представлениями. В частности, синонимические ряды понятий должны быть значительно богаче, чем совокуп­ности вариантов дескриптора в тезаурусе для ручного индексирования, поскольку синонимы опи­сывают различные способы выражения данного понятия в тексте. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Особое место отводится многословным синонимам. В тезаурусах для ручного индексирования большинство таких вариантов рассматривались как избыточные, поскольку индексаторы могли узнать такие синонимы в тексте благодаря сво­им знаниям языка.

- конкретизируются и детализируются система парадигматических отношений между дескрипторами.

Изменяется и структура современного тезауруса: в нем могут не выделяться дескрипторы, и все лексические единицы ИПТ считаются де­скрипторами. Это новое качество информационно-поисковых тезаурусов нашло отражение в ГОСТ 7.25.2001: «По своему построению ИПТ подразделяются на два типа:

— тезаурусы, выделяющие из своих лексических единиц дескрипторы.

— тезаурусы, все лексические единицы которых являются дескрипторами» (1, п. 4.1).

ИПТ может способствовать увеличению точности информационного поиска в Интернет ввиду своей особой функции – быть пособием, которое бы помогало ищущему информацию находить пра­вильные дескрипторы для выражения его инфор­мационной потребности (8). В современ­ной ситуации именно точное выражение информа­ционной потребности, наряду с точным отнесением документа к той или иной директории базы данных с помощью тезауруса, могут послужить основой по­вышения точности информационного поиска.


1 | 2 | 3 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.005 сек.)