|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Виды информационно-поисковых тезаурусовГендина Н.И., Доктор пед. наук, профессор Кафедры ТАОИ КемГУКИ Информационно-поисковые тезаурусы: основные виды И области применения План 1. Виды информационно-поисковых тезаурусов. 2. ИПТ: эволюция взглядов в эпоху Интернет 3. Области применения ИПТ 3.1. Области применения ИПТ в информационной технологии 3.2. ИПТ как лингвистическое средство для решения прикладных задач в различных областях знания и деятельности Список литературы 1. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления. – Взамен ГОСТ 7.25-80; введ. 2002-07-01 / Межгосударственный совет по стандартизации, метрологии и сертификации. – Минск, 2002. – 16 с. МТК 191. 2. ГОСТ 7.24-2007 Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению. – Взамен ГОСТ 7.24-90; введ. 2008-07-01 / Межгосударственный совет по стандартизации, метрологии и сертификации. – М.: Стандартинформ, 2008. – 7 с. (Система стандартов по информации, библиотечному и издательскому делу) 3. Белоозеров, В. Н. Опыт разработки словаря с разветвленной системой тезаурусных связей [Текст] / В. Н. Белоозеров, Ю. П. Косарская // НТИ. Сер.2. Информационные процессы и системы – 2001. – №8. – С. 28 – 31. 4. Большаков, И.А. Многофункциональный словарь-тезаурус для автоматизированной подготовки русских текстов [Текст] / И. А. Большаков // НТИ. Сер.2. Информационные процессы и системы – 1994. – №1 – С. 11 – 23 5. Браславский, П. И. Тезаурус как средство описания систем знаний [Текст] / П. И. Браславский // НТИ. Сер.2. Информационные процессы и системы – 1997. – №11 – С. 16 – 22. 6. Гринев, С. В. Некоторые аспекты тезаурусного представления знаний [Текст] / С. В. Гринев, В. М. Лейчик // НТИ. Сер.2. Информационные процессы и системы – 1993. – №10. – С. 1 – 8. 7. Жмайло, С. В. К вопросу об определении тезауруса [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. – 2003. – №12. – С.20 – 25. 8. Жмайло, С. В. К разработке современных информационно-поисковых тезаурусов [Текст] / С. В. Жмайло // НТИ. Сер. 1 Организация и методика информационной работы. –2004. – №1. – С.23 – 31. 9. Жмайло, С. В. Об исследовании эффективности поиска научно-технической информации в сети Интернет [Текст] / С. В. Жмайло // НТИ. Сер.2. Информационные процессы и системы – 2006. – №7. – С.21 – 27. 10. Лукашевич, Н. В. Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования [Текст] / Н.В. Лукашевич, Б. В. Добров // НТИ. Сер.2. Информационные процессы и системы – 2001. – №4. – С. 21 – 28. 11. Пробст, М. А. Тезаурус и информационный поиск [Текст] / М. А. Пробст // НТИ. Сер. 2. Информационные процессы и системы – 1979. – №9. – С. 14 – 20. 12. Шмелев, А. Г. Практикум по экспериментальной психосемантике (Тезаурус личностных черт) [Текст] / А. Г. Шмелев. – М.: Изд-во МГУ, 1988. – 208 с. 13. Якушев, В. П.. ИПТ отраслевой ИПС (методика и технология построения) [Текст] / В. П. Якушев // НТИ. Сер.2. Информационные процессы и системы – 1977. – №7. – С. 9 – 14.
Виды информационно-поисковых тезаурусов В настоящее время существует значительное число информационно-поисковых тезаурусов, разработанных как у нас в стране, так и за рубежом. В 70-90-ые годы ХХ в. в нашей стране было разработано большое количество ИПТ – свыше 200. В рамках программы кооперации между странами Евросоюза в области научной и технической информации была создана база данных (БД) Thesaurus Guide, содержащая сведения о тезаурусах западноевропейских государств, а также США, Канады, Южной Америки, ЮАР и Австралии. По данным (8, с.23) эта БД содержит сведения о 654 тезаурусах, действовавших в 1985 г. и доступных на одном из официальных языков Европейского сообщества. Несмотря на некоторое снижение интереса к ИПТ в 90-е годы ХХ в., в настоящее время наблюдается активизация исследований и разработок в сфере ИПТ, расширяются области их применения. Поэтому важно знать о том, какие виды отечественных и зарубежных ИПТ существуют. Все многообразие ИПТ можно проанализировать, воспользовавшись такими их параметрами, как широта тематического охвата, назначение в АИС, системность построения, особенности состава лексики и внутриструктурного построения, количество естественных языков, форма представления и знаковая природа информации. В соответствии с выбранными основаниями деления выделяются следующие виды ИПТ: 1.По широте тематического охвата: 1.1. Политематические (многоотраслевые). Примером одного из первых отечественных политематических тезаурусов может служить «Тезаурус научно-технических терминов», подготовленный и изданный в 1972 г. под руководством доктора технических наук Ю. И. Шемакина. Этот ИПТ содержал 19000 терминов по прикладным областям знания и был предназначен для использования в автоматизированных системах управления и обработки информации. В настоящее время крупнейшим русскоязычным политематическим тезаурусом является информационно-поисковый тезаурус по общественно-политической тематике для автоматического индексирования в Университетской информационной системе «РОССИЯ» (УИС «Россия»). Он был разработан в 1995 г. Научно-исследовательским вычислительным центром МГУ им. М. В. Ломоносова (http://www.cir.ru»). Содержит терминологию, используемую в общественно-политической области, включая экономическую, политическую, военную, законодательную, социальную, международные отношения и другие сферы. Тезаурус включает 62 тысячи терминов, более 26 тысяч понятий, отражает около 100 тысяч отношений между понятиями. 1.2. Отраслевые, составляющие наиболее многочисленную группу тезаурусов, например, ИПТ по информатике, подготовленный ВИНИТИ, серия отраслевых ИПТ, разработанных в 80-ые годы Кемеровским ЦНТИ (по технологии машиностроения, сельскому хозяйству, горному делу и др.). Среди масштабных отраслевых ИПТ, разработанных в последние годы, следует назвать информационно-поисковые тезаурусы ИНИОН по философии, экономике и демографии, правоведению, социологии, политологии. 1.3. Узкоотраслевые или проблемные тезаурусы, предназначенные для поиска информации по отдельному внутриотраслевому направлению, например «Тезаурус по минералам», подготовленный ВИНИТИ, «Тезаурус по сталям», изданный кафедрой математической лингвистики ЛГУ, «Тезаурус терминологии гендерных исследований», разработанный А.А.Денисовой (http://www.owl.ru/gender/thesaurus.htm), «Тезаурус по безопасности инженерных систем» др. 2. По назначению различают: 2.1. Базисные (базовые) ИПТ, представляющие собой политематические ИПТ, включающие основные понятия и их взаимосвязи, общие для нескольких тематических (отраслевых) подмассивов. В него включается лексика, обозначающая основные понятия комплекса наук: названия разделов наук, важнейшие научные категории, основные научные направления, понятия обобщенного, собирательного характера, лексика верхних уровней терминологической иерархии, лексико-семантические пересечения отраслевых ИПТ. Базисные ИПТ предназначены для использования в качестве лексико-семантической основы при построении, узкотематических рабочих тезаурусов. Таким образом достигается унификация рабочих тезаурусов и облегчается трудоемкий процесс их построения. Базисные тезаурусы служат для выполнения следующих целей: - для совместного использования с отраслевыми тезаурусами при глубоком индексировании документов и обеспечения достаточно полного покрытия смежной тематики, что позволяет при создании отраслевых тезаурусов несколько сузить их тематический охват, ограничиваясь лишь специфическими для отрасли понятиями; - для самостоятельного использования при индексировании документов непрофильной и межотраслевой тематики; - для осуществления нормативной функции: базисный тезаурус выступает как средство координации всех функционирующих в информационной системе ИПТ. Базисные тезаурусы иногда называют макротезаурусами, подчеркивая тем самым то, что они включают лексические единицы высокой степени общности и покрывающие широкую область знаний. 2.2. Рабочие ИПТ, используемые в реальных АИС. В качестве рабочих тезаурусов могут выступать отраслевые, узкоотраслевые или проблемные ИПТ, построенные на основе базисного тезауруса. Если базисные тезаурусы, выступающие в качестве нормативных пособий, включают только основную лексику той или иной отрасли, совокупности отраслей, и наиболее очевидные парадигматические отношения, то рабочие тезаурусы отличаются большим лексическим богатством и развитой парадигматикой. Следовательно, семантическая сила рабочих ИПТ должна превосходить семантическую силу базисных тезаурусов. Особенностью рабочих тезаурусов является большое количество прагматических решений, имеющих силу только в рамках данной внутриотраслевой тематики. Рабочие ИПТ в специальной литературе фигурируют также под именем «микротезаурусы», что отражает как их небольшой объем, так и то, что они составляются на основе развития выборки из более общего ИПТ и дополнительно включают конкретные узкие понятия определенной области знания. 3. По системности построения различают: 3.1. Комплексы ИПТ. Комплекс ИПТ – это система тезаурусов по одной или нескольким отраслям знания, создаваемая в одной организации по единой методике. Можно выделить комплексы тезаурусов, подготовленных всесоюзными органами информации, такими, как ВИНИТИ, ВНТИЦентр, ИНИОН. Комплексы ИПТ разрабатывались в советский период также и центральными отраслевыми органами информации: ЦНИИТЭИПриборостроения, ЦНИИ «Румб», ЦНИИТЭИ «Союзсельхозтехника», ЦНИИТЭИЧермет, ЦНИИТЭИПищепром и др. Вели разработку комплексов ИПТ и территориальные информационные центры. Например, в 80-е годы ХХ в. был разработан комплекс тезаурусов Кемеровского межотраслевого ЦНТИ. Он включал ИПТ по одиннадцати отраслям народного хозяйства: горное дело, технология машиностроения, сельское хозяйство, черная металлургия, общие вопросы химической технологии, электротехника, лесное хозяйство, молочная промышленность, швейная, хлебопекарная промышленность. В постсоветский период в ИНИОН была осуществлена разработка серии тезаурусов по социальным и гуманитарным наукам: «Экономика и демография», «Философия», «Правоведение», «Социология», «Политология», «Гендерные исследования», «Тезаурус по религиоведению». Среди зарубежных разработок следует назвать комплекс тезаурусов Фонда Гетти (США). Основателем фонда и самого крупного художественного музея в Калифорнии – музея Гетти (J. Paul Getty Museum) является американский нефтяной магнат, миллиардер Дж. Пол Гетти (1892—1976 гг.). Оставленное им на нужды музея и фонда многомиллиардное состояние сделало музей Гетти самым состоятельным приобретателем произведений «старых мастеров» и античной скульптуры на самых престижных мировых аукционах, а также позволило Фонду и Гетти финансировать создание комплекса лингвистических средств, в состав которых входят следующие словари-тезаурусы: - тезаурус по искусству и архитектуре (The Art and Architecture Thesaurus - AAT). В настоящее время тезаурус AAT содержит около 30 тысяч дескрипторов и более 130 тысяч англоязычных терминов. Терминология тезауруса охватывает искусство, архитектуру, декоративное искусство, материальную культуру, архивные материалы с античности до наших дней (http://www.getty.edu/research/conducting_research/vocabularies/aa); - словарь имен авторов (The Union List of Artist Names - ULAN), включающий 375000 имен, биографическую и библиографическую информацию о художниках и архитекторах, содержащий варианты имен, псевдонимов и вариантов написания имен на разных языках (http://www.getty.edu/research/conducting_research/vocabularies/ulan/); - тезаурус географических названий (The Getty Thesaurus of Geographic Names - TGN), включающий около 1115000 названий, типов местностей, координат, описательных заметок, фокусирующихся на местах, важных для изучения искусства и архитектуры (http://www.getty.edu/research/conducting_research/vocabularies/tgn/). 3.2.Отдельные ИПТ. Они отражают единичные попытки информационных служб и организаций, а также частных лиц создать ИПТ отраслевого или проблемного характера. Примерами таких ИПТ могут служить «Тезаурус по теоретической и прикладной лингвистике», разработанный С.Е. Никитиной, «Тезаурус терминологии гендерных исследований», созданный А.А.Денисовой и др. 4. По особенностям состава лексики и внутриструктурного построения ИПТ: 4.1.ИПТ, включающие в свой состав в качестве лексических единиц как дескрипторы, так и аскрипторы. 4.2. ИПТ, включающие в свой состав в качестве лексических единиц только дескрипторы. 4.3. Фасетизированные ИПТ - ИПТ, созданные на базе фасетного анализа лексики. Использование идей Ш. Ранганатана применительно к задачам оптимизации структуры ИПТ плодотворно использовалось школой ленинградских исследователей под руководством профессора А. В. Соколова, предложившего фасетно-блочный метод построения тезаурусов. Реализация данного метода была осуществлена в 80-е годы ХХ в. в комплексе ИПТ, созданных в научно-исследовательском секторе ЛГИК им. Н. К. Крупской. К ним относятся ИПТ по культурному строительству, библиотечному делу и библиографии, культурно-просветительной работе, музейному делу; тезаурус по целлюлозно-бумажной промышленности для АСНТИ «Папирус», ИПТ «Судоходство», «Морские порты» и др. Фасетный принцип использовался также при создании нефтегазового ИПТ, описанного в (13). В этом отраслевом тезаурусе терминология по нефти и газу была сгруппирована по пяти фасетам: «Вещества», «Объекты», «Процесс», «Характеристики», «Идентификаторы (Имена собственные)» Фасетный принцип построения был использован при разработке Тезауруса по архитектуре и искусству – The Art and Architecture Thesaurus (AAT), развиваемого фондом П. Гетти для описания предметов материальной культуры. Дескрипторы тезауруса (около 30 тысяч) подразделяются на 7 фасетов: Ассоциированные понятия, физические свойства, Стили и периоды, Агенты (люди и организации), Деятельность, материалы, объекты, Реализация фасетно-блочного принципа построения ИПТ направлена на решение проблемы совместимости тезаурусов как внутри одной отрасли, так и в родственных отраслях, давая возможность обмениваться как отдельными лексическими единицами, так и их блоками, вплоть до объединения ИПТ в сводный тезаурус. 5. По количеству естественных языков, перевод с которых на дескрипторный ИПЯ обеспечивает ИПТ: 5.1. Одноязычные ИПТ. Как следует из их названия, такие ИПТ отражают лексику только на одном из естественных языков: либо русском, либо английском, испанском и т.д.. Разработка отечественных одноязычных ИПТ регламентируется ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 5.2. Многоязычные ИПТ. Они содержат лексические единицы, взятые из нескольких естественных языков и представляющие эквивалентные по смыслу понятия на каждом из этих языков. Их основное назначение – обеспечение языковой совместимости национальных информационных систем в рамках международного информационного сотрудничества. Представление многоязычных ИПТ должно соответствовать требованиям оформления, установленным ГОСТ 7.24-2007 «Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению». Примером многоязычного ИПТ может служить трехязычный «Тезаурус по социальным наукам», разработанный в результате совместного проекта Информационного центра по социальным наукам в Бонне (Германия) и Института научной информации по общественным наукам (ИНИОН РАН) в России. Целью проекта было преодоление языкового барьера при поиске информации в немецких и русских банках данных. Тезаурус отражает широкий диапазон политематической терминологии (социология, политическая наука, социальная психология, экономика и право, этнология, социальная история, демография и др.) на немецком, английском и русском языках . Необходимость разработки и использования многоязычных ИПТ обусловлена следующими факторами: - увеличением числа иноязычных документов в АИС. В этом случае создание многоязычных ИПТ обеспечивает их поиск без предварительного перевода; -изменением состава потребителей, при котором в АИС начинают поступать иноязычные запросы; - международным кооперированием двух или нескольких национальных информационных центров разных стран. В этом случае наличии единого многоязычного тезауруса обеспечивает возможность индексирования документов по одной тематике; - созданием международных центров обмена информацией. Следует отметить, что создание многоязычных ИПТ чаще всего связано с деятельностью международных организаций. Например: - Тезаурус ООН или – тезаурус ЮНБИС (UNBIS Thesaurus) – содержит терминологию на всех официальных языках Организации Объединенных Наций (арабском, китайском, английском, французском, русском и испанском), используемую в качестве дескрипторов при анализе и поиске документов ООН. Тезаурус отражает широкий круг вопросов, которыми занимается ООН и предназначен для точного и, четкого обозначения объектов поиска информации с учетом специфики предмета; - тезаурус ЮНЕСКО по образованию (UNESCO: IBE education thesaurus), содержащий термины на английском, французском и испанском языках; -тезаурус Европейского Сообщества – тезаурус EUROVOC, содержащий лексику на девяти языках; - сельскохозяйственный тезаурус AGROVOC, разработанный международной Продовольственной и сельскохозяйственной организацией ООН – ФАО (от англ. Food and Agriculture Organization, FAO) и Европейским сообществом ЕС, содержит лексику на английском, французском и испанском языках. Он доступен пользователю в FAO, варианты на других языках (чешский, немецкий, итальянский и португальский) существуют в соответствующих центрах AGRIS (Agricultural Research Information System - Международная информационная система по сельскому хозяйству и смежным с ним отраслям). - Тезаурус Организации сотрудничества железных дорог – «Информационно-поисковый тезаурус «Транспорт»», отражающий терминологию на русском, немецком и китайском языках. Таким образом, многоязычные ИПЯ являются средствами преодоления языкового барьера и обеспечивают возможность кооперации информационных центров и АИС различных стран. 6. По форме представления: 6.1. ИПТ в печатном виде. Представление ИПТ в печатном виде должно соответствовать требованиям оформления, установленным ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». 6.2. ИПТ на машиночитаемых носителях, представленные на микрофишах, компакт-дисках, в форме электронных сетевых версий и др.. При представлении ИПТ на машиночитаемых носителях формат записи должен соответствовать ГОСТ Р 7.0.47-2008. (ИУС 5-2008) «Формат для представления на машиночитаемых носителях словарей информационных языков и терминологических данных. Содержание записи». Представление ИПТ на видеотерминалах должно соответствовать основным требованиям оформления, установленным ГОСТ 7.25-2001 «Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления». Наибольшее распространение нашли ИПТ, реализованные одновременно как на традиционных, так и на машиночитаемых носителях информации Следует подчеркнуть, что компьютерная реализация ИПТ повлекла за собой не только изменение формы их представления. Она обеспечила оперативность, а также удобство навигации и поиска информации. Так, например, гипертекстовая технология реализации тезауруса позволяет легко и быстро «передвигаться» по ИПТ, переходя от термина к его синониму, вышестоящим, нижестоящим и ассоциативным понятиям. Использование средств мультимедиа позволяет отражать в тезаурусе не только словесную (вербальную), но и звуковую и видеоинформацию (формульную, графическую, иллюстративную и др.), расширяя тем самым возможности ИПТ. 7. По знаковой природе информации 7.1. Текстовые ИПТ - ИПТ, большую часть объема которых занимает словесный текст. Это наиболее распространенная и многочисленная группа тезаурусов. 7.2. Визуальные ИПТ- ИПТ, значительную часть которых занимают изображения (формулы, карты, схемы, чертежи, диаграммы, пиктограммы, иллюстрации и т.п.). Разработка таких тезаурусов находится в стадии становления. Особо перспективны они для использования в АИС, в которых визуальная информация является семантически не менее (а иногда - и более) важной, чем вербальные, словесные компоненты документов. Наиболее яркими примерами являются АИС в области химии, где требуется вести поиск по структурам химических соединений и структурным формулам, в геоинформационных системах, требующих поиска картографической информации. Особую актуальность создание визуальных ИПТ приобретает в сфере лингвистического обеспечения музейных АИС для описания музейных коллекций. 7.3. Смешанные ИПТ, сочетающие текст и изображение. В обобщенном виде основные виды ИПТ отражает табл.1. Таблица 1. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.008 сек.) |