АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Интернет-поисковые системы

Читайте также:
  1. I. Формирование системы военной психологии в России.
  2. II. Цель и задачи государственной политики в области развития инновационной системы
  3. II. Экономические институты и системы
  4. IV. Механизмы и основные меры реализации государственной политики в области развития инновационной системы
  5. А). Системы разомкнутые, замкнутые и комбинированные.
  6. А. И. Герцен – основатель системы вольной русской прессы в эмиграции. Литературно-публицистическое мастерство
  7. Абиотические компоненты экосистемы.
  8. Абстрактные линейные системы
  9. Автоматизированные системы контроля за исполнением документов
  10. Автоматизированные системы контроля и учета электроэнергии (АСКУЭ).
  11. Автоматизированные системы регистрации
  12. Автоматизированные системы управления (АСУ).

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Технология поиска (англ. Search Technology) означает совокупность правил и процедур, в результате выполнения которых пользователь получает искомый результат. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, т.е. соответствием ответа вопросу (запросу).

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций.

Первая функция реализуется программой-роботом, автоматически просматривающей различные серверы в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. Робот – автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящий к одной из её гиперсвязей.

Они могут:

· обнаруживать связи с уже несуществующими страницами;

· устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах;

· регистрировать веб-страницы для оценки увеличения системы и др.

Чаще всего роботы просматривают серверы самостоятельно, находя новые внешние ссылки в уже обследованных документах.

Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио- и видеофайлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку сочетания ключевых слов. Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), Lycos, Yahoo, Google, OpenText, Wais, WebCrawler и др. Их адреса в Интернете: www.altavista.com; www.yahoo.com, www.gogle.com; www.opentext.com.

К отечественным поисковым машинам относятся: Апорт (Aport АО Агама), Rambler (фирма Stack Ltd.), Яндех (Yandex фирма CompTek Int), Русская машина поиска, Новый русский поиск, и др. Их адреса в Интернете: www.aport.ru; www.rambler.ru; www.yandex.ru; search.interrussia.com; www.openweb.ru соответственно и др.

Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надёжного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют теги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношения к сформированному запросу. Многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется лесной синдром (из-за леса не видно дров), заключающийся в том, что в полученных данных можно пропустить главные, необходимые сведения. Это наглядно проявляется при формировании простых запросов. Простые запросы в виде отдельных достаточно распространённых терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум).

 

 


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.004 сек.)