|
|||||||
АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция |
Запрет индексирования некоторых страниц (файл robots.txt)Иногда лучше, чтобы поисковая машина не индексировала некоторые страницы сайта. Например, не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации нет практического смысла. Таким образом, желательно, чтобы в корневом каталоге вашего сайта был файл robots.txt такого содержания: User-Agent: * Disallow: /cgi-bin/ Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow. Директиву Disallow можно использовать только с одним операндом, т.е. вы не можете написать Disallow /cgi-bin /myforum/forum/.Для запрета индексирования N объектов нужно написать N директив Disallow – по одной на каждый объект. В файле robots.txt пустые строки являются значимыми – они используются для разделения правил для разных роботов. Рассмотрим пример: User-Agent: * Disallow: /cgi-bin/
Disallow: /myforum/forum/ Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Другой пример: User-Agent: * Disallow: /cgi-bin/
User-Agent: yandex Disallow: /myforum/forum/ Здесь индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога / myforum/forum – только для поискового робота Яндекса. В директиве Disallow можете использовать только относительные пути к объекту, т.е. нельзя записать http://server.com/cgi-bin/ или просто server.com/cgi-bin. Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы: User-Agent: * Disallow: / Обратите внимание на то, что вы должны записать именно директиву Disallow: /, а не Disallow *. В последнем случае будет запрещена индексация файлов, имена которых начинаются с символа *, а таких файлов нет. Контролировать поведение робота можно также с помощью МЕТА-тегов в заголовке HTML-документа: o <META NAME="ROBOTS" CONTENT="NOINDEX"> – запрет индексирования документа. o <META NAME="ROBOTS" CONTENT="NOFOLLOW"> – если хотите запретить индексирование всего сайта, нужно вставить этот МЕТА-тег на главную страницу в index.html. Данный тег запрещает поисковому роботу следовать ссылкам с данной страницы. Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования: <NOINDEX> Текст </NOINDEX> Задание 4. Сформируйте файл robots.txt с содержанием, соответствующим концепции вашего сайта. При необходимости более тонкой настройки поведения поискового робота задействуйте МЕТА-теги. Поиск по сайту: |
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.) |