Авто Автоматизация Архитектура Астрономия Аудит Биология Бухгалтерия Военное дело Генетика География Геология Государство Дом Другое Журналистика и СМИ Изобретательство Иностранные языки Информатика Искусство История Компьютеры Кулинария Культура Лексикология Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлы и Сварка Механика Музыка Население Образование Охрана безопасности жизни Охрана Труда Педагогика Политика Право Приборостроение Программирование Производство Промышленность Психология Радио Регилия Связь Социология Спорт Стандартизация Строительство Технологии Торговля Туризм Физика Физиология Философия Финансы Химия Хозяйство Ценнообразование Черчение Экология Эконометрика Экономика Электроника Юриспунденкция

Запрет индексирования некоторых страниц (файл robots.txt)

Читайте также:

Иногда лучше, чтобы поисковая машина не индексировала некоторые страницы сайта. Например, не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации нет практического смысла.

Таким образом, желательно, чтобы в корневом каталоге вашего сайта был файл robots.txt такого содержания:

User-Agent: *

Disallow: /cgi-bin/

Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow.

Директиву Disallow можно использовать только с одним операндом, т.е. вы не можете написать Disallow /cgi-bin /myforum/forum/.Для запрета индексирования N объектов нужно написать N директив Disallow – по одной на каждый объект.

В файле robots.txt пустые строки являются значимыми – они используются для разделения правил для разных роботов. Рассмотрим пример:

User-Agent: *

Disallow: /cgi-bin/

Disallow: /myforum/forum/

Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Другой пример:

User-Agent: *

Disallow: /cgi-bin/

User-Agent: yandex

Disallow: /myforum/forum/

Здесь индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога / myforum/forum – только для поискового робота Яндекса.

В директиве Disallow можете использовать только относительные пути к объекту, т.е. нельзя записать http://server.com/cgi-bin/ или просто server.com/cgi-bin.

Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы:

User-Agent: *

Disallow: /

Обратите внимание на то, что вы должны записать именно директиву Disallow: /, а не Disallow *. В последнем случае будет запрещена индексация файлов, имена которых начинаются с символа *, а таких файлов нет.

Контролировать поведение робота можно также с помощью МЕТА-тегов в заголовке HTML-документа:

o <META NAME="ROBOTS" CONTENT="NOINDEX"> – запрет индексирования документа.

o <META NAME="ROBOTS" CONTENT="NOFOLLOW"> – если хотите запретить индексирование всего сайта, нужно вставить этот МЕТА-тег на главную страницу в index.html. Данный тег запрещает поисковому роботу следовать ссылкам с данной страницы.

Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования:

Текст

</NOINDEX>

Задание 4. Сформируйте файл robots.txt с содержанием, соответствующим концепции вашего сайта. При необходимости более тонкой настройки поведения поискового робота задействуйте МЕТА-теги.

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |

Поиск по сайту:

Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (6.14 сек.)

Главная | О проекте | Полезные cсылки | Контакты | Случайная страница