АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомДругоеЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Запрет индексирования некоторых страниц (файл robots.txt)

Читайте также:
  1. I. Перевести текст. 1 страница
  2. I. Перевести текст. 10 страница
  3. I. Перевести текст. 11 страница
  4. I. Перевести текст. 2 страница
  5. I. Перевести текст. 3 страница
  6. I. Перевести текст. 4 страница
  7. I. Перевести текст. 5 страница
  8. I. Перевести текст. 6 страница
  9. I. Перевести текст. 7 страница
  10. I. Перевести текст. 8 страница
  11. I. Перевести текст. 9 страница
  12. Il pea.M em u ifJy uK/uu 1 страница

Иногда лучше, чтобы поисковая машина не индексировала некоторые стра­ницы сайта. Например, не обязательно индексировать форумы, доски объявлений, каталоги cgi-bin, поскольку в индексировании этой информации нет практического смысла.

Таким образом, желательно, чтобы в корневом каталоге вашего сайта был файл robots.txt такого содержания:

User-Agent: *

Disallow: /cgi-bin/

Обратите внимание на то, что директива User-Agent: * обязательна и должна предшествовать директивам Disallow.

Директиву Disallow можно использовать только с одним операн­дом, т.е. вы не можете написать Disallow /cgi-bin /myforum/forum/.Для запрета индексирования N объектов нужно на­писать N директив Disallow – по одной на каждый объект.

В файле robots.txt пустые строки являются значимыми – они используются для разделения правил для разных роботов. Рассмотрим пример:

User-Agent: *

Disallow: /cgi-bin/

 

Disallow: /myforum/forum/

Первая директива Disallow применяется для всех роботов (*), а вторая вообще не будет применяться, поскольку она написана через пустую строку и перед ней нет директивы User-Agent, задающей имя робота. Другой пример:

User-Agent: *

Disallow: /cgi-bin/

 

User-Agent: yandex

Disallow: /myforum/forum/

Здесь индексирование каталога /cgi-bin/ запрещено для всех роботов, а каталога / myforum/forum – только для поискового робота Яндекса.

В директиве Disallow можете использовать только относитель­ные пути к объекту, т.е. нельзя записать http://server.com/cgi-bin/ или просто server.com/cgi-bin.

Предположим, вам нужно запретить индексирование всего сайта. Для этого используются такие директивы:

User-Agent: *

Disallow: /

Обратите внимание на то, что вы должны записать именно директиву Disal­low: /, а не Disallow *. В последнем случае будет запрещена индексация фай­лов, имена которых начинаются с символа *, а таких файлов нет.

Контролировать поведение робота можно также с помощью МЕТА-тегов в заголовке HTML-документа:

o <META NAME="ROBOTS" CONTENT="NOINDEX"> – запрет индексирования доку­мента.

o <META NAME="ROBOTS" CONTENT="NOFOLLOW"> – если хотите запретить индек­сирование всего сайта, нужно вставить этот МЕТА-тег на главную страницу в index.html. Данный тег запрещает поисковому роботу следо­вать ссылкам с данной страницы.

Возможно, вы не хотите, чтобы индексировалась определенная часть текста на странице. Для этого в код страницы нужно вставить тег <NOINDEX>, в который нужно заключить текст, запрещенный для индексирования:

<NOINDEX>

Текст

</NOINDEX>

Задание 4. Сформируйте файл robots.txt с содержанием, соответствующим концепции вашего сайта. При необходимости более тонкой настройки поведения поискового робота задействуйте МЕТА-теги.


1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |

Поиск по сайту:



Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Студалл.Орг (0.003 сек.)