Главная Новости и статьи Создание веб-сайта Robots.txt: общее понятие, директивы, синтаксис

Robots.txt: общее понятие, директивы, синтаксис

Само понятие раскрутки и продвижение сайта являет собой комплексную работу, которая касается всех элементов разработки: это и создание контента с высоким уровнем уникальности (как его проверить, можно почитать в одной из наших статей), составление правильного семантического ядра, регистрация в директориях поисковых систем, - все это и многое другое есть составляющими залога успеха существования вашего сайта в сети.

Создавая сайт, мы создаем полноценный продукт со своей душой и телом, поэтому им как-то надо управлять и показать другим, что стоит, а чего не стоит делать с нашим проектом. В данный момент под "другими" мы подразумеваем роботов поисковых систем, которые периодично "заходят к нам в гости". Для того, чтобы они знали куда идти, мы создаем файл sitemap.xml, который представляет собой полную карту сайта, т.е. всю структуру. Но есть одно большое НО… не все, что есть в проекте, должно выставляться напоказ, тем более поисковым роботам. Для этого существует robots.txt – файл, без которого можно обойтись, но лучше не стоит, ведь если не прописать поисковикам правила поведения на сайте, то проиндексируется такое количество незначимых по содержанию страниц, которые могут принести кучу проблем создателю ресурса. Например, дублированный контент, который является одной из первостепенных проблем после индексирования нежелательных страниц совсем не приветствуется роботами, поскольку у одного содержания может быть несколько ссылок, которые путают как поисковиков, так и посетителей сайта.

Именно в таких случаях помогает создание robots.txt. Обратите внимание, все буквы прописаны в нижнем регистре и во множественном числе, т.е. никаких Robot.txt, ROBOTS, robots.TXT быть не может. Сам по себе файл, который напрямую указывает системам поиска какие страницы вашего сайта индексировать, является обычным текстовым файлом, который можно создать в любом текстовом редакторе. Созданный файл необходимо внести в корневую папку вашего ресурса, где его будет искать поисковый робот. Если вы хотите посмотреть, как выглядит такой тип файла, достаточно ввести к URL любого сайта /robots.txt.

Коротко о синтаксисе и директивах в robots.txt

Синтаксис robots.txt совсем несложный, потому как имеет небольшое количество директив:

Схематически, структура директивы в файле имеет такую форму <директива>:<пробел><значение><пробел>.

User-agent: всегда стоит первый. Для этой директивы мы указываем бота, необходимого нам для индексации страниц. Ниже представлено несколько названий самых распространённых роботов на територии Восточной Европы:

Google http://www.google.com Googlebot
Яндекс http://www.yandex.ua Yandex
Рамблер http://www.rambler.ru StackRambler
Mail.ru http://www.mail.ru Mail.Ru
Yahoo! http://www.yahoo.com Slurp
Alexa http://www.alexa.com ia_archiver

У некоторых крупных поисковых систем есть отдельные вспомогательные боты, которые отвечают за анализ новостей, изображений и т.п.

Если вы хотите, чтобы правила, указанные в robots.txt, касались всех поисковых роботов, поставьте вместо имени знак "*".

Следующей обязательной директивой является Disallow:. Если в поле значения прописать знак «/» - для робота это будет означать, что путь к ресурсу запрещен полностью.  Если нам необходимо закрыть один определенный каталог, пишем в поле значения следующее: Disallow: /article/.

Символ "*" в директории Disallow обозначает любую последовательность и число символов. В случае необходимости спрятать файлы с определенным расширением, в поле значения прописываем Disallow: *.html.

Все остальные директивы не являются обязательными, но могут помочь в более подробной структуризации самого файла robots.txt и облегчит работу поисковым роботам.

Альтернатива в лице мета-тега robots

Людям, которым не по душе создавать отдельный файл, что впоследствии надо еще и заливать в корневой каталог, можно предложить другой вариант индексации отдельных страниц, а говорим мы о мета-теге robots. Главным предназначением данного тега есть работа с дублированным контентом, а точнее с его истреблением. Чтобы использовать robots, необходимо в теге head определенной страницы (да, для каждой отдельно) дописать наш мета-тег с необходимыми параметрами, которых есть только два – noindex и nofollow (более подробно про них можно почитать в другой, посвященной этой теме статье).

Подводя итоги можно сказать, что файл robots.txt имеет более глобальную задачу по запрету целых директорий сайта. В то же время, иногда проще воспользоваться мета-тегом robots, если в приоритете стоит задача скрыть от индексации какой-то один элемент.