Login Form

Список материалов

Для чего составляют файл robots.txt и каким образом это делают?

Представленный файл является неким посредником между поисковыми роботами и вашим сайтом. Напомним, поисковые роботы на регулярной основе посещают ваш ресурс с целью индексирования обновлений на существующих веб-страницах.

Практически на любом интернет-ресурсе есть страницы, которые вебмастер предпочитает прятать от поисковых роботов. Это обусловлено тем, что на страницах может быть неуникальный контент или же иная информация, видеть которую поисковая система не должна.

Зачем необходим robots.txt

Благодаря этому файлу можно сделать страницы, нежелательные для индексации, невидимыми. Robots.txt позволяет запретить не только индексацию страниц, но и индексацию подразделов и разделов сайта. Главное корректно составить этот файл.

Для корректного составления файла стоит помнить, что он хранится в директории сайта. Создать его можно при помощи двух способов:

- вручную;

- при использовании автоматической генерации.

В представленной статье мы рассмотрим ручное создание файла. В данном процессе нет ничего сложного, необходимо лишь знать об основных директивах, которые используются при создании.

Директива User-agent

Создание файла robots в обязательном порядке начинается с этой директивы. Она является неким приветствием для роботов систем поиска. В файле роботс.txt имеется возможность ограничивать или открывать для индексации странички интернет-ресурсов отдельно для Гугла и Яндекса. Именно эта директива и содержит данные о том, для какого из поисковых роботов предназначена инструкция.

Директивы Allow и Disallow

Директива Disallow ограничивает доступ к страницам, в то время как директива Allow разрешает. Как пример работы этих директив, можно сказать, что роботам Гугла разрешено индексировать абсолютно все страницы сайта в разделе «каталог», но не разрешается индексировать остальные странички ресурса.

То есть, с помощью файла робот.тхт и представленных директив можно скрыть от индексации конкретные директории сайта, но оставив, при этом, отдельные подразделы и разделы.

О самых популярных фишках файла роботс

Новая директива всегда будет новой строкой. Это правило, которого необходимо строго придерживаться.

Для одного бота одной директивы User-agent будет достаточно. Инструкции можно прописывать подряд.

С помощью звездочки * можно поставить запрет на индексацию всего сайта или же всех объектов, которые принадлежат к конкретному разделу или в названии которых есть конкретные слова.

При закрытии определенной директории от индексации важно прописывать символ слеш / как в начале, так и в конце её названия.

При условии, что директива Disallow не содержит инструкций, поисковой робот воспринимает сайт открытым для индексации.

В роботс.тхт ни одна директива для одного робота не должна повторяться.

Директива Sitemap

В файле роботс обязательно должна быть прописана строка с указанием карты сайта. Благодаря карте ресурса робот не пропустит отдельные страницы и индексация сайта ускориться.

Директива Host

Если у основного сайта имеется сайт-зеркало, в файле робот необходимо прописать Host-директиву. Она сориентирует какое зеркало является главным. При создании данной директивы важно помнить, что она должна идти после Allow и Disallow.