Поисковые роботы помогают сайту попасть в результаты поисковой выдачи и получить трафик. Однако бывают ситуации, в которых нужно скрыть часть веб-ресурса от поисковых систем, чтобы не попасть под их фильтры или не раскрыть конфиденциальную информацию всему Интернету. Вебмастеру в этом помогает файл robots.txt, который как штурман направляет краулеров и заставляет их обходить запретные веб-страницы. В статье рассказываем о том, что такое robots.txt, в чем его назначение, как его составлять и какие инструменты пригодятся для работы с ним.
Что такое robots.txt
Robots.txt — системный файл, который содержит рекомендации для поисковых роботов по оцениванию веб-страниц сайта. В него записываются страницы, которые не нужно оценивать и добавлять в базы данных поисковых систем. Он хранится в корне сайта.
Для чего необходим этот файл
Поисковым системам нужны страницы только с уникальным и полезным для пользователей контентом. Однако не все части сайта отвечают этим требованиям. Служебные файлы, например, обеспечивают правильную работу проекта, но не имеют информационной ценности для посетителей веб-ресурса. В программу краулеров по умолчанию не заложена сортировка файлов. Они сканируют все веб-страницы. Robots.txt сообщает поисковым роботам правила индексации сайта. В этих директивах перечислены элементы сайта, которые не нуждаются в сканировании. Таким образом вебмастер может скрыть от поисковиков:
- дубли страниц;
- служебные файлы;
- бесполезные для посетителей файлы;
- страницы с повторяющимся контентом.
В результаты поисковой выдачи продолжают попадать страницы, содержащие релевантный запросам пользователей контент, и веб-ресурс не попадает под санкции за «мусорные» файлы.
Требования к файлу robots.txt
Директивы для краулеров в robots.txt вписывает вебмастер. Чтобы они исполнялись корректно, их нужно правильно составить.
Директива User-agent
Существует несколько поисковых систем. Сайт продвигают в тех, которыми пользуются целевые посетители сайта. Чтобы установить контакт с роботом нужного поисковика, в директиве User-agent пишут его имя, например:
Однако есть более универсальное обращение, которое поймут одновременно краулеры Яндекса и Гугл:
Директива Disallow
Если сайту нужно скрыть каталог или целый сайт, используется запрещающее правило Disallow. Если нужно скрыть весь веб-ресурс, команда будет иметь вид:
Директива Allow
Открытие каталога происходит через Allow. Если нужно проиндексировать что-то конкретное, используется разрешающая директива:
Директива Sitemap
Для направления робота используется правило Sitemap:
Директива Clean-param
Clean-param позволяет исключить из индексации дубли страниц. Они могут появиться при продвижении сайта через разные рекламные каналы. На сайте будут появляться страницы с utm, указывающими на источник трафика. Для их скрытия укажем в robots.txt:
Спецсимволы robots.txt ("*" "$" "#")
Чтобы уточнить правила, используют операторы:
- * — любая последовательность символов;
- $ — оператор прерывающий последовательность символов;
- # — разметка комментариев в файле, после оператора роботы не обрабатывают содержимое строки.
Инструменты для проверки и создания файла robots.txt
Создать файл можно самостоятельно. Для этого вам понадобится любой текстовый редактор, такой как «Блокнот», «TextEdit», «vi» или «Emacs». Текстовые процессоры для этого не подойдут, так как они могут добавить в файл лишние знаки препинания. Сохраняется файл в корневой каталог сайта в формате UTF-8. Допускается размещение файла по адресу с субдоменом или нестандартным портом.
Инструмент Яндекса
Один лишний символ может нарушить правильность составления директивы, и поисковый робот не сможет прочесть указания. Необходимо проверить robots.txt после внесения его в корень сайта. В Яндекс.Вебмастере есть бесплатный инструмент (Анализ robots.txt), который поможет проверить корректность файла. В свободное поле необходимо ввести домен сайта и нажать кнопку «Проверить».
Если в файле не опечаток, под доменом появится отметка об отсутствии ошибок.
Инструмент Google
У Гугл есть тоже есть сервис по проверке файла с директивами. В Search Console нужно выбрать сайт и перейти к инструменту проверки. Он выделит в файле синтаксические и логические ошибки. Внизу страницы необходимо указать нужный URL. В появившемся окне выберите робота и нажмите на кнопку «Проверить».
Заключение
С правильным файлом robots.txt сайт получит возможность избежать фильтров поисковых систем за распространение некачественного контента.