Полное руководство по Robots.txt для SEO

Опубликовано: 2021-12-29

Robots.txt — это файл, который вы можете создать для управления сканированием вашего веб-сайта.

Это практическая реализация протокола исключения роботов, который был создан для того, чтобы поисковые роботы не перегружали веб-сайты слишком большим количеством запросов.

Владельцам служб может быть неудобно, если сканеры посещают все их пространство URI. В этом документе указаны правила, изначально определенные «Протоколом исключения роботов», которым должны подчиняться сканеры при доступе к URI.
источник: Протокол исключения роботов

Несмотря на то, что вашему веб-сайту не обязательно использовать robots.txt , наличие файла может положительно повлиять на ваш бизнес, оптимизируя сканирование вашего сайта ботами поисковых систем.

По данным Веб-альманаха 2021 года, около 16,5% веб-сайтов вообще не имеют файла robots.txt. Кроме того, не все реализуют его правильно.

Веб-сайты могут иметь неправильно настроенные файлы robots.txt. Например, некоторые популярные веб-сайты (предположительно по ошибке) блокировали поисковые системы. Google может индексировать эти веб-сайты в течение определенного периода времени, но в конечном итоге их видимость в результатах поиска уменьшится.
источник: Веб-альманах

В зависимости от размера вашего веб-сайта неправильное использование robots.txt может быть незначительной ошибкой или очень дорогостоящей ошибкой.

Эта статья покажет вам, как создать файл robots.txt и избежать потенциальных ошибок.

Содержимое скрыть
1 Что такое robots.txt?
1.1 1. Страница, заблокированная для сканирования, может быть проиндексирована
1.2 2. Вы не можете заставить роботов подчиняться правилам в robots.txt
2 Зачем нужен файл robots.txt?
3 Как изменить файл robots.txt
4 Синтаксис файла robots.txt
4.1 Пользовательский агент
4.2 Директивы
4.2.1 Запретить
4.2.2 Разрешить
4.2.3 Карта сайта
4.2.4 Задержка сканирования
4.2.5 Комментарии в robots.txt
4.2.6 Подстановочные знаки
5 Проверка файла robots.txt
6. Robots.txt, Meta Robots Tag и X-Robots-Tag
7 лучших практик

Что такое robots.txt?

Robots.txt — это простой текстовый файл, который вы можете разместить на своем сервере, чтобы контролировать доступ ботов к вашим страницам. Он содержит правила для поисковых роботов, определяющие, какие страницы следует или не следует сканировать.

Файл должен находиться в корневом каталоге вашего сайта. Так, например, если ваш веб-сайт называется domain.com, файл robots.txt должен располагаться по адресу domain.com/robots.txt.

Но как работает файл? Как боты узнают об этом?

Сканеры — это программы, которые сканируют Интернет. Они используются по-разному, но поисковые системы используют их для поиска веб-контента для индексации. Этот процесс можно разделить на несколько шагов:

  1. У сканеров есть очередь URL-адресов, содержащих как новые, так и ранее известные веб-сайты, которые они хотят просканировать.
  2. Прежде чем сканировать веб-сайт, сканеры сначала ищут файл robots.txt в корневом каталоге веб-сайта.
  3. Если файл robots.txt не существует, поисковые роботы продолжают свободно сканировать веб-сайт. Однако, если существует действительный файл robots.txt, поисковые роботы ищут в нем директивы и соответствующим образом продолжают сканировать веб-сайт.

Если поисковая система не может просканировать страницу, то эта страница не может быть проиндексирована и, следовательно, не будет отображаться на страницах результатов поиска.

Однако есть два предостережения:

1. Страница, заблокированная для сканирования, все равно может быть проиндексирована

Запрет сканирования в файле robots.txt не гарантирует, что поисковые системы не будут индексировать страницу. Они все равно могут это сделать, если найдут информацию о содержании в других источниках и решат, что это важно. Например, они могут найти ссылки, ведущие на страницу с других сайтов, использовать анкорный текст и показать его на странице результатов поиска.

2. Вы не можете заставить роботов подчиняться правилам в robots.txt

Robots.txt — это всего лишь рекомендация, а не обязательное правило. Вы не можете заставить ботов подчиняться ему. Большинство сканеров, особенно используемые поисковыми системами, не будут сканировать страницы, заблокированные файлом robots.txt. Однако поисковые системы не единственные, кто использует сканеры. Вредоносные боты могут проигнорировать инструкции и все равно получить доступ к страницам. Вот почему вы не должны использовать robots.txt как способ защиты конфиденциальных данных на вашем веб-сайте от сканирования. Если вам нужно убедиться, что боты не будут сканировать часть вашего контента, лучше защитить его паролем.

Зачем нужен файл robots.txt?

Robots.txt не является обязательной частью вашего веб-сайта, но хорошо оптимизированный файл может принести вашему сайту множество преимуществ.

Самое главное, это может помочь вам оптимизировать краулинговый бюджет. Боты поисковых систем имеют ограниченные ресурсы, что ограничивает количество URL-адресов, которые они могут сканировать на данном веб-сайте. Поэтому, если вы тратите свой краулинговый бюджет на менее важные страницы, его может не хватить на более ценные. Если у вас небольшой веб-сайт, это может показаться поверхностным вопросом, но любой, кто поддерживает большой веб-сайт, знает, насколько важно эффективно использовать ресурсы поисковых ботов.

С помощью файла robots.txt вы можете запретить сканирование определенных страниц, например некачественных . Это очень важно, потому что если у вас много индексируемых страниц низкого качества, это может повлиять на весь сайт и помешать ботам поисковых систем сканировать даже высококачественные страницы.

Кроме того, robots.txt позволяет вам указать местоположение вашей XML-карты сайта. Карта сайта — это текстовый файл, в котором перечислены URL-адреса, которые должны быть проиндексированы поисковыми системами. Определение его ссылки в файле robots.txt облегчает его поиск ботам поисковых систем.

Как изменить файл robots.txt

Способ изменения файла robots.txt сильно зависит от используемой вами системы.

Если вы используете CMS или платформу электронной коммерции, у вас может быть доступ к специальным инструментам или плагинам, которые помогут вам легко получить доступ к файлу и изменить его. Например, Wix и Shopify позволяют напрямую редактировать файл robots.txt. Для WordPress вы можете использовать такие плагины, как Yoast SEO.

Если вы не используете CMS или платформу электронной коммерции, вам может потребоваться сначала загрузить файл, отредактировать его, а затем загрузить обратно на свой сайт.

Вы можете скачать файл разными способами:

  • Отобразите файл в своем браузере, добавив «/ robots.txt» в корневой каталог, а затем просто скопируйте содержимое.
  • Используйте инструменты, предоставляемые вашим хостингом. Например, это может быть выделенная панель для управления файлами или доступа по протоколу FTP.
  • Используйте инструменты консоли, такие как cURL, чтобы загрузить файл, введя эту команду:
 завиток https://example.com/robots.txt -o robots.txt
  • Используйте тестеры robots.txt от Google или Bing, чтобы загрузить копию файла.

Скачав robots.txt, вы можете просто отредактировать его в любом текстовом редакторе, таком как Блокнот (Windows) или TextEdit (Mac). Убедитесь, что файл закодирован в стандарте UTF-8, и помните, что он должен называться «robots.txt».

После изменения robots.txt вы можете загрузить файл аналогично его загрузке. Вы можете использовать специальные инструменты, предоставляемые вашим хостингом, использовать встроенные инструменты CMS или отправлять файлы напрямую на сервер по протоколам FTP.

Как только ваш файл станет общедоступным, поисковые системы смогут найти его автоматически. Если по какой-то причине вы хотите, чтобы поисковые системы сразу же увидели изменения, вы можете использовать опцию «Отправить» в тестировщиках robots.txt от Google и Bing.

В процессе автоматического сканирования поисковые роботы Google замечают изменения, внесенные вами в файл robots.txt, и обновляют кешированную версию каждые 24 часа. Если вам нужно быстрее обновить кеш, используйте функцию Submit тестера robots.txt .
источник: Гугл

Синтаксис robots.txt

Robots.txt состоит из блоков текста. Каждый блок начинается со строки User-agent и группирует директивы (правила) для конкретного бота.

Вот пример файла robots.txt:

 Пользовательский агент: *
Запретить: /admin/
Запретить: /пользователи/

#специфические инструкции для робота Googlebot
Агент пользователя: Googlebot
Разрешить: /wp-admin/
Запретить: /пользователи/

#специфические инструкции для Bingbot
Агент пользователя: Bingbot
Запретить: /admin/
Запретить: /пользователи/
Запретить:/не для Bingbot/
Задержка сканирования: 10

Карта сайта: https://www.example.com/sitemap.xml

Пользовательский агент

Существуют сотни сканеров, которые могут захотеть получить доступ к вашему сайту. Вот почему вы можете захотеть определить для них разные границы в зависимости от их намерений. Вот когда User-agent может пригодиться.

User-agent — это строка текста, идентифицирующая конкретного бота. Так, например, Google использует Googlebot, Bing использует Bingbot, DuckDuckGo использует DuckDuckBot, а Yahoo использует Slurp. Поисковые системы также могут иметь более одного User-agent. Здесь вы можете найти полный список пользовательских агентов, используемых Google и Bing.

User-agent — обязательная строка в каждой группе директив. Вы можете думать об этом как об обращении к ботам по их именам и предоставлении каждому из них конкретной инструкции. Все директивы, которые следуют за User-agent, будут нацелены на определенного бота, пока не будет указан новый User-agent.

Вы также можете использовать подстановочный знак и давать инструкции всем ботам одновременно. Я расскажу о подстановочных знаках позже.

Директивы

Директивы — это правила, которые вы определяете для ботов поисковых систем. Каждый блок текста может иметь одну или несколько директив. Каждая директива должна начинаться с отдельной строки.

Директивы включают:

  • Запретить,
  • Позволять,
  • Карта сайта,
  • Задержка сканирования.

Примечание. Существует также неофициальная директива noindex, которая должна указывать, что страница не должна индексироваться. Однако большинство поисковых систем, включая Google и Bing, его не поддерживают. Если вы не хотите, чтобы некоторые страницы индексировались, используйте заголовок noindex Meta Robots Tag или X-Robots-Tag (я объясню их позже в статье).

Запретить

 Агент пользователя: Googlebot
Запретить: /пользователи/

Эта директива указывает, какие страницы не следует сканировать. По умолчанию боты поисковых систем могут сканировать каждую страницу, не заблокированную директивой disallow.

Чтобы заблокировать доступ к определенной странице, вам необходимо определить ее путь относительно корневого каталога.

Давайте представим, что у вас есть эти два сайта на вашем сайте:

  • веб-сайт.com/products/shoes/item1.html
  • веб-сайт.com/products/shirts/item2.html

Теперь давайте рассмотрим несколько примеров блокировки этих путей:

Дорожка Заблокировано
Запретить: /item1.html Запрещен только файл /products/shoes/item1.html.
Запретить: /продукты/ И /products/shoes/item1.html, и /products/shirts/item2.html запрещены.

Вы можете запретить сканирование всего сайта, добавив символ «/» следующим образом:

 Агент пользователя: Googlebot
Запретить: /

Позволять

 Агент пользователя: Googlebot
Запретить: /пользователи/
Разрешить: /users/very-important-user.html

Вы можете использовать директиву allow, чтобы разрешить обход страницы в запрещенном каталоге.

В приведенном выше примере запрещены все страницы в каталоге /user/, кроме одной с именем /very-important-user.html.

Карта сайта

 Карта сайта: https://website.com/sitemap.xml

Директива карты сайта указывает местоположение вашей карты сайта. Вы можете добавить его в начало или конец вашего файла и определить более одной карты сайта.

В отличие от путей, определенных в других директивах, всегда добавляйте полный URL-адрес вашей карты сайта, включая протокол HTTP/HTTPS или версию с www/без www.

Директива карты сайта не обязательна, но настоятельно рекомендуется. Даже если вы отправили свою карту сайта в Google Search Console или Bing Webmaster Tools, всегда полезно добавить ее в файл robots.txt, чтобы помочь всем ботам поисковых систем найти ее быстрее.

Задержка сканирования

 Задержка сканирования: 10

Боты поисковых систем могут просканировать многие ваши страницы за короткий промежуток времени. Каждое сканирование использует часть ресурсов вашего сервера.

Если у вас большой веб-сайт с большим количеством страниц или для открытия каждой страницы требуется много ресурсов сервера, ваш сервер может не справиться со всеми запросами. В результате он станет перегруженным, а пользователи и поисковые системы могут временно потерять доступ к вашему сайту. Вот где директива Crawl-delay может пригодиться и замедлить процесс сканирования.

Значение директивы Crawl-delay определяется в секундах. Вы можете установить его в диапазоне от 1 до 30 секунд.

Важно отметить, что не каждая поисковая система следует этой директиве. Например, Google вообще не поддерживает Crawl-delay.

Кроме того, интерпретация этого может варьироваться в зависимости от поисковой системы. Например, для Bing и Yahoo Crawl-delay представляет собой длину промежутка между окнами, в течение которого бот может получить доступ к странице только один раз.

Для Яндекса Crawl-delay указывает, сколько времени боту нужно ждать, прежде чем запросить другую страницу.

Комментарии в robots.txt

 #Блокирует доступ к разделу блога
Агент пользователя: Googlebot
Запретить: /блог/

Агент пользователя: Bingbot
Disallow: /users/ #блокирует доступ к разделу пользователей

Вы можете добавлять комментарии в файл robots.txt, добавляя символ решетки # в начале строки или после директивы. Поисковые системы игнорируют все, что следует за # в той же строке.

Комментарии предназначены для того, чтобы люди могли объяснить, что означает конкретный раздел. Добавлять их всегда полезно, потому что они позволят вам быстрее понять, что происходит, когда вы в следующий раз откроете файл.

Вы можете использовать комментарии, чтобы добавить пасхальные яйца в файл robots.txt. Если вы хотите узнать об этом больше, вы можете прочитать нашу статью о том, как сделать директивы robots интересными для людей , или посмотреть пример в файле robots.txt.

Подстановочные знаки

Подстановочные знаки — это специальные символы, которые могут использоваться в качестве заполнителей для других символов в тексте и, следовательно, упрощают процесс создания файла robots.txt. Они включают:

  • Звездочка * и
  • Знак доллара $.

Звездочка может заменить любую строку.

Пользовательский агент: *

В приведенном выше примере звездочка в строке User-agent указывает на всех ботов поисковых систем. Следовательно, каждая директива, следующая за ней, будет направлена ​​на всех поисковых роботов.

 Запретить: /*?

Вы также можете использовать его для определения пути. Приведенные выше примеры означают, что каждый URL-адрес, оканчивающийся на «?» запрещено.

Знак доллара указывает на определенный элемент, который соответствует концу URL-адреса.

 Запретить: /*.jpeg$

В приведенном выше примере показано, что все URL-адреса, оканчивающиеся на «.jpeg», должны быть запрещены.

Вы можете использовать подстановочные знаки в каждой директиве, кроме карты сайта.

Тестирование файла robots.txt

Вы можете протестировать с помощью тестера robots.txt в Google Search Console и Bing Webmaster Tools. Просто введите URL-адрес, который вы хотите проверить, и инструмент покажет вам, разрешен он или запрещен.

Вы также можете отредактировать файл непосредственно в тестировщиках robots.txt и повторно протестировать изменения. Имейте в виду, что изменения не сохраняются на вашем сайте. Вам необходимо самостоятельно скопировать файл и загрузить его на свой сайт.

Если вы более технически подкованы, вы также можете использовать библиотеку robots.txt с открытым исходным кодом Google для локального тестирования файла robots.txt на вашем компьютере.

Robots.txt, тег Meta Robots и тег X-Robots-Tag

Robots.txt — не единственный способ связи со сканерами. Вы также можете использовать теги Meta Robots и X-Robots-Tag.

Наиболее важным отличием является тот факт, что robots.txt контролирует сканирование веб-сайта, а Meta Robots Tag и X-Robots-Tag позволяют контролировать его индексацию.

Кроме всего прочего, эти методы различаются и способами реализации.

Выполнение
Роботы.txt Простой текстовый файл, добавляемый в корневой каталог вашего сайта.
Метатег роботов Тег HTML добавлен в раздел <head> кода.
X-Robots-Tag Часть заголовка ответа HTTP, добавленная на стороне сервера.

Когда бот поисковой системы находит страницу, он сначала просматривает файл robots.txt. Если сканирование не запрещено, оно может получить доступ к веб-сайту и только после этого найти потенциальные теги Meta Robots или заголовки X-Robots-Tag. Это важно помнить по двум причинам:

  1. Комбинация методов: ботам поисковых систем нужно разрешить сканировать страницу, чтобы увидеть теги Meta Robots и X-Robots-Tag. Если боты не могут получить доступ к странице, они не будут работать корректно.
  2. Оптимизация краулингового бюджета — из этих трех методов только robots.txt поможет сэкономить краулинговый бюджет.

Лучшие практики

Вот несколько рекомендаций и советов по созданию файла robots.txt:

  • Не блокируйте файлы JavaScript или CSS с помощью файла robots.txt. Боты могут неправильно отображать ваш контент, если у них нет доступа к этим ресурсам.
  • Обязательно добавьте ссылку на карту сайта, чтобы поисковые роботы могли легко ее найти.
  • Интерпретация синтаксиса robots.txt может различаться в зависимости от поисковой системы. Всегда перепроверяйте, как бот поисковой системы обрабатывает конкретную директиву, если вы не уверены.
  • Будьте осторожны при использовании подстановочных знаков. Если вы используете их неправильно, вы можете по ошибке заблокировать доступ ко всему разделу вашего сайта.
  • Не используйте robots.txt для блокировки личного контента. Если вы хотите обезопасить свою страницу, лучше защитить ее паролем. Кроме того, файл robots.txt является общедоступным, и вы потенциально можете раскрыть местоположение вашего личного контента опасным ботам.
  • Запрет сканерам доступа к вашему сайту не удалит его со страницы результатов поиска. Если есть много ссылок с описательным якорным текстом, указывающим на вашу страницу, она все равно может быть проиндексирована. Если вы хотите предотвратить это, вам следует вместо этого использовать заголовок Meta Robots Tag или X-Robots-Tag.