Guia definitivo para Robots.txt para SEO
Publicados: 2021-12-29Robots.txt é um arquivo que você pode criar para controlar o rastreamento do seu site.
É a implementação prática do Robots Exclusion Protocol, que foi criado para evitar que os rastreadores da Web sobrecarregassem os sites com muitas solicitações.
Pode ser inconveniente para os proprietários de serviços se os rastreadores visitarem todo o espaço de URI. Este documento especifica as regras originalmente definidas pelo “Protocolo de Exclusão de Robôs” que os rastreadores devem obedecer ao acessar URIs.fonte: Protocolo de Exclusão de Robôs
Embora não seja necessário que seu site use robots.txt , ter um pode afetar positivamente seus negócios, otimizando como os bots de mecanismos de pesquisa rastreiam seu site.
De acordo com o 2021 Web Almanac, ~16,5% dos sites não possuem um arquivo robots.txt. Além disso, nem todos o implementam corretamente.
Os sites podem ter arquivos robots.txt configurados incorretamente. Por exemplo, alguns sites populares estavam (presumivelmente por engano) bloqueando os mecanismos de pesquisa. O Google pode manter esses sites indexados por um período de tempo, mas eventualmente sua visibilidade nos resultados de pesquisa será diminuída.fonte: web almanaque
Dependendo do tamanho do seu site, o uso inadequado do robots.txt pode ser um erro pequeno ou muito caro.
Este artigo mostrará como criar um arquivo robots.txt e evitar possíveis erros.
O que é robots.txt?
Robots.txt é um arquivo de texto simples que você pode colocar em seu servidor para controlar como os bots acessam suas páginas. Ele contém regras para rastreadores, definindo quais páginas devem ou não ser rastreadas.
O arquivo deve estar localizado no diretório raiz do seu site. Assim, por exemplo, se seu site se chama domain.com, o arquivo robots.txt deve residir em domain.com/robots.txt.
Mas como funciona o arquivo? Como os bots descobrem isso?
Crawlers são programas que rastreiam a web. Eles têm vários usos, mas os mecanismos de pesquisa os usam para encontrar conteúdo da Web para indexar. Esse processo pode ser dividido em algumas etapas:
- Os rastreadores têm uma fila de URLs contendo sites novos e conhecidos anteriormente que desejam rastrear.
- Antes de rastrear um site, os rastreadores primeiro procuram um arquivo robots.txt no diretório raiz do site.
- Se não existir nenhum arquivo robots.txt, os rastreadores prosseguem para rastrear o site livremente. No entanto, se existir um arquivo robots.txt válido, os rastreadores procuram dentro dele as diretivas e procedem ao rastreamento do site de acordo.
Se um mecanismo de pesquisa não puder rastrear a página, essa página não poderá ser indexada e, consequentemente, não aparecerá nas páginas de resultados de pesquisa.
No entanto, há duas ressalvas:
1. Uma página bloqueada para rastreamento ainda pode ser indexada
Não permitir o rastreamento em um arquivo robots.txt não garante que os mecanismos de pesquisa não indexem a página. Eles ainda podem fazer isso se encontrarem informações sobre o conteúdo em outras fontes e decidirem que é importante. Por exemplo, eles podem encontrar links que levam à página de outros sites, usar o texto âncora e mostrá-lo na página de resultados da pesquisa.
2. Você não pode forçar os robôs a obedecer às regras em robots.txt
Robots.txt é apenas uma orientação, não uma regra obrigatória. Você não pode forçar os bots a obedecê-lo. A maioria dos rastreadores, especialmente aqueles usados por mecanismos de pesquisa, não rastreará nenhuma página bloqueada pelo robots.txt. No entanto, os mecanismos de pesquisa não são os únicos que usam rastreadores. Bots maliciosos podem ignorar as instruções e acessar as páginas de qualquer maneira. É por isso que você não deve usar o robots.txt como forma de proteger dados confidenciais em seu site contra rastreamento. Se você precisar garantir que os bots não rastreiem parte do seu conteúdo, é melhor protegê-lo com uma senha.
Por que você precisa de um arquivo robots.txt?
Robots.txt não é uma parte obrigatória do seu site, mas um bem otimizado pode beneficiar seu site de várias maneiras.
Mais importante, ele pode ajudar você a otimizar seu orçamento de rastreamento. Os bots de mecanismos de pesquisa têm recursos limitados, restringindo o número de URLs que podem rastrear em um determinado site. Portanto, se você desperdiçar seu orçamento de rastreamento em páginas menos importantes, pode não haver o suficiente para as mais valiosas. Se você tem um site pequeno, isso pode parecer uma questão superficial, mas quem mantém um site grande sabe o quanto é vital usar os recursos dos bots dos mecanismos de busca de forma eficiente.
Com o arquivo robots.txt, você pode impedir que determinadas páginas, por exemplo, as de baixa qualidade, sejam rastreadas . É crucial porque se você tiver muitas páginas indexáveis e de baixa qualidade, isso pode afetar todo o site e desencorajar os robôs dos mecanismos de pesquisa de rastrear até mesmo as páginas de alta qualidade.
Além disso, o robots.txt permite que você especifique a localização do seu sitemap XML. Um sitemap é um arquivo de texto que lista os URLs que você deseja que os mecanismos de pesquisa indexem. Definir seu link no arquivo robots.txt torna mais fácil para os bots de mecanismos de pesquisa encontrá-lo.
Como modificar o arquivo robots.txt
Como você pode modificar seu arquivo robots.txt depende muito do sistema que você usa.
Se você estiver usando um CMS ou uma plataforma de comércio eletrônico, poderá ter acesso a ferramentas ou plug-ins dedicados que podem ajudá-lo a acessar e modificar o arquivo facilmente. Por exemplo, Wix e Shopify permitem que você edite o robots.txt diretamente. Para WordPress, você pode usar plugins como Yoast SEO.
Se você não usa um CMS ou uma plataforma de comércio eletrônico, talvez seja necessário fazer o download do arquivo primeiro, editá-lo e enviá-lo de volta ao seu site.
Você pode baixar o arquivo de várias maneiras:
- Exiba o arquivo em seu navegador adicionando o “/robots.txt” ao seu diretório raiz e então simplesmente copie o conteúdo.
- Use as ferramentas fornecidas pelo seu serviço de hospedagem. Por exemplo, pode ser um painel dedicado para gerenciamento de arquivos ou acesso através do protocolo FTP.
- Use ferramentas de console como cURL para baixar o arquivo digitando este comando:
curl https://example.com/robots.txt -o robots.txt
- Use os testadores de robots.txt do Google ou do Bing para baixar uma cópia do seu arquivo.
Depois de baixar o robots.txt, você pode simplesmente editá -lo no editor de texto de sua escolha, como o Bloco de Notas (Windows) ou o TextEdit (Mac). Certifique-se de codificar o arquivo no padrão UTF-8 e lembre-se de que ele deve ser nomeado “robots.txt”.
Depois de modificar o robots.txt, você pode fazer upload do arquivo de forma semelhante ao download. Você pode usar ferramentas dedicadas fornecidas por sua hospedagem, usar ferramentas integradas do CMS ou enviar arquivos diretamente para o servidor pelos protocolos FTP.
Assim que seu arquivo estiver disponível publicamente, os mecanismos de pesquisa poderão encontrá-lo automaticamente. Se, por algum motivo, você quiser que os mecanismos de pesquisa vejam as alterações imediatamente, use a opção Enviar nos testadores de robots.txt do Google e do Bing.
Durante o processo de rastreamento automático, os rastreadores do Google percebem as alterações feitas no arquivo robots.txt e atualizam a versão em cache a cada 24 horas. Se você precisar atualizar o cache mais rapidamente, use a função Enviar do testador robots.txt .fonte: Google
Sintaxe de robots.txt
Robots.txt consiste em blocos de texto. Cada bloco começa com uma string User-agent e diretivas de grupos (regras) para um bot específico.
Veja um exemplo do arquivo robots.txt:
Agente de usuário: * Não permitir: /admin/ Não permitir: /usuários/ #instruções específicas para o Googlebot Agente do usuário: Googlebot Permitir: /wp-admin/ Não permitir: /usuários/ #instruções específicas para o Bingbot Agente do usuário: Bingbot Não permitir: /admin/ Não permitir: /usuários/ Disallow:/not-for-Bingbot/ Atraso de rastreamento: 10 Mapa do site: https://www.example.com/sitemap.xml
Agente de usuário
Existem centenas de rastreadores que podem querer acessar seu site. É por isso que você pode querer definir limites diferentes para eles com base em suas intenções. Aqui é quando o User-agent pode ser útil.
User-agent é uma string de texto que identifica um bot específico. Assim, por exemplo, o Google usa o Googlebot, o Bing usa o Bingbot, o DuckDuckGo usa o DuckDuckBot e o Yahoo usa o Slurp. Os mecanismos de pesquisa também podem ter mais de um agente do usuário. Aqui você pode encontrar uma lista completa de User-agents usados pelo Google e Bing.
User-agent é uma linha obrigatória em cada grupo de diretivas. Você pode pensar nisso como chamar bots por seus nomes e dar a cada um deles uma instrução específica. Todas as diretivas que seguem um User-agent serão direcionadas ao bot definido até que o novo User-agent seja especificado.
Você também pode usar um curinga e dar instruções a todos os bots de uma só vez. Vou cobrir os curingas mais tarde.
Diretivas
Diretivas são as regras que você define para bots de mecanismos de pesquisa. Cada bloco de texto pode ter uma ou mais diretivas. Cada diretiva precisa começar em uma linha separada.
As diretivas incluem:
- Não permitir,
- Permitir,
- Mapa do site,
- Atraso de rastreamento.
Nota: Há também uma diretiva não oficial noindex que deve indicar que uma página não deve ser indexada. No entanto, a maioria dos mecanismos de pesquisa, incluindo Google e Bing, não o suporta. Se você não quiser que algumas páginas sejam indexadas, use o noindex Meta Robots Tag ou o cabeçalho X-Robots-Tag (explicarei mais adiante no artigo).
Não permitir
Agente do usuário: Googlebot Não permitir: /usuários/
Esta diretiva especifica quais páginas não devem ser rastreadas. Por padrão, os bots do mecanismo de pesquisa podem rastrear todas as páginas não bloqueadas pela diretiva disallow.
Para bloquear o acesso a uma determinada página, você precisa definir seu caminho em relação ao diretório raiz.
Vamos imaginar que você tenha esses dois sites em seu site:
- website.com/products/shoes/item1.html
- website.com/products/shirts/item2.html
Agora vamos ver alguns exemplos de bloqueio desses caminhos:
Caminho | Bloqueado |
Não permitir: /item1.html | Apenas /products/shoes/item1.html não é permitido |
Não permitir: /produtos/ | Ambos /products/shoes/item1.html e /products/shirts/item2.html não são permitidos |
Você pode impedir o rastreamento de todo o site adicionando o símbolo “/” da seguinte maneira:
Agente do usuário: Googlebot Não permitir: /
Permitir
Agente do usuário: Googlebot Não permitir: /usuários/ Permitir: /users/very-important-user.html
Você pode usar a diretiva allow para permitir o rastreamento de uma página em um diretório não permitido.
No exemplo acima, todas as páginas dentro do diretório /user/ não são permitidas, exceto uma chamada /very-important-user.html.
Mapa do site
Mapa do site: https://website.com/sitemap.xml
A diretiva sitemap especifica a localização do seu sitemap. Você pode adicioná-lo no início ou no final do seu arquivo e definir mais de um mapa do site.
Ao contrário dos caminhos definidos em outras diretivas, sempre adicione um URL completo do seu mapa do site, incluindo o protocolo HTTP/HTTPS ou a versão www/não-www.
A diretiva sitemap não é obrigatória, mas é altamente recomendada. Mesmo que você tenha enviado o mapa do site no Google Search Console ou no Bing Webmaster Tools, é sempre uma boa ideia adicioná-lo ao arquivo robots.txt para ajudar todos os robôs de mecanismos de pesquisa a encontrá-lo mais rapidamente.
Atraso de rastreamento
Atraso de rastreamento: 10
Os bots de mecanismos de pesquisa podem rastrear muitas de suas páginas em um curto período de tempo. Cada rastreamento usa uma parte do recurso do seu servidor.
Se você tiver um site grande com muitas páginas ou abrir cada página exigir muitos recursos do servidor, talvez seu servidor não consiga lidar com todas as solicitações. Como resultado, ele ficará sobrecarregado e tanto os usuários quanto os mecanismos de pesquisa poderão perder temporariamente o acesso ao seu site. É aí que a diretiva de atraso de rastreamento pode ser útil e retardar o processo de rastreamento.
O valor da diretiva Crawl-delay é definido em segundos. Você pode configurá-lo entre 1-30 segundos.
É importante observar que nem todo mecanismo de pesquisa segue essa diretiva. Por exemplo, o Google não oferece suporte ao atraso de rastreamento.
Além disso, a interpretação pode variar dependendo de um mecanismo de pesquisa. Por exemplo, para Bing e Yahoo, o atraso de rastreamento representa a duração de um intervalo de janela durante o qual o bot pode acessar a página apenas uma vez.
Para Yandex, o atraso de rastreamento especifica a quantidade de tempo que o bot precisa esperar antes de solicitar outra página.
Comentários em robots.txt
#Bloqueia o acesso à seção do blog Agente do usuário: Googlebot Não permitir: /blog/ Agente do usuário: Bingbot Disallow: /users/ #bloqueia o acesso à seção de usuários
Você pode adicionar comentários em seu arquivo robots.txt adicionando o caractere hash # no início de uma linha ou após uma diretiva. Os motores de busca ignoram tudo o que segue o # na mesma linha.
Os comentários destinam-se a humanos para explicar o que significa uma seção específica. É sempre uma boa ideia adicioná-los porque eles permitirão que você entenda mais rapidamente o que está acontecendo na próxima vez que abrir o arquivo.
Você pode usar comentários para adicionar ovos de páscoa ao arquivo robots.txt. Se você quiser saber mais sobre isso, confira nosso artigo sobre como tornar suas diretivas de robôs divertidas para humanos ou veja um exemplo em nosso robots.txt.
Curingas
Os curingas são caracteres especiais que podem funcionar como espaços reservados para outros símbolos no texto e, portanto, simplificam o processo de criação do arquivo robots.txt. Eles incluem:
- Asterisco *, e
- Cifrão $.
O asterisco pode substituir qualquer string.
Agente de usuário: *
No exemplo acima, o asterisco na linha User-agent especifica todos os bots de mecanismos de pesquisa. Portanto, todas as diretivas que a seguirem serão direcionadas a todos os rastreadores.
Não permitir: /*?
Você também pode usá-lo para definir um caminho. Os exemplos acima significam que cada URL que termina com um “?” não é permitido.
O cifrão indica um elemento específico que corresponde ao final de uma URL.
Não permitir: /*.jpeg$
O exemplo acima indica que todo URL que termina com “.jpeg” não deve ser permitido.
Você pode usar curingas em todas as diretivas, exceto no mapa do site.
Testando o arquivo robots.txt
Você pode testar com um testador de robots.txt no Google Search Console e no Bing Webmaster Tools. Basta digitar o URL que você deseja verificar e a ferramenta mostrará se é permitido ou não.
Você também pode editar o arquivo diretamente nos testadores do robots.txt e testar novamente as alterações. Lembre-se de que as alterações não são salvas em seu site. Você precisa copiar o arquivo e enviá-lo para o seu site por conta própria.
Se você é mais experiente em tecnologia, também pode usar a biblioteca robots.txt de código aberto do Google para testar o arquivo robots.txt localmente em seu computador.
Robots.txt vs. Meta Robots Tag vs. X-Robots-Tag
Robots.txt não é a única maneira de se comunicar com rastreadores. Você também pode usar o Meta Robots Tag e o X-Robots-Tag.
A diferença mais importante é o fato de que o robots.txt controla o rastreamento de um site, enquanto o Meta Robots Tag e o X-Robots-Tag permitem controlar sua indexação.
Entre outras coisas, esses métodos também diferem nas formas de implementação.
Implementação | |
Robots.txt | Arquivo de texto simples adicionado no diretório raiz do seu site. |
Meta-tag de robôs | Tag HTML adicionada na seção <head> do código. |
X-Robots-Tag | Parte de um cabeçalho de resposta HTTP adicionado no lado do servidor. |
Quando um bot de mecanismo de pesquisa encontra uma página, ele primeiro procura dentro do arquivo robots.txt. Se o rastreamento não for proibido, ele poderá acessar o site e só então poderá encontrar possíveis Meta Robots Tags ou cabeçalhos X-Robots-Tag. É importante lembrar por dois motivos:
- Combinando os métodos – os bots do mecanismo de pesquisa precisam ter permissão para rastrear a página para ver a Meta Robots Tag e a X-Robots-Tag. Se os bots não puderem acessar a página, eles não funcionarão corretamente.
- Otimizando o orçamento de rastreamento – entre esses três métodos, apenas o robots.txt pode ajudar você a economizar o orçamento de rastreamento.
Melhores Práticas
Aqui estão algumas práticas recomendadas e dicas ao criar um arquivo robots.txt:
- Não bloqueie seus arquivos JavaScript ou CSS usando robots.txt. Os bots podem não renderizar seu conteúdo corretamente se não puderem acessar esses recursos.
- Certifique-se de adicionar o link ao seu mapa do site para ajudar todos os bots de mecanismos de pesquisa a encontrá-lo facilmente.
- A interpretação da sintaxe do robots.txt pode ser diferente dependendo do mecanismo de pesquisa. Sempre verifique como um bot de mecanismo de pesquisa trata uma diretiva específica se você não tiver certeza.
- Tenha cuidado ao usar curingas. Se você os usar indevidamente, poderá bloquear o acesso a toda a seção do seu site por engano.
- Não use robots.txt para bloquear seu conteúdo privado. Se você deseja proteger sua página, é melhor protegê-la com uma senha. Além disso, o arquivo robots.txt é acessível publicamente e você pode divulgar a localização do seu conteúdo privado para bots perigosos.
- Não permitir que os rastreadores acessem seu site não o removerá da página de resultados de pesquisa. Se houver muitos links com texto âncora descritivo apontando para sua página, ele ainda poderá ser indexado. Se você quiser evitá-lo, considere usar o cabeçalho Meta Robots Tag ou X-Robots-Tag.