Como corrigir "Descoberto - atualmente não indexado" no Google Search Console

Publicados: 2022-01-11

A documentação do Google define o status Descoberto – atualmente não indexado no relatório Cobertura de índice do Google como:

A página foi encontrada pelo Google, mas ainda não foi rastreada. Normalmente, o Google queria rastrear o URL, mas esperava-se que isso sobrecarregasse o site; portanto, o Google reprogramou o rastreamento. É por isso que a data do último rastreamento está vazia no relatório.
fonte: relatório de cobertura de índice do Google

Tomek Rudzki pesquisou os problemas de indexação mais comuns mostrados no Google Search Console e descobriu que Descoberto – atualmente não indexado é um deles, ao lado de:

  • Conteúdo duplicado,
  • Rastreado – atualmente não indexado,
  • 404s macios, e
  • Problemas de rastreamento.

Resolver o problema Descoberto – atualmente não indexado deve ser uma prioridade, pois pode afetar muitas páginas e indica que algumas de suas páginas não foram rastreadas e posteriormente indexadas.

Esse problema pode ser causado por muitos fatores que, se não forem resolvidos, podem fazer com que algumas páginas nunca cheguem ao índice do Google. E se for esse o caso, eles não trarão tráfego orgânico e gerarão conversões.

Este artigo é um aprofundamento na seção Descoberto – atualmente não indexado do relatório Cobertura de índice do Search Console, concentrando-se em analisar por que suas páginas chegam lá e como corrigir quaisquer problemas que possam estar causando isso.

Conteúdo ocultar
1 Onde encontrar o status Descoberto – atualmente não indexado
2 Descoberta, rastreamento e indexação
3 Como usar a seção de relatório Descoberto – atualmente não indexado
4 Quando a seção Descoberto – atualmente não indexado requer ação
5 O impacto do Discovered – atualmente não indexado em sites pequenos vs. grandes
5.1 Ao lançar um site grande
6 Causas para o Descoberto - status atualmente não indexado e como corrigi-los
6.1 Problemas de qualidade de conteúdo
6.2 Problemas de links internos
6.3 Orçamento de rastreamento
6.3.1 Conteúdo de baixa qualidade
6.3.2 Estrutura de ligação interna deficiente
6.3.3 Erros na implementação de redirecionamentos
6.3.4 Problemas do servidor
6.3.5 Sites pesados
6.4 John Mueller sobre endereçamento Descoberto – atualmente não indexado
7 Descoberto – atualmente não indexado vs. Rastreado – atualmente não indexado
8 Conclusão

Onde encontrar o status Descoberto – atualmente não indexado

Descoberto – atualmente não indexado é um dos tipos de problema no relatório Cobertura do índice no Google Search Console. O relatório mostra os status de rastreamento e indexação das páginas do seu site.

Descobertos – atualmente não indexados aparece na categoria Excluídos , que inclui URLs que o Google não indexou, mas, do ponto de vista do Google, essa situação não é resultado de um erro.

gráfico do relatório de cobertura do índice do Google com a seção Excluídos

Ao usar o Google Search Console, você pode clicar no tipo de problema para ver uma lista de URLs afetados.

Você pode descobrir que pretendia manter alguns dos URLs informados fora do índice – e tudo bem. Mas você deve monitorar suas páginas valiosas – se alguma delas não tiver sido indexada, verifique quais problemas o Google encontrou.

Descoberta, rastreamento e indexação

Antes de passar para as características de Descoberto – atualmente não indexado e abordando esse problema, vamos esclarecer o que é necessário para um URL ser classificado no Google:

  • O Google precisa encontrar um URL antes que ele possa ser rastreado. Os URLs são mais comumente descobertos seguindo links internos ou externos, ou sitemaps XML, que devem conter todas as páginas que devem ser indexadas.
  • Ao rastrear as páginas, o Google as visita e verifica seu conteúdo. O Google não tem recursos para rastrear todas as páginas que encontra – e esse fato está por trás de muitos problemas de rastreamento que os sites enfrentam.
  • Durante a indexação , o Google extrai o conteúdo das páginas e avalia sua qualidade. A indexação é necessária para aparecer nos resultados de pesquisa e obter tráfego orgânico do Google. As páginas indexadas são avaliadas com base em vários fatores de classificação , determinando como elas são classificadas em resposta às consultas de pesquisa inseridas pelos usuários no Google.

Ser indexado pelo Google é um desafio devido à capacidade limitada de seus recursos, à web em constante crescimento e porque o Google espera um certo nível de qualidade das páginas que indexa.

Muitos fatores técnicos e relacionados ao conteúdo podem desempenhar um papel importante para que suas páginas não sejam rastreadas ou indexadas.

Existem soluções para aumentar as chances de ser indexado. Esses incluem:

  • Ter uma estratégia de rastreamento que priorize o rastreamento de partes valiosas do seu site,
  • Implementação de links internos,
  • Criar um sitemap preciso contendo todos os URLs que devem ser indexáveis ​​e
  • Escrevendo conteúdo valioso e de alta qualidade.

Certifique-se de consultar a documentação do Google – há uma seção sobre diretrizes a serem seguidas para tornar mais fácil para o Google rastrear e indexar suas páginas.  

Como usar a seção de relatório Descoberto – atualmente não indexado

O status Descoberto – atualmente não indexado é o lugar para se manter atualizado sobre possíveis problemas de rastreamento.

Depois de encontrar os URLs nesta seção, verifique primeiro se eles devem ser rastreados.  

Se necessário, tente localizar um padrão em quais URLs aparecem no relatório . Isso ajudará você a identificar quais aspectos desses URLs podem estar causando o problema.

Por exemplo, o problema pode estar relacionado a URLs em uma categoria específica de produtos, páginas com parâmetros ou aquelas com uma estrutura específica, fazendo com que todos sejam considerados conteúdo fino.

Quando a seção Descoberto – atualmente não indexado requer ação

URLs em Descobertos – atualmente não indexados nem sempre exigem que você faça alterações em seu site.

Ou seja, você não precisa fazer nada se:

  • O número de URLs afetados é baixo e permanece estável ao longo do tempo, ou
  • O relatório contém URLs que não devem ser rastreados ou indexados, por exemplo, aqueles com tags canônicas ou 'noindex' ou aqueles bloqueados para rastreamento em seu arquivo robots.txt.

Mas ainda é crucial ter a seção deste relatório sob controle.

Os URLs exigem sua atenção se o número aumentar ou consistem em URLs valiosos que você espera classificar e trazer tráfego orgânico significativo.

O impacto do Descoberto – atualmente não indexado em sites pequenos versus grandes

O impacto da seção Descoberto – atualmente não indexado pode variar dependendo do tamanho de um site.

Se você tiver um site menor – que geralmente não excede 10 mil URLs – e suas páginas tiverem conteúdo exclusivo e de boa qualidade, o status Descoberto – atualmente não indexado geralmente se resolverá. O Google pode não encontrar nenhum problema, mas simplesmente ainda não rastreou os URLs listados.

Sites pequenos geralmente não lidam com problemas de orçamento de rastreamento , e um aumento nas páginas relatadas pode surgir devido a problemas de qualidade de conteúdo ou estrutura de links internos ruim.

O status Descoberto – atualmente não indexado pode ser particularmente grave para sites grandes (mais de 10 mil URLs) e se aplica a milhares ou até milhões de URLs.

Na Onely, descobrimos que os sites que contêm mais de 100 mil URLs normalmente sofrem de problemas de rastreamento , geralmente originados de um orçamento de rastreamento desperdiçado.

Esses problemas geralmente ocorrem em sites de comércio eletrônico . Eles geralmente têm conteúdo duplicado ou fino ou contêm produtos fora de estoque ou expirados. Essas páginas geralmente não têm a qualidade necessária para entrar na fila de indexação do Google, muito menos para serem rastreadas.

Ao lançar um site grande

Se você está apenas lançando um site grande, pode facilitar o trabalho do Googlebot desde o início.

Se você deseja lançar um site grande, não deve iniciar toda a sua estrutura imediatamente se ele contiver muitas páginas vazias ou inacabadas que só serão atualizadas posteriormente. O Googlebot encontrará essas páginas e as considerará de baixa qualidade, o que representa um risco de ter um orçamento de rastreamento baixo desde o início. E essa situação pode até levar anos para ser corrigida.

É muito melhor adicionar conteúdo à medida que você o libera regularmente. Dessa forma, o Googlebot obtém uma impressão positiva de sua qualidade desde o início.

Antes de lançar, você deve sempre ter uma estratégia de indexação e rastreamento e saber quais páginas devem ser visitadas pelo Google.

Causas para o status Descoberto - atualmente não indexado e como corrigi-los

Normalmente, os URLs serão classificados como Descobertos – atualmente não indexados devido à qualidade do conteúdo, links internos ou problemas de orçamento de rastreamento.

Vamos considerar por que você pode estar vendo suas páginas com esse status e como corrigi-lo.

Problemas de qualidade de conteúdo

O Google tem limites de qualidade que deseja que as páginas atendam , pois não pode rastrear e indexar tudo na web.

O Google pode ver algumas páginas do seu domínio como não valendo a pena rastreá-las e ignorá-las, priorizando outros conteúdos mais valiosos. Como resultado, esses URLs podem ser marcados como Descobertos – atualmente não indexados.

Para começar a resolver esse problema, consulte a lista de URLs afetados e verifique se cada página contém conteúdo exclusivo. O conteúdo deve satisfazer a intenção de pesquisa do usuário e resolver um problema específico.

Eu recomendo que você siga as Diretrizes do Avaliador de Qualidade que o Google segue ao avaliar sites – isso ajudará você a entender o que o Google está procurando no conteúdo encontrado na web.

Ao mesmo tempo, não se esqueça de que você não deve ter todas as suas páginas indexadas.  

Algumas páginas de baixa qualidade não devem ser indexáveis , como:

  • Conteúdo desatualizado (como artigos de notícias antigos),
  • Páginas geradas por uma caixa de pesquisa em um site,
  • Páginas geradas pela aplicação de filtros,
  • Conteúdo duplicado,
  • Conteúdo gerado automaticamente,
  • Conteúdo gerado por usuários.

É melhor impedir que essas seções sejam rastreadas e indexadas em seu arquivo robots.txt.  

Durante o SEO Office Hours em 31 de dezembro de 2021, John Mueller discutiu as alterações na qualidade de um site como uma forma de abordar o Descoberto – atualmente não indexado:

[…] Fazer alterações de maior qualidade em um site leva um pouco de tempo para os sistemas do Google perceberem isso. […] Isso é algo mais ao longo das linhas de vários meses e não vários dias. […] Como leva muito tempo para obter alterações de qualidade, minha recomendação seria não fazer pequenas alterações e esperar para ver se é bom o suficiente, mas realmente garantir que, se você estiver fazendo alterações de qualidade significativas, […] é uma mudança de qualidade muito boa […]. Você não quer esperar alguns meses e então decidir, 'Ah, sim, eu realmente preciso mudar algumas outras páginas também.'
fonte: John Mueller

Problemas de links internos

O Googlebot segue links internos em seu site para descobrir outras páginas e entender as conexões entre elas. Portanto, certifique-se de que suas páginas mais importantes sejam frequentemente vinculadas internamente.

Martin Splitt falou sobre por que estruturas de links incorretas podem ser problemáticas no webinar Rendering SEO :

[…] Se tivermos mil URLs seus, que estão apenas no mapa do site e não os vimos em nenhuma das outras páginas que rastreamos, podemos pensar: 'Não sabemos o quão importante isso realmente é' [...]. Em vez de apenas tê-lo no mapa do site, crie um link para ele de outros lugares em seu site para que, quando rastrearmos essas páginas, vejamos 'Aha! Então esta página, e esta página, e esta página estão todas apontando para esta página de produto, então talvez seja um pouco mais importante do que este outro produto que vive apenas no mapa do site' [...].
fonte: Martin Splitt

A vinculação interna adequada gira em torno de conectar suas páginas para criar uma estrutura lógica que ajude os mecanismos de pesquisa e os usuários a seguir a hierarquia do seu site. Os links internos também estão associados ao layout da arquitetura do seu site.

Ajudar os mecanismos de pesquisa a encontrar e atribuir a importância adequada às suas páginas inclui:

  • Decidir qual é o seu conteúdo principal e garantir que ele esteja vinculado a outras páginas,
  • Adicionando links contextuais em seu conteúdo,
  • Vincular páginas com base em sua hierarquia, por exemplo, vinculando páginas pai a páginas filhas e vice-versa, ou incluindo links na navegação do site,
  • Evitar colocar links de forma spam e otimizar demais o texto âncora,
  • Incorporando links para produtos ou posts relacionados.

Você também pode ler este artigo sobre como melhorar a estrutura de links internos.  

Orçamento de rastreamento

O orçamento de rastreamento é o número de páginas que o Googlebot pode e deseja rastrear em um site.

O orçamento de rastreamento de um site é determinado por:

  • Limite da taxa de rastreamento – quantos URLs o Google pode rastrear, que é ajustado aos recursos do seu site,
  • Demanda de rastreamento – quantos URLs o Google deseja rastrear, com base na importância que considera os URLs, observando sua popularidade e com que frequência eles são atualizados.

Desperdiçar o orçamento de rastreamento pode levar ao rastreamento ineficiente do seu site pelos mecanismos de pesquisa. Como resultado, algumas partes fundamentais do seu site podem ser ignoradas.

Muitos fatores podem estar causando problemas de orçamento de rastreamento – eles incluem:

  • Conteúdo de baixa qualidade,
  • Estrutura de ligação interna deficiente,
  • Erros na implementação de redirecionamentos,
  • Servidores sobrecarregados,
  • Sites pesados.

Antes de otimizar seu orçamento de rastreamento, você deve analisar exatamente como o Googlebot está rastreando seu site.  

Você pode fazer isso navegando até outra ferramenta útil no Search Console – o relatório de estatísticas de rastreamento. Além disso, verifique os registros do servidor para obter informações detalhadas sobre quais recursos o Googlebot rastreou e o que ignorou.

Abaixo estão 5 aspectos que você deve analisar para otimizar seu orçamento de rastreamento e fazer com que o Google rastreie algumas das páginas Descobertas – atualmente não indexadas em seu site:

Conteúdo de baixa qualidade

Se o Googlebot puder rastrear livremente páginas de baixa qualidade, talvez ele não tenha os recursos para acessar as coisas valiosas em seu site.

Para impedir que os rastreadores de mecanismos de pesquisa rastreiem determinadas páginas, aplique as diretivas corretas no arquivo robots.txt.

Você também deve garantir que seu site tenha um sitemap corretamente otimizado que ajude o Googlebot a descobrir páginas indexáveis ​​exclusivas em seu site e notar alterações nelas.

O mapa do site deve conter:

  • URLs que respondem com 200 códigos de status,
  • URLs sem meta tags de robôs impedindo que sejam indexados e
  • Apenas as versões canônicas de suas páginas.

Estrutura de ligação interna ruim

Se o Google não encontrar links suficientes para um URL, ele poderá pular o rastreamento devido a sinais insuficientes que apontam para sua importância.

Siga minhas diretrizes descritas no subcapítulo “Problemas de links internos”.

Erros na implementação de redirecionamentos

Implementar redirecionamentos pode ser benéfico para o seu site – mas somente se feito corretamente. Sempre que o Googlebot encontra um URL redirecionado, ele precisa enviar uma solicitação adicional para chegar ao URL de destino, o que exige mais recursos.

Certifique-se de seguir as práticas recomendadas para implementar redirecionamentos. Você pode redirecionar usuários e bots de páginas de erro 404 que foram vinculadas de fontes externas para páginas de trabalho, o que ajudará a preservar os sinais de classificação.

No entanto, certifique-se de não vincular a páginas redirecionadas – em vez disso, atualize-as para que apontem para as páginas corretas. Você também precisa evitar loops e cadeias de redirecionamento.

Problemas do servidor

O Google pode ter problemas de rastreamento porque seu site parece estar sobrecarregado. Isso ocorre porque a taxa de rastreamento, que afeta o orçamento de rastreamento, é ajustada aos recursos do servidor.

Em um webinar sobre Rendering SEO , Martin Splitt discutiu problemas de servidor relacionados ao rastreamento de páginas do Google:

[…] Uma coisa que vejo acontecer com bastante frequência é que os servidores dão erros intermitentes – especificamente, 500-algo – e qualquer coisa que seu servidor responda com 500, 501, 502, 504, o que quer que seja, significa que seu servidor diz 'Espere , eu tenho um problema aqui' [...], e pode cair a qualquer momento, então estamos recuando. Sempre que estamos recuando e seu servidor responde positivamente, geralmente estamos aumentando lentamente novamente. Imagine ter uma resposta de 500 algo todos os dias.

Estamos vendo isso, estamos recuando um pouco, estamos voltando – estamos vendo de novo […]. Você deve verificar se o seu servidor responde negativamente.

fonte: Martin Splitt

Verifique com seu provedor de hospedagem se há algum problema de servidor em seu site.

Os problemas do servidor também podem ser causados ​​pelo baixo desempenho da Web – saiba mais lendo nosso artigo sobre desempenho da Web e orçamento de rastreamento.  

Sites pesados

Problemas de rastreamento podem ser causados ​​por algumas páginas serem muito pesadas. O Google pode simplesmente não ter recursos suficientes para rastreá-los e renderizá-los.

Cada recurso que o Googlebot precisa buscar para renderizar sua página conta para seu orçamento de rastreamento. Nesse caso, o Google vê uma página, mas a coloca ainda mais na fila de prioridade.

Você deve otimizar os arquivos JavaScript e CSS do seu site para reduzir o impacto negativo do seu código.

John Mueller sobre endereçamento Descoberto – atualmente não indexado

Durante o SEO Office Hours, John Mueller foi questionado sobre como resolver o problema de cerca de 99% dos URLs em um site preso na seção de relatório Descoberto – atualmente não indexado.

As recomendações de John giravam em torno de três etapas principais:

[…] Antes de tudo, talvez eu veja […] que você não está gerando URLs acidentalmente com diferentes padrões de URL, […] coisas como os parâmetros que você tem em sua URL, maiúsculas e minúsculas, todas essas coisas podem levar essencialmente duplicar o conteúdo . E se descobrimos muitos desses URLs duplicados, podemos pensar que não precisamos rastrear todas essas duplicatas porque já temos alguma variação dessa página […]. Certifique-se de que a partir da ligação interna, está tudo ok. Que pudéssemos rastrear todas essas páginas do seu site e chegar até o final. Você pode testar isso usando uma ferramenta de rastreador ou algo como Screaming Frog ou Deep Crawl . […] Eles dirão basicamente se eles podem rastrear seu site e mostrar os URLs que foram encontrados durante esse rastreamento. Se esse rastreamento funcionar, eu me concentraria fortemente na qualidade dessas páginas . Se você está falando de 20 milhões de páginas e 99% delas não estão sendo indexadas, então estamos indexando apenas uma pequena parte do seu site. […] Talvez faça sentido dizer: 'Bem, e se eu reduzir o número de páginas pela metade ou talvez até […] para 10% da contagem atual'. […] Geralmente, você pode melhorar um pouco a qualidade do conteúdo por ter um conteúdo mais abrangente nessas páginas. E para nossos sistemas, é um pouco mais fácil olhar para essas páginas e dizer: 'Bem, essas páginas […] realmente parecem muito boas. Deveríamos sair e rastejar e indexar muito mais'.
fonte: John Mueller

Descoberto – atualmente não indexado vs. Rastreado – atualmente não indexado

Esses dois status geralmente se confundem e, embora estejam conectados, significam coisas diferentes.

Em ambos os casos, os URLs não foram indexados, mas com Rastreado – atualmente não indexado, o Google já visitou a página . Com Descoberta – atualmente não indexada, a página foi encontrada pelo Google, mas não foi rastreada.

Rastreado – atualmente indexado geralmente é causado por um atraso de indexação, problemas de qualidade de conteúdo, problemas de arquitetura do site ou uma página pode ter sido desindexada.

Também temos um artigo detalhado que explica como corrigir Rastreado – atualmente não indexado.

Empacotando

Descoberto – atualmente não indexado tende a ser causado por problemas de qualidade da página e orçamento de rastreamento.

Corrigir esses problemas – e ajudar o Google a rastrear suas páginas com eficiência e precisão no futuro – pode exigir que você passe por muitos aspectos de suas páginas e as otimize.

Aqui estão algumas coisas principais que podem ajudar a evitar problemas com as páginas Descobertas – atualmente não indexadas:

  • Use o robots.txt para evitar que o Googlebot rastreie páginas de baixa qualidade, concentrando-se em conteúdo duplicado, por exemplo, páginas geradas por filtros ou caixas de pesquisa em seu site.
  • Reserve um tempo para criar um sitemap adequado que o Google possa usar para descobrir suas páginas.
  • Mantenha a arquitetura do seu site intacta e garanta que suas páginas cruciais estejam vinculadas internamente.
  • Tenha uma estratégia de indexação para priorizar as páginas que são mais valiosas para você.
  • Otimize com o orçamento de rastreamento em mente.