Crawl Budget: o que é e qual sua importância

Crawl Budget

Garantir que todas as páginas importantes estejam presentes no Google é o sonho de todos os proprietários de sites, mas para isso é importante conhecer uma série de fatores, e um dos mais importantes é o Crawl Budget.

O que é o Crawl Budget

Cota de rastreamento, tradução literal para Crawl Budget, é um termo utilizado para representar o tempo em que crawlers  — robôs utilizados por buscadores  — passam rastreando as páginas do seu site.

Entenda como funciona o Googlebot, o crawler do Google.

Como milhões de páginas são criadas diariamente, esse recurso é importante para priorizar as mais relevantes e com a melhor experiência para o usuário.

Entretanto, um ponto negativo é que a maioria dos sites grandes, como e-commerces ou wikis, provavelmente possuem páginas ausentes no índice do Google.

Quando se preocupar com o Crawl Budget

Como mencionado anteriormente, sites com um grande número de páginas são os que precisam de mais atenção. Em um caso reportado no canal oficial de SEO do Google, Search Office Central, um site com mais de 100 mil páginas estava com um rastreamento médio de 2 mil páginas / dia.

Levando esse número em conta, o site precisaria de no mínimo 50 dias para ter todas as páginas rastreadas. Ainda assim, muitas delas ficariam desatualizadas ou fora do Google, pois existe uma priorização do que deve ser rastreado, a homepage e páginas de categoria normalmente são mais visitadas que páginas produtos, por exemplo.

 

Se o seu site possui menos de 1.000 páginas, isso normalmente não será um problema.

Como analisar as URLs rastreadas pelo Google

A primeira coisa que você deve fazer para descobrir se está com algum problema no Crawl Budget é analisar as páginas rastreadas pelo Google, para isso você deverá conhecer as páginas existentes no site e qual a média de rastreamento diário. Confira o passo a passo abaixo:

  1. Extraia todas as URLs do seu site com uma ferramenta ou consulte no Sitemap.xml;
  2. No Google Search Console, vá até Configurações > Estatísticas de rastreamento
  3. Divida o número de páginas presentes no passo 1 pela média diária de rastreamento do passo 2.
  4. Se o valor for maior que 2 ou 3, provavelmente existe um problema.

Rastreamento no Search Console

Para saber exatamente quais páginas estão sendo rastreadas, será necessário extrair um log do servidor com os dados. Recomendo solicitar apoio de alguém responsável pela infraestrutura dos servidores ou desenvolvedor.

Após a extração, leia o arquivo com a ferramenta Log Analyser da ScreamingFrog.

Essas dicas foram publicadas pelo time Yoast.

O que define o Crawl Budget

Ok, agora que você entendeu que seu site possui um problema, existe uma pergunta: por quê ele acontece? Existem diversos problemas ou possíveis limitações que podem afetar a cota de rastreamento, confira os principais.

Demanda

O Googlebot trabalha com as páginas mais relevantes, como mencionado anteriormente, por isso o Crawl Budget pode ser influenciado pela popularidade de alguns sites.

Um portal de notícias, como a Folha, não pode ficar dias sem rastreamento, pois a quantidade de conteúdos publicados diariamente é enorme e as notícias ficam desatualizadas em questão de minutos, já uma landing page ou site institucional não muda com tanta frequência e pode ser rastreada uma vez por semana.

Limites

Os limites talvez sejam mais importantes que a demanda, pois são eles que garantem que o usuário não será afetado pelo volume de rastreamento de um site.

Imagine um site com uma hospedagem compartilhada (a mais comum) com um alto volume de bots acessando milhares de páginas e provocando a queda do site a cada 5 ou 10 minutos. A experiência do usuário seria horrível, certo? Para isso existe a taxa de rastreamento, ela define a quantidade de conexões que o Googlebot usa para rastrear o site, tempo de espera entre as consultas e etc.

A taxa de rastreamento pode ser afetada de duas formas: performance do site e limite definido manualmente, tema abordado no próximo tópico.

Como melhorar a taxa de rastreamento

A taxa de rastreamento pode oscilar ao longo do tempo e deve ser monitorada constantemente, principalmente após grandes migrações ou alterações no site. Para melhorar os resultados apresentados nas estatísticas de rastreamento, confira o checklist abaixo.

Verifique se o site não foi invadido

É importante conferir se elementos estranhos, redirecionamentos novos e outros comportamentos inesperados não começaram a surgir no site.

Esses elementos podem indicar que o site foi invadido, caso isso aconteça, o Google pode despriorizará aquele domínio e pode até mesmo remover as páginas da SERP. Além disso, o Chrome normalmente começa a exibir uma mensagem de “Este site foi invadido”.

Acabe com erros 4xx e 5xx

Os erros 4xx indicam erro no lado do cliente, sendo o mais comum o 404 – Página não encontrada. Normalmente indicam links quebrados ou inexistentes.

Já os erros 5XX indicam erro no servidor, o mais comum é o erro 500 – Internal server error. Normalmente ocorrem quando há problemas no banco de dados ou servidor.

Esses problemas afetam diretamente o rastreamento do site e são reportados no menu de Cobertura do Search Console. Algumas ferramentas como ScreamingFrog e Semrush também podem ajudar a detectar.

Leia também: HTTP Status: o que é, para que serve e tipos

Reduza redirecionamentos

Normalmente a correção de links quebrados (erro 404) é o redirecionamento da URL com problemas para o endereço correto, mas isso não resolve 100% do problema.

Muitas pessoas esquecem, mas a página de origem do erro também deve ter o link corrigido para a URL correta, isso reduz a quantidade de redirecionamentos do site.

Também é comum encontrarmos sites que redirecionam de http://exemplo.com.br para https://exemplo.com.br e depois para https://www.exemplo.com.br. Essa cadeia de redirecionamentos quando aplicada para milhares de páginas afetam drasticamente o tempo de rastreamento.

Conteúdo duplicado

Reutilizar partes do conteúdo ou PDP (product description page / descrição de produto) não são necessariamente duplicidade, neste caso o grande problema são páginas idênticas com apenas URLs diferentes.

Navegação facetada

O problema mais comum de e-commerces é a navegação facetada. Ela ocorre sempre que um usuário adiciona um filtro de cor ou tamanho e a URL é alterada com os novos parâmetros.

Duas opções muito interessantes para resolver esse problema são o uso das canonical tags e restrição dentro do robots.txt.

Otimize a velocidade de carregamento do site

Um site rápido pode oferecer uma ótima experiência aos clientes, mas neste caso é fundamental ter um bom tempo de carregamento de servidores.

John Mueller menciona no vídeo presente no início do texto que um bom tempo de resposta do servidor seria abaixo de 300 ou 400ms.

Para reduzir o tempo de resposta do servidor ou TTFB (Time to First Byte), é importante revisitar as consultas no banco de dados, funções do tema do site, cache ou até mesmo considerar a mudança de servidor.

Conquiste e construa mais links

O rastreamento funciona por meio de links, então uma das formas de aumentar as chances de uma página ser descoberta é criando mais links, sejam eles internos ou em parceiros.

Construa links distribuídos dentro dos conteúdos, indique produtos e posts relacionados, revisite o menu e rodapé do site e utilize barras laterais com links importantes.

A estratégia de link building é importante para aumentar essa quantidade de links, melhorar a autoridade do site e torná-lo mais famoso. Estratégias de e-mail marketing, social e remarketing também ajudam nesse processo.

Faça a alteração da taxa de rastreamento no Search Console

A taxa de rastreamento aumentou demais ou precisa diminuir por outro motivo? Existem basicamente duas formas de configurar.

  1. Vá até as configurações de taxa de rastreamento e indique a nova taxa, ela será válida por 90 dias.
  2. Preencha uma solicitação para redução da taxa de rastreamento.

Lembre-se que não é possível aumentar a taxa neste caso, apenas diminuir.

Gostou das dicas? Confira outros artigos aqui no blog!