O que é o Robots.txt e como configurar corretamente

Robots.txt

Você já parou para pensar como os robôs de busca, como o Googlebot, fazem para diferenciar páginas que devem aparecer nos resultados de pesquisa e quais são privadas ou devem ser desconsideradas?

Este artigo mostrará exatamente como o robots.txt funciona e qual sua importância.

O que é robots.txt e para que serve?

O robots.txt é um arquivo de texto que serve como diretriz para os crawlers, robôs de rastreamento do Google, Bing, Yahoo e outros, entenderem quais URLs devem ser rastreadas.

Na prática, esse arquivo funciona como um filtro que retira ou concede a autorização de acesso dos robôs a determinadas páginas, arquivos e recursos do site, além disso, ele também pode ser utilizado para indicar os sitemaps e restringir o tempo que robôs passam lendo o site.

Por se tratar de um arquivo *.txt, é extremamente fácil de configurar e pode ser criado até mesmo em um bloco de notas.

Robots.txt vs Meta name Robots

Uma dúvida muito comum é se o robots.txt e o meta name=”robots” são a mesma coisa.

Apesar de ambos tratarem a forma como os bots enxergam os sites, apenas a tag Meta name Robots garante que o conteúdo não será indexado pelos buscadores de acordo com a documentação do Google.

Além disso, é importante destacar que a tag funciona de maneira individual, página a página, enquanto o arquivo robots.txt serve para controlar o rastreamento de todo o site.

Para utilizar a tag meta name robots, basta adicionar o seguinte trecho dentro da seção <head> da página:

<meta name=”robots” content=”noindex” /> para bloquear a indexação da página

<meta name=”robots” content=”nofollow” /> para indicar que nenhum link da página deve ser seguido.

Os atributos noindex e nofollow também podem ser utilizados em conjunto desde que se utilize vírgula para separar.

Sintaxe (comandos) do robots.txt

A essa altura você já deve ter entendido como o uso deste recurso é delicado, pois uma falta de atenção pode resultar no bloqueio completo do site.

Apesar do susto, a configuração não é difícil, pois existem apenas 4 comandos possíveis no robots.txt:

User-agent

O user-agent é o comando responsável pela seleção do robô que você está configurando. É possível utilizar uma configuração padrão para todos os bots ou configurar individualmente.

Exemplo:

User-agent: *

Allow: /

Disallow /teste

User-agent: Googlebot

Allow: /

Conheça os principais agentes:

Google: Googlebot, Googlebot-Image, Googlebot-News, Googlebot-Video

Bing: Bingbot, MSNBot-Media

Duck Duck Go: DuckDuckBot

Disallow e Allow

Esses dois comandos são os mais utilizados no robots.txt, pois são eles os responsáveis pela autorização de rastreamento. Allow permite o rastreamento da URL, enquanto Disallow desautoriza o bot.

Sitemap

O comando de sitemap é opcional, uma vez que temos opções para envio de arquivo diretamente no Search Console e Bing Webmaster Tools.

Crawl-delay

O comando mais incomum é o crawl-delay, pois ele não é reconhecido pelo Google. Seu uso é recomendado para impedir uma sobrecarga de bots no servidor, o termo “delay” diz respeito ao tempo em que o bot deverá esperar para executar uma nova solicitação de página.

Exemplo:

User-agent: *

Allow: /

Crawl-delay: 5

Neste caso o robô deverá esperar 5 milissegundos para executar uma nova solicitação.

No Google, a configuração de tempo de espera deve ser feita diretamente no Search Console.

Exemplos de robots.txt

Confira alguns exemplos de arquivos robots.txt utilizados por grandes sites.

Como criar um arquivo robots.txt

Já é possível criar seu próprio arquivo com as informações acima, basta utilizar os comandos mencionados (com cuidado) em um arquivo *.txt no bloco de notas e fazer o upload na pasta raiz do site.

Se não se sentir seguro (a), utilize nosso gerador de robots.txt para configurar o arquivo.

Plugins do WordPress que permitem a configuração do robots.txt

O WordPress é a plataforma mais popular de CMS e possui diversos plugins para realizar a configuração de sitemaps, meta tags e também do robots.txt, sendo o Yoast o mais popular.

Para criar seu arquivo no Yoast, vá até o plugin e acesse “Ferramentas”, depois em “Editor de arquivo” e clique em “Criar arquivo”. Agora basta utilizar os comandos necessários e salvar!

Como testar se o arquivo é válido

O último passo para concluir essa tarefa é a validação do robots.txt, ela pode ser feita por meio de uma ferramenta disponibilizada pelo próprio Google.

  1. Acesse: https://www.google.com/webmasters/tools/robots-testing-tool
  2. Selecione a propriedade (seu site);
  3. Digite a URL que deseja testar o bloqueio na parte inferior;
  4. Clique em testar;
  5. Confira a linha destacada para entender o que o bot interpretou.

Cuidados ao usar o robots.txt

Note que no tópico acima foi mencionado que ele retira a autorização de acesso, ele não é responsável pelo bloqueio das páginas. Se você possui páginas privadas, como arquivos confidenciais ou sensíveis, utilize um controle a nível servidor ou programação.

Ao utilizar o robots.txt, tome muito cuidado para não bloquear diretórios indesejados.

Exemplo: quero bloquear a página /carros, mas manter a subpágina /carros/ford

Neste caso basta conceder autorização para a subpágina.

Outro cuidado importante é que as diretivas do arquivo robots.txt podem não ser seguidas conforme o esperado. Isso pode ocorrer porque o arquivo não é compatível com o agente  ou porque a página foi linkada em outro site.

Este artigo foi útil para você? Confira mais dicas abaixo!