Robots.txt: como usar

Robots são as unidades utilizadas por mecanismos de busca para indexar as páginas da web. Quem tem um site pode dar certas instruções ao robot inserindo um arquivo de texto na pasta raiz de nome robots.txt. Pois, se o robot chegar à página, e esta não tiver o arquivo robots.txt para guiá-lo, a decisão sobre o que fazer será do próprio robot.

A idéia é simples. Você coloca o nome do robot em User-agent e as páginas que deseja retirar da indexação em Disallow. Para uma aplicar a todos os mecanismos de busca, um * deve ser inserido. Para ter regras específicas de cada robot basta colocar o nome do robot (para uma lista com os mecanismos de pesquisa, os nomes dos robots e os IPs que eles usam, veja aqui)

User-agent: *
Disallow:

ou, sendo mais específico:

User-agent: Googlebot
Disallow:

Para bloquear certas áreas particulares, basta inserir a url ou parte dela no item Disallow:

User-agent: *
Disallow: /privado
Disallow: /imagens/sitio.html

Para retirar todo o conteúdo, insira /:

User-agent: *
Disallow: /

Pode-se também inserir comentários que elucidem os motivos da exclusão:

User-agent: *
# remover diretórios
Disallow: /privado/

Por fim, para incluir o sitemap:

#Sitemap
Sitemap: http://www.site.com.br/sitemap.xml

Depois dessa introdução, podemos ir direto ao que interessa. Para um blog em WordPress, encontrei duas versões de robots otimizados para mecanismos de pesquisa: Um pelo Bruno Alves e outro pelo Askapache. Vou seguir a orientação do Bruno Alves, mas fica a sugestão do outro também. Além disso, o MarketingDeBusca tem uma ferramenta que gera o arquivo Robots.txt automaticamente.

1 Comentário em “Robots.txt: como usar”

  1. Samael disse em 14/12/2011 às 20:34:

    Você poderia me informar onde fica esta tal pasta raiz ? Obg

Deixe seu comentário