O robots.txt é um arquivo que deve ser encontrado na raiz de todo domínio, ou melhor deveria porque nem todos têm. O robots.txt é um arquivo em texto mesmo, em que você escreve as regras com uma gramática particular entendida pelos spiderbots. Ele é essencial na otimização de sites.
O robots.txt tem basicamente duas funções: evitar conteúdo duplicado e garantir que algumas pastas ou todo seu site não seja visitado e indexado pelos spiderbots, garantindo que seu conteúdo não seja mostrado nos resultados de busca.
Como dito, o robots.txt pode ser usado para proteger seu conteúdo de alguma indexação, por exemplo, se você tem uma cópia do site para testes em uma pasta lembre-se de bloqueá-la também.
Se o robots.txt está presente na raiz do site então ele pode ser acessível tanto para o spiderbot quanto para um usuário qualquer, você pode ver como o pessoal utiliza esse arquivo por ai. Basta acessar: www.seusite.com.br/robots.txt.
Se você utiliza Word Press em seu blog, por exemplo, o spiderbot encontrará seus posts de várias maneiras. Pode ser pela pasta categorias, autores, arquivos entre outras. O que acontece é que ele encontrará o mesmo post por caminhos diferentes caracterizando conteúdo duplicado, apesar dos blogs terem tratamento diferenciado pelos spiderbots é indispensável o bloqueio de algumas pastas. Então você pode bloquear suas pastas de categorias, autores, as pastas de arquivos (seriam: 2007, 2008, etc..).
Isso seria um trecho do robots de um blog otimizado:
sitemap: http://www.seublog.com.br/sitemap.xml
User-agent: *
Disallow: /wp-admin/
Disallow: /author/
Disallow: /comments/
Disallow: /category/
Disallow: /2007/
Disallow: /2008/
O Rafael postou um artigo de como evitar conteúdo duplicado com o robots.txt com exemplos de sua gramática, vale a pena conferir. Aprenda a utilizar o Google Webmaster Tools que contém uma ferramenta de construção do arquivo robots.txt.
Até a próxima.








15 de julho de 2008 às 10:53 am
Eu ouvi dizer que quando pra você forçar a leitura do sitemap pelos spiderbot você deve inserir o caminho do sitemap no robots. Isto é verdade?
exemplo:
Sitemap: /sitemap.xml
[Responder]
15 de julho de 2008 às 3:58 pm
Não é forçar, mas indicar que você possui um sitemap.
Você pode fazer desta maneira mesmo, mas eu colocaria o endereço completo, do tipo:
Sitemap: http://www.meusite.com.br/sitemap.xml
Abraços!
[Responder]
18 de julho de 2008 às 10:12 am
Mais uma dúvida:
Já coloquei um “Disallow: /nomedapagina.htm” há 3 meses e até agora a página não sai do cache do google, quando faço um “site:nomedosite” a página ainda esta lá. Detalhe a página existe e não foi retirada do servidor, porém quero que fique indexada. Existe algo que posso fazer além de usar o robots.txt? Também não quero depender da ferramenta “Remover URLs” do google webmaster para desabilitar páginas.
[Responder]
18 de julho de 2008 às 3:39 pm
Gostaria de saber se quando forçamos a leitura de um link no proprio site quando este fica escondido a penalização é primordialmente no pagerank da página. Como isso acontece?
[Responder]
21 de julho de 2008 às 6:32 pm
Se eu entendi a sua pergunta, a penalização acontece em um domínio. Pode resultar em perda de Pagerank ou em perda de rankings.
Se não for o que você perguntou me avise.
[Responder]