O robots.txt é um arquivo que deve ser encontrado na raiz de todo domínio, ou melhor deveria porque nem todos têm. O robots.txt é um arquivo em texto mesmo, em que você escreve as regras com uma gramática particular entendida pelos spiderbots. Ele é essencial na otimização de sites.
O robots.txt tem basicamente duas funções: evitar conteúdo duplicado e garantir que algumas pastas ou todo seu site não seja visitado e indexado pelos spiderbots, garantindo que seu conteúdo não seja mostrado nos resultados de busca.
Como dito, o robots.txt pode ser usado para proteger seu conteúdo de alguma indexação, por exemplo, se você tem uma cópia do site para testes em uma pasta lembre-se de bloqueá-la também.
Se o robots.txt está presente na raiz do site então ele pode ser acessível tanto para o spiderbot quanto para um usuário qualquer, você pode ver como o pessoal utiliza esse arquivo por ai. Basta acessar: www.seusite.com.br/robots.txt.
Se você utiliza Word Press em seu blog, por exemplo, o spiderbot encontrará seus posts de várias maneiras. Pode ser pela pasta categorias, autores, arquivos entre outras. O que acontece é que ele encontrará o mesmo post por caminhos diferentes caracterizando conteúdo duplicado, apesar dos blogs terem tratamento diferenciado pelos spiderbots é indispensável o bloqueio de algumas pastas. Então você pode bloquear suas pastas de categorias, autores, as pastas de arquivos (seriam: 2007, 2008, etc..).
Isso seria um trecho do robots de um blog otimizado:
sitemap: http://www.seublog.com.br/sitemap.xml
User-agent: *
Disallow: /wp-admin/
Disallow: /author/
Disallow: /comments/
Disallow: /category/
Disallow: /2007/
Disallow: /2008/
O Rafael postou um artigo de como evitar conteúdo duplicado com o robots.txt com exemplos de sua gramática, vale a pena conferir. Aprenda a utilizar o Google Webmaster Tools que contém uma ferramenta de construção do arquivo robots.txt.
Até a próxima.







Eu ouvi dizer que quando pra você forçar a leitura do sitemap pelos spiderbot você deve inserir o caminho do sitemap no robots. Isto é verdade?
exemplo:
Sitemap: /sitemap.xml
[ Responder este comentário ]
Não é forçar, mas indicar que você possui um sitemap.
Você pode fazer desta maneira mesmo, mas eu colocaria o endereço completo, do tipo:
Sitemap: http://www.meusite.com.br/sitemap.xml
Abraços!
[ Responder este comentário ]
Mais uma dúvida:
Já coloquei um “Disallow: /nomedapagina.htm” há 3 meses e até agora a página não sai do cache do google, quando faço um “site:nomedosite” a página ainda esta lá. Detalhe a página existe e não foi retirada do servidor, porém quero que fique indexada. Existe algo que posso fazer além de usar o robots.txt? Também não quero depender da ferramenta “Remover URLs” do google webmaster para desabilitar páginas.
[ Responder este comentário ]
Gostaria de saber se quando forçamos a leitura de um link no proprio site quando este fica escondido a penalização é primordialmente no pagerank da página. Como isso acontece?
[ Responder este comentário ]
Se eu entendi a sua pergunta, a penalização acontece em um domínio. Pode resultar em perda de Pagerank ou em perda de rankings.
Se não for o que você perguntou me avise.
[ Responder este comentário ]
Olá Pessoal,
Tenho um grande número de sitemaps em meu site, gostaria de saber se devo adicionar todos os caminhos no robots.txt ou criar um novo sitemap.xml com todos os caminhos de sitemaps e ai sim adicionar apenas este no robots?
[ Responder este comentário ]