
Como Evitar Conteúdo Duplicado Utilizando o Robots.txt
Publicado por Rafael Coutinho em 14 de Maio 2008 | Categoria: SEOOlá leitores do Mestre SEO! Hoje falarei sobre o robots.txt, citando vários exemplos para que todo mundo entenda perfeitamente o seu funcionamento. Mas antes disso, falaremos um pouco sobre a importância e regras para o robots.txt.
O robots.txt é um importante aliado na “guerra” contra conteúdo duplicado, assim, sua importância no SEO é imensa.
Só há um robots.txt para cada site e este deve estar no diretório raiz. Se houver outro arquivo robots.txt em qualquer outro diretório, ele não será acessado. Em empresas grandes isso pode ser uma grande desvantagem, pois quando uma empresa é dividida em setores, nem todos os funcionários têm acesso ao diretório raiz do site. Nesse caso, ao invés do robots.txt, é recomendado o uso das meta tags para bloquear URL´s.
O robotos.txt é especialmente útil quando precisamos “eliminar” diretórios inteiros de um site ou quando se quer excluir muitas URL´s que começam com os mesmos caracteres.
É importante ressaltar que o robots.txt não é uma forma de segurança, ele apenas impede que o crawler leia o conteúdo especificado, porém não barra usuários, e além disso, pode ser acessível por qualquer usuário.
Agora que já sabemos a importância do robots.txt no SEO, vamos entender como é seu funcionamento:
Para desabilitar um diretório utilizamos o comando Disallow: /directory. Para comentários utilizamos # e para bloquear um crawler específico, colocamos User-agent: <nome do bot>.
Bloqueando todos os bots
User-agent: *
Disallow: /
Desabilitando o googlebot para um diretório
Desabilitando o googlebot de indexar qualquer coisa que comece com /directory
User-agent: googlebot
Disallow: /directory
Desabilitando um conjunto de arquivos com nomes semelhantes
Podemos também desabilitar arquivos específicos, utilizando as regras de expressões regulares, como por exemplo: ^<sua string>.*$
Por exemplo, desabilitar todos os arquivos que contenham print=qualquer lugar:
User-agent: googlebot
Disallow: /*print=
Desabilitando mais de uma URL para mais de um bot
Quando queremos desabilitar mais de uma URL para mais de um bot, temos de colocar o nome dos user-agents antes do disallow .
User-agent: googlebot
User-agent: msnbot
Disallow: /directory
Disallow: /file.html
Desabilitando regras específicas para diferentes Search Engines
Desabilitando regras específicas (X,Y)para os demais spiders e Z para o googlebot
User-agent: *
Disallow: X
Disallow: Y
User-agent: googlebot
Disallow: Z
Liberando o acesso para um bot somente
Neste exemplo, você só dará acesso ao google bot para acessar seu site, visto que, a regra acima sobrescreve a de baixo.
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
Espero que tenham gostado! Se precisar de uma otimização de sites fale conosco, ou se só quiser saber mais sobre search engine optimization, leia nosso tutorial de SEO e termos de SEO. Até a próxima!
Otimização de Sites e Links Patrocinados
Procurando uma empresa séria, experiente e com conhecimento em Otimização de Sites ou Links Patrocinados?
Entre em contato e solicite um orçamento.










Maio 14th, 2008 at 8:53 am
Já ouvi várias pessoas (mais de 10) dizerem que o Google não “reconhece” o asterisco como máscara nas entradas do robots.txt, é verdade? Não é o que diz seu texto, e particularmente penso que ele reconheça sim, apesar de não ter testado exaustivamente.
Maio 14th, 2008 at 8:56 am
Cara, achei espetacular a postagem, e veio na hora certa, ontem mesmo passei um por um problema, ou uma dúvida.
Abordando um pouco sobre o assunto:
Tenho um blog no diretório /blog, porém meu robots encontra no diretório raiz /rotobs.txt (não /blog/rotobs.txt), sendo um blog eu posso deixar o robots no diretório raiz?
Um exemplo do meu robots.txt
User-agent: *
# remova os diretorios
Disallow: /cgi-bin/
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/trackback/
Disallow: /blog/feed/
Disallow: /blog/wp-content/files/
(…)
# Sitemap autodiscover
Sitemap: http://www.matheusfelipe.com.br/sitemap.xml
Abraços e obrigado
Maio 17th, 2008 at 10:56 pm
Agora entendi melhor como que funciona o robots.txt.
Maio 22nd, 2008 at 10:02 am
[…] Conteúdo relevante é o que os usuários estão procurando e a meta de um search engine é fornecê-la. Então, neste mundo perfeito, páginas que contenham as mesmas informações serão classificadas de forma semelhante, independentemente das tecnologias utilizadas em sua composição. Infelizmente, em muitos casos, a verdade é bem diferente. […]
Maio 26th, 2008 at 7:49 am
[…] parte é uma das mais interessante. Aqui tem uma análise do seu robots.txt, e você pode configurar quais partes do seu site não serão indexadas. Aqui também tem a parte […]
Maio 27th, 2008 at 5:23 pm
No item “Liberando o acesso para um bot somente” o correto não seria
User-agent: googlebot
Enable: /
ao inves de:
User-agent: googlebot
Disallow:
User-agent: *
Ou estou viajando ?
Maio 28th, 2008 at 3:28 pm
Marcos Elias, o googlebot reconhece * sim. Você pode testar no Google Webmasters Tools.
Matheus Felipe, o local comum do robots.txt é na raiz do site. É raro encontrar esses arquivos em outras áreas do site. Mas você pode sempre usar o Google Webmasters Tools para testar!
Demétrios, não existe a sintaxe “Enable”, o correto é “Allow”. E o que o Rafael escreveu no post está correto sim.
“Disallow:” significa “não permitir: “, ou seja, não há nada especificado para não ser acessado, logo tudo pode ser acessado.
Também é possível fazer isso com a sintaxe ” Allow: * “, ou seja, permitir tudo.
Abraços!
Espero ter ajudado nas dúvidas!
Junho 6th, 2008 at 3:36 pm
Alguém sabe onde encontro uma lista de nomes dos principais crawler bots?
Junho 7th, 2008 at 10:12 am
E aí Leandro!
No Google tem a lista de nomes dos bots.. brincadeira!
Achei essa lista aqui:
http://www.user-agents.org/index.shtml
É bem extensa e detalhada.
E essa outra mais simples:
http://www.jafsoft.com/searchengines/webbots.html#search_engine_robots_and_others
Os principais acabam sendo o googlebot, yahoo! slurp (é assim mesmo que entra no robots.txt “User-Agent: Yahoo! Slurp”) e o msnbot. Contudo, você pode olhar nas estatísticas do seu site para saber quais outros sites de busca levam visitas ao seu site e descobrir o user agent deles.
Abraços!
Junho 16th, 2008 at 8:59 am
[…] nós já tratamos do tema em alguns posts sobre casos e soluções de conteúdo duplicado, como evitar conteúdo duplicado com robots.txt, como identificar e corrigir conteúdo duplicado e um post ilustrado explicando como uma search […]
Junho 17th, 2008 at 9:03 am
[…] faça seu site de modo que os crawlers não possam ver: Isso pode acontecer quando o arquivo robots.txt é usado incorretamente ou quando um site é todo em Flash ou em […]