Como Evitar Conteúdo Duplicado Utilizando o Robots.txt

AutorPublicado por em 14 de maio 2008

Olá leitores do Mestre SEO! Hoje falarei sobre o robots.txt, citando vários exemplos para que todo mundo entenda perfeitamente o seu funcionamento. Mas antes disso, falaremos um pouco sobre a importância e regras para o robots.txt.

O robots.txt é um importante aliado na “guerra” contra conteúdo duplicado, assim, sua importância no SEO é imensa.

Só há um robots.txt para cada site e este deve estar no diretório raiz. Se houver outro arquivo robots.txt em qualquer outro diretório, ele não será acessado. Em empresas grandes isso pode ser uma grande desvantagem, pois quando uma empresa é dividida em setores, nem todos os funcionários têm acesso ao diretório raiz do site. Nesse caso, ao invés do robots.txt, é recomendado o uso das meta tags para bloquear URL´s.

O robotos.txt é especialmente útil quando precisamos “eliminar” diretórios inteiros de um site ou quando se quer excluir muitas URL´s que começam com os mesmos caracteres.

É importante ressaltar que o robots.txt não é uma forma de segurança, ele apenas impede que o crawler leia o conteúdo especificado, porém não barra usuários, e além disso, pode ser acessível por qualquer usuário.

Agora que já sabemos a importância do robots.txt no SEO, vamos entender como é seu funcionamento:

Para desabilitar um diretório utilizamos o comando Disallow: /directory. Para comentários utilizamos # e para bloquear um crawler específico, colocamos User-agent: <nome do bot>.

Bloqueando todos os bots

User-agent: *

Disallow: /

Desabilitando o googlebot para um diretório

Desabilitando o googlebot de indexar qualquer coisa que comece com /directory

User-agent: googlebot

Disallow: /directory

Desabilitando um conjunto de arquivos com nomes semelhantes

Podemos também desabilitar arquivos específicos, utilizando as regras de expressões regulares, como por exemplo: ^<sua string>.*$

Por exemplo, desabilitar todos os arquivos que contenham print=qualquer lugar:

User-agent: googlebot

Disallow: /*print=

Desabilitando mais de uma URL para mais de um bot

Quando queremos desabilitar mais de uma URL para mais de um bot, temos de colocar o nome dos user-agents antes do disallow .

User-agent: googlebot

User-agent: msnbot

Disallow: /directory

Disallow: /file.html

Desabilitando regras específicas para diferentes Search Engines

Desabilitando regras específicas (X,Y)para os demais spiders e Z para o googlebot

User-agent: *

Disallow: X

Disallow: Y

User-agent: googlebot

Disallow: Z

Liberando o acesso para um bot somente

Neste exemplo, você só dará acesso ao google bot para acessar seu site, visto que, a regra acima sobrescreve a de baixo.

User-agent: googlebot

Disallow:

User-agent: *

Disallow: /

Caso tenham alguma dúvida na criação do robots.txt, eu sugiro que utilizem a ferramenta online da MestreSEO para geração de robots.txt, que pode auxiliar na criação do seu arquivo.

Espero que tenham gostado e até a próxima!

Divulgue este artigo!




Autor Rafael Coutinho



37 Respostas à este post


Deixe um ComentárioDeixe um Comentário

(obrigatório)

(não será publicado)(obrigatório)


Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.