Add to Google addtomyyahoo4 Subscribe in NewsGator Online Subscribe with Bloglines Add to netvibes

Como Evitar Conteúdo Duplicado Utilizando o Robots.txt

11 comentários
Enviar este artigo por email Enviar este artigo por email

Olá leitores do Mestre SEO! Hoje falarei sobre o robots.txt, citando vários exemplos para que todo mundo entenda perfeitamente o seu funcionamento. Mas antes disso, falaremos um pouco sobre a importância e regras para o robots.txt.

O robots.txt é um importante aliado na “guerra” contra conteúdo duplicado, assim, sua importância no SEO é imensa.

Só há um robots.txt para cada site e este deve estar no diretório raiz. Se houver outro arquivo robots.txt em qualquer outro diretório, ele não será acessado. Em empresas grandes isso pode ser uma grande desvantagem, pois quando uma empresa é dividida em setores, nem todos os funcionários têm acesso ao diretório raiz do site. Nesse caso, ao invés do robots.txt, é recomendado o uso das meta tags para bloquear URL´s.

O robotos.txt é especialmente útil quando precisamos “eliminar” diretórios inteiros de um site ou quando se quer excluir muitas URL´s que começam com os mesmos caracteres.

É importante ressaltar que o robots.txt não é uma forma de segurança, ele apenas impede que o crawler leia o conteúdo especificado, porém não barra usuários, e além disso, pode ser acessível por qualquer usuário.

Agora que já sabemos a importância do robots.txt no SEO, vamos entender como é seu funcionamento:

Para desabilitar um diretório utilizamos o comando Disallow: /directory. Para comentários utilizamos # e para bloquear um crawler específico, colocamos User-agent: <nome do bot>.

Bloqueando todos os bots

User-agent: *

Disallow: /

Desabilitando o googlebot para um diretório

Desabilitando o googlebot de indexar qualquer coisa que comece com /directory

User-agent: googlebot

Disallow: /directory

Desabilitando um conjunto de arquivos com nomes semelhantes

Podemos também desabilitar arquivos específicos, utilizando as regras de expressões regulares, como por exemplo: ^<sua string>.*$

Por exemplo, desabilitar todos os arquivos que contenham print=qualquer lugar:

User-agent: googlebot

Disallow: /*print=

Desabilitando mais de uma URL para mais de um bot

Quando queremos desabilitar mais de uma URL para mais de um bot, temos de colocar o nome dos user-agents antes do disallow .

User-agent: googlebot

User-agent: msnbot

Disallow: /directory

Disallow: /file.html

Desabilitando regras específicas para diferentes Search Engines

Desabilitando regras específicas (X,Y)para os demais spiders e Z para o googlebot

User-agent: *

Disallow: X

Disallow: Y

User-agent: googlebot

Disallow: Z

Liberando o acesso para um bot somente

Neste exemplo, você só dará acesso ao google bot para acessar seu site, visto que, a regra acima sobrescreve a de baixo.

User-agent: googlebot

Disallow:

User-agent: *

Disallow: /

Espero que tenham gostado! Se precisar de uma otimização de sites fale conosco, ou se só quiser saber mais sobre search engine optimization, leia nosso tutorial de SEO e termos de SEO. Até a próxima!

Adicionar artigo ao Rec6 Adicionar artigo ao Linkk Adicionar artigo ao doMelhor Adicionar artigo ao Eu Curti Adicionar artigo ao del.icio.us

Otimização de Sites e Links Patrocinados

Procurando uma empresa séria, experiente e com conhecimento em Otimização de Sites ou Links Patrocinados?
Entre em contato e solicite um orçamento.

11 Respostas à este post

Assine este os comentários deste artigo RSS de comentário ou TrackBack URL
  1. Marcos Elias Says:

    Já ouvi várias pessoas (mais de 10) dizerem que o Google não “reconhece” o asterisco como máscara nas entradas do robots.txt, é verdade? Não é o que diz seu texto, e particularmente penso que ele reconheça sim, apesar de não ter testado exaustivamente.

  2. Matheus Felipe Says:

    Cara, achei espetacular a postagem, e veio na hora certa, ontem mesmo passei um por um problema, ou uma dúvida.

    Abordando um pouco sobre o assunto:

    Tenho um blog no diretório /blog, porém meu robots encontra no diretório raiz /rotobs.txt (não /blog/rotobs.txt), sendo um blog eu posso deixar o robots no diretório raiz?

    Um exemplo do meu robots.txt

    User-agent: *
    # remova os diretorios
    Disallow: /cgi-bin/
    Disallow: /blog/wp-admin/
    Disallow: /blog/wp-includes/
    Disallow: /blog/trackback/
    Disallow: /blog/feed/
    Disallow: /blog/wp-content/files/
    (…)
    # Sitemap autodiscover
    Sitemap: http://www.matheusfelipe.com.br/sitemap.xml

    Abraços e obrigado :D

  3. Tiago Celestino Says:

    Agora entendi melhor como que funciona o robots.txt. :)

  4. SEO com JavaScript e Flash como Usar Corretamente | Mestre SEO Says:

    […] Conteúdo relevante é o que os usuários estão procurando e a meta de um search engine é fornecê-la. Então, neste mundo perfeito, páginas que contenham as mesmas informações serão classificadas de forma semelhante, independentemente das tecnologias utilizadas em sua composição. Infelizmente, em muitos casos, a verdade é bem diferente. […]

  5. Otimizando o Site com o Google Webmaster Tools | Mestre SEO Says:

    […] parte é uma das mais interessante. Aqui tem uma análise do seu robots.txt, e você pode configurar quais partes do seu site não serão indexadas. Aqui também tem a parte […]

  6. Web Designer Demétrios Says:

    No item “Liberando o acesso para um bot somente” o correto não seria
    User-agent: googlebot
    Enable: /

    ao inves de:

    User-agent: googlebot
    Disallow:
    User-agent: *

    Ou estou viajando ?

  7. Frank Marcel Says:

    Marcos Elias, o googlebot reconhece * sim. Você pode testar no Google Webmasters Tools.

    Matheus Felipe, o local comum do robots.txt é na raiz do site. É raro encontrar esses arquivos em outras áreas do site. Mas você pode sempre usar o Google Webmasters Tools para testar!

    Demétrios, não existe a sintaxe “Enable”, o correto é “Allow”. E o que o Rafael escreveu no post está correto sim.
    “Disallow:” significa “não permitir: “, ou seja, não há nada especificado para não ser acessado, logo tudo pode ser acessado.
    Também é possível fazer isso com a sintaxe ” Allow: * “, ou seja, permitir tudo.

    Abraços!
    Espero ter ajudado nas dúvidas!

  8. Leandro Feijó Says:

    Alguém sabe onde encontro uma lista de nomes dos principais crawler bots?

  9. Frank Marcel Says:

    E aí Leandro!

    No Google tem a lista de nomes dos bots.. brincadeira!

    Achei essa lista aqui:
    http://www.user-agents.org/index.shtml

    É bem extensa e detalhada.

    E essa outra mais simples:
    http://www.jafsoft.com/searchengines/webbots.html#search_engine_robots_and_others

    Os principais acabam sendo o googlebot, yahoo! slurp (é assim mesmo que entra no robots.txt “User-Agent: Yahoo! Slurp”) e o msnbot. Contudo, você pode olhar nas estatísticas do seu site para saber quais outros sites de busca levam visitas ao seu site e descobrir o user agent deles.

    Abraços!

  10. Conteúdo Duplicado - Punição ou não? | Mestre SEO Says:

    […] nós já tratamos do tema em alguns posts sobre casos e soluções de conteúdo duplicado, como evitar conteúdo duplicado com robots.txt, como identificar e corrigir conteúdo duplicado e um post ilustrado explicando como uma search […]

  11. SEO: Erros Fatais para o Sucesso | Mestre SEO Says:

    […] faça seu site de modo que os crawlers não possam ver: Isso pode acontecer quando o arquivo robots.txt é usado incorretamente ou quando um site é todo em Flash ou em […]

Deixe um Comentário

Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.