Tutorial de robots.txt

AutorPublicado por Heron Inouye em 28 de julho 2008

Olá leitores da MestreSEO!

Como muitos de vocês sabem, os mecanismos de busca utilizam-se de robôs de busca, também conhecidos como webcrawlers, para percorrer toda a web, indexando todo ou quase todo o conteúdo disponível. Diante disto, foi criado um padrão onde cada website pode incluir na raíz do seu website um arquivo chamado robots.txt que diz aos robôs de busca quais páginas eles não podem visitar.

Pois bem, aprender como funciona o robots.txt é muito importante no processo de otimização de sites, evitando assim que algum conteúdo restrito fique disponível na web ou ainda que você sofra de conteúdo duplicado.

Vejamos abaixo mais alguns detalhes sobre o padrão robots.txt:

Como Criar um Arquivo robots.txt

Existem diversas maneiras de criar um arquivo robots.txt, como por exemplo, abrir o bloco de notas e criar a partir de lá. Mas aqui na MestreSEO disponibilizamos uma ferramenta online e gratuita onde você pode inserir quais páginas você deseja bloquear dos robôs de busca e ele simplesmente fornece todo o código necessário para gerar o seu arquivo robots.txt. Vale apena testar.

Exemplos de Formatação do robots.txt

Permite que todos os arquivos sejam indexados

User-agent: *

Disallow:

Não permite que nenhum arquivo seja indexado

User-agent: *

Disallow: /

Não permite que uma pasta seja indexada, com aexceção do arquivo myfile.html que está dentro da pasta

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

Informação Contida no robots.txt

Os search engines são vorazes por padrão. Eles querem indexar o máximo de informação de qualidade que conseguirem, e eles presumem que podem indexar tudo, a menos que alguém diga para eles pararem.

Se você especificar dados para todos os bots (*) e dados para bots específicos (como o Googlebot), então os comandos específicos para bots serão seguidos enquanto o bot especificado (no nosso exemplo o Googlebot) irá ignorar os comandos globais. Logo, se você fizer um comando global que queira aplicar para um bot específico, então você deverá colocar o comando para o bot específico também.

Quando você bloqueia URLs para que elas não sejam indexadas no Google pelo robots.txt, ele (o Google) pode ainda mostrar estas URLs nos resultados das pesquisas. Uma solução completa é bloquear usando as meta tags:

  • <meta name=”robots” content=”noindex”>
  • <meta name=”robots” content=”noindex,nofollow”>

Se você não tem um arquivo robots.txt, os logs dos servidores irão retornar erros 404 sempre que um bot tentar acessar o arquivo. Você pode fazer upload do arquivo em branco com o nome robots.txt na pasta raiz do seu site.

Alguns search engines também permitem que você especifique o endereço de um sitemap XML no arquivo robots.txt.

Caracteres Especiais

Google, Yahoo! e MSN permitem o uso de caracteres especiais no arquivo robots.txt.

Para bloquear acesso para todas as URLs que incluem uma interrogação (? – URLs com parâmetros via GET), você deve usar o seguinte código:

User-agent: *

Disallow: /*?

Você pode também especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .asp, coloque no robots.txt :

User-agent: Googlebot

Disallow: /*.asp$

Excentricidades

Sabemos que o Google vem “preenchendo” formulários de pesquisa e indexando as páginas geradas. Para evitar que tais páginas sejam indexadas, bloqueie pelo robots.txt. Suponha que a variável de pesquisa na URL seja “search”. Então você poderia por:

User-agent: *

Disallow: /?search=

para evitar que as páginas geradas por pesquisa sejam geradas.

Analisando o robots.txt

No Google Webmaster Central, existe uma ferramenta de análise muito eficiente, que mostra os erros que o crawler encontrou durante a anáise do seu site. Mais detalhes podem ser encontrados no meu artigo de otimização de sites usando o google webmaster tools.

Conclusões

O uso do robots.txt é uma importante técnica para controle de indexação do seu site e é uma dos primeiros itens a se verificar quando se realiza uma consultoria de SEO. Então fique de olho e não se esqueça de testar o seu robots.txt.

Divulgue este artigo!




Autor Heron Inouye



33 Respostas à este post


  • Olá amigo, porque no meu googlewebmaster tools aparece assim:

    URLs restritos pelo robots.txt

    ?

    Mto obrigado

    [Responder]

  • Olá Heron!

    Meu robots.txt está da seguinte forma:

    User-agent: Googlebot
    Disallow: /*/trackback*
    Disallow: /*/feed*
    Disallow: /wp-admin/
    Disallow: /wp-content/
    Disallow: /2008/

    User-agent: *

    Disallow: /*/trackback*
    Disallow: /*/feed*
    Disallow: /wp-admin/

    A parte do Disallow: /wp-content/ continua sendo indexada pela Google mesmo com o parâmetro especifico dele…

    Você sabe se tenho que por o caminho do diretório inteiro?
    Exemplo: /wp-content/plugins/random-posts-plugin ?

    Obrigado!

    [Responder]

  • Dúvida sobre as buscas: O google consegue fazer pesquisas de qualquer estrutura de busca?
    Já vi sites com buscas feitas no estilo javascript, dá uma URL padrão pra qualquer resultado, sem ID sem nada.

    [Responder]

  • ola, amigo, tudo bem?

    gostaria se possivel, que vc me explicasse, como faço para enviar meu sitemap para o google, pois não consegui em lugar nenhum a explicação do que vem a ser a pasta raiz do meu site… ou no caso de blog nao e necessario o envio de sitemap? esta minha pergunta, é porque algumas paginas de meu site estao sendo ignoradas e outras duplicadas… e isso esta prejudicando minha indexação…. sou meio novo neste arte e gostaria de orientação passo a passo… se possivel.. agradeço o empenho antecipadamente….

    [Responder]

  • para o google o correto é este. para indexar o site inteiro.

    User-Agent: *
    Allow: /

    [Responder]

  • Olá Luiz,

    No robots você usa apenas o comando Disallow. Você pode “desabilitar nada”.

    Como o Heron indicou no post, o correto é:

    User-agent: *

    Disallow:

    O Google segue o padrão de robots.txt.

    Até mais

    [Responder]

  • O Certo é assim?

    User-agent: *

    Disallow:

    mais eu uso diferente em meu blog

    uso assim

    User-agent: *

    Allow:

    Não a nenhum problema quanto a usar assim pois meu blog não quebra nenhuma regra .

    O tem algo de diferente quanto aos dois modos?
    E qual o motivo de se usar o “disallow”?
    Não estou questionado mais sim curioso pois sou novato em termos ‘SEO’

    [Responder]

  • Olá Élvio,

    O robotx.txt funciona através de regras de negação. Parte-se do suposto que todos os arquivos são acessíveis e você apenas limita os que não quer que sejam lidos. Logo não existe o tipo “Allow:” de regra.

    Espero ter esclarecido.

    Fábio Ricotta

    [Responder]

  • Olá
    Gostaria de fazer um robotx.txt para que o google não indexe o conteúdo do meu blog, isso é possível?
    Se sim como?
    Obrigado

    [Responder]

  • Opa..

    Sem querer abusar da boa vontade, mas eu estou com um robots .txt que tá me deixando doido, já lítudo o que podia e até agora não descobri (acho que o mais facil) que é como mandar o arquivo para o meu site…

    eu tinha http://www.draxrio.blogspot.com e agora tenho um dominio no proprio google http://www.draxrio.com
    e lá nao me ensina como mandar o maldito robots.txt e nem diz pra onde mandar..

    VC pode me dá uma luz::

    Obrigado

    Ednilson

    [Responder]

    Jonecir disse,

    O robots.txt fica no diretório raíz (root). Como já mencionado use ele apenas para NEGAR acesso aos spiders (robots).
    Exemplo:

    User-agent: *
    Disallow: /BD/
    Disallow: /teste.php

    No exemplo acima estou informando a todos os spiders para não indexar o diretório BD e o arquivo teste.php (que está no root).

    [Responder]

  • Caro Heron, congratulações. Meu caso é parecido com esse aí do Drax, no teste que fiz apareceram 132 URL’s restritas no meu blog. Teste que fiz nas ferramentas do Google. O arquivo robots txt estava assim:User-agent:Mediapartners-google Disallow:User-agent * Disallow:/Search Sitemap:http://www,pianoclassico.org/feeds/posts/default?orderby=updated
    Então retirei Disallow: E Disallow: /search
    Testei 132 URL’s que estavam restritas e ficaram “permitidas”. Agora quero enviar este Arquivo robots’txt para que essas URL’s sejam indexadas, mas não sei como fazê-lo caro amigo. O que é arquivo de nível superior? E Arquivo raíz? Pode me socorrer? Ob Antecipadamente agradeço. Abraço fraternal!

    [Responder]

  • Como funcionam os robots para arquivos em Flash? Como eles indexam esses arquivos?

    [Responder]

  • Sr do forum bom dia.
    Alguem poderia tirar uma dúvida.
    Sou novato no assunto mais me dedicando, aonde é a infeliz raiz do meu site, quando conecto o ftp aparecem os diretórios mais as url e meu com o arquivo sitemap e css ali é a raiz do site.
    Se eu colocar as metas
    meta name=”ROBOTS” content=”index,follow”
    meta name=”Googlebot” content=”index,follow”
    mesmo assim sou obrigado a montar o robot.txt,se ou montar o robot posso tiras as tag acima, qual o motivo de usar robot para indexa todas as paginas?
    desde ja agradeço abraços

    [Responder]

  • Olá a todos!!
    Se eu utilizar o Disallow em alguma página que já aparece em um resultado do google, ele (o google) a substitui por outra página do meu site? E essa página (que eu apliquei o disallow) deixa de ajudar o site nos resultados?

    Desde já agradeço a atenção!!

    Emanuel…

    [Responder]

  • Boa tarde Heron,
    Como fica a situação de sites que é necessário estar logado para ler uma notícia inteira? A metatag robots até já existe, mas tem alguma influência o fato de ter que fazer o login?

    Abraços.

    [Responder]

  • Lembrando que páginas bloqueadas por robots.txt causam problemas quando também bloqueadas com meta tag noindex.

    Pois não seguiram a tag noindex. Pois isso é bom utilizar somenta a meta tag robots noindex para bloquear conteúdos, como por exemplo conteúdos pagos.

    [Responder]

  • Olá,

    Não sei se o robots.txt é obrigatório, se pode ser colocado em branco ou apenas ‘Allow’. A verdade é que não tenho nada a esconder por ser um site pessoal.

    Porém, se tento bloquear algumas pastas, algum curioso de plantão vê meu ‘robots’ e vai lá, direitinho, ver o que não deve ser indexado. Por isso, até hoje meu site não tem o robots.txt.

    Há algum problema nisso, quanto ao Alexa e ao Google?

    [Responder]

    Frank Marcel disse,

    Olá Lana! Não há problema em ter um robots.txt em branco e, na verdade, também não há um grande problema em nem ter o robots.txt, mas é uma boa prática que vale seguir.

    Se você não pretende “brincar” com a indexação do site, use o robots conforme foi indicado pelo Heron no primeiro exemplo do artigo:

    User-agent: *
    Disallow:

    Assim, fica tudo como se não existisse robots.txt.

    [Responder]

    Lana disse,

    Obrigada pela atenção, Frank

    Foi muito útil a explicação. Agora eu sei o que fazer.

    Abraços.

    [Responder]

  • Olá, Heron

    Excelente artigo. Antes verificava nas estatísticas do site que haviam em média 800 erros de página não encontrada por mês no site, quando fui ver todos eram para o “robots.txt”, é mole ? Obrigado pelas dicas!

    Att,
    Paulo

    [Responder]

  • Se o arquivo robots.txt não for encontrado por um robot, isso pode fazer com que o site não seja indexado?

    Obrigado

    [Responder]

  • Meu robotstxt tá assim=
    User-agent: Mediapartners-Google
    Disallow:

    User-agent: *
    Disallow: /search

    Sitemap: http://blogdobeto10.blogspot.com/feeds/posts/default?orderby=updated

    como mudar para indexar todo blog?

    [Responder]

    Frank Marcel disse,

    Acredito que não é possível alterar o robots.txt no Blogspot, mas você pode cadastrar o Blogspot no Webmasters Tools e configurar um sitemap.xml a partir do feed que use 100 ou mais itens (só não me lembro qual parâmetro faz isso!).

    [Responder]

  • Ola estou desesperado espero que alguem possa me ajudar …
    É um seguinte ,no meu ferramentas para webmasters esta indicando que tenho
    Meta descrições duplicadas = 5.040 Títulos duplicados = 4.991
    meu blog http://downloadsferoz.com.br/ so tem 5000 postagem…
    o estranho é que todos titulos que esta dando como duplicado esta assim
    /2010/06/baixar-jogo-naval-assault-the-killing-tide-xbox360-region-free.html
    /2010/06/baixar-jogo-naval-assault-the-killing-tide-xbox360-region-free.html?pr=5685&site=http://downloadsferoz.com.br/
    todos os link aparace isso no final ( ?pr=5685&site=http://downloadsferoz.com.br/ ) ai fica tudo
    duplicado e depois disso meu blog esta caindo muito o rendimento espero que possam ajudar

    [Responder]

  • Pessoal to com uma duvida eu queria bloquear todas os arquivos (páginas) do meu site que estão dentro da pasta “categoria ” menos aqueles que estão dentro de uma subpasta desta anterior e que se chama “eventos”.

    Então estaria certo usar essa regra:

    User-agent: *

    Disallow: /categoria/

    Allow: /categoria/ eventos

    ———————————————————

    De certa forma eu conseguiria que apenas os aquivos dentro da subpasta “eventos” fossem indexados dentre aqueles que estão dentro da pasta “categoria” ?

    Aa

    Ab

    [Responder]

  • [...] Se quiserem saber mais informações, podem consultar este tutorial. [...]

  • Boa noite.
    Estou tendo um problema com o robotxt, espero que alguem possa me ajudar
    o retorno que estou recebendo é 404 (Não encontrado)
    Googlebot Googlebot-Mobile
    Permitido
    Detectado como diretório; arquivos específicos podem ter restrições diferente
    coloquei na pagina
    User-Agent: *
    Allow: /
    ja não sei o que fazer
    obriado

    [Responder]

  • Olá amigos, estive lendo o artigo sobre robots.txt no site dos senhores e percebi que o meu está diferente (criei direto no google webmasters). Para o Google indexar tudo tenho que colocar qual codigo?
    Este:
    User-agent: *
    Disallow:
    Ou este:
    User-agent: *
    Allow: /.
    Allow: /

    [Responder]

    Frank Marcel disse,

    Walmir, os códigos
    disallow:
    e
    allow: /

    são equivalentes e ambos indicam que não existe nenhuma restrição de rastreamento, ou seja, permite o “Google indexar tudo.”

    [Responder]

Deixe um ComentárioDeixe um Comentário

(obrigatório)

(não será publicado)(obrigatório)


Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.