Tutorial de robots.txt

Olá pessoal. Hoje disponibilizarei um tutorial sobre o robots.txt para ajudá-los na otimização de sites.

Como Criar um Arquivo robots.txt

Você pode criar um robots.txt em qualquer editor de texto, mas existem vários geradores que você pode encontrar na web.O google oferece esta ferramenta no Google Webmasters Tools.

Analisando o robots.txt

No Google Webmaster Central, existe uma ferramenta de análise muito eficiente, que mostra os erros que o crawler encontrou durante a anáise do seu site. Mais detalhes podem ser encontrados no meu artigo de otimização de sites usando o google webmaster tools.

Exemplos de Formatação do robots.txt

Permite que todos os arquivos sejam indexados

User-agent: *

Disallow:

Não permite que nenhum arquivo seja indexado

User-agent: *

Disallow: /

Não permite que uma pasta seja indexada, com aexceção do arquivo myfile.html que está dentro da pasta

User-agent: Googlebot

Disallow: /folder1/

Allow: /folder1/myfile.html

Informação Contida no robots.txt

Os search engines são vorazes por padrão. Eles querem indexar o máximo de informação de qualidade que conseguirem, e eles presumem que podem indexar tudo, a menos que alguém diga para eles pararem.

Se você especificar dados para todos os bots (*) e dados para bots específicos (como o Googlebot), então os comandos específicos para bots serão seguidos enquanto o bot especificado (no nosso exemplo o Googlebot) irá ignorar os comandos globais. Logo, se você fizer um comando global que queira aplicar para um bot específico, então você deverá colocar o comando para o bot específico também.

Quando você bloqueia URLs para que elas não sejam indexadas no Google pelo robots.txt, ele (o Google) pode ainda mostrar estas URLs nos resultados das pesquisas. Uma solução completa é bloquear usando as meta tags:

  • <meta name=”robots” content=”noindex”>
  • <meta name=”robots” content=”noindex,nofollow”>

Se você não tem um arquivo robots.txt, os logs dos servidores irão retornar erros 404 sempre que um bot tentar acessar o arquivo. Você pode fazer upload do arquivo em branco com o nome robots.txt na pasta raiz do seu site.

Alguns search engines tambeém permitem que você especifique o endereço de um sitemap XML no arquivo robots.txt.

Caracteres Especiais

Google, Yahoo! e MSN permitem o uso de caracteres especiais no arquivo robots.txt.

Para bloquear acesso para todas as URLs que incluem uma interrogação (? - URLs com paâmetros via GET), você deve usar o seguinte código:

User-agent: *

Disallow: /*?

Você pode também especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .asp, coloque no robots.txt :

User-agent: Googlebot

Disallow: /*.asp$

Excentricidades

Sabemos que o Google vem “preenchendo” formulários de pesquisa e indexando as páginas geradas. Para evitar que tais páginas sejam indexadas, bloqueie pelo robots.txt. Suponha que a variável de pesquisa na URL seja “search”. Então você poderia por:

User-agent: *

Disallow: /?search=

para evitar que as páginas geradas por pesquisa sejam geradas.

Finalizo por aqui. Em breve disponibilizaremos ferramentas para ajudá-los nestas questões de SEO. Grande abraço!

Fonte


Assine o nosso Feed
2.425 assinantes,
assine você também!
Publique esse artigo no Twitter Salve este artigo no Delicious Cadastre esse artigo no Dihitt Cadastre esse artigo no UEBA Cadastre esse artigo no Rec6

Heron Inouye

11 Respostas à este post

  1. Rafael disse,

    Olá amigo, porque no meu googlewebmaster tools aparece assim:

    URLs restritos pelo robots.txt

    ?

    Mto obrigado

  2. Olá Heron!

    Meu robots.txt está da seguinte forma:

    User-agent: Googlebot
    Disallow: /*/trackback*
    Disallow: /*/feed*
    Disallow: /wp-admin/
    Disallow: /wp-content/
    Disallow: /2008/

    User-agent: *

    Disallow: /*/trackback*
    Disallow: /*/feed*
    Disallow: /wp-admin/

    A parte do Disallow: /wp-content/ continua sendo indexada pela Google mesmo com o parâmetro especifico dele…

    Você sabe se tenho que por o caminho do diretório inteiro?
    Exemplo: /wp-content/plugins/random-posts-plugin ?

    Obrigado!

  3. Dúvida sobre as buscas: O google consegue fazer pesquisas de qualquer estrutura de busca?
    Já vi sites com buscas feitas no estilo javascript, dá uma URL padrão pra qualquer resultado, sem ID sem nada.

  4. ola, amigo, tudo bem?

    gostaria se possivel, que vc me explicasse, como faço para enviar meu sitemap para o google, pois não consegui em lugar nenhum a explicação do que vem a ser a pasta raiz do meu site… ou no caso de blog nao e necessario o envio de sitemap? esta minha pergunta, é porque algumas paginas de meu site estao sendo ignoradas e outras duplicadas… e isso esta prejudicando minha indexação…. sou meio novo neste arte e gostaria de orientação passo a passo… se possivel.. agradeço o empenho antecipadamente….

  5. Luiz Antonio disse,

    para o google o correto é este. para indexar o site inteiro.

    User-Agent: *
    Allow: /

  6. Olá Luiz,

    No robots você usa apenas o comando Disallow. Você pode “desabilitar nada”.

    Como o Heron indicou no post, o correto é:

    User-agent: *

    Disallow:

    O Google segue o padrão de robots.txt.

    Até mais

  7. Élvio disse,

    O Certo é assim?

    User-agent: *

    Disallow:

    mais eu uso diferente em meu blog

    uso assim

    User-agent: *

    Allow:

    Não a nenhum problema quanto a usar assim pois meu blog não quebra nenhuma regra .

    O tem algo de diferente quanto aos dois modos?
    E qual o motivo de se usar o “disallow”?
    Não estou questionado mais sim curioso pois sou novato em termos ‘SEO’

  8. Olá Élvio,

    O robotx.txt funciona através de regras de negação. Parte-se do suposto que todos os arquivos são acessíveis e você apenas limita os que não quer que sejam lidos. Logo não existe o tipo “Allow:” de regra.

    Espero ter esclarecido.

    Fábio Ricotta

  9. Vinicius disse,

    Olá
    Gostaria de fazer um robotx.txt para que o google não indexe o conteúdo do meu blog, isso é possível?
    Se sim como?
    Obrigado

  10. Drax disse,

    Opa..

    Sem querer abusar da boa vontade, mas eu estou com um robots .txt que tá me deixando doido, já lítudo o que podia e até agora não descobri (acho que o mais facil) que é como mandar o arquivo para o meu site…

    eu tinha http://www.draxrio.blogspot.com e agora tenho um dominio no proprio google http://www.draxrio.com
    e lá nao me ensina como mandar o maldito robots.txt e nem diz pra onde mandar..

    VC pode me dá uma luz::

    Obrigado

    Ednilson

  11. Lobão disse,

    Caro Heron, congratulações. Meu caso é parecido com esse aí do Drax, no teste que fiz apareceram 132 URL’s restritas no meu blog. Teste que fiz nas ferramentas do Google. O arquivo robots txt estava assim:User-agent:Mediapartners-google Disallow:User-agent * Disallow:/Search Sitemap:http://www,pianoclassico.org/feeds/posts/default?orderby=updated
    Então retirei Disallow: E Disallow: /search
    Testei 132 URL’s que estavam restritas e ficaram “permitidas”. Agora quero enviar este Arquivo robots’txt para que essas URL’s sejam indexadas, mas não sei como fazê-lo caro amigo. O que é arquivo de nível superior? E Arquivo raíz? Pode me socorrer? Ob Antecipadamente agradeço. Abraço fraternal!

Deixe um Comentário

Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.