Robots.txt e Algumas Dicas para Word Press

O robots.txt é um arquivo que deve ser encontrado na raiz de todo domínio, ou melhor deveria porque nem todos têm. O robots.txt é um arquivo em texto mesmo, em que você escreve as regras com uma gramática particular entendida pelos spiderbots. Ele é essencial na otimização de sites.

O robots.txt tem basicamente duas funções: evitar conteúdo duplicado e garantir que algumas pastas ou todo seu site não seja visitado e indexado pelos spiderbots, garantindo que seu conteúdo não seja mostrado nos resultados de busca.

Como dito, o robots.txt pode ser usado para proteger seu conteúdo de alguma indexação, por exemplo, se você tem uma cópia do site para testes em uma pasta lembre-se de bloqueá-la também.

Se o robots.txt está presente na raiz do site então ele pode ser acessível tanto para o spiderbot quanto para um usuário qualquer, você pode ver como o pessoal utiliza esse arquivo por ai. Basta acessar: www.seusite.com.br/robots.txt.

Se você utiliza Word Press em seu blog, por exemplo, o spiderbot encontrará seus posts de várias maneiras. Pode ser pela pasta categorias, autores, arquivos entre outras. O que acontece é que ele encontrará o mesmo post por caminhos diferentes caracterizando conteúdo duplicado, apesar dos blogs terem tratamento diferenciado pelos spiderbots é indispensável o bloqueio de algumas pastas. Então você pode bloquear suas pastas de categorias, autores, as pastas de arquivos (seriam: 2007, 2008, etc..).

Isso seria um trecho do robots de um blog otimizado:

sitemap: http://www.seublog.com.br/sitemap.xml

User-agent: *

Disallow: /wp-admin/

Disallow: /author/

Disallow: /comments/

Disallow: /category/

Disallow: /2007/

Disallow: /2008/

O Rafael postou um artigo de como evitar conteúdo duplicado com o robots.txt com exemplos de sua gramática, vale a pena conferir. Aprenda a utilizar o Google Webmaster Tools que contém uma ferramenta de construção do arquivo robots.txt.
Até a próxima.


Assine o nosso Feed
2.425 assinantes,
assine você também!
Publique esse artigo no Twitter Salve este artigo no Delicious Cadastre esse artigo no Dihitt Cadastre esse artigo no UEBA Cadastre esse artigo no Rec6

Bruno Galileu

5 Respostas à este post

  1. Eu ouvi dizer que quando pra você forçar a leitura do sitemap pelos spiderbot você deve inserir o caminho do sitemap no robots. Isto é verdade?
    exemplo:
    Sitemap: /sitemap.xml

  2. Não é forçar, mas indicar que você possui um sitemap.

    Você pode fazer desta maneira mesmo, mas eu colocaria o endereço completo, do tipo:

    Sitemap: http://www.meusite.com.br/sitemap.xml

    Abraços!

  3. Mais uma dúvida:
    Já coloquei um “Disallow: /nomedapagina.htm” há 3 meses e até agora a página não sai do cache do google, quando faço um “site:nomedosite” a página ainda esta lá. Detalhe a página existe e não foi retirada do servidor, porém quero que fique indexada. Existe algo que posso fazer além de usar o robots.txt? Também não quero depender da ferramenta “Remover URLs” do google webmaster para desabilitar páginas.

  4. Gostaria de saber se quando forçamos a leitura de um link no proprio site quando este fica escondido a penalização é primordialmente no pagerank da página. Como isso acontece?

  5. Se eu entendi a sua pergunta, a penalização acontece em um domínio. Pode resultar em perda de Pagerank ou em perda de rankings.

    Se não for o que você perguntou me avise.

Deixe um Comentário

Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.