
Robots.txt: 4 Coisas Que Você Deve Saber
Publicado por Leandro Riolino em 15 de Agosto 2008 | Categoria: Robots txtOlá leitores do blog da MestreSeo, na semana passada estivemos no SMX Brasil realizado na cidade de São Paulo, queria deixar aqui um abraço a todos que eu encontrei por lá que estão lendo este artigo, seguindo um pouco a linha do evento, hoje daremos 4 dicas BÁSICAS, ou 4 coisas que você deve saber a respeito do robots.txt.
O uso do robots.txt se tornou amplamente utilizado para um método de controle e rastreamento do seu site. Assim tornou-se uma das primeiras coisas que você deve verificar para diagnosticar problemas de indexação ou algum outro problema no seu site. Embora quase todos os webmasters já utilizem esse arquivo, ainda há algumas coisas que causam mal entendidos, vamos a elas:
1-) Robots.txt pode evitar que os bots entrem em uma determinada página ou diretório, mas se a url já foi indexada anteriormente a partir de fontes externas, ela usará essas informações para fazer o julgamento da página e formular os snippet (título e descrição que aparecerá nos players de busca).
2-) Se você usa uma definição geral para todos os bots (ou seja: user-agent: *) e uma definição para um bot específico (por exemplo: User-agent: googlebot) nas seções de User-agent, tenha em mente que o Google (e outros indexadores) só seguirá as seções mais específicas e irá ignorar todas as outras seções (incluindo a geral). Ex:
3-) Dentro do arquivo robots.txt os bots lêem uma instrução em uma url a partir da esquerda para a direita, o que significa que eles bloqueiam ou permitem tudo após o “/” em uma url, por exemplo se você colocar: “Disallow: /a” tudo que começa com “a” será descartado pelos bots, neste caso a página www.seudominio.com.br/about.html será descartada pelo user-agent.
4-) Pensando no lado da segurança e SEO, seu site DEVE ter esse arquivo robots.txt mesmo que você não queira deixar nenhuma direção para o bot, neste caso faça o arquivo e deixe o padrão:
User-agent: *
Disallow:
Por isto, tenha a certeza de que:
• Todos os indexadores buscam entender o que você quer dizer corretamente.
• Os indexadores sempre consigam acessar o seu robots.txt, por isso, sempre olhe o log do Google Webmaster Tools para ver se o Google bot encontrou seu arquivo corretamente.
• Bots não irão esperar para indexar seu site em caso de não poderem atingir seu Robots.txt (um caso muito improvável, mas pode acontecer assim mesmo).
Bom é isso, um abraço a todos.
Gostou? Então vote!
Sugerimos a leitura destes outros artigos...







15 de Agosto de 2008 às 9:38 am
Eu tenho um site que pedi a meses para tirar a indexação de algumas páginas, utilizei o método User-agent: * e não rolou, tive que pedir remoção pela ferramenta Google Webmaster. Pelo que entendi na sua explicação eu deveria ter usado User-agent: googlebot, estou certo?
Quer dizer que se eu bloquear 4 arquivos pelo User-agent: * e depois bloquear apenas 1 arquivo User-agent: googlebot, o google vai desconsiderar os outros 3 bloqueio via User-agent: * ???
15 de Agosto de 2008 às 2:35 pm
Fala Demetrios,
A minha explicação tinha ficado um pouco confusa mesmo, mas você pode ver eu reescrevi essa parte e espero que esteja mais clara. Mas respondendo a sua pergunta, o que pode ter ocorrido é isso mesmo, como você tinha definições especificas para o Google, o Google Bot desconsiderou as definições do caso Geral.
Abraços
15 de Agosto de 2008 às 2:49 pm
Na verdade eu somente o User-agent: * e o google não removeu de jeito algum as páginas, só removeu depois que pedi via ferramento Google webmaster. As mesmas ainda existiam e existem até hoje, sei que além do robots teria que remove-la, mas eu não queria…..resumindo: não basta colocar um Disallow: /pagina.htm, precisa remove-la ou então colocar um noindex na página, o que eu acho sem nexo já que vc já esta informando no robots.txt que não quer a tal página indexada no buscadores.
15 de Agosto de 2008 às 3:17 pm
Olá Demétrios,
Na verdade colocar no robots apenas previne de indexar, mas não remove do índice. Para tal, você deve remover através do Google Webmaster Tools ou então usar a tag “NOINDEX” na página em questão e habilitar a indexação dela pelo robots.txt
Um abraço
15 de Agosto de 2008 às 6:52 pm
Olá gostaria de saber o que fazer na seguinte situação google acessou os robots.txt em 21/07/08 e como eu ainda não tinha enviado ele deixou a mensagem na Central do Webmasters de “robots.txt inacessível” porém já faz 1 mês que enviei o robots.txt e ainda consta a mesma data, o que posso fazer para que ele verifique meu robots.txt novamente? Já tentei indo na seção de ferramentas “Analisar robots.txt” e ele me da como resultado “Foi detectada uma referência de sitemap válida”, mas a msg do inacessivel não some, o que posso fazer? Alguem já passou por isto? Vlw galera!
16 de Agosto de 2008 às 11:14 pm
Um artigo excelente, de que adianta fazer um grade site, se ele não tem uma boa otimização. O pior é que muitos programadores não tem essa preocupação, criam o site e esperam que o site cresça sozinho, antigamente quando a concorrência era menor até que funcionava, hoje não há menor chance de sucessso, sem SEO e SEM, otimização e marketing de busca.
19 de Agosto de 2008 às 8:03 am
Fala Diogo, blz???
Não sei se entendi bem a sua pergunta, mas até aonde se sabe, não tem como você “enviar” o Robots.txt para o Google para ele olhar, o máximo que você manda para o Google é o sitemap. Se o robots.txt está criado você deve colocar ele na raiz do seu domínio que os Bots (não só o Google Bot) acham ele e pronto, não há mais nada que se possa fazer. A freqüência que o Google visita o seu site pode variar, depende da freqüência que você atualiza o seu site, quanto mais vezes você atualiza seu site, mais freqüentes serão as visitas do Bot. Abaixo segue o que o próprio Google fala sobre robots.txt inacessível :
“Antes de rastrearmos as páginas do seu site, tentamos verificar o arquivo robots.txt para garantir que não rastreamos nenhuma página robotizada. No entanto, o arquivo robots.txt estava inacessível. Adiamos o rastreamento para garantir que não indexamos nenhuma página listada naquele arquivo. Quando isso acontece, voltamos ao seu site mais tarde e fazemos a indexação quando o arquivo robots.txt estiver acessível. Este procedimento é diferente da resposta 404 quando procuramos um arquivo robots.txt. Ao recebermos a resposta 404, presumimos que o arquivo robots.txt não existe e continuamos o rastreamento.”
19 de Agosto de 2008 às 8:08 am
icommercepage,
Valeu pelo post, e é por aí mesmo, foi-se o tempo em que não precisava de muito esforço para que os sites ficassem bem posicionados nos players de busca aqui no Brasil. Como foi visto no SMX Brasil, há muitos profissionais no Brasil que fazem otimização e marketing em sites, o que torna a concorrência cada vez mais pesada.
Abraços.
29 de Agosto de 2008 às 11:14 am
[...] Robots.txt: 4 Coisas Que Você Deve Saber [...]
09 de Outubro de 2008 às 4:23 pm
Olá Leandro!
Fiz um robots.txt para ele não indexar algumas páginas do meu site mas tem um problema…
Ele está indexando o meu sitemap.xml
Tem algum comando no robots que faz o bot do google não indexar essa página?
Obrigado!