Olá leitores da MestreSEO!
Como muitos de vocês sabem, os mecanismos de busca utilizam-se de robôs de busca, também conhecidos como webcrawlers, para percorrer toda a web, indexando todo ou quase todo o conteúdo disponível. Diante disto, foi criado um padrão onde cada website pode incluir na raíz do seu website um arquivo chamado robots.txt que diz aos robôs de busca quais páginas eles não podem visitar.
Pois bem, aprender como funciona o robots.txt é muito importante no processo de otimização de sites, evitando assim que algum conteúdo restrito fique disponível na web ou ainda que você sofra de conteúdo duplicado.
Vejamos abaixo mais alguns detalhes sobre o padrão robots.txt:
Como Criar um Arquivo robots.txt
Existem diversas maneiras de criar um arquivo robots.txt, como por exemplo, abrir o bloco de notas e criar a partir de lá. Mas aqui na MestreSEO disponibilizamos uma ferramenta online e gratuita onde você pode inserir quais páginas você deseja bloquear dos robôs de busca e ele simplesmente fornece todo o código necessário para gerar o seu arquivo robots.txt. Vale apena testar.
Exemplos de Formatação do robots.txt
Permite que todos os arquivos sejam indexados
User-agent: *
Disallow:
Não permite que nenhum arquivo seja indexado
User-agent: *
Disallow: /
Não permite que uma pasta seja indexada, com aexceção do arquivo myfile.html que está dentro da pasta
User-agent: Googlebot
Disallow: /folder1/
Allow: /folder1/myfile.html
Informação Contida no robots.txt
Os search engines são vorazes por padrão. Eles querem indexar o máximo de informação de qualidade que conseguirem, e eles presumem que podem indexar tudo, a menos que alguém diga para eles pararem.
Se você especificar dados para todos os bots (*) e dados para bots específicos (como o Googlebot), então os comandos específicos para bots serão seguidos enquanto o bot especificado (no nosso exemplo o Googlebot) irá ignorar os comandos globais. Logo, se você fizer um comando global que queira aplicar para um bot específico, então você deverá colocar o comando para o bot específico também.

Quando você bloqueia URLs para que elas não sejam indexadas no Google pelo robots.txt, ele (o Google) pode ainda mostrar estas URLs nos resultados das pesquisas. Uma solução completa é bloquear usando as meta tags:
- <meta name=”robots” content=”noindex”>
- <meta name=”robots” content=”noindex,nofollow”>
Se você não tem um arquivo robots.txt, os logs dos servidores irão retornar erros 404 sempre que um bot tentar acessar o arquivo. Você pode fazer upload do arquivo em branco com o nome robots.txt na pasta raiz do seu site.
Alguns search engines também permitem que você especifique o endereço de um sitemap XML no arquivo robots.txt.
Caracteres Especiais
Google, Yahoo! e MSN permitem o uso de caracteres especiais no arquivo robots.txt.
Para bloquear acesso para todas as URLs que incluem uma interrogação (? – URLs com parâmetros via GET), você deve usar o seguinte código:
User-agent: *
Disallow: /*?
Você pode também especificar arquivos com determinadas extensões usando o cifrão ($). Por exemplo: se você quer bloquear todas as páginas com extensão .asp, coloque no robots.txt :
User-agent: Googlebot
Disallow: /*.asp$
Excentricidades
Sabemos que o Google vem “preenchendo” formulários de pesquisa e indexando as páginas geradas. Para evitar que tais páginas sejam indexadas, bloqueie pelo robots.txt. Suponha que a variável de pesquisa na URL seja “search”. Então você poderia por:
User-agent: *
Disallow: /?search=
para evitar que as páginas geradas por pesquisa sejam geradas.
Analisando o robots.txt
No Google Webmaster Central, existe uma ferramenta de análise muito eficiente, que mostra os erros que o crawler encontrou durante a anáise do seu site. Mais detalhes podem ser encontrados no meu artigo de otimização de sites usando o google webmaster tools.
Conclusões
O uso do robots.txt é uma importante técnica para controle de indexação do seu site e é uma dos primeiros itens a se verificar quando se realiza uma consultoria de SEO. Então fique de olho e não se esqueça de testar o seu robots.txt.




Olá amigo, porque no meu googlewebmaster tools aparece assim:
URLs restritos pelo robots.txt
?
Mto obrigado
[ Responder este comentário ]
Olá Heron!
Meu robots.txt está da seguinte forma:
User-agent: Googlebot
Disallow: /*/trackback*
Disallow: /*/feed*
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /2008/
User-agent: *
Disallow: /*/trackback*
Disallow: /*/feed*
Disallow: /wp-admin/
A parte do Disallow: /wp-content/ continua sendo indexada pela Google mesmo com o parâmetro especifico dele…
Você sabe se tenho que por o caminho do diretório inteiro?
Exemplo: /wp-content/plugins/random-posts-plugin ?
Obrigado!
[ Responder este comentário ]
Tenho a impressão que seu segundo bloco no robots desfaz o primeiro
user agent * inclui o google bot
[ Responder este comentário ]
Dúvida sobre as buscas: O google consegue fazer pesquisas de qualquer estrutura de busca?
Já vi sites com buscas feitas no estilo javascript, dá uma URL padrão pra qualquer resultado, sem ID sem nada.
[ Responder este comentário ]
ola, amigo, tudo bem?
gostaria se possivel, que vc me explicasse, como faço para enviar meu sitemap para o google, pois não consegui em lugar nenhum a explicação do que vem a ser a pasta raiz do meu site… ou no caso de blog nao e necessario o envio de sitemap? esta minha pergunta, é porque algumas paginas de meu site estao sendo ignoradas e outras duplicadas… e isso esta prejudicando minha indexação…. sou meio novo neste arte e gostaria de orientação passo a passo… se possivel.. agradeço o empenho antecipadamente….
[ Responder este comentário ]
para o google o correto é este. para indexar o site inteiro.
User-Agent: *
Allow: /
[ Responder este comentário ]
Olá Luiz,
No robots você usa apenas o comando Disallow. Você pode “desabilitar nada”.
Como o Heron indicou no post, o correto é:
User-agent: *
Disallow:
O Google segue o padrão de robots.txt.
Até mais
[ Responder este comentário ]
O Certo é assim?
User-agent: *
Disallow:
mais eu uso diferente em meu blog
uso assim
User-agent: *
Allow:
Não a nenhum problema quanto a usar assim pois meu blog não quebra nenhuma regra .
O tem algo de diferente quanto aos dois modos?
E qual o motivo de se usar o “disallow”?
Não estou questionado mais sim curioso pois sou novato em termos ‘SEO’
[ Responder este comentário ]
Olá Élvio,
O robotx.txt funciona através de regras de negação. Parte-se do suposto que todos os arquivos são acessíveis e você apenas limita os que não quer que sejam lidos. Logo não existe o tipo “Allow:” de regra.
Espero ter esclarecido.
Fábio Ricotta
[ Responder este comentário ]
Olá
Gostaria de fazer um robotx.txt para que o google não indexe o conteúdo do meu blog, isso é possível?
Se sim como?
Obrigado
[ Responder este comentário ]
Opa..
Sem querer abusar da boa vontade, mas eu estou com um robots .txt que tá me deixando doido, já lítudo o que podia e até agora não descobri (acho que o mais facil) que é como mandar o arquivo para o meu site…
eu tinha http://www.draxrio.blogspot.com e agora tenho um dominio no proprio google http://www.draxrio.com
e lá nao me ensina como mandar o maldito robots.txt e nem diz pra onde mandar..
VC pode me dá uma luz::
Obrigado
Ednilson
[ Responder este comentário ]
O robots.txt fica no diretório raíz (root). Como já mencionado use ele apenas para NEGAR acesso aos spiders (robots).
Exemplo:
User-agent: *
Disallow: /BD/
Disallow: /teste.php
No exemplo acima estou informando a todos os spiders para não indexar o diretório BD e o arquivo teste.php (que está no root).
[ Responder este comentário ]
Caro Heron, congratulações. Meu caso é parecido com esse aí do Drax, no teste que fiz apareceram 132 URL’s restritas no meu blog. Teste que fiz nas ferramentas do Google. O arquivo robots txt estava assim:User-agent:Mediapartners-google Disallow:User-agent * Disallow:/Search Sitemap:http://www,pianoclassico.org/feeds/posts/default?orderby=updated
Então retirei Disallow: E Disallow: /search
Testei 132 URL’s que estavam restritas e ficaram “permitidas”. Agora quero enviar este Arquivo robots’txt para que essas URL’s sejam indexadas, mas não sei como fazê-lo caro amigo. O que é arquivo de nível superior? E Arquivo raíz? Pode me socorrer? Ob Antecipadamente agradeço. Abraço fraternal!
[ Responder este comentário ]
Como funcionam os robots para arquivos em Flash? Como eles indexam esses arquivos?
[ Responder este comentário ]
Sr do forum bom dia.
Alguem poderia tirar uma dúvida.
Sou novato no assunto mais me dedicando, aonde é a infeliz raiz do meu site, quando conecto o ftp aparecem os diretórios mais as url e meu com o arquivo sitemap e css ali é a raiz do site.
Se eu colocar as metas
meta name=”ROBOTS” content=”index,follow”
meta name=”Googlebot” content=”index,follow”
mesmo assim sou obrigado a montar o robot.txt,se ou montar o robot posso tiras as tag acima, qual o motivo de usar robot para indexa todas as paginas?
desde ja agradeço abraços
[ Responder este comentário ]
[...] Entenda um pouco mais sobre o robots.txt lendo esse artigo. [...]
Olá a todos!!
Se eu utilizar o Disallow em alguma página que já aparece em um resultado do google, ele (o google) a substitui por outra página do meu site? E essa página (que eu apliquei o disallow) deixa de ajudar o site nos resultados?
Desde já agradeço a atenção!!
Emanuel…
[ Responder este comentário ]
Boa tarde Heron,
Como fica a situação de sites que é necessário estar logado para ler uma notícia inteira? A metatag robots até já existe, mas tem alguma influência o fato de ter que fazer o login?
Abraços.
[ Responder este comentário ]
[...] Veja este tutorial completo da Mestre SEO sobre Robots.txt. [...]
Lembrando que páginas bloqueadas por robots.txt causam problemas quando também bloqueadas com meta tag noindex.
Pois não seguiram a tag noindex. Pois isso é bom utilizar somenta a meta tag robots noindex para bloquear conteúdos, como por exemplo conteúdos pagos.
[ Responder este comentário ]
Ola,
Estou com 1 dúvida.
O texto é o mesmo mas
Eu quero bloquear:
http://www.conteudoanimal.com.br/colunas/ver.asp?id=88
E ainda liberar:
http://www.conteudoanimal.com.br/colunas/ver.asp?id=88&nome=A%20realidade%20%E9%20outra.
Sugestões ?
[]´s
Marcos
[ Responder este comentário ]
Olá,
Não sei se o robots.txt é obrigatório, se pode ser colocado em branco ou apenas ‘Allow’. A verdade é que não tenho nada a esconder por ser um site pessoal.
Porém, se tento bloquear algumas pastas, algum curioso de plantão vê meu ‘robots’ e vai lá, direitinho, ver o que não deve ser indexado. Por isso, até hoje meu site não tem o robots.txt.
Há algum problema nisso, quanto ao Alexa e ao Google?
[ Responder este comentário ]
Olá Lana! Não há problema em ter um robots.txt em branco e, na verdade, também não há um grande problema em nem ter o robots.txt, mas é uma boa prática que vale seguir.
Se você não pretende “brincar” com a indexação do site, use o robots conforme foi indicado pelo Heron no primeiro exemplo do artigo:
User-agent: *
Disallow:
Assim, fica tudo como se não existisse robots.txt.
[ Responder este comentário ]
Obrigada pela atenção, Frank
Foi muito útil a explicação. Agora eu sei o que fazer.
Abraços.
[ Responder este comentário ]
Olá, Heron
Excelente artigo. Antes verificava nas estatísticas do site que haviam em média 800 erros de página não encontrada por mês no site, quando fui ver todos eram para o “robots.txt”, é mole ? Obrigado pelas dicas!
Att,
Paulo
[ Responder este comentário ]
Se o arquivo robots.txt não for encontrado por um robot, isso pode fazer com que o site não seja indexado?
Obrigado
[ Responder este comentário ]
Meu robotstxt tá assim=
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Sitemap: http://blogdobeto10.blogspot.com/feeds/posts/default?orderby=updated
como mudar para indexar todo blog?
[ Responder este comentário ]
Acredito que não é possível alterar o robots.txt no Blogspot, mas você pode cadastrar o Blogspot no Webmasters Tools e configurar um sitemap.xml a partir do feed que use 100 ou mais itens (só não me lembro qual parâmetro faz isso!).
[ Responder este comentário ]
Ola estou desesperado espero que alguem possa me ajudar …
É um seguinte ,no meu ferramentas para webmasters esta indicando que tenho
Meta descrições duplicadas = 5.040 Títulos duplicados = 4.991
meu blog http://downloadsferoz.com.br/ so tem 5000 postagem…
o estranho é que todos titulos que esta dando como duplicado esta assim
/2010/06/baixar-jogo-naval-assault-the-killing-tide-xbox360-region-free.html
/2010/06/baixar-jogo-naval-assault-the-killing-tide-xbox360-region-free.html?pr=5685&site=http://downloadsferoz.com.br/
todos os link aparace isso no final ( ?pr=5685&site=http://downloadsferoz.com.br/ ) ai fica tudo
duplicado e depois disso meu blog esta caindo muito o rendimento espero que possam ajudar
[ Responder este comentário ]
Pessoal to com uma duvida eu queria bloquear todas os arquivos (páginas) do meu site que estão dentro da pasta “categoria ” menos aqueles que estão dentro de uma subpasta desta anterior e que se chama “eventos”.
Então estaria certo usar essa regra:
User-agent: *
Disallow: /categoria/
Allow: /categoria/ eventos
———————————————————
De certa forma eu conseguiria que apenas os aquivos dentro da subpasta “eventos” fossem indexados dentre aqueles que estão dentro da pasta “categoria” ?
Aa
Ab
[ Responder este comentário ]
[...] Se quiserem saber mais informações, podem consultar este tutorial. [...]
Boa noite.
Estou tendo um problema com o robotxt, espero que alguem possa me ajudar
o retorno que estou recebendo é 404 (Não encontrado)
Googlebot Googlebot-Mobile
Permitido
Detectado como diretório; arquivos específicos podem ter restrições diferente
coloquei na pagina
User-Agent: *
Allow: /
ja não sei o que fazer
obriado
[ Responder este comentário ]
Olá amigos, estive lendo o artigo sobre robots.txt no site dos senhores e percebi que o meu está diferente (criei direto no google webmasters). Para o Google indexar tudo tenho que colocar qual codigo?
Este:
User-agent: *
Disallow:
Ou este:
User-agent: *
Allow: /.
Allow: /
[ Responder este comentário ]
Walmir, os códigos
disallow:
e
allow: /
são equivalentes e ambos indicam que não existe nenhuma restrição de rastreamento, ou seja, permite o “Google indexar tudo.”
[ Responder este comentário ]
Gostaria de tirar uma duvida, o google quando verifica meu site está pegando como palavra chave as
categorias os produtos e palavras como adicionar, compra, mais as palavras que descrevi como palavras chaves ele não adiciona.
espero que possam ajudar
obrigado.
[ Responder este comentário ]
Pessoal,
Fiz umas perguntas de avaliação de meu site e algumas pessoas foram anti-profissionais e deixaram mensagens que nada tinha haver.
É possível fazer com que o google não index este tópico/post no buscador, usando o robots.txt?
[ Responder este comentário ]
Uma dúvida pessoal, tem a possibilidade de eu usar o disalow somente para uma categoria especifica do blog para que esta não fosse indexada. E que desta forma as outras continuassem a estarem indexadas?
Ex:
Disallow:/categoria/ciencia/
[ Responder este comentário ]
Ai pessoal eu estou querendo saber se alguém aqui sabe como esconder os diretórios wp-admin, wp-content, wp-includes?
Eu queria saber se alguém sabe se isso é um plugin ou se isso faz no .htacces do servidor mesmo?
[ Responder este comentário ]
Galera, boa tarde.
Tenho uma dúvida que gostaria de solucionar antes de fazer besteira.
Meu site tem páginas dinâmicas no caso http://www.meusite.com.br/default.aspx?idpagina=AASSd46ASd46ASD porém o google ainda tem em cache algumas páginas que nem existem mais no servidor. Gostaria de saber se colocar no ROBOTS.TXT bloqueando o endereço “www.meusite.com.br/default.aspx?idpagina=AASSd46ASd46ASD” a mesma página com o ID diferente será bloqueado ?
[ Responder este comentário ]
Primeiramente gostaria de parabenizar a equipe do mestre seo, sem duvida é o melhor site de seo.
A minha duvida é referente a servidor de hospedagem, recentemente troquei de host, com isto o resultado do Googlebot quando executado é totalmente diferente do que era apresentado anteriormente.
Hoje o servidor é lunux e resultado do Googlebot na ferramenta Google Analytics é a seguinte:
“Permitido pela linha 2: Disallow:
Detectado como diretório; arquivos específicos podem ter restrições diferente”
Antes servidor Windows e o resultado do Googlebot era mais ou menos assim:
“Site indexado com sucesso”
Antes o meu site era reconhecido como site hoje o servidor é Detectado como diretório, isso pode prejudicar na posição do site?
Obrigado
João
[ Responder este comentário ]
Eu tenho um Blogger, e neste possui o robots.txt mas esta bloquando tudo!
quero saber as tags que liberam tudo nos motores de busca.
me ajude, me informe se pondo as tags no html irá funcionar igual ao robots.txt pois este não é possivel editar..
[ Responder este comentário ]
Você poderia me esclarecer uma dúvida?
O Robots.txt deve ser colocado na raiz do site certo?!
Mas caso eu tenha outros sites operando em subpastas, ele funcionaria da mesma maneira?
Por exemplo, vamos supor que meu site seja pedro.com
e eu tenho outro site pedro.com/blog
Se eu colocar um robots.txt no pedro.com e outro na pasta do pedro.com/blog os dois funcionariam corretamente?
O fato é que o google está indexando o diretorio /blog/ do meu site no dominio pedro.com (ex) eu estava pensando em colocar um robots na raiz do site bloqueando tal diretorio, e outro robots dentro da subpasta permitindo! Isto daria certo?
Outra dúvida é que as “palavras-chave” no google webmasters exibe somente palavras deste mesmo sub diretorio!
[ Responder este comentário ]
Olá!
Gostaria de saber se tem alguma forma de bloquear o acesso do robots.txt pelo navegador.
Ex: ….com.br/robots.txt
Não gostaria que vissem as pastas que estou escondendo! Será pelo .htaccess?
[ Responder este comentário ]
bom dia amigos !
alguem sabe como esconder o arquivo robots,txt, por um exemplo se alguem acessar meu site e colocar http://www.meusite.com.br/robots.txt ele vai ter acesso ao meu arquivo robots, como eu bloqueio isso.
valeu galera, espero que algume possa me ajudar
[ Responder este comentário ]
Meu site desapareceu da indexação do google…..o robot.txt me enviou esse arquivo:
Permitido
Detectado como um diretório; arquivos específicos podem ter restrições diferentes
me ajudem por favor
[ Responder este comentário ]
Olá, No meu caso pedi para o google retirar meus dados na pesquisa e depois pedi pra colocar devolta.
Se for no blogger só alterar as configurações e habilitar exibir o blog e postagens nos resultados de pesquisa no google. hoje estou sem esse problema, Até.
[ Responder este comentário ]
Olá, pra falar a verdade, estou aqui de ouada q sou. Não entendo lhufas de webdesigner, html, robttxt, etc, etc…..porém, resolvi ter um blog há 2 meses, e gosto muito de fazê-lo. Só q, como falei, não tenho nenhum conhecimento a não ser gostar de escrever, e tb não tenho recursos, no momento, pra investir em um profissional. O q eu adoraria fazer…
Hj, e só hj, percebi q o meu site não aparece em nenhum mecanismo de pesquisa. Nem o nome que vai no “endereço”, nem o título do blog. Já li alguns tutoriais, sites q ensinam o q fazer. Mas, sem o conhecimento fica difícil.
Alguém poderia me dar um help????
Meu blog é: http://www.driblandoador.blogspot.com.br
Valeu, gente!!
[ Responder este comentário ]