Stop Words – Como Funcionam Palavras de Parada?

AutorPublicado por Frank Marcel em 29 de abril 2009

Primeiro, a definição:

Stop words (ou palavras de parada – tradução livre) são palavras que podem ser consideradas irrelevantes para o conjunto de resultados a ser exibido em uma busca realizada em uma search engine. Exemplos: as, e, os, de, para, com, sem, foi.

Claro que, irrelevantes, depende da busca realizada, pois o contexto da busca fará toda a diferença para cada palavra usada na pesquisa realizada.

Mas por que eu estou levantando este tema? Porque muitas pessoas que procuram fazer algum SEO acabam se perguntando sobre a relevância de utilizar stop words em seu conteúdo: títulos, meta description, meta keywords e no conteúdo propriamente.

Antes de prosseguir, é importante entender como as search engines trabalham as palavras de uma frase: dada uma frase, a search engine a quebra em tokens, sendo cada token um subconjunto formado pelas palavras dessa frase. A Nathalia descreveu como funciona este processo em um artigo aqui na Mestre SEO sobre como search engines tratam texto âncora. O exemplo foi:

Suponhamos que o search engine encontre um link com texto âncora “Dez Dicas Rápidas”. Convertendo em tokens:

  • “Dez Dicas Rápidas”
  • “Dez”
  • “Dicas”
  • “Rápidas”
  • “Dicas Rápidas”
  • “Dez Dicas”
  • “Dez Rápidas”

Entendido como são tratadas frases em pesquisas, vamos para o tratamento de stop words e como search engines identificam possíveis stop words.

Stop Words – Como o Google Identifica?

Encontrei um post “antigo” (agosto/08) no site SEObytheSEA que reportava uma patente do Google sobre como a sua search engine pode trabalhar para identificar stop words de acordo com a pesquisa realizada, e ela funciona da seguinte maneira:

  • Para uma dada busca, ela é quebrada em tokens e são montados conjuntos de resultados para tokens contendo as possíveis stop words e sem as possíveis stop word; os resultados obtidos nos conjuntos são comparados, sua similaridade definida e as possíveis stop words identificadas:

diagrama-stop-words1

Complicou? Vamos ver um exemplo: ao realizar a busca “os outros” no Google, o conjunto dos 10 primeiros resultados é composto de:

  • 4, entre os 7 primeiros resultados, sobre o filme “Os Outros”
  • 3 resultados de música
  • 3 resultados de literatura

Por outro lado, a busca por “outros“, retorna em seu conjunto de 10 primeiros resultados:

  • 2 resultados sobre música
  • 2 resultados de vídeos (pe. Fabio de Melo e Kid Abelha)
  • Google Maps
  • 1 sobre o filme
  • mais 5 resultados diversos

Ou seja, o artigo definido “os”, neste caso, é totalmente relevante para o conjunto de resultados apresentado. Por outro lado, comparando o conjunto de resultados da busca “as pérolas da internet” (1) contra o conjunto de “pérolas da internet” (2), nota-se que 7 dos 10 primeiros resultados em (1) estão entre os 10 primeiros em (2) – uma similaridade de 70%. O artigo definido “as” pode ser tratado como uma stop word.

Conclusão

De fato, a patente do Google faz sentido e pode ser que esteja realmente sendo usada, ou, talvez, uma versão bem próxima desta patente garantida o ano passado ao Google. Para saber se um termo pode ser considerado ou não como stop word, é realmente necessário fazer o teste e avaliar o resultado.

Mas tenha sempre em mente que o uso adequado de stop words também influencia a decisão de clique do usuário. Frases mal escritas podem aumentar a rejeição do usuário, conforme eu comentei no meu artigo sobre otimização de palavras escritas de forma errada.

Nos exemplos deste artigo, eu testei somente os primeiros 10 resultados de 2 tokens, o Google pode testar muito mais e definir o grau de similaridade ( 70%, 30%, 90%) como lhe parecer mais apropriado, mas os testes se mostram bem conclusivos. O que você acha? Qual a sua experiência com stop words? Deixe seu recado nos comentários, até a próxima!

Divulgue este artigo!




Autor Frank Marcel


Coordenador de SEO pela Mestre SEO e estudante do curso de Ciência da Computação da Universidade Federal de Itajubá. Trabalha com otimização de sites desde 2007.


10 Respostas à este post


  • Realemnte as palavras consideradas como conjuncoes, proposicoes, entre outras não são consideradas pelo engine. Muitas pessoas registram dominios com as palavras “como” na fernete pra tentar ficar nas primeiras posicoes e se dá mal. Um exemplo é um site chamado receitade.com.br que o diretor da publiweb publicou no Cd-Rom. Ele achou que se alguém pesquisasse por “Receita de Bolo” ia cair no site dele no endereço receitade.com.br/bolo. Se deu mal, pois o “de” não foi considerado pelo Google e ele ficou no rankeamento das palavras “receita” e “bolo” apenas. Valeu pelo Post. Isto vai ajudar que pessoas evitem poluir a web com dominios exclusivos pra seo.

    [Responder]

  • Parabéns Frank;

    Há muito tempo não tenho visto um texto tão relevante sobre SEO nos blogs e sites brasileiros que falam sobre o assunto.

    Pensar, escolher, analisar e descobrir as melhores palavras ou termos chave é algo trabalhoso e que requer muito estudo, teste e paciência e as “Stop Words” influenciam bastante na escolha desses termos.

    Parabéns!

    [Responder]

  • @Cleverson: Não conhecia esse caso, mas é um exemplo interessante! Valeu por compartilhar.

    @LéoCabral: valeu!

    [Responder]

  • Mas porque NÃO por os stop words?

    O que isso poderia perjudicar…pode não ajudar, mas prejudica de alguma forma?

    Ou apenas em função do limite de caracteres?

    [Responder]

  • E aí Alexandre!

    As pessoas ficam com dúvidas sim, justamente nesse caso de contar os caracteres e tal. Mas extendendo esse conceito para otimizar plural e singular, acentuação ou não, etc., enfim, deve ser tratado tudo da mesma maneira, ou de modo bem similar.

    Especialmente para URLs, stop words são válidas de se analisar.

    Abraços!

    [Responder]

  • Ola Frank,
    Eu vejo uma situação interessante, estou estudando o SEO aqui pela internet, aprendi muito aqui no Mestre SEO, veja, eu publiquei um site de vendas de soft para clinicas medicas e veterinarias, qdo digito “programa DE consultorio medico” o resultado éum, se difito “programa PARA consultorio medico” é outro, quer dizer as stopwords tem relevancia nesse case. Agora tire uma dúvida, eu li um texto de SEO onde sugerem substituir as stopwords por “|”, o que voce acha?
    Abraços!

    [Responder]

  • Jorge, embora no seu caso “de” e “para” não sejam consideradas stop words, é possível rankear para os 2 termos sem ter 1 deles no Título, afinal, você pode trabalhar com as duas versões por todo o HTML da página, não precisa ser só no título…

    Substituindo segundo a sua sugestão, o título fica “Programa | Consultório Médico”, você vai ficar sem “de” e sem “para” no título. Eu não aplicaria em um site que estivesse trabalhando, pelo que já disse antes.

    Abraços! Valeu pelo comment!

    [Responder]

  • Entendi, no meu eu usei “Programa, software para conultorio médico e clinicas”, e dentro do texto fiz o que você sugeriu. Essa é uma area com muitos SEO’s, estou me esforçando para melhorar o ranking. Ja com as paginas para software de clinica veterinaria estou entre os 10, e o de laboratorio veterinario consegui 1ª linha com qq combinação de palavras(programa para ou de laboratorio veterinario). Esta sendo um estudo muito bom esse.
    Obrigado! Espero mais artigos!
    Abraços!

    [Responder]

  • Legal Jorge.
    Continue nos acompanhando, assine o feed, que temos sempre novidades por aqui!

    Um abraço!

    [Responder]

  • Assunto bem interessante, já fiz algumas buscas com e sem as Stop Words o fas muita diferença na hora do resultado, mas eu quase não a coloco nas URLs.

    [Responder]

Deixe um ComentárioDeixe um Comentário

(obrigatório)

(não será publicado)(obrigatório)


Nota: A moderação de comentários pode estar ativa, então não há necessidade de re-enviar o seu comentário.