Arquivo de tags: Googlebot

Como ser incluído mais rápido no Google e Yahoo

23 nov

Já faz tempo que as ferramentas de inclusão de site do Google e do Yahoo perderam importância e deixaram de ser a principal forma de ser indexado.

Se você quer ter seu site no índice dos buscadores de forma extremamente rápida, a melhor forma é conseguir um link de um outro site. De qualquer site? Não, deve ser de sites que são rastreados freqüentemente pelos buscadores. Como saber a freqüência que um site atualizado e como obter alguns links? Confira algumas dicas:

  • Para saber a última vez que um site foi indexado, busque no Google cache:www.site.com. Aí você vai ter a data e horário da última vez que o Googlebot esteve no site. Não se baseie somente nisso, busque o cache da página onde você pretende incluir o link (Ex.: cache:www.site.com/pagina1.html).
  • Sites de alto Page Rank (5+) costumam ser rastreados mais frequentemente, ainda que seja mais difícil conseguir links nesses sites.
  • Alguns blogs, como esse, permitem que você ponha o seu site quando deixe um comentário, e seu nome ficará linkado ao seu site. Escreva seu nome real ou como você costuma assinar, não faça spamming usando keywords ou anúncios. Além de não ficar bem na comunidade, você pode ser denunciado ao Google e ter o site banido.
  • Escreva posts ou comentários em foruns relacionados ao tema do seu site. Ainda que muitos foruns não permitam, em alguns você pode usar o site com link na sua assinatura.
  • Peça para amigos que já tem sites para que ponham um link para do seu site no deles.
  • Coloque links onde mais você possa, mas NÃO FAÇA SPAMMING, não saia colocando links em sites não relacionados ou destinados a isso. Como disse, você fica mau na comunidade, além de poder ser denunciado e banido.
  • Use a busca personalizada do Google para o seu site ou blog. Não tenho certeza se é por isso, mas depois que a implementei neste blog, tenho novas páginas indexadas em menos de meia hora.
  • Faça pings freqüentes do seu blog. Se usa FeedBurner, ele faz isso automaticamente. De qualquer forma, recomendo que faça também em outros sites. Particularmente, gosto do pinger do Blogflux.

Há alguns detalhes que devem ser observados nos sites que você planeja incluir seu link:

  • Cuide que nem todo link é rastreável, alguns sites usam java script ou redirecionamento para links externos.
  • Alguns sites também usam o atributo rel=”nofollow” no link <a href=”www.SiteExterno.com” rel=”nofollow”> para que este não tenha peso no índice, mas não impede que seja seguido. O “nofollow” que os bots dos buscadores costumam respeitar é o da meta tag <meta name=“robots” content=“nofollow” />. Se quer saber mais sobre o nofollow, leia o artigo sobre como (e quando) usar o atributo “nofollow” em links externos.

Para saber se o seu site já foi indexado, basta buscar no Google e no Yahoo site:MeuSite.com.

Robots.txt – Bloqueando conteúdos aos buscadores

18 nov

Um robot, também chamado de spider ou crawler é um software que percorre a web automaticamente, seguindo links de site em site e indexando os conteúdos. Esses conteúdos serão depois listados nos resultados de buscadores como Google, Yahoo, MSN etc.

O que freqüentemente ocorre, é que temos conteúdos ou arquivos que não queremos que apareçam nos resultados de busca. São páginas de login, pastas de sistemas ou imagens, ou simplesmente algum conteúdo que não queremos que seja listado mesmo. Pode ser também que os bots usem muito os recursos do servidor e você tenha sido advertido pela sua empresa de hosting. Ou ainda, você não quer ser listado em alguns buscadores específicos ou receber visitas de bad bots.

A forma de fazer com que os buscadores ignorem certas páginas ou diretórios é através do protocolo Robots.txt, que nada mais é que um arquivo de texto colocado na raíz do site com informações para os bots.

A base do Robots.txt é:

User-agent:
Disallow:

User-agent é o o nome do bot que você deseja bloquear. Para bloquear todos os bots se usa um asterisco (*). Disallow onde é especificado o arquivo ou diretório que deve ser ignorado.

Exemplos de uso:

Bloquear todos os bots a todo site:

User-agent: *
Disallow: /

Bloquear somente um bot a todo site:

User-agent: Googlebot
Disallow: /

Bloquear diretórios ou arquivos:

User-agent: *
Disallow: /arquivos
Disallow: /login.php

Alguns bots são compatíveis com uma configuração estendida do Robots.txt para criar exceções de diretórios, incluir sitemap, definir horários de visita dos bots etc.