Publicidade

Boletim grátis
Fique por dentro do que acontece no mundo da tecnologia
Divulgação



AVISO:
Mundo Digital agora é UOL Tecnologia; conheça o novo site
 ÚLTIMAS NOTÍCIAS

07/11/2003 20h14

Aprenda a investigar a selva de informações online

Renato Rodrigues
Editor-Assistente de Mundo Digital

Nunca na história da humanidade tanta informação foi produzida. A cada dois anos, cada habitante do planeta produz 800 MB de informação digital -mais do que cabe em um CD inteiro. De 2000 para 2003, o número de informações novas cresceu 30%. Todos os habitantes do planeta geraram informação digital nova suficiente para lotar 500 mil bibliotecas do congresso nacional dos EUA, a maior do mundo. São impensáveis 5 bilhões de gigabytes de dados, ou 5 petabytes. Como achar qualquer informação nessa montanha de dados?

Os melhores guias para essa selva são os sites de busca (search engines, em inglês)". Na verdade, eles nada mais são do que gigantescas listas de endereços virtuais. Eles catalogam sites inteiros, com todas as páginas. Quando o internauta digita um ou mais termos na caixa de busca, um programa de computador caça essas palavras no banco de dados do buscador. Esse software -chamado de engine (motor)- é o núcleo do site de busca.

Atualmente, o mais poderoso -e popular- buscador da Internet é o Google, com mais de 3 bilhões de documentos em seu banco de dados (vide figura abaixo). De acordo com uma pesquisa da One Star, empresa de estatísticas sobre a Web, o Google é usado por 55,2% dos internautas -mais do que o dobro da soma do segundo colocado (Yahoo!, 21,7% e MSN Search, 9.6%). Mas memo o Google não é a solução universal para todas as dúvidas online. Conforme a pesquisa, é melhor usar outros sites.



Na verdade, os buscadores mais comuns e famosos não vasculham a Internet toda. Eles investigam a base de dados com todo o texto das páginas selecionadas entre bilhões de outras. Quando o internauta usa um buscador, ele está na verdade procurando em uma espécie de cópia estática da página que realmente está no ar. Ao clicar em um link na lista de resultados, a versão mais recente da página é baixada do servidor onde está alojada.

As bases de dados dos buscadores são selecionadas e construídas por programas de computador chamados "spiders" (aranhas). Embora seja dito que elas rastejam pela Web caçando páginas, na verdade as aranhas não saem do lugar. Elas encontram páginas que podem ser cadastradas seguindo os links de páginas que já estão no banco de dados do buscador. As aranhas não pensam em um assunto e vão pesquisar o que há na Internet sobre ele.

Se uma página nunca foi "linkada" a qualquer outra, as aranhas não podem encontrá-la. O único modo de uma página recém-criada passar a fazer parte do banco de dados de um buscador é se uma pessoa enviar o endereço (URL) para o serviço. Os principais buscadores oferecem modos simples de se fazer isso.

Depois de encontradas pelas aranhas, as páginas são passadas para outro programa de computador para a indexação. Este software identifica texto, links, e outros conteúdos na página e arquiva esses dados no banco do buscador, de modo que ela seja achada rapidamente pelo internauta que faz uma busca com termos que existam nessa página. No entanto, às vezes esse tipo de busca produz toneladas de resultados, o que exige o uso de alguns truques para tornar a pesquisa mais precisa e mais rápida.

Alguns tipos de páginas e links são excluídos da maioria dos buscadores devido à políticas de conteúdo. Outros sites ficam de fora porque as aranhas não conseguem acesso a eles. Essas páginas "ocultas" para os grandes buscadores fazem parte do que se chama de "Web Invisível". Estima-se que essa Internet subterrânea seja três ou mais vezes maior do que a Internet "visível".

Leia também:
  • Aprenda a investigar a selva de informações online
  • Busca na Web: Dicas ajudam a refinar a pesquisa
  • Busca na Web: Internet "invisível" esconde montanhas de informação
  • Busca na Web: Veja o buscador mais adequado a sua pesquisa
  • Busca na Web: Metabuscadores fazem pesquisa complexa
  • Faça sua pesquisa no Radar UOL




  •  

     13/05/2005

    15h35 - George Bush virtual canta rap sobre luta contra terrorismo

    13h17 - Microsoft inicia testes em ferramenta de segurança

    12h36 - Gamers podem construir império virtual com academia de ginástica

    12h03 - Firefox aposta em vídeos na web para atrair internautas

    11h12 - Tempo de navegação no último ano aumentou para 60% dos internautas

    10h20 - Xbox 360 é arma da Microsoft para a guerra dos consoles

     12/05/2005

    19h59 - Preços dos computadores devem cair 9,25% com isenção de PIS e Cofins

    16h46 - Nova versão do Firefox corrige falhas de segurança

    16h07 - Homens conversam mais no celular do que mulheres, diz estudo

    14h30 - Volume de transações virtuais cresce 31% no primeiro trimestre