Publicidade

Boletim grátis
Fique por dentro do que acontece no mundo da tecnologia
Divulgação



AVISO:
Mundo Digital agora é UOL Tecnologia; conheça o novo site

Steve Outing > Parem as máquinas

15/11/2001 20h05

Usando a "Web Invisível" para pesquisas

Os sites de busca não são capazes de encontrar tudo

A não ser que seja um pesquisador profissional, você pode achar que os sites de busca mais populares são capazes de localizar quase tudo na Web, com exceção do conteúdo protegido pela barreira das assinaturas e o material das intranets. Caso pense dessa forma, você está redondamente enganado.

Na verdade, caso utilize apenas instrumentos de busca como o Google, o Altavista, o Hotbot, ou o Lycos, você estará tendo acesso a apenas uma fração dos recursos disponíveis online. A Web é uma fantástica ferramenta de reportagem e pesquisa para os jornalistas, mas nela existe muito mais do que os leigos são capazes de perceber.

Os autores e gurus das pesquisas na Internet, Chris Sherman e Gary Price, estimam que a quantidade de conteúdo na Internet cujo acesso é gratuito representa algo entre duas a cinquenta vezes o volume do material que pode ser acessado através dos maiores dispositivos de busca. Eles chamam esse conjunto de disponibilidades adicionais de "Web Invisível", um conceito que é explicado com mais detalhes no seu novo livro, "The Invisible Web: Uncovering Information Sources Search Engines Can´t See" (CyberAge Books, 2001). Trata-se de um texto importante para auxiliar os jornalistas a entender como aproveitar melhor a Internet como um instrumento de pesquisa.

É difícil de avaliar o tamanho exato dessa Web Invisível. Os autores apostam na estimativa citada acima, ou seja, algo como duas a cinqüenta vezes o tamanho daquilo que se consegue normalmente na Internet. (Estimativas anteriores do tamanho da Web Invisível chegaram a dizer que ela era 300 vezes maior do que esses recursos tradicionais). Mas Sherman afirma que a "Web Visível" deve ter um material correspondente a algo entre dois a quatro bilhões de páginas. Segundo ele, o mais completo site de busca é o Google - que tem catalogadas cerca de 1,6 bilhão de páginas. Portanto, ainda que você queira fazer as suas pesquisas na Web Visível, ainda serão necessários múltiplos dispositivos de busca para conseguir o acesso ao material estimado entre dois e quatro bilhões de páginas. (Essa é a lição número um: Se você não encontrar o que deseja em um site de busca, tente a mesma pesquisa em outros. Ou então use os dispositivos metasearch, como o Dogpile ou o Metacrawler, que fazem a pesquisa em múltiplos sites de busca).

Por que esse recurso é "invisível"?

Uma pergunta óbvia: Se todo esse conteúdo está publicado na Internet e se isso significa acesso gratuito, por que é que os sites de busca não incluem esse material? Conforme explica Sherman, ele não é realmente invisível. O que acontece é que trata-se de um material que não é visível através da maior parte dos sites de busca, porque os administradores desses sites decidiram não torná-lo disponível nos seus serviços.

Grande parte do conteúdo invisível está em vários formatos que os robôs dos dispositivos de busca (programas que vasculham pela Web procurando e indexando páginas) não foram programados para rastrear. Por exemplo, a maior parte dos dispositivos de busca não cataloga arquivos de áudio e de vídeo. A maioria não acessa sites de bancos de dados para deles extrair informações; a maioria não cataloga os arquivos PDF (embora o Google agora o faça); e assim por diante. Os sites que se baseiam em bancos de dados e cujas páginas são todas geradas dinamicamente (ao invés de terem uma única URL estática para cada fragmento de conteúdo) são muitas vezes ignorados pelos dispositivos de busca.

Teoricamente os dispositivos de busca possuem a capacidade de indexar praticamente tudo que está na Internet. Sherman diz que, caso as empresas de busca na Internet quisessem investir mais dinheiro, elas poderiam indexar quase tudo o que está na Web Invisível dentro de um mês. Trata-se simplesmente de uma decisão econômica em limitar aquilo que é indexado e colocado à disposição para acesso nos seus sites de busca gratuitos. (Vale a pena lembrar que alguns dos produtos de busca comercializados pelas companhias que prestam esses serviços catalogam formatos de conteúdo que os seus sites gratuitos não disponibilizam. Por exemplo, o setor comercial da Altavista pode catalogar 225 formatos de arquivo, enquanto que a Altavista.com só oferece meia dúzia de formatos).

O ponto fundamental é o seguinte: qualquer coisa que possa ser exibida em uma janela de browser pode ser incluída em um dispositivo de busca, segundo Sherman.

Como utilizar a "Web Invisível"

Os jornalistas que utilizam a Internet como ferramenta deveriam aprender como utilizar a Web Invisível. Segundo Sherman e Price, o trabalho é mais árduo do que a busca na Web Visível, mas a compensação pode ser grande.

A técnica mais simples para a utilização da Web Invisível é procurar nos próprios sites, ao invés de utilizar os dispositivos de busca. Parte do conteúdo que está em um site pode vir em um formato que não seja indexado pelos grandes sites de busca. Dessa forma, por exemplo, uma busca via Google não revelaria todo o conteúdo desse site.

Um bom exemplo ilustrativo é o site WorldBank.com. Esse site, do Banco Mundial, pode ser acessado gratuitamente na Internet, e grande parte do seu conteúdo está em páginas estáticas da Web, que aparecem em pesquisas feitas através dos principais sites de busca. No entanto, uma parte do conteúdo mais precioso está armazenado no site em formato de bancos de dados. Esse conteúdo é invisível para os sites de buscas e tem de ser localizado através da pesquisas feitas no próprio site do banco. Até mesmo o site da Biblioteca do Congresso possui conteúdos visíveis e invisíveis.

Embora não seja provável que você vá utilizar o Google para procurar algo no site da Biblioteca do Congresso, essa é uma estratégia de busca comum, em se tratando de sites menores. Uma busca no Google por informações sobre uma empresa específica, por exemplo, pode revelar páginas do site da corporação. O segredo é reconhecer que pode haver informações e dados armazenados nesse site, gratuitamente acessíveis, mas invisíveis. E você vai ter que despender um certo tempo procurando esse material.

Os resultados dos sites gerais de busca algumas vezes revelam preciosidades de informação, que, a partir daí, podem ser investigadas com mais profundidade. Uma busca por "cultivo de amendoim", por exemplo, pode revelar uma referência a um banco de dados sobre cultivo de amendoim - sem, no entanto, mostrar qualquer informação de dentro desse banco de dados. Segundo Sherman, um truque simples e útil em uma situação desse tipo é procurar por "banco de dados de cultivo de amendoim". Isso pelo menos vai alertar o usuário para a existência daquilo que pode ser uma fonte útil de informação.

Existe uma grande quantidade de sites de bancos de dados que é invisível para a maior parte dos sites de busca. O Biography.com é um exemplo disso, com milhares de biografias armazenadas em uma estrutura de banco de dados que alguns sistemas de busca não conseguem localizar (ou, para ser mais preciso, preferem não localizar).

O site do Centro de Controle de Doenças dos Estados Unidos contém muita informação sobre o antraz, mas para consegui-la o usuário tem que fazer a sua pesquisa no próprio site.

Pesquisas de áudio e vídeo

À medida que o acesso à Internet de banda larga continua a se expandir, mais e mais conteúdos na Web estão em formatos de áudio e vídeo - com os quais a maior parte dos dispositivos de busca não consegue lidar. Segundo Price, uma tendência importante é a emergência dos serviços que convertem áudio em texto e, a seguir, fornecem condições para que se faça uma busca nas transcrições.

Por exemplo, o site do noticiário Newshour With Jim Lehrer possui um dispositivo de busca que pode pesquisar palavras-chave em arquivos do programa de notícias televisivas da PBS. O provedor de notícias financeiras Bloomberg possui um novo sistema para as suas transmissões, o Vídeo Player, que pode procurar por palavras-chave dentro do conteúdo que foi veiculado no programa. E, melhor ainda, a Compaq possui um site experimental denominado SpeechBot, que é um dispositivo de busca para material de áudio e vídeo, armazenado e reproduzido a partir de uma série de sites.

Ferramentas para o repórter de assuntos específicos

Sherman afirma que a Web Invisível é provavelmente um instrumento melhor para o jornalista de assuntos específicos do que para o profissional que cobre uma ampla gama de tópicos. Se você possui uma especialidade, faz sentido se dedicar a descobrir fontes da Web Invisível sobre o seu tópico. E isso vai levar tempo.

Price compara esse processo de aprendizado sobre aquilo que a Web Invisível tem a oferecer para o jornalista de assuntos específicos ao processo pelo qual qualquer jornalista se submete para aprender uma nova especialidade. Trata-se de algo que tem a ver com o cultivo de fontes e a identificação dos recursos que estão disponíveis, de forma que fica-se sabendo a que recorrer quando surge a necessidade de se obter uma informação específica. E, uma coisa importante é reconhecer que a web invisível é um ambiente dinâmico, que muda rapidamente, e que desafia constantemente o usuário a acompanhar o seu ritmo. "Não existe um único código de regras para fazer pesquisas na Web Invisível", diz ele.

A Web Invisível exige trabalho dos cibernautas que desejam descobrir os seus segredos. Mas as recompensas podem ser substanciais para um jornalista que se empenhar em descobrir o que ela pode fornecer.

Acesso à informação

Então, tudo isso soa maravilhoso, não? Mas a Web Visível já é um grande instrumento de pesquisa para os jornalistas, que poupa enormemente o tempo despendido no trabalho. Existe uma tonelada de informações na Web Visível. Será que esses recursos ainda podem melhorar, ou uma nova onda de conteúdos da "Web Invisível" (em uma quantidade tal que eclipsaria a Web Visível) faria com que o problema do excesso de informações se agravasse? Afinal, já estamos nadando em um oceano de páginas da Internet e bancos de dados proprietários. Será que precisamos de mais material, para tornar a situação ainda mais complicada?

Eu defendo a tese de que, para os jornalistas, nunca haverá acesso suficiente à informação. Nessa nova era da Web Invisível, os jornalistas estão bem posicionados para se tornarem especialistas na busca das riquezas dessa fonte - de uma maneira que não pode ser realizada pelo público em geral. Conforme aumenta a quantidade de informação online, os jornalistas (e novos pesquisadores) podem ter um papel fundamental em selecionar esse material.

A "Web Invisível" é apenas um outro item da caixa de ferramentas do repórter. Aprenda como utilizá-la.

Tradução: Danilo Fonseca




 

 28/11/2002

Convergência entre mídias diferentes é alternativa para o jornalismo

 22/11/2002

Conselhos para a salvação dos cadernos de empregos dos jornais

 01/11/2002

Os sites de notícias precisam de dieta

 01/10/2002

Google News pode mudar o setor de notícias online

 12/09/2002

Não esconda seu conteúdo multimídia

 03/09/2002

Veja as notícias do futuro no Starbucks

 15/08/2002

Examinando o futuro do conteúdo pago

 01/08/2002

Filtros de spam bloqueiam mensagens legítimas de e-mail

 18/07/2002

A Knight Ridder Digital cede parte do controle

 26/06/2002

Embarquem no vagão dos blogs antes que seja tarde

 13/06/2002

Especialistas oferecem dicas de usabilidade
Sites de notícias têm muito o que aprender


 29/05/2002

Bibliotecas ameaçam arquivos pagos de notícias online

 15/05/2002

Sistemas de editoração de conteúdo sufocam design de notícias

 29/04/2002

Você se esqueceu das mensagens instantâneas?

 12/04/2002

Sites jornalísticos repetem os erros do passado

 15/03/2002

Jornal de Washington investe em noticiário interativo

 28/01/2002

O efeito das tendências de publicidade na TV sobre a Web

 11/01/2002

Use a Web para complementar sua edição impressa

 20/12/2001

Empresas devem ajudar os sites de notícias
E fazer os consumidores pagarem por esse tipo de produto


 03/12/2001

Jornais falham em promover seus sites

 15/11/2001

Usando a "Web Invisível" para pesquisas

 02/11/2001

Sites das Ligas Esportivas competem com a mídia

 15/10/2001

Como a Web pode homenagear indivíduos, quando milhares morrem

 04/10/2001

Os sites de jornais estariam condenados?
Executivo do setor diz que eles estão sobrevivendo à crise


 25/09/2001

Sites de notícias devem tirar lições do ataque
Eles foram excelentes sob certos aspectos, mas falharam sob outros


 04/09/2001

Impedindo alterações não-autorizadas em sites
Uma avaliação do Gator e outros aplicativos


 23/08/2001

Dispositivos contra spam bloqueiam e-mails legítimos: Sua mensagem pode não estar chegando ao destinatário

 27/07/2001

Empresários da indústria online devem abrir as torneiras da criatividade

 03/07/2001

O público não está abandonando a rede

 18/06/2001

Jornais e sindicatos vão comercializar informativos eletrônicos