UOL Notícias Internacional
 

17/03/2009

Utilidades do Hadoop, um software gratuito, vão além das buscas na internet

The New York Times
Ashlee Vance
Em Burlingame, Califórnia (EUA)
No período de apenas dois anos, o Hadoop, um software gratuito cujo nome é uma alusão a um elefante de brinquedo, passou a controlar alguns dos maiores websites do mundo. Ele controla os principais dispositivos de busca e determina que propagandas serão exibidas ao lado dos resultados encontrados. Ele decide quais pessoas serão vistas na homepage do Yahoo e encontra amigos há muito sumidos no Facebook.

O Hadoop conseguiu esta façanha ao tornar mais fácil e barato do que nunca a análise e o acesso a volumes de dados sem precedentes fornecidos pela internet. Depois de mapearem informações dispersas por milhares de computadores baratos e criarem um meio mais fácil para a redação de indagações analíticas, os engenheiros não precisam mais resolver um enorme desafio de ciência da computação todas as vezes que desejam obter dados. Em vez disso, eles simplesmente fazem uma pergunta.

"É um marco pioneiro", afirma Mark Seager, diretor de computação avançada no Laboratório Nacional Lawrence Livermore. "Creio que esse tipo de tecnologia resolverá toda uma nova classe de problemas e criará novos serviços".

Três engenheiros de alto nível do Google, do Yahoo e do Facebook, juntamente com um ex-executivo da Oracle, estão apostando nisso. Eles anunciaram na segunda-feira (16/03) a criação de uma firma chamada Cloudera, com sede em Burlingame, na Califórnia, que tentará levar as capacidades do Hadoop até indústrias tão distanciadas como a de genômica, a de vendas e a de finança.

O conceito central por detrás do software foi desenvolvido no Google.

Em 2003, o Google passou a encontrar uma dificuldade crescente para assimilar e indexar toda a Internet de forma regular. Além desses problemas, o Google carecia de uma forma relativamente fácil de analisar grandes reservas de informação a fim de avaliar a qualidade de resultados de buscas e descobrir como as pessoas se comportavam nos diversos serviços online.

Para fazer frente a essas questões, dois engenheiros do Google inventaram uma tecnologia chamada MapReduce que, quando aliada à complexa tecnologia de gerenciamento de arquivos utilizada pela companhia para indexar e catalogar a Web, resolveu o problema. A tecnologia MapReduce torna possível dividir grandes conjuntos de dados em subgrupos, difundir essa informação por milhares de computadores, fazer perguntas às máquinas e receber respostas coesivas. O Google reformulou o seu sistema inteiro de índice de pesquisas para beneficiar-se da capacidade do MapReduce de analisar toda essa informação e de manter serviços complexos funcionando mesmo quando vários computadores deixam de operar.

O MapReduce representa duas novidades pioneiras. A tecnologia permitiu que o software de busca do Google funcionasse de forma mais rápida em computadores mais baratos e menos confiáveis, o que significa menos despesas de capital. Além disso, ele manipula os dados que o Google coleta de uma maneira tão mais fácil que uma quantidade maior de engenheiros passou a ser capaz de procurar segredos a respeito de como as pessoas utilizam a tecnologia da companhia, em vez de terem que se preocupar em manter os computadores em bom estado e funcionando.

"Trata-se de fato de um grande martelo", diz Christophe Bisciglia, 28, ex-engenheiro do Google e co-fundador da Cloudera. "Quando você dispõe de um grande martelo, tudo se transforma em prego".

A tecnologia abriu a possibilidade de fazer perguntas sobre os dados do Google - como, por exemplo, o que todas as buscam antes de procurarem pelo termo BMW - e ela passou a descrever com precisão crescente a relação entre grupos de websites, fotografias e documentos. Resumindo, o Google ficou mais inteligente.

A tecnologia MapReduce ajuda também a fazer trabalhos maçantes. Por exemplo, ela obtém grandes quantidades de imagens - como fotos de satélites - de várias fontes e aglutina essas informações em uma única foto. O resultado são as versões aperfeiçoadas de produtos como o Google Maps e o Google Earth.

O Google manteve sigilo sobre os trabalhos internos relativos ao MapReduce e softwares similares de gerenciamento de arquivos, mas ele publicou trabalhos a respeito das técnicas subjacentes. Essa fração de informação foi suficiente para que Doug Cutting, que vinha trabalhando como consultor de software, criasse a sua própria versão da tecnologia, que foi denominada Hadoop (o nome veio do elefante de brinquedo do filho dele, que depois disso ficou confinado em uma gaveta de meias).

Os técnicos do Yahoo examinaram os mesmos trabalhos lidos por Cutting, e acharam que precisariam equilibrar o campo competitivo de busca e propaganda em relação ao concorrente. Assim, o Yahoo contratou Cutting e entregou-se ao trabalho.

"A ideia era que, se tivéssemos uma grande equipe de técnicos, seríamos capazes de criar algo de muito bom", diz Cutting. "Dentro de seis meses, o Hadoop tornou-se uma parte crítica do Yahoo, e, dentro de dois anos, tornou-se uma parte super-crítica".

Uma análise baseada no Hadoop determina também o que 300 milhões de pessoas veem mensalmente. O Yahoo acompanha o comportamento das pessoas para determinar que tipos de histórias e outros conteúdos são apreciados por elas e tentar alterar a sua homepage de acordo com isso. Softwares similares procuram conjugar propagandas a certos tipos de narrativas. E, quanto melhor a propaganda, mais o Yahoo pode cobrar por ela.

Calcula-se que o Yahoo tenha investido dezenas de milhões de dólares no desenvolvimento do Hadoop, que continua sendo um software de fonte aberta que pode ser utilizado e modificado por qualquer um. A partir daí ele começou a disseminar-se pelo Vale do Silício e por outras companhias de tecnologia de outras áreas.

A Microsoft tornou-se uma fã do Hadoop quando comprou uma empresa chamada Powerset para melhorar o seu sistema de busca. Historicamente hostil para com os softwares de fonte aberta, a Microsoft não obstante alterou as suas políticas internas para permitir que membros da equipe da Powerset continuassem desenvolvendo o Hadoop.

"Percebemos que temos problemas reais a resolver que afetam os negócios, e a inteligência de negócios e a análise de dados são uma grande parte disso", afirma Sam Ramji, diretor de estratégia de plataformas da Microsoft.

O Facebook usa o software para gerenciar os 40 bilhões de fotos que armazena. "É assim que o Facebook descobre até que ponto você está vinculado a uma outra pessoa", diz Jeff Hammerbacher, ex-engenheiro do Facebook e co-fundador da Cloudera.

A nova empresa Eyealike depende do Hadoop para fazer reconhecimento facial em fotos, e a Fox Interactive Media faz mineração de dados com ele. O Google e a IBM financiaram um programa para ensinar o Hadoop a estudantes universitários.

A Autodesk, uma empresa que fabrica softwares de design, o usou para criar um catálogo online de produtos como pias, esgotos e privadas para ajudar os construtores a elaborarem os seus projetos. A companhia espera ganhar dinheiro explorando a capacidade do Hadoop de analisar a popularidade de determinados produtos e vendendo essas informações detalhadas a fabricantes.

Esses tipos de aplicação fizeram com que os fundadores da Cloudera decidissem criar uma empresa em torno do Hadoop. "E se o Google decidisse vender a capacidade de fazer coisas incríveis com dados em vez de vender propaganda?", pergunta Hammerbacher.

A Hammerbacher e Bisciglia juntaram-se Amr Awadallah, ex-engenheiro do Yahoo, e Michael Olson, diretor-executivo da companhia, que vendeu uma companhia de softwares de fonte aberta para a Oracle em 2006.

A companhia acabou de lançar a sua própria versão do Hadoop. O software continua gratuito, mas a Cloudera espera ganhar dinheiro vendendo suporte técnico e serviços de consultoria relativos ao software. Ela possui poucos clientes, mas deseja atrair empresas de biotecnologia, petróleo, gás, vendas e seguros para a ideia de tirar mais proveito de suas informações gastando menos.

Os executivos observam que tarefas como a cópia dos dados do genoma humano, de reservas de petróleo e daqueles relativos a vendas exigem sistemas de armazenagem imensos.

Tradução: UOL

Siga UOL Notícias

Tempo

No Brasil
No exterior

Trânsito

Cotações

  • Dólar comercial

    16h59

    -0,54
    3,265
    Outras moedas
  • Bovespa

    17h20

    1,36
    64.085,41
    Outras bolsas
  • Hospedagem: UOL Host