Como os dados falharam na previsão da vitória de Trump nos EUA

Steve Lohr e Natasha Singer

  • Eric Thayer/The New York Times

    O presidente eleito Donald Trump discursa logo após vencer as eleições, em Nova York

    O presidente eleito Donald Trump discursa logo após vencer as eleições, em Nova York

Foi uma noite difícil para os calculistas. E para a fé que pessoas de todos os campos --negócios, política, esportes e academia-- depositam cada vez mais no poder dos dados.

A vitória de Donald Trump contrariou quase todas as principais previsões --abalando a crença em que analisar pilhas de dados pode prever com precisão os acontecimentos. Os eleitores demonstraram o quanto a análise previsiva, e a previsão de eleições em particular, continua sendo uma ciência jovem: alguns podem ter sido levados a pensar que a vitória de Hillary Clinton estava garantida porque algumas previsões não tinham o contexto explicando margens de erro potencialmente grandes.

"É a venda exagerada da previsão", disse o doutor Pradeep Mutalik, um pesquisador no Centro para Informática Médica de Yale, que havia calculado que alguns dos modelos de votação poderiam errar de 15% a 20%.

Virtualmente todas as previsões de votos, incluindo as do site FiveThirtyEight, de Nate Silver, so Upshot de "The New York Times" e do Princeton Election Consortium, situaram a probabilidade de Hillary vencer na faixa de 70% a 99%.

O negócio de previsões eleitorais é um pequeno aspecto de uma mudança de longo alcance em setores que se tornaram cada vez mais obcecados por dados, o valor deles e o potencial de garimpá-los para encontrar ideias que permitam economia de custos e maiores lucros. É uma tecnologia de bastidores que silenciosamente conduz tudo, dos anúncios que as pessoas veem online a contratos de aquisição de bilhões de dólares.

Os exemplos vão do Vale do Silício ao interior industrial. A Microsoft, por exemplo, está pagando US$ 26 bilhões pelo Linkedin, principalmente por causa de sua base de dados de perfis pessoais e conexões empresariais de mais de 400 milhões de pessoas. A General Electric, maior fabricante industrial dos EUA, aposta alto que sensores que geram dados e software podem aumentar a eficiência e a rentabilidade de suas turbinas a jato e outros maquinários.

Mas a ciência dos dados é um avanço tecnológico com reveses. Ela pode ver as coisas como nunca antes, mas também pode ser um instrumento grosseiro, perdendo o contexto e as nuances. Todo tipo de empresa e instituição usa dados silenciosamente e nos bastidores para fazer previsões sobre o comportamento humano. Mas só ocasionalmente --como com os resultados da eleição de terça-feira-- os consumidores têm uma percepção de como essas fórmulas funcionam e da extensão em que elas podem errar.

Em discurso como presidente eleito, Trump fala em unir o país

  •  

A Google Flu Trends, por exemplo, parecia um triunfo da presciência dos "big data", ao rastrear surtos de gripe com base em tendências de termos relacionados à gripe em pesquisas na internet. Mas na temporada de 2012-13 ela exagerou muito no número de casos.

Neste ano, o algoritmo do Facebook removeu a imagem, postada por um escritor norueguês, de uma menina de 9 anos nua fugindo de bombas de napalm. O software viu uma violação da política da rede social que proíbe pornografia infantil, e não uma foto icônica da Guerra do Vietnã e do sofrimento humano.

E um robô da Microsoft destinado a aprender "compreensão de conversa" garimpando texto online foi rapidamente aposentado neste ano depois que seu algoritmo de aprendizado maquínico começou a gerar comentários racistas.

Mesmo tentativas bem intencionadas de usar a análise de dados para o bem maior podem retroagir. Dois anos atrás, o grupo Samaritans, de prevenção de suicídios no Reino Unido, desenvolveu um app grátis para avisar pessoas quando alguém que elas seguiam no Twitter postasse frases potencialmente suicidas, como "eu me odeio" ou "cansado de ficar sozinho". O grupo rapidamente removeu o app depois que pessoas avisaram que ele poderia ser usado para assediar os usuários em seus momentos mais vulneráveis.

As previsões erradas da eleição desta semana sugerem que a corrida para explorar dados pode ter superado a capacidade de reconhecer seus limites.

"As pesquisas estaduais erraram de uma maneira que não se via nas eleições presidenciais anteriores", disse Sam Wang, um professor de neurociência na Universidade Princeton que é cofundador do Princeton Election Consortium. Ele especulou que as pesquisas podem ter deixado de captar eleitores republicanos que inicialmente disseram que não votariam em Trump, mas mudaram de ideia na cabine de votação.

Depois da noite da eleição, há lições mais amplas que levantam questões sobre a corrida para se tomar decisões com base em dados em toda a economia e a sociedade.

O entusiasmo pelos grandes dados foi alimentado pelo sucesso das gigantes do Vale do Silício originárias da internet, como Google, Amazon e Facebook. As potências econômicas digitais colhem enormes quantidades de dados de usuários com software inteligente para buscas, redes sociais e comércio eletrônico. Os dados são o combustível, e os algoritmos emprestados da caixa de ferramentas da inteligência artificial, notadamente o aprendizado de máquinas, são o motor.

O uso comercial inicial da tecnologia foi melhorar as probabilidades de fazer uma venda --por meio de anúncios dirigidos, marketing personalizado e recomendações de produtos. Mas a tomada de decisões por meio de grandes dados é cada vez mais adotada em todos os setores, e para tomar decisões de alto nível que afetam, crucialmente a vida das pessoas --como ajudar a fazer diagnósticos médicos, opções de contratação e aprovação de empréstimos.

O perigo, segundo especialistas em dados, está em confiar demais na análise de dados sem avaliar suas limitações e as suposições potencialmente erradas das pessoas que constroem os modelos de previsão.

A tecnologia pode ser, e é, enormemente útil. "Mas a principal coisa a se entender é que a ciência dos dados é uma ferramenta que não vai necessariamente lhe dar respostas, mas probabilidades", disse Erik Brynjolfsson, professor na Escola de Administração Sloan no Instituto de Tecnologia de Massachusetts (MIT).

Brynjolfsson disse que as pessoas muitas vezes não compreendem que se a probabilidade de que algo aconteça for de 70% isso significa que há uma probabilidade de 30% de que não ocorra. O desempenho na eleição, segundo ele, "não é realmente um choque para a ciência dos dados e a estatística. É assim que funciona".

Então, o que aconteceu com os dados da eleição e os algoritmos? A resposta, ao que parece, é uma combinação de erros de pesquisa, análise e interpretação, talvez em como os números foram apresentados e como eles foram entendidos pelo público.

Silver, o fundador da FiveThirtyEight, não respondeu imediatamente a um e-mail que pedia comentários. Amanda Cox, editora do Upshot, e Wang, do Princeton Election Consortium, disseram que erros de pesquisas estaduais foram os principais culpados pelas estimativas erradas das probabilidades de vitória de Trump.

Além dos erros de pesquisas, cientistas de dados disseram que a fraqueza inerente dos modelos eleitorais pode ter causado alguns erros de previsão. Antes de uma eleição, os previsores usam uma combinação de dados de pesquisas históricas com os de pesquisas recentes para prever a probabilidade de um candidato ganhar. Alguns também podem incluir outras variáveis, como dar um peso maior a um candidato que está no exercício de um cargo.

Mas mesmo com décadas de pesquisas para analisar é difícil para os especialistas preverem com exatidão a probabilidade de um candidato vencer a Presidência com meses ou mesmo semanas de antecedência. Mutalik, de Yale, comparou os modelos eleitorais com a previsão do tempo.

"Mesmo com os melhores modelos, é difícil prever o clima para mais de dez dias, porque há muitas pequenas mudanças que podem causar grandes mudanças", disse Mutalik. "Na matemática, isso é chamado de caos."

Mas, ao contrário da previsão meteorológica, os atuais modelos eleitorais tendem a levar em conta dados de várias décadas. E mudar os parâmetros desses dados também pode afetar significativamente os cálculos.

O modelo da FiveThirtyEight, por exemplo, é calibrado com base nas eleições gerais desde 1972, ano em que as pesquisas estaduais começaram a aumentar. Em 24 de outubro, esse modelo situou as chances de Hillary vencer em 85%. Mas quando o site recalibrou de modo experimental o modelo com base em pesquisas mais recentes, datando apenas até 2000, as probabilidades de Hillary aumentaram para 95%, escreveu Silver em seu blog.

Nesta eleição presidencial, disseram analistas, o outro grande problema foi que algumas pesquisas estaduais estavam erradas. Pesquisas recentes de Wisconsin, por exemplo, colocaram Hillary à frente de Trump. E previsões eleitorais contaram com essa informação para suas análises. O Reino Unido encontrou lapsos semelhantes quando as pesquisas previram erroneamente que o país votaria pela permanência na União Europeia em junho.

"Se pudéssemos voltar ao mundo das reportagens sobre os candidatos, os partidos e as questões em jogo, em vez da incessante cobertura de cada pequena mudança nas pesquisas, seria melhor para todos", disse Thomas Mann, especialista em eleições no Brookings Institution. "Elas são viciantes, e tiram o olho do alvo."

Tradutor: Luiz Roberto Mendes Gonçalves

Receba notícias do UOL. É grátis!

Facebook Messenger

As principais notícias do dia pelo chatbot do UOL para o Facebook Messenger

Começar agora

Receba por e-mail as principais notícias, de manhã e de noite, sem pagar nada. É só deixar seu e-mail e pronto!

Veja também

UOL Cursos Online

Todos os cursos