Cientistas da fala vão em busca de uma voz mais humana para os computadores

John Markoff

  • Cole Wilson/The New York Times

    Michael Picheny, do Laboratório Multimodal Watson da IBM Research

    Michael Picheny, do Laboratório Multimodal Watson da IBM Research

Quando os computadores falam, quão humanos devem soar? 

Essa foi a questão que uma equipe de seis linguistas, engenheiros e profissionais de marketing da IBM enfrentaram em 2009, quando começaram a desenvolver uma função que transformava texto em voz para o Watson, o programa de inteligência artificial da empresa que joga "Jeopardy!" (programa de televisão americano de perguntas e respostas). 

Dezoito meses depois, uma voz cuidadosamente elaborada –soando não exatamente humana, mas também não como o computador HAL 9000 do filme "2001: Uma Odisseia no Espaço"– expressava o caráter sintético de Watson em uma disputa altamente divulgada, na qual o programa derrotou dois dos melhores jogadores humanos de "Jeopardy!" 

O desafio de criar uma "personalidade" de computador agora é um enfrentado por um crescente número de projetistas de software, à medida que os computadores se tornam portáteis e usuários com mãos e olhos ocupados usam cada vez mais a interação por voz. 

As máquinas estão ouvindo, entendendo e falando, e não apenas os computadores e smartphones. Vozes estão sendo adicionadas a uma grande quantidade de objetos cotidianos, como carros e brinquedos, assim como "aparelhos" de informação domésticos, como os robôs assistentes Pepper e Jibo, e Alexa, a voz do assistente pessoal Amazon Echo. 

Uma nova ciência de design está surgindo na busca do desenvolvimento do que são chamados de "agentes de conversação", programas que entendem a linguagem natural e a fala e podem responder a comandos de voz humana. 

Ainda não é possível criar uma voz computadorizada que seja indistinguível de uma humana por mais que frases curtas, usadas para previsões do tempo ou comunicações de direção de trânsito. 

A maioria dos projetistas de software reconhece que ainda enfrenta a travessia do "vale da estranheza", no qual vozes que soam quase humanas passam a ser perturbadoras ou desconcertantes. A frase foi cunhada pelo roboticista japonês Masahiro Mori em 1970. Ele observou que à medida que as animações gráficas se tornam mais humanas, havia um ponto em que se tornavam perturbadoras e estranhas antes de melhorarem, para se tornarem indistinguíveis de vídeos de seres humanos. 

O mesmo vale para a fala. 

"Incômodo é a forma como eu colocaria", disse Brian Langner, cientista sênior de voz da ToyTalk, uma empresa de tecnologia de San Francisco que cria vozes digitais para coisas como a boneca Barbie. "Quando a máquina acerta uma dessas coisas, as pessoas tendem a esperar que acertem sempre em tudo." 

Além da pronúncia correta, há o desafio ainda maior de acrescentar corretamente qualidades humanas como inflexão e emoção à fala. Os linguistas chamam isso de "prosódia", a habilidade de adicionar a entonação, acento (intensidade, altura, duração) ou sentimento à língua falada.

Hoje, apesar de todo o progresso, não é possível representar completamente as ricas emoções da fala humana por meio de inteligência artificial. Os primeiros resultados de pesquisas experimentais –obtidos pelo uso de algoritmos de aprendizado de máquina e imensos bancos de dados de emoções humanas presentes na fala– estão começando a se tornar disponíveis aos cientistas da fala. 

A fala sintetizada é criada de várias formas. As técnicas de mais alta qualidade para fala que soe natural começam com uma voz humana que é usada para gerar um banco de dados de partes ou mesmo subpartes de voz faladas de muitas formas diferentes. A voz humana de um ator pode ser gravada por 10 a centenas de horas, se não mais, para cada banco de dados. 

A importância e dificuldade de adicionar uma qualidade emocional intangível pode ser vista no filme de ficção científica "Ela", de 2013, na qual um funcionário de escritório solitário, interpretado por Joaquin Phoenix, se apaixona por Samantha, a voz sintética de um sistema operacional avançado de computador. 

A voz foi interpretada por Scarlett Johansson, depois que o diretor do filme, Spike Jonze, decidiu que a atriz de voz original não transmitia o relacionamento romântico entre ser humano e máquina que ele buscava retratar. 

As raízes da tecnologia moderna de síntese de voz estão no trabalho inicial do cientista de computação escocês Alan Black, que agora é professor do Instituto de Tecnologias de Linguagem da Universidade Carnegie Mellon. 

Black reconhece que apesar do grande progresso obtido, os sistemas de síntese de fala ainda não conseguiram atingir uma perfeição humana. "O problema é que não temos bons controles sobre como dizer a esses sintetizadores: 'Diga isso com sentimento'", ele disse. 

Para pessoas como os desenvolvedores da ToyTalk, que projetam personagens de entretenimento, os erros podem não ser fatais, já que a meta é entreter, até mesmo fazer seu público rir. Mas para os programas que visam colaborar com os seres humanos em situações comerciais ou como companhia, os desafios são mais sutis. 

Esses projetistas dizem com frequência que não querem tentar enganar as pessoas que as máquinas estão se comunicando com elas, mas sim que querem criar um relacionamento mais humano entre o usuário e a máquina. 

A IBM, por exemplo, lançou uma propaganda de televisão recentemente exibindo uma conversa entre o influente cantor-compositor Bob Dylan e o programa Watson, na qual Dylan abruptamente deixa o palco quando o programa tenta cantar. Watson é um péssimo cantor. 

A propaganda faz um bom trabalho em expressar a meta da IBM de transmitir um sábio não exatamente humano. A empresa deseja uma voz que não seja humana demais e, consequentemente, assustadora. 

"Jeopardy!" foi um problema de síntese de voz particularmente desafiador para os pesquisadores da IBM porque, apesar das respostas serem curtas, havia um vasto número possível de armadilhas de erro de pronúncia. 

"A taxa de erro na simples pronúncia correta de uma palavra foi nosso maior problema", disse Andy Aaron, um pesquisador no Laboratório de Ambientes Cognitivos da IBM Research. 

Vários membros da equipe passaram mais de um ano criando um banco de dados gigante de pronúncias corretas para redução dos erros ao mais próximo de zero possível. Frases como "Champagne brut", "carpe diem" e "sotto voce" representavam campos minados potenciais para erros, tornando impossível seguir cegamente os guias de pronúncia. 

Os pesquisadores entrevistaram 25 atores de voz, à procura de um som particularmente humano a partir do qual desenvolveriam a voz de Watson. Selecionando a voz que mais gostavam, eles então a empregaram de várias formas, a certa altura até mesmo mudando a frequência, para que soasse como uma criança. 

"Esse tipo de personalidade foi fortemente rejeitada por quase todos", disse Michael Picheny, um gerente sênior do Laboratório Multimodal Watson da IBM Research. "Não queríamos que a voz soasse hiperentusiasmada." 

Os pesquisadores procuravam por uma voz que fosse lenta, firme e, mais importante, "agradável". E, no final, atuando mais como artistas do que engenheiros, eles ajustaram o programa. A voz a qual chegaram é claramente de computador, mas soa otimista, até mesmo vivaz. "Uma boa interface computador-máquina é uma obra de arte e deve ser tratada como tal", disse Picheny. 

Enquanto a tecnologia de fala continua melhorando, haverá novas aplicações atraentes e possivelmente perturbadoras. 

A Imperson, uma empresa de software com sede em Israel que desenvolve personagens de conversação para entretenimento, agora está considerando ingressar na política. A ideia da Imperson é que durante uma campanha, um político poderia utilizar um avatar em uma plataforma de rede social para interagir com os eleitores. Um Ted Cruz ou Donald Trump que soassem plausível poderia articular as posições do candidato a respeito de qualquer assunto possível. 

"O público quer ter uma conversa interativa com um candidato", disse Eyal Pfeifel, cofundador e diretor-chefe de tecnologia da Imperson. "As pessoas entenderão e não haverá nenhum problema de 'vale da estranheza'."

Tradutor: George El Khouri Andolfato

Veja também

UOL Cursos Online

Todos os cursos