UOL Notícias Internacional
 

21/07/2006

É como ter uma secretária no computador

The New York Times
David Pogue
Testando, testando, um dois três. Esse negócio está ligado?

Sim, de fato está ligado e funcionando. Estou usando falando em um microfone, e meu PC está escrevendo tudo o que eu digo em um arquivo do Microsoft Word. Estou falando rapidamente, normalmente, exceto que estou pronunciando a pontuação (vírgula), assim (ponto).

Vamos tentar algo mais difícil. Hidrocloreto de piridoxina. Lilliputians antagonísticos. Zithers infinitesimais. Hum, nada mal!

Ops, oi querida. Você conseguiu chegar ao banco antes que fechasse? Espere, deixe-me desligar o microfone. Não ia querer que nossa conversa fosse parar na minha coluna!

Ok, estou de volta. O software que estou usando é o Dragon NaturallySpeaking 9.0 (www.nuance.com), a mais recente versão do programa de reconhecimento de fala para o Windows. Este programa, que fez sua estréia na terça-feira (18/7), é notável por duas razões.

Razão número 1: Você não tem que treinar o programa. O treinamento era uma fase de preparação do programa, em que você tinha que ler alto um texto apresentado na tela -ritual padrão que iniciou a aventura de reconhecimento de fala para milhares de pessoas.

Lembro-me de, no início, ler 45 minutos desses roteiros. Mas cada versão sucessiva do NaturallySpeaking exigiu menos tempo de treinamento; na versão 8, eram necessários apenas cinco minutos.

E agora superaram até isso: o NatSpeak 9 não requer nenhum treinamento.

Eu testei o programa. Depois da instalação, abri um livro ao acaso e li um texto de 1.000 palavras -sem qualquer treinamento.

O software errou 11 palavras, o que significa que acertou 98,9% do texto. Alguns desses erros são perdoáveis, como quando ouviu "tipologia" em vez de "topologia".

Mas a Nuance diz que a precisão é ainda melhor se você ler um dos roteiros de treinamento. Então tentei isso também. Treinei o programa lendo seu trecho de "Alice no País das Maravilhas". Depois disso, quando li as mesmas 1.000 palavras do meu livro, o programa registrou apenas seis erros. Isso é 99,4% de acerto.

A melhor parte é que esses são os piores índices que você terá, porque o software fica mais esperto com o uso -ou melhor, na medida em que você corrige seus erros.

Você faz isso inteiramente por voz. Você diz "corrija tipologia", por exemplo; abaixo dessa palavra aparecem escolhas numeradas de transcrições alternativas. Você vê que a alternativa 1 é "topologia", por exemplo, então você diz "escolha 1". O programa instantaneamente corrige a palavra, aprende com seu erro e volta a piscar no ponto em que você parou de ditar, pronto para mais.

Com o tempo, portanto, a precisão aumenta. Quando testei as mesmas 1.000 palavras, depois de importar meus arquivos de voz da versão 8 polidos com o tempo, tive 99,6% de acerto. Ou seja, foram quatro palavras erradas em 1.000, incluindo, é claro, "topologia".

Por esta razão, não importa muito se você pular o treinamento inicial; as duas abordagens eventualmente convergem para 100% de precisão.

O NatSpeak 9 é notável por outra razão: é uma nova versão que tem poucas novidades.

Sim, eles eliminaram a exigência de treinamento do programa. E sim, o novo NatSpeak é 20% mais preciso do que antes, se você fizer o treinamento inicial. Então, essa é uma melhora de 20% em um programa que já é 99,4% -99,5%? Talvez isso signifique um erro a menos em cada 1.000 palavras.

A Nuance usa uma inteligente obra de engenharia para dar maior precisão ao programa. Por exemplo, usa o contexto para determinar a identidade de uma palavra, levando em conta as duas ou três palavras dos dois lados para distinguir, digamos, "bare" de "bear" ("descoberto" de "urso"). A empresa diz que a versão 9 avalia um número maior de palavras do contexto.

Mas as outras mudanças são menores. A barra de ferramentas no alto da tela deixou o visual quadrado do Windows 3.1 em favor de uma aparência mais arredondada do Windows Vista. Você pode usar certos microfones sem fio Bluetooth para ditar, apesar da Nuance ter encontrado apenas dois que ficam perto o suficiente da boca para dar um som claro. Um novo indicador da barra de ferramentas informa quando você está em um programa de "selecionar e dizer", como o Word -ou seja, um programa em que você pode ressaltar, manipular e formatar qualquer texto na tela usando comandos de voz.

A Nuance não seguiu o caminho de muitas empresas de software, que a cada ano aumentam as características e complexidade dos programas na esperança de vender um upgrade. Pela segunda revisão seguida, a empresa preferiu fazer aprimoramentos, melhorias cuidadosas e seletivas.

A Nuance, no entanto, não é a única na cidade do reconhecimento de voz. A Microsoft diz que o Windows Vista, quando fizer sua estréia no ano que vem, virá com software de ditado incluído.

A Nuance diz que não está preocupada, salientando que o Vista só vai entender inglês. O NatSpeak, por outro lado, está disponível em francês, italiano, alemão, espanhol, holandês, inglês britânico e "inglês mundial", que entende os sotaques sul-africano, indiano e australiano.

O NatSpeak também está disponível em uma série de versões para o mercado americano, inclusive com encarnações médica e jurídica. Meros mortais provavelmente vão escolher apenas entre a versão padrão (US$ 100, ou R$ 220), ou a versão Preferida (US$ 200, em torno de R$ 440), que incluem microfone. As duas dão a mesma precisão.

A edição Preferida, entretanto, oferece assobios e sinos. Um deles é a possibilidade de transcrição de um gravador de voz de bolso digital. Essa abordagem não dá a mesma precisão que o microfone, e requer o que hoje é considerado um tempo absurdo de leitura de treinamento: pelo menos 15 minutos. Mas libera a pessoa de ditar ao computador.

A grande vantagem da Preferida são os macros, em que você ensina o programa a digitar uma coisa quando você diz outra. Por exemplo, você pode dizer "esqueça" e ele escrever: "Obrigado por sua proposta. Lamentamos que, depois de muita consideração, vamos negar sua oferta neste momento."

Há também uma versão de US$ 900 (em torno de R$ 1.980), chamada de Profissional, que oferece entre outras características avançadas total controle sobre seu PC pela voz; pode até fazer tarefas automatizadas de vários passos.

O NatSpeak também roda belamente no Macintosh. A instalação exige um pouco mais: um Mac com base em Intel, uma versão recente do acessório gratuito da Apple Boot Camp, uma cópia do Windows XP e um adaptador de USB no microfone. E você tem que iniciar o Mac com Windows toda vez que quiser usar o NatSpeak. Mas se você puder ignorar esse porém, o NatSpeak no Macintosh é extremamente rápido e preciso.

Se isso parece esforço demais, há uma alternativa só para Mac: o iListen (US$ 130 com microfone). A versão 1.7 recém adaptada para Macs de Intel oferece maior precisão e menor tempo de treinamento que versões anteriores, apesar de não se comparar à sofisticação ou precisão do NatSpeak. Depois de 30 minutos de treinamento, o programa fez 42 erros em meu texto de 1.000 palavras, que a empresa diz ser melhor que a média.

Quanto ao NaturallySpeaking: se você já estiver usando a versão 8, provavelmente não vale a pena comprar o upgrade para a versão 9. A maior parte das pessoas considera as mudanças pequenas e sutis demais.

Mas se você estiver entre os milhares que se desencantaram com os programas de ditado no passado, a história muda de figura. A versão 9 é um argumento mais forte do que nunca para qualquer um que não possa ou não goste de digitar. O programa de ditado está pronto para o horário nobre; o estado dessa arte chegou quase ao refinamento de "Star Trek".

Perdoe-me -o que você disse querido?

Está bem, estou quase acabando aqui; já vou descer. Deixe-me apenas desligar o microfone. Deborah Weinberg

Siga UOL Notícias

Tempo

No Brasil
No exterior

Trânsito

Cotações

  • Dólar comercial

    14h09

    -0,87
    3,130
    Outras moedas
  • Bovespa

    14h18

    1,08
    64.447,29
    Outras bolsas
  • Hospedagem: UOL Host