Entre os participantes do projeto está o pesquisador de pós-doutoradp brasileiro Nicholas Kluge, além de Aniket Sen, Shiza Fatimah e Sophia Falk. A equipe se dedicou por oito meses no projeto, cujo resultado foi publicado no final de outubro na ArXiv.org, uma plataforma para artigos científicos nos campos da matemática, física e ciência da computação.

O processo de criação

Uma das principais dificuldades do projeto foi justamente filtrar as informações que seriam relevantes para inserir no banco de dados. "Passamos muito tempo coletando textos em português e filtrando o que fazia sentido. Contamos com a inteligência artificial para nos ajudar nessa etapa. Nesse sentido, usamos a IA para fazer IA", conta Kluge.

Outra parte fundamental foi otimizar o tempo de treinamento, que dependendo do tamanho e dos códigos do banco de dados, pode chegar a mais de um ano. "Passamos uns bons dois, três meses refinando o código, para que pudéssemos fazer um treinamento eficiente, que não demorasse muito", explica o coautor do estudo.

Ampliar acesso a esse tipo de tecnologia

O projeto tenta preencher uma lacuna da IA: a falta de um dataset extenso em língua portuguesa acessível ao público, de maneira aberta.