Pesquisa para Inovação
29/08/2018

Espectograma da voz humana. [1]
Quando Vanessa Marquiafável Serrani ingressou no curso de Licenciatura em Letras na Universidade Federal de São Carlos (UFSCar), em 2000, seu futuro profissional já parecia definido: seria professora de inglês. Mas sua trajetória mudou ainda na graduação, ao conhecer o Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo, campus São Carlos, durante um projeto de iniciação científica. Acabou trocando a carreira acadêmica pelo empreendedorismo.

Hoje Vanessa Serrani é sócia-proprietária da empresa SpeechTera Desenvolvimento de Programas para Computadores Ltda. e desenvolve, com apoio do Programa Pesquisa Inovativa em Pequenas Empresas (PIPE) da FAPESP, um projeto de criação de recursos computacionais para tecnologias de fala voltadas ao português no Brasil.

O projeto concluiu a fase 1 do PIPE – de teste de viabilidade -– em 2016 e está na fase 2 – de desenvolvimento propriamente dito –,com término previsto para 2019, quando a SpeechTera espera colocar no mercado recursos computacionais essenciais ao desenvolvimento de sistemas para síntese e reconhecimento de fala. A linguista explica que existem diversas aplicações para esse ramo da tecnologia: criação de comandos de voz para dispositivos eletrônicos, aperfeiçoamento de pronúncia na área do ensino de idiomas, tradutores automáticos, sistemas terapêuticos para pessoas com patologias de fala, inclusão digital de pessoas com deficiências visuais ou motoras, entre outras.

Para pessoas que sofrem de distúrbios da fala é possível até criar vozes personalizadas. “A voz constitui traço identitário de um indivíduo”, diz Vanessa. No entanto, por causa do alto custo dos sistemas de síntese de voz desenvolvidos no exterior, as empresas de tecnologia tendem a criar poucos tipos de vozes sintéticas – o que pode causar insatisfação e até rejeição por parte do usuário.

O desenvolvimento de uma tecnologia nacional, reduzindo os custos, pode trazer novas alternativas de vozes customizadas masculinas, femininas e infantis. “É possível, inclusive, extrair traços acústicos de pequenas amostras de fala para construir uma voz sintética personalizada para indivíduos que, dadas as dificuldades motoras, conseguem articular apenas algumas palavras ou até mesmo algumas poucas vogais”, acrescenta a pesquisadora.

Segundo Serrani, o modelo de negócios da SpeechTera será, sobretudo, business-to-business, tendo como clientes empresas desenvolvedoras de serviços baseados em tecnologias de fala, como e-commercee-learning e e-banking, além de hospitais, clínicas e centros de saúde.

A SpeechTera está investindo em quatro diferentes produtos: corpora de fala, modelos acústicos, modelos de pronúncia e conversores grafema-fonema. A linguista explica que os corpora (plural do latim corpus, conjunto) são as bases de dados de voz utilizadas pelos sintetizadores. “Coletamos vozes de pessoas entre 18 e 65 anos, de diversos perfis e sotaques brasileiros. Assim, quanto maior a variabilidade, melhor poderá ser o desempenho de um reconhecedor de fala.”

Modelos acústicos são responsáveis por determinar as características acústicas dos fonemas da língua. Os modelos de pronúncia são os dicionários fonéticos, listas de palavras às quais são associadas suas respectivas pronúncias, de acordo com um alfabeto fonético legível pelo computador.

“Esses dicionários são transcritos conforme 13 diferentes sotaques brasileiros que elegemos dentre a enorme variedade existente no país”, explica Serrani. E o conversor grafema-fonema é o algoritmo que transforma o texto de entrada que está no formato ortográfico convencional numa sequência de símbolos fonéticos tratáveis por computador. Segundo a pesquisadora, esses produtos poderão ser comercializados de forma individual ou separadamente.

Coleção de vozes

“Essa é uma área relativamente nova, ainda bastante carente de pesquisas. Quando descobri essa vertente fiquei muito motivada a trabalhar com tecnologia de voz”, diz Serrani. Segundo a linguista, o Núcleo Interinstitucional de Linguística Computacional (NILC), vinculado ao Instituto de Ciências Matemáticas e de Computação da USP de São Carlos, concentra o maior grupo de pesquisa em Linguística Computacional no país, reunindo uma equipe multidisciplinar que inclui linguistas e cientistas da computação.

Foram pesquisadores desse laboratório que desenvolveram o corretor ortográfico do Word, processador de texto da Microsoft, num amplo projeto que contou com investimento da empresa Itautec e da FAPESP, por meio de apoio do Programa de Apoio à Pesquisa em Parceria para Inovação Tecnológica (PITE), projeto desenvolvido entre 1997 e 1998 (leia mais em http://revistapesquisa.fapesp.br/2012/08/22/id%C3%A9ia-ou-ideia/). Mais tarde, no ano de 2000, a Microsoft comprou os direitos de usar a ferramenta desenvolvida pelo laboratório, adicionando-a ao pacote Office.

O primeiro contato de Serrani com a linguística computacional foi na graduação. Depois, no intervalo entre o mestrado (concluído em 2007) e o doutorado (iniciado em 2011), a linguista teve a oportunidade de trabalhar em um projeto PIPE do engenheiro eletricista Luis Felipe Uebel, que visava ao desenvolvimento de um navegador de internet com reconhecimento e síntese de fala. “Desenvolvi um dicionário fonético para esse projeto. Eu precisava abordar pessoas na USP de São Carlos pedindo para gravar suas vozes.”

Graças a esse trabalho, Serrani adquiriu experiências que lhe foram bastante úteis quando decidiu abrir a SpeechTera em abril de 2015. Coletar vozes, por exemplo, ficou bem mais fácil: em vez de sair abordando pessoas para coletar gravações, a empresa desenvolveu um aplicativo para gravação e envio das vozes pelo smartphone.

“Basta eu enviar o link, que a pessoa pode baixar no celular para fazer a gravação”, explica. “Coletamos as vozes de 400 pessoas. Cada uma gravou um áudio de 100 frases curtas e ganhou uma ajuda de custo de R$ 30. Esse investimento (R$ 12 mil no total) foi menor do que o que gastaríamos com o pagamento de profissionais e deslocamentos no trabalho presencial e ainda economizou tempo.”

Para o desenvolvimento dos recursos computacionais, a empresa conta com uma equipe multidisciplinar que, além de linguistas, inclui profissionais de Engenharia Elétrica e Ciências da Computação.

A SpeechTera é uma startup em estruturação: não tem uma sede própria – a equipe de seis pessoas trabalha em esquema de home office, nos municípios paulistas de Araras, Hortolândia, São Carlos e Araraquara – e o site da empresa ainda não está no ar. Totalmente focada no desenvolvimento dos produtos, a empresa ainda não tem receita, além do apoio da FAPESP. E mesmo antes de ter adotado qualquer estratégia de divulgação (está elaborando agora um projeto de marketing), a empresa já recebeu contatos de duas grandes empresas interessadas em adquirir recursos para o desenvolvimento de tecnologias de fala. Por isso, as expectativas são muito positivas: “Estamos cumprindo o cronograma e os objetivos propostos inicialmente para o projeto, graças à excelente equipe multidisciplinar que conseguimos construir ao longo dessa caminhada.” [2]

[1] Crédito da imagem: Dvortygirl, Mysid (CC BY-SA 3.0). https://pt.wikipedia.org/wiki/Voz_humana#/media/File:Human_voice_spectrogram.jpg.

[2] Esta notícia de inovação foi escrita por Suzel Tunes.

Como citar esta notícia de inovação: Pesquisa para Inovação. Recursos computacionais para tecnologias de fala. Texto de Suzel Tunes. Saense. http://www.saense.com.br/2018/08/recursos-computacionais-para-tecnologias-de-fala/. Publicado em 29 de agosto (2018).

Notícias da Pesquisa para Inovação Home