Hendrik Macedo
07/10/2016
Paradoxal? Sim. Inverossímil? Não mais. Sistemas de tradução automática de texto tem tornado micro diálogos, como o que intitula esta coluna, plenamente verossímeis. Alguns exemplos recentes e bem famosos desses sistemas são o Skype (Microsoft), o Babylon (Babylon Software Ltd.) e o Google Translate (Google). Possivelmente, o leitor já deve ter feito uso de algum destes para ajudar na tarefa da escola ou faculdade, compreender um manual de instrução em uma língua estrangeira ou auxiliar em seu passeio turístico.
A tradução de texto escrito realizada automaticamente por uma máquina (do inglês, Machine Translation) é uma linha de pesquisa da Inteligência Artificial ativa desde meados do século XX. O primeiro marco mundial de que se tem conhecimento ocorreu em 1954 com a demonstração de um experimento realizado numa parceria entre a Universidade de Georgetown e a IBM (sim, a mesma do Deep Blue e do Watson). Na ocasião, mais de sessenta sentenças escritas na língua russa foram completamente traduzidas para o inglês. Mais de meio século de evolução depois, a diversidade de línguas disponíveis para tradução, o tamanho e a variabilidade das construções linguísticas possíveis e, sobretudo, a qualidade da tradução realizada cresceram assustadoramente.
Felizmente, cientificamente falando, ainda há espaço para evolução. Pesquisadores da Google fizeram questão de deixar isso bem claro ao publicar no final do mês passado (setembro, 2016) um artigo científico [2] onde relatam melhorias de ao menos 60% no processo de tradução automática atualmente já realizado pelo serviço Google Translate. Um dos métodos de experimentação do novo sistema consistiu na avaliação por especialistas humanos da qualidade da tradução de sentenças escritas em três diferentes línguas para o inglês e vice-versa, ou seja seis direções de tradução diferentes. Especificamente, 500 amostras aleatórias de sentenças extraídas da Wikipedia e de portais de notícias nas línguas Francês, Chinês, Espanhol e, naturalmente, Inglês, passaram pela tradução bi-direcional. A tradução Inglês—>Espanhol foi a detentora do recorde de 87% de melhoria. O desempenho do sistema é tão impressionante que o mesmo método de avaliação (por especialistas humanos) foi aplicado para a tradução realizada por humanos e para pelo menos duas dessas direções os resultados não mostraram diferenças significativas de qualidade.
Sistemas tradicionais de maior sucesso até então para tradução automática, incluindo o Google Translate, utilizam uma abordagem conhecida por Phrase-based Machine Translation (PBMT) [3]. Esta abordagem estatística utiliza pares de textos escritos nas duas línguas-alvo (corpora bilíngue) para treinar um modelo de tradução capaz de traduzir sequências completas de palavras de uma língua para outra considerando, inclusive, construções de tamanhos variados entre as línguas envolvidas. O novo método de tradução denominado pelos autores de Google’s Neural Machine Translation system (GNMT) consiste de uma rede profunda do tipo Long-Short Term Memory (LSTM). Uma rede LSTM é uma rede neuronal artificial que além das unidades neuronais tradicionais, contém unidades especiais denominadas “blocks”, capazes de guardar valores por períodos arbitrários de tempo. Isto é particularmente importante para classificar, processar ou prever séries temporais quando há intervalos muito grandes de tempo e de tamanho desconhecido entre eventos importantes. O papel da LSTM no GNMT é o de exatamente conseguir capturar a similaridade semântica entre duas palavras (em línguas diferentes) que podem estar potencialmente distantes no processo de tradução tradicional. Posto de forma simplificada, um dos passos fundamentais desse novo método é transformar cada uma das palavras em uma nova grandeza que representa o quanto a palavra está relacionada a cada uma das outras existentes na imensa base de texto utilizada para treinamento. Por exemplo, a palavra ‘casa’ está muito mais relacionada à ‘apartamento’ do que à ‘carro’.
Resultados expressivos como este obtidos recentemente nos levam a crer que em breve a tradução automática estará presente em gadgets de uso cotidiano, como smartphones, smart watches ou smart glasses. Imagine olhar para um aviso na parede escrito em uma língua e enxergá-lo na sua própria ou escrever um documento em sua língua e tê-lo pronto em alguma outra. Imagine, finalmente, não precisar mais perguntar se alguém fala “inglês” antes de iniciar a conversação. Uns diriam que isso pode ser o fim da motivação pelo aprendizado de novas línguas. Outros diriam que idealmente o mundo deveria possuir apenas uma e, portanto, este tipo de aprendizado sequer existiria. E você? Em que ponto da Torre de Babel está?
[1] Crédito da imagem: Pieter Brueghel the Elder (1526/1530–1569) [Public domain], via Wikimedia Commons. URL: https://en.wikipedia.org/wiki/File:Pieter_Bruegel_the_Elder_-_The_Tower_of_Babel_(Vienna)_-_Google_Art_Project_-_edited.jpg.
[2] Y Wu et al. Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144 [cs.CL]. URL: https://arxiv.org/abs/1609.08144. Submetido em 26 de setembro (2016).
[3] P Koehn et al. Statistical phrase-based translation. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics (2003).
Como citar este artigo: Hendrik Macedo. “Do you speak English? No. Yo hablo español.” Saense. URL: http://www.saense.com.br/2016/10/do-you-speak-english-no-yo-hablo-espanol/. Publicado em 07 de outubro (2016).