Hendrik Macedo
12/09/2018
Você chega numa festa, com música ambiente e pessoas sorrindo efusivamente. Você rapidamente identifica uma roda de amigos e mesmo em meio àquele barulhão se dispõe a conversar (… e a beber, naturalmente). Para complicar um pouco as coisas, em dado momento, parte da roda fala sobre um assunto e outra parte sobre outro; sabe aquelas várias conversas diagonais? Pois é. Ainda assim, você compreende perfeitamente seu(s) interlocutor(es) e se faz ser bem compreendido. Incrível! Para um observador externo, alheio à coisa toda, aquilo parece um caos. A questão é que nosso sistema neuronal de alguma forma consegue aplicar uma espécie de “mudo seletivo”, ou seja, todas as fontes sonoras que não aquela em que estamos realmente interessados num dado momento parecem diminuir consideravelmente de volume. O método pelo qual conseguimos esse feito foi batizado, não por acaso, de cocktail party effect [2]. De fato, pesquisas recentes mostraram que atentar para o rosto do interlocutor aumenta nossa capacidade de resolver eventuais ambiguidades auditivas [3].
Se o sistema neuronal natural parece tirar isso de letra, já não podemos dizer o mesmo do artificial. Ou seja, pedir a uma máquina que identifique corretamente quem está falando o quê em uma mesa de discussão de um programa de TV, por exemplo, seria exigir demais da criatura. As assistentes virtuais como a Siri e seus amigos tampouco reconhecem um grupo de crianças pedindo simultaneamente que eles as contem uma piada. Essa tarefa de tentar criar um mecanismo computacional capaz de separar um sinal de áudio em suas fontes individuais já é bem estudada na literatura relacionada e possui nome: automatic speech separation (separação automática de fala). Soluções tradicionais para o problema, entretanto, requerem de antemão conhecimento específico da situação, microfones especiais e, ainda assim, não conseguem facilmente associar um sinal de áudio individualizado ao seu respectivo interlocutor num vídeo [4].
Em um trabalho recente [5], pesquisadores da Google, desenvolveram uma nova Inteligência Artificial que faz uso tanto do sinal sonoro quanto do visual (como movimentos da boca do interlocutor, por exemplo) para separar os sons proferidos pelas diferentes fontes (pessoas) presentes em um vídeo. A IA foi testada em videoclipes daquelas celebrações do tipo “coquetéis” onde existem rodas de bate papo entre amigos e variados níveis de ruídos de fundo. Ao assistir (e escutar) aos vídeos, a criatura conseguiu distinguir os áudios proferidos por cada interlocutor com muito mais acurácia do que versões sem acesso às imagens.
A arquitetura da solução desenvolvida considera, naturalmente, dois tipos de mídia como entrada: áudio e vídeo. A etapa visual da entrada consiste de miniaturas de todos os rostos detectados em cada quadro no vídeo, enquanto a etapa auditiva toma como entrada a trilha sonora do vídeo, contendo uma mistura de fala e ruído de fundo. Para cada miniatura de face detectada, um modelo pré-treinado de reconhecimento de face é utilizado para extrair representações (embeddings) de face por quadro para cada face detectada anteriormente. Em seguida, características da face são aprendidas utilizando-se uma rede neuronal tipo CNN (Convolutional Neural Network) dilatada. A etapa auditiva primeiramente calcula o STFT (Short-Time Fourier Transform) do sinal de entrada para obter um espectrograma e, em seguida, aprende uma representação (embedding) de áudio usando uma rede CNN similar à outra. Uma representação audiovisual conjunta é então criada pela concatenação dos aspectos visuais e de áudio aprendidos. A seguir, essa representação é processada por uma rede neuronal tipo BLSTM (Bidirectional Long Short-Term Memory) e por três camadas neuronais totalmente conectadas. A rede produz uma máscara de espectrograma complexa para cada interlocutor, que é multiplicada pela entrada ruidosa e convertida de volta para formas de onda de modo a obter um sinal de fala isolado para cada interlocutor no vídeo. Para treinamento do modelo, 290 mil vídeo-aulas, TED talks e vídeos de tutoriais disponíveis no YouTube foram utilizados. Através do uso de mapas de calor sobrepostos a rostos presentes nos quadros dos diversos vídeos, os autores do trabalho mostram que regiões da face contribuem mais ou menos para a correta identificação do interlocutor. A análise qualitativa mostra, como era de se esperar, que a região da boca é a que mais contribui, seguida da região do nariz e dos olhos.
O trabalho tem grande potencial de aplicação. Claramente, sistemas automáticos de transcrição de vídeo são os maiores beneficiários. Com a tecnologia tradicional (como, por exemplo, a utilizada pelo sistema de geração automática de legendas do YouTube [6]), não é possível realizar transcrição adequada do áudio de vídeos contendo múltiplas fontes sonoras. Outro exemplo é a remoção do ruído de fundo durante uma teleconferência, fazendo com que os participantes possam se fazer entender melhor. Mais que isso, em uma transmissão ao vivo de um debate ou mesa redonda de discussão, seria possível definir qual participante o usuário gostaria de priorizar o foco da transmissão, aplicando-se o “mudo seletivo” artificial ao restante. Quem sabe até esse tipo de Inteligência Artificial não possa diminuir o esforço da Siri e seus amigos em “enxergar” o que diabos seus donos estão pedindo!
[1] Crédito da imagem: geralt (Pixabay), CC0 Creative Commons.
https://pixabay.com/en/finger-feedback-confirming-3653375/.
[2] EC Cherry. Some experiments on the recognition of speech, with one and with two ears. The Journal of the acoustical society of America 25, 5 975–979 (1953).
[3] EZ Golumbic et al. Visual input enhances selective speech envelope tracking in auditory cortex at a “cocktail party”. The Journal of neuroscience: the official journal of the Society for Neuroscience 33 4, 1417–26 (2013).
[4] J R Hershey et al. Deep clustering: Discriminative embeddings for segmentation and separation. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 31–35. (2016).
[5] A Ephrat et al. Looking to listen at the cocktail party: A speaker-independent audio-visual model for speech separation. Proceedings of the International Conference and Exhibition on Computer Graphics and Interactive Techniques (SIGGRAPH 2018). Vancouver, Canada, August 15 (2018).
[6] YouTube. Automatic captioning. https://support.google.com/youtube/answer/6373554?hl=en.
Como citar este artigo: Hendrik Macedo. Enxergando as vozes da multidão…!. Saense. http://saense.com.br/2018/09/enxergando-as-vozes-da-multidao/. Publicado em 12 de setembro (2018).