Hendrik Macedo
06/11/2015
Usuários de redes sociais virtuais, tais como Facebook e Instagram, ou de sítios Web de hospedagem e compartilhamento de imagens, tais como o Flickr, certamente já se depararam na situação de atribuir descrição para uma determinada foto ou imagem ou simplesmente aplicar rótulos que a representem adequadamente ao tempo que permitem devida indexação. E se esta atividade recorrente pudesse ser realizada automaticamente pela própria máquina? Ou seja, e se a máquina pudesse observar cuidadosamente a foto ou imagem e elaborar ela própria uma descrição coerente?
Recentemente, a equipe de Acessibilidade do Facebook divulgou avanços de uma ferramenta de Inteligência Artificial, ainda sob desenvolvimento, capaz de descrever com algum nível de detalhamento uma determinada imagem: “The scene is outdoors. It includes grass and trees and clouds. It’s near some water.” é o resultado da descrição automaticamente gerada pelo software inteligente para uma foto de uma pessoa em uma bicicleta durante um passeio no campo em algum lugar da Europa. Graças a sistemas como o Apple Voiceover, um dos mais conhecidos sistemas de transcrição de dados textuais para fala (text-to-speech), milhares de usuários de redes sociais que possuem deficiência visual severa já eram capazes de ouvir os posts escritos dos demais, mas nunca de apreciar as imagens compartilhadas.
A técnica por trás da ferramenta não é exclusividade do Facebook. Outras gigantes da tecnologia como Google, Apple, Microsoft, IBM, Yahoo!, Twitter e Adobe já possuem equipes dedicadas para pesquisa em Visão Computacional que utilizam a então denominada Aprendizagem Profunda (Deep Learning) [2]. A técnica utiliza uma gigantesca rede de neurônios artificiais que chega a se aproximar da quantidade de neurônios existentes no cérebro humano. A aprendizagem propriamente dita é guiada de modo supervisionado, ou seja, alguém apresenta para a máquina um conjunto grande de imagens similares de um determinado objeto e sinapses artificiais – representadas em forma de pesos numéricos entre conexões adjacentes de neurônios pertencentes a diferentes camadas – são estabelecidas na rede. A primeira camada da rede neuronal “enxerga” cada imagem fornecida como um vetor de valores de pixels e, a partir de então, cada uma das camadas de mais alto nível subsequente amplifica aspectos bem discriminatórios da entrada fornecida e suprime variações que se mostram irrelevantes. Após longo tempo de treinamento, a máquina é capaz de generalizar um modelo de classificação (usualmente, trata-se da generalização de uma função não-linear complexa) para novas imagens que vierem a ser apresentadas. Para identificar automaticamente seu rosto, por exemplo, variadas fotografias suas são fornecidas para o sistema em treinamento e, com o passar do tempo, o sistema desenvolve uma boa idéia do que bem caracteriza sua face.
A Aprendizagem Profunda representa o Estado-da-Arte da pesquisa em Aprendizagem de Máquina na Inteligência Artificial e se mostrou competente em diversos outros domínios de aplicação, tais como: previsão da atividade de moléculas de drogas medicamentosas [3], análise de dados de acelerador de partículas [4], reconstrução de circuitos cerebrais [5], previsão dos efeitos de mutações no DNA não-codificante na expressão genética de doenças [6, 7], além de tradução automática de texto para diferentes línguas [8] e reconhecimento automático de fala [9]. [10]
[1] Crédito: geralt (Pixabay) / Creative Commons CC0. URL: https://pixabay.com/en/robot-artificial-intelligence-woman-507811/.
[2] Y LeCun et al. Deep learning. Nature 521, 436 (2015).
[3] J Ma et al. Deep neural nets as a method for quantitative structure-activity relationships. J Chem Inf Model 55, 263 (2015).
[4] T Ciodaro et al. Online particle detection with neural networks based on topological calorimetry information. J Phys Conf Series 368, 012030 (2012).
[5] M Helmstaedter et al. Connectomic reconstruction of the inner plexiform layer in the mouse retina. Nature 500, 168 (2013).
[6] MKK Leung et al. Deep learning of the tissue-regulated splicing code. Bioinformatics 30, i121 (2014).
[7] HY Xiong et al. The human splicing code reveals new insights into the genetic determinants of disease. Science 347, 1254806 (2015).
[8] S Jean et al. On using very large target vocabulary for neural machine translation. In Proc. ACL-IJCNLP. http://arxiv.org/ abs/1412.2007 (2015).
[9] G Hinton et al. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine 29, 82 (2012).
[10] Post relacionado: Máquinas que compreendem a linguagem humana.
Como citar este artigo: Hendrik Macedo. Máquinas que descrevem imagens. Saense. URL: http://www.saense.com.br/2015/11/maquinas-que-descrevem-imagens/. Publicado em 06 de novembro (2015).