Hendrik Macedo
05/04/2019

Ilustração de grupo de mulheres em marcha. [1]

Há um ano, escrevi sobre a capacidade de uma máquina inteligente em apontar o perfil demográfico, socioeconômico e, particularmente, as preferências políticas de uma comunidade apenas observando imagens dos automóveis que circulam pela região. O título do artigo na ocasião foi “Mostra-me como andas e te direi quem és.”. Este artigo de hoje descreve uma versão um pouco menos “motorizada”, nada “política” e, certamente, mais literal da série “Mostra-me como andas…”. 🙂

Em um artigo recente [2], pesquisadores da Universidade de Michigan (EUA) descrevem um novo algoritmo baseado em aprendizagem profunda capaz de prever a futura localização de um pedestre, além de sua pose e de sua marcha. O algoritmo se mostrou capaz de realizar essas previsões não apenas para um pedestre, mas para grupos deles localizados a até 45 metros da câmera de observação. O foco do trabalho são regiões urbanas de grande interseção de pessoas, como cruzamentos viários. Uma malha 3D de corpo inteiro para todas as pessoas de um grupamento qualquer observado pela câmera é montado e o sistema então deve prever a pose, marcha e localização dessa malha em quadros futuros de uma sequência de filmagem. A hipótese levantada pelos pesquisadores para sustentar a investigação é a de que a linguagem corporal de uma pessoa pode fornecer informações valiosas sobre o que ela está prestes a fazer: a pessoa está olhando para trás para se virar ou está simplesmente olhando rapidamente por sobre os ombros? Está sinalizando para alguém no carro ou no outro lado da via? Está com a cabeça inclinada para o chão como se estivesse à procura de algo ou como se fosse se agachar? Enfim…

O algoritmo utiliza uma rede neuronal LSTM de inspiração biomecânica que foi denominada de Bio-LSTM, treinada em duas GPUs NVIDIA TITAN X, com framework Keras e acelerada pela cuDNN. As saídas da rede são malhas 3D de corpo inteiro representadas nos parâmetros do modelo Skinned Multi-Person Linear (SMPL) [3] que, segundo os autores, é bem qualificado para o propósito do trabalho uma vez que (1) representa formas variadas do corpo humano com precisão e realismo, (2) a saída é uma malha 3D de corpo inteiro e não apenas as já tradicionais localizações de juntas 3D baseadas em esqueletos e, por fim, (3) consiste de um modelo estatístico paramétrico que pode facilmente representar a localização, pose e forma de uma pessoa por um vetor de parâmetros. A abordagem proposta é baseada em uma nova função-objetivo que incorpora a periodicidade da marcha humana, a simetria reflexiva do corpo humano e a mudança das forças de reação em um ciclo da marcha. Para inferência, a equipe também utilizou as mesmas GPUs e, mesmo ainda sem passar por otimizações de codificação, segundo os autores, a previsão leva apenas 1 ms para cada pessoa em cada quadro. Os resultados do trabalho superam o Estado-da-Arte para o conjunto de dados mais conhecido da área, o PedX [4], e mostram que a rede proposta pode aprender com sucesso as características da marcha de pedestres e produzir previsões precisas e consistentes da pose em 3D. O conjunto PedX foi montado em 2017 a partir de filmagens de cruzamentos urbanos reais no centro de Ann Arbor, Michigan, EUA, perfazendo um total de mais de 10000 (dez mil) poses de pedestres e mais de 1800 sequências de comprimento variável.

A pesquisa descrita neste artigo pode representar um passo importante para o aperfeiçoamento da tecnologia de condução autônoma: compreender com profundidade o comportamento do pedestre (ou grupos de pedestres) a ponto de rapidamente poder inferir e antecipar suas intenções pode salvaguardar vidas, além de evitar grandes prejuízos financeiros. No artigo “Se meu Fusca andasse… sozinho!” que escrevi há dois anos, discorro entre outras coisas sobre quatro importantes autoquestionamentos sequenciais que um “motorista artificial” precisa fazer constantemente: Onde estou? O que está próximo a mim? O que acontecerá depois? O que devo fazer então? Que nossos futuros automóveis inteligentes não esperem por respostas prontas e precisas da “rua”, que sejam muito hábeis em observar; e em bem observando, que sejam rápidos em decidir; e em bem decidindo, que sejam muito bem-vindos entre nós!

[1] Crédito da imagem: Clker-Free-Vector-Images, Pixabay License. https://pixabay.com/pt/vectors/andar-pessoas-pessoa-ao-ar-livre-312087/.

[2] Du et al. Bio-LSTM: A Biomechanically Inspired Recurrent Neural Network for 3D Pedestrian Pose and Gait Prediction. IEEE Robotics and Automation Letters (2019).

[3] M Loper et al. Smpl: A skinned multi-person linear model. ACM Trans. Graphics, vol 34, nº 6, p 248 (2015).

[4] W Kim et al. Pedx: Benchmark dataset for metric 3d pose estimation of pedestrians in complex urban intersections, arXiv preprint arXiv:1809.03605 (2018).

Como citar este artigo: Hendrik Macedo. Mostra-me como andas e te direi onde irás. Saense. https://saense.com.br/2019/04/mostra-me-como-andas-e-te-direi-onde-iras/. Publicado em 05 de abril (2019).

Artigos de Hendrik Macedo Home