Mostra-me como andas e te direi quem és

Hendrik Macedo
13/03/2018

Vista animada de uma cidade. [1]
O último censo demográfico do Brasil ocorreu em 2010. O próximo deverá ocorrer em 2020. Isso, é claro, se houver recursos para sua realização. O IBGE estima ser necessário levantar algo em torno de R$ 3 bilhões para cumprir a tarefa. Esta informação foi passada pelo então presidente do instituto, Roberto Olinto, em outubro do ano passado [2]. Quem sabe, entretanto, a tecnologia possa dar uma mão, diminuindo os custos e aumentando a eficiência do processo?

Alguns métodos computacionais publicados nos últimos anos mostram formas interessantes de como uma máquina inteligente poderia ajudar no mapeamento de diferentes aspectos de uma população: previsão de taxa de desemprego a partir do Twitter [3], dados quantitativos sobre cultura da população a partir de livros digitalizados [4] e previsão de taxas de pobreza a partir de metadados de telefones celulares [5], para citar algumas.

Um trabalho recente e bastante original mostrou que a ajuda da máquina para esse tipo de tarefa pode chegar a níveis inacreditavelmente altos [6]. Os automóveis (em particular) são a expressão mais personalizada da cultura norte-americana e a escolha do automóvel é influenciada por fatores demográficos bem diferentes, tais como necessidades domésticas, preferências pessoais e recursos econômicos [7]. Diante deste fato, a hipótese levantada (e confirmada) pelos autores do trabalho foi de que o processamento inteligente das imagens de automóveis presentes nas imagens disponibilizadas pelo serviço Google Street View de cada vizinhança de uma cidade dos EUA poderia permitir que estatísticas demográficas, atributos socioeconômicos e preferências políticas da população fossem inferidas com boa acurácia. Eles estavam certos. Ou seja, deixe-nos analisar uma foto de seu carro e terei uma boa ideia de quem você é.

Um conjunto de 50 milhões de imagens do Google Street View referentes a localizações em 200 diferentes cidades norte americanas foram utilizadas no trabalho. Com o apoio de voluntários especialistas em automóveis recrutados a partir da Craiglist e via serviço de recrutamento Amazon Mechanical Turk, um grande dataset de veículos com respectivas classificações foi montado. A partir deste dataset, 22 milhões de veículos distintos foram detectados com uso de um algoritmo de reconhecimento chamado Deformable Part Model (DPM), que aprendeu a localizar automaticamente os veículos motorizados nas imagens das ruas. Após a etapa de localização de cada veículo na imagem, uma rede neuronal profunda do tipo convolucional (CNN) foi usada para determinar a fabricante, o modelo, o tipo da carroceria (sedan, hatch, etc.) e o ano de cada veículo. Ao todo, mais de 2 mil modelos de veículos foram classificados automaticamente; isso é praticamente toda a lista exaustiva de automóveis distintos vendidos nos EUA desde o ano de 1990. Exemplos dessa capacidade de classificação, realizada ao longo de 2 semanas pela máquina, incluem diferenciar corretamente um Honda Accord 2007 de um 2008 e um Ford F-150 Supercrew LL 2001 de um Ford F-150 Supercrew SVT 2011 (a título de comparação, um ser humano especialista que gastasse 10 segundos por imagem, completaria a mesma tarefa em 15 anos). A seguir, para cada região geográfica examinada, foi feita uma contagem do número de veículos de cada marca e modelo; características adicionais como o tipo de veículo, preço médio, consumo de combustível e densidade de veículos na região também foram consideradas. De posse dos dados sobre votação para eleição presidencial por região, um modelo de regressão logística foi treinado para estimar a raça e níveis educacionais enquanto um modelo de regressão linear foi treinado para estimar a renda e preferências de voto baseando-se na coleção de veículos observada nas imagens da região em análise. Este modelo simples foi suficiente para associar positiva ou negativamente a presença de determinados automóveis com aspectos demográficos específicos (ex: diferentes raças) ou alinhamento com partidos políticos por parte da população. Por exemplo, foi observado que se o número de carros sedan encontrados durante um passeio por uma cidade for maior que o número de pick-ups, a cidade votará em um candidato Democrata na eleição presidencial seguinte com 88% de certeza; caso contrário, existe 82% de chance de um Republicano ser o preferido.

Interessante perceber que diversos outros aspectos presentes nas imagens do Google Street View, como tipo arquitetônico das casas, espaçamento entre elas, extensão da presença de árvores, tipo de calçamento, entre outros, também poderiam ser integrados a esses modelos e enriquecer ainda mais a análise. Em contrapartida, vale ficar atento a até que ponto a exploração de dados publicamente disponíveis não choca com as expectativas de privacidade dos cidadãos. Essa deve ser uma preocupação ética importante nos desdobramentos futuros relacionados a pesquisas desse tipo e o consequente desenvolvimento de toda a sorte de produtos e serviços.

[1] Crédito da imagem: geralt (Pixabay) / CC0 Creative Commons. https://pixabay.com/pt/cidade-árvores-city-view-animado-107600/.

[2] N Pamplona. IBGE precisa de até R$ 3 bilhões para censo demográfico, diz presidente. Folha de São Paulo. http://www1.folha.uol.com.br/mercado/2017/10/1923574-ibge-precisa-de-ate-r-3-bilhoes-para-censo-demografico-diz-presidente.shtml. Publicado em 02 de outubro (2017).

[3] D Antenucci et al. Using Social Media to Measure Labor Market Flows. NBER 10.3386/w20010 (2014).

[4] JB Michel et al. Quantitative analysis of culture using millions of digitized books. Science 10.1126/science.1199644 (2011).

[5] J Blumenstock et al. Predicting poverty and wealth from mobile phone metadata. Science 10.1126/science.aac4420 (2015).

[6] T Gebru et al. Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States. PNAS 10.1073/pnas.1700035114 (2017).

[7] S Choo, PL Mokhtarian. What type of vehicle do people drive? The role of attitude and lifestyle in influencing vehicle type choice. Transport Res Pol Pract 38, 201 (2004).

Como citar este artigo: Hendrik Macedo. Mostra-me como andas e te direi quem és. Saense. http://www.saense.com.br/2018/03/mostre-me-como-andas-e-te-direi-quem-es/. Publicado em 13 de março (2018).

Artigos de Hendrik Macedo     Home

Publicado por

Hendrik Macedo

Hendrik Macedo

Doutor em Ciência da Computação. Professor da Universidade Federal de Sergipe. Escreve sobre Inteligência Artificial no Saense.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.