Repository logo
 
Loading...
Thumbnail Image
Publication

How Can Deep Learning Aid Human Behavior Analysis?

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese_PhD_Tiago_Roxo_signed.pdf91.8 MBAdobe PDF Download

Abstract(s)

With the increase of available surveillance data and robustness of state-of-the-art deep learning models, various recent research topics focus on human biometric assessment, tracking and person re-identification. However, one other area of work not extensively explored that can combine surveillance and visual-based models is assessing human behavior. The lack of work in this topic is not surprising given the inherent difficulties on categorizing human behavior in such conditions, in particular without subject cooperation. Based on the psychology literature, human behavior analysis typically requires controlled experimental environments, with subject cooperation and assessing features via grid-based survey. As such, it is not clear on how deep learning models can aid psychology experts in human behavior analysis, which is where this thesis intents to contribute to the body of knowledge. We extensively review psychology literature to define a set of features that have been proven as influential towards human behavior and that can be assessed via camera in surveillance-like conditions. This way, we define human behavior via subject profiling using seven behavioral features: interaction, relative position, clothing, soft biometrics, subject proximity, pose, and use of handheld devices. Note that this analysis does not categorize human behavior into specific states (e.g. aggressive, depressive) but rather creates a set of features that can be used to profile subjects, usable to aid/complement behavioral experts and to compare behavioral traits between subjects in a scene. Furthermore, to motivate the development of works in these areas, we review state-of-the-art approaches and datasets to highlight the limitation of certain areas and discuss the topics worth exploring for future works. After defining a set of behavioral features, we start by exploring the limitation of current biometric models in surveillance conditions, in particular the resilience of gender inference approaches. We demonstrate that these models underperform in surveillance-like data, using PAR datasets, highlighting the limitations of training in cooperative settings to perform in wilder conditions. Supported by the findings of our initial experiments, complementing face and body information arouse as a viable strategy to increase model robustness in these conditions, which lead us to design and propose a new model for wild gender inference based on this premise. This way, we extend the knowledge of an extensive discussed literature topic (gender classification) by exploring its application in settings where current models do not typically perform (surveillance). We also explore the topic of human interaction, namely Active Speaker Detection, in particular towards more uncooperative scenarios such as surveillance conditions. Contrary to the gender/biometrics topic, this is a lesser explored area where works are mainly based on assessing active speakers via face and audio information in cooperative conditions and with good audio and image quality (movie settings). As such, to clearly demonstrate the limitations of state-of-the-art ASD models we start by creating a wilder ASD dataset (WASD), composed of different categories with increasing challenges towards ASD, namely with audio and image quality degradation, and containing uncooperative subjects. This dataset highlighted the limitations of current models to deal with unconstrained scenarios (e.g. surveillance conditions), while also displaying the importance of body information in conditions where audio quality is subpar and face access is not guaranteed. Following this premise, we design the first model that complements audio, face, and body information to achieve state-of-the-art performance in challenging conditions, in particular surveillance settings. Furthermore, this model also proposed a novel way to combine data via SE blocks, which allowed to provide reasoning behind model’s decision by visual interpretability. The use of SE blocks was also extended to other models and ASD-related areas to highlight the viability of this approach for model-agnostic interpretability. Although this initial model was superior to the state-of-the-art in challenging data, its performance in cooperative settings was not as robust. As such, we develop a new model that simultaneously combines face and body information in visual data extraction which, in conjunction with pretraining in challenging data, leads to state-of-the-art performance in both cooperation and challenging conditions (such as surveillance settings). These works pave a new way to assess human interaction in more challenging data and with model interpretability, serving as baselines for future works.
Recentemente, têm surgido vários tópicos de investigação motivados pelo aumento de dados de videovigilância e pela robustez de modelos de aprendizagem profunda, nomeadamente a nível de biometria humana, rastreio e reidentificação. Uma outra área que conjuga videovigilância com modelos de aprendizagem profunda à base de imagem, não explorada com a mesma extensão que as referidas, é a avaliação de comportamento humano. O menor volume de trabalho neste tópico no contexto de Ciência de Computadores e Informática não é surpreendente dadas as dificuldades inerentes na categorização de comportamento humano nas condições referidas, em particular com a ausência de cooperação humana. Tendo como referência a área de Psicologia, a análise de comportamento humano requer ambientes de experiência controlados, com cooperação dos participantes, onde a avaliação de características comportamentais é feita à base de um questionário em grelha. Nesse sentido, não há uma forma evidente de como os modelos de aprendizagem profunda podem auxiliar especialistas no comportamento humano, sendo por isso este tema um dos contributos desta tese para a comunidade científica. Nesta tese exploramos a literatura em Psicologia para definir um conjunto de características com influência comprovada no comportamento humano e que sejam passíveis de serem avaliadas a partir de uma câmara de videovigilância. Deste modo, definimos o comportamento humano via perfilagem de pessoas usando sete características comportamentais: interação, posição relativa (à câmara), vestuário, biometria, proximidade a outras pessoas, postura e uso de objectos portáteis. Note que este tipo de análise não categoriza o comportamento humano para estados específicos (como agressivo ou depressivo, e.g.), mas permite criar um conjunto de características que podem ser usadas para perfilar pessoas, sendo assim aplicáveis para auxíliar/complementar o trabalho de especialistas em comportamento e/ou comparar traços comportamentais entre pessoas num mesmo contexto. Adicionalmente, para motivar o desenvolvimento de trabalhos nas áreas das características comportamentais referidas, revemos as abordagens estado-da-arte e os conjuntos de dados usados para realçar as limitações existentes e discutir os tópicos com maior potencial para desenvolvimento de trabalhos futuros. Após a definição das características comportamentais, começamos por explorar a limitação de modelos de biometria atuais em condições de videovigilância, em particular a resiliência de métodos para classificação de género. Demonstrámos o desempenho reduzido destas abordagens em dados de videovigilância usando os conjuntos de dados Pedestrian Attribute Recognition (PAR) e realçámos as limitações de treinar modelos em contextos cooperativos para posteriormente os aplicar em cenários mais desafiantes. Suportado pelos resultados destas experiências, propomos um modelo mais robusto para classificação de género em contextos mais desafiantes, assente na premissa de complementar cara com informação corporal. Assim, estendemos o conhecimento da comunidade científica de um tema amplamente estudado (biometria, em particular classificação de género) ao analisar a aplicabilidade de modelos atuais em cenários onde estes, geralmente, não atuam (videovigilância). Nesta tese também explorámos outro tema relacionado com as caraterísticas comportamentais: interação humana, nomeadamente a deteção da pessoa que fala (Active Speaker Detection (ASD)), em particular num contexto similar a videovigilância. Contrariamente ao tema de biometria/género, este é menos explorado na comunidade e os trabalhos desenvolvidos assentam principalmente na avaliação de pessoas a falar em cenários cooperativos e com boa qualidade de som e imagem (filmes). Deste modo, para demonstrar as limitações das abordagens atuais, começámos por criar um conjunto de dados de ASD (Wilder Active Speaker Detection (WASD)), composto por diferentes categorias com desafios incrementais para deteção de pessoas a falar, nomeadamente com degradação de qualidade de som e imagem e em contextos de não cooperação de participantes. Este conjunto de dados demonstrou a incapacidade dos modelos ASD atuais para atuar em cenários livres (similares a videovigilância), e evidenciou a importância de informação corporal em condições onde a qualidade de audio é reduzida e o acesso a dados faciais não é garantido. Seguindo esta premissa, desenhámos o primeiro modelo que complementa informação de áudio, cara e corpo para atingir resultados estado-da-arte em cenários mais desafiantes, em particular em condições de videovigilância, contendo adicionalmente uma nova forma de utilizar blocos Squeeze-and-Excitation (SE), com o intuito de apresentar as razões para a decisão do modelo via representação visual. Esta permissa de utilização de blocos de SE foi também extendida para outros modelos e áreas relacionadas a ASD com o intuito de comprovar a sua viabilidade como aplicação geral de interpretabilidade independente do modelo. Embora o primeiro modelo proposto de ASD fosse superior ao estado-da-arte em cenários desafiantes, a sua performance não era igualmente robusta em contextos mais cooperativos. Nesse sentido, desenvolvemos um modelo melhorado que combina cara e corpo em simultâneo aquando da extração de informação visual que, em conjunto com pretreino em dados desafiantes, tem desempenhos estado-da-arte em cenários cooperativos e desafiantes (como videovigilância). Dada a sua inovação, estes trabalhos servem como base para a avaliação de interação humana em dados mais desafiantes e interpretabilidade de modelos.

Description

Keywords

Análise de Comportamento Humano Sistema de Vigilância Automático Biometria Não Cooperativa Videovigilância Classificação de Género em Condições Adversas Conjunto de Dados para Deteção de Orador Deteção de Orador com Informação Corporal Interpretabilidade Visual Human Behavior Analysis Automated Surveillance Systems

Citation

Organizational Units

Journal Issue