Scaleddown EfficientNet for Facial Expression Recognition

Fontes, Luis Miguel Aires Marques da Silva

http://hdl.handle.net/10400.6/14202

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
10192_22758		8.55 MB	Unknown	Download

Send Feedback

Authors

Fontes, Luis Miguel Aires Marques da Silva

Advisor(s)

Pinheiro, António Manuel Gonçalves

Abstract(s)

Automated Facial Expression Recognition (FER) has attracted significant interest over the last few years in the field of computer vision, with a wide range of applications ranging from humanmachine interaction to security, education, and healthcare. Transfer learning techniques allow to use models trained for pattern recognition in a given domain/ task and use their learned features to enhance their performance in a different task. This has become the fastest and most adopted way to train Convolutional Neural Networks (CNNs) for the task of FER. Although this is currently the most adopted and efficient way, it is worth considering whether a model trained from scratch for FER would yield better results. This dissertation explores the development of a specialized deep learning CNN for FER tasks without relying on transfer learning techniques. The Optuna framework was used to search for an optimal configuration of hyperparameters for a scaleddown EfficientNetV2S architecture trained from scratch, notably the depth and width coefficients affecting the number of layers and filters of the CNN. A baseline experiment was initially performed on the FER2013 dataset using the original EfficientNetV2S model architecture, with the input size adjusted to match the image size of the dataset. The results obtained in this experiment revealed performance levels comparable to human accuracy and near stateoftheart performance. The subsequent scaleddown experiment considerably increased the efficiency of the CNN by reducing the number of parameters and training time while maintaining performance levels close to those of the baseline experiment. In both experiments, the obtained global accuracy was around 66% for the FER2013 test data. The scaleddown experiment was also performed with the AffectNet test data, achieving a global accuracy of 61.3%. It should be noted that these results refer to a 7class problem on highly imbalanced datasets. For individual classes, the scaleddown experiment reached an accuracy of 85% (FER2013) and 86% (AffectNet) for test samples labeled as Happy, and 81% for Surprise test samples of AffectNet.

O Reconhecimento de Expressões Faciais (FER) automatizado atraiu interesse significativo ao longo dos últimos anos no campo de visão computacional, com uma ampla gama de aplicações de vão desde interação humanomáquina, até segurança, educação e saúde. As técnicas de transferência de aprendizagem permitem utilizar modelos treinados para reconhecer padrões num dado domínio/tarefa e utilizar os parâmetros aprendidos para melhorar o seu desempenho numa tarefa diferente. Esta tornouse a forma mais rápida e amplamente adotada para treinar redes neuronais convolucionais(CNNs) para a tarefa de FER. Apesar desta ser atualmente a forma mais eficiente e adotada, vale a pena considerar a possibilidade se uma rede treinada do zero para FER obteria melhores resultados. Esta dissertação explora o desenvolvimento de uma CNN especializada para tarefas de FER sem depender de técnicas de transferência de aprendizagem. O sistema Optuna foi utilizado para procurar uma configuração ótima de hiperparâmetros para uma arquitectura EfficientNetV2S reduzida treinada do zero, notavelmente os coeficientes de profundidade e largura que afectam o número de camadas e de filtros da CNN. Uma experiência de referência foi inicialmente efectuada na base de dados FER2013, utilizando a arquitetura original do modelo EfficientNetV2S com o tamanho de entrada ajustado para corresponder ao tamanho das imagens da base de dados. Os resultados obtidos nesta experiência revelaram um nível de desempenho comparáveis à exatidão humana e próxima do desempenho estadodaarte. A experiência reduzida subsequente melhorou consideravelmente a eficácia da CNN reduzindo o número de parâmetros e tempo de treino enquanto mantém um nível de desempenho semelhante à experiência de referência. Em ambas as experiências a exatidão global foi cerca de 66% para os dados de teste FER2013. A experiência reduzida também foi efectuada nos dados de test da AffectNet, alcançando a exatidão global de 61,3%. É de notar que estes resultados referemse a um problema de 7 classes em bases dados desequilibradas. Para classes individuais, a experiência reduzida alcançou uma exatidão de 85%(FER2013) e 86%(AffectNet) para amostras de teste rotuladas como Feliz e 81% para amostras de teste rotuladas Surpresa no AffectNet.