Repository logo
 
No Thumbnail Available
Publication

Scaleddown EfficientNet for Facial Expression Recognition

Use this identifier to reference this record.
Name:Description:Size:Format: 
10192_227588.55 MBUnknown Download

Abstract(s)

Automated Facial Expression Recognition (FER) has attracted significant interest over the last few years in the field of computer vision, with a wide range of applications ranging from human­machine interaction to security, education, and healthcare. Transfer learning techniques allow to use models trained for pattern recognition in a given domain/­ task and use their learned features to enhance their performance in a different task. This has become the fastest and most adopted way to train Convolutional Neural Networks (CNNs) for the task of FER. Although this is currently the most adopted and efficient way, it is worth considering whether a model trained from scratch for FER would yield better results. This dissertation explores the development of a specialized deep learning CNN for FER tasks without relying on transfer learning techniques. The Optuna framework was used to search for an optimal configuration of hyperparameters for a scaled­down EfficientNetV2S architecture trained from scratch, notably the depth and width coefficients affecting the number of layers and filters of the CNN. A baseline experiment was initially performed on the FER2013 dataset using the original EfficientNetV2S model architecture, with the input size adjusted to match the image size of the dataset. The results obtained in this experiment revealed performance levels comparable to human accuracy and near state­of­the­art performance. The subsequent scaled­down experiment considerably increased the efficiency of the CNN by reducing the number of parameters and training time while maintaining performance levels close to those of the baseline experiment. In both experiments, the obtained global accuracy was around 66% for the FER2013 test data. The scaled­down experiment was also performed with the AffectNet test data, achieving a global accuracy of 61.3%. It should be noted that these results refer to a 7­class problem on highly imbalanced datasets. For individual classes, the scaled­down experiment reached an accuracy of 85% (FER2013) and 86% (AffectNet) for test samples labeled as Happy, and 81% for Surprise test samples of AffectNet.
O Reconhecimento de Expressões Faciais (FER) automatizado atraiu interesse significativo ao longo dos últimos anos no campo de visão computacional, com uma ampla gama de aplicações de vão desde interação humano­máquina, até segurança, educação e saúde. As técnicas de transferência de aprendizagem permitem utilizar modelos treinados para reconhecer padrões num dado domínio/tarefa e utilizar os parâmetros aprendidos para melhorar o seu desempenho numa tarefa diferente. Esta tornou­se a forma mais rápida e amplamente adotada para treinar redes neuronais convolucionais(CNNs) para a tarefa de FER. Apesar desta ser atualmente a forma mais eficiente e adotada, vale a pena considerar a possibilidade se uma rede treinada do zero para FER obteria melhores resultados. Esta dissertação explora o desenvolvimento de uma CNN especializada para tarefas de FER sem depender de técnicas de transferência de aprendizagem. O sistema Optuna foi utilizado para procurar uma configuração ótima de hiperparâmetros para uma arquitectura EfficientNetV2S reduzida treinada do zero, notavelmente os coeficientes de profundidade e largura que afectam o número de camadas e de filtros da CNN. Uma experiência de referência foi inicialmente efectuada na base de dados FER2013, utilizando a arquitetura original do modelo EfficientNetV2S com o tamanho de entrada ajustado para corresponder ao tamanho das imagens da base de dados. Os resultados obtidos nesta experiência revelaram um nível de desempenho comparáveis à exatidão humana e próxima do desempenho estado­da­arte. A experiência reduzida subsequente melhorou consideravelmente a eficácia da CNN reduzindo o número de parâmetros e tempo de treino enquanto mantém um nível de desempenho semelhante à experiência de referência. Em ambas as experiências a exatidão global foi cerca de 66% para os dados de teste FER2013. A experiência reduzida também foi efectuada nos dados de test da AffectNet, alcançando a exatidão global de 61,3%. É de notar que estes resultados referem­se a um problema de 7 classes em bases dados desequilibradas. Para classes individuais, a experiência reduzida alcançou uma exatidão de 85%(FER2013) e 86%(AffectNet) para amostras de teste rotuladas como Feliz e 81% para amostras de teste rotuladas Surpresa no AffectNet.

Description

Keywords

Deep Learning Efficientnet Otimização de Hiper Parâmetros Reconhecimento de Expressões Faciais

Citation

Research Projects

Organizational Units

Journal Issue