Name: | Description: | Size: | Format: | |
---|---|---|---|---|
8.55 MB | Unknown |
Advisor(s)
Abstract(s)
Automated Facial Expression Recognition (FER) has attracted significant interest over
the last few years in the field of computer vision, with a wide range of applications ranging
from humanmachine interaction to security, education, and healthcare. Transfer learning techniques allow to use models trained for pattern recognition in a given domain/
task and use their learned features to enhance their performance in a different task. This
has become the fastest and most adopted way to train Convolutional Neural Networks
(CNNs) for the task of FER. Although this is currently the most adopted and efficient way,
it is worth considering whether a model trained from scratch for FER would yield better
results.
This dissertation explores the development of a specialized deep learning CNN for FER
tasks without relying on transfer learning techniques. The Optuna framework was used
to search for an optimal configuration of hyperparameters for a scaleddown EfficientNetV2S architecture trained from scratch, notably the depth and width coefficients affecting the number of layers and filters of the CNN.
A baseline experiment was initially performed on the FER2013 dataset using the original EfficientNetV2S model architecture, with the input size adjusted to match the image
size of the dataset. The results obtained in this experiment revealed performance levels
comparable to human accuracy and near stateoftheart performance. The subsequent
scaleddown experiment considerably increased the efficiency of the CNN by reducing
the number of parameters and training time while maintaining performance levels close
to those of the baseline experiment. In both experiments, the obtained global accuracy
was around 66% for the FER2013 test data. The scaleddown experiment was also performed with the AffectNet test data, achieving a global accuracy of 61.3%. It should be
noted that these results refer to a 7class problem on highly imbalanced datasets. For individual classes, the scaleddown experiment reached an accuracy of 85% (FER2013) and
86% (AffectNet) for test samples labeled as Happy, and 81% for Surprise test samples of
AffectNet.
O Reconhecimento de Expressões Faciais (FER) automatizado atraiu interesse significativo ao longo dos últimos anos no campo de visão computacional, com uma ampla gama de aplicações de vão desde interação humanomáquina, até segurança, educação e saúde. As técnicas de transferência de aprendizagem permitem utilizar modelos treinados para reconhecer padrões num dado domínio/tarefa e utilizar os parâmetros aprendidos para melhorar o seu desempenho numa tarefa diferente. Esta tornouse a forma mais rápida e amplamente adotada para treinar redes neuronais convolucionais(CNNs) para a tarefa de FER. Apesar desta ser atualmente a forma mais eficiente e adotada, vale a pena considerar a possibilidade se uma rede treinada do zero para FER obteria melhores resultados. Esta dissertação explora o desenvolvimento de uma CNN especializada para tarefas de FER sem depender de técnicas de transferência de aprendizagem. O sistema Optuna foi utilizado para procurar uma configuração ótima de hiperparâmetros para uma arquitectura EfficientNetV2S reduzida treinada do zero, notavelmente os coeficientes de profundidade e largura que afectam o número de camadas e de filtros da CNN. Uma experiência de referência foi inicialmente efectuada na base de dados FER2013, utilizando a arquitetura original do modelo EfficientNetV2S com o tamanho de entrada ajustado para corresponder ao tamanho das imagens da base de dados. Os resultados obtidos nesta experiência revelaram um nível de desempenho comparáveis à exatidão humana e próxima do desempenho estadodaarte. A experiência reduzida subsequente melhorou consideravelmente a eficácia da CNN reduzindo o número de parâmetros e tempo de treino enquanto mantém um nível de desempenho semelhante à experiência de referência. Em ambas as experiências a exatidão global foi cerca de 66% para os dados de teste FER2013. A experiência reduzida também foi efectuada nos dados de test da AffectNet, alcançando a exatidão global de 61,3%. É de notar que estes resultados referemse a um problema de 7 classes em bases dados desequilibradas. Para classes individuais, a experiência reduzida alcançou uma exatidão de 85%(FER2013) e 86%(AffectNet) para amostras de teste rotuladas como Feliz e 81% para amostras de teste rotuladas Surpresa no AffectNet.
O Reconhecimento de Expressões Faciais (FER) automatizado atraiu interesse significativo ao longo dos últimos anos no campo de visão computacional, com uma ampla gama de aplicações de vão desde interação humanomáquina, até segurança, educação e saúde. As técnicas de transferência de aprendizagem permitem utilizar modelos treinados para reconhecer padrões num dado domínio/tarefa e utilizar os parâmetros aprendidos para melhorar o seu desempenho numa tarefa diferente. Esta tornouse a forma mais rápida e amplamente adotada para treinar redes neuronais convolucionais(CNNs) para a tarefa de FER. Apesar desta ser atualmente a forma mais eficiente e adotada, vale a pena considerar a possibilidade se uma rede treinada do zero para FER obteria melhores resultados. Esta dissertação explora o desenvolvimento de uma CNN especializada para tarefas de FER sem depender de técnicas de transferência de aprendizagem. O sistema Optuna foi utilizado para procurar uma configuração ótima de hiperparâmetros para uma arquitectura EfficientNetV2S reduzida treinada do zero, notavelmente os coeficientes de profundidade e largura que afectam o número de camadas e de filtros da CNN. Uma experiência de referência foi inicialmente efectuada na base de dados FER2013, utilizando a arquitetura original do modelo EfficientNetV2S com o tamanho de entrada ajustado para corresponder ao tamanho das imagens da base de dados. Os resultados obtidos nesta experiência revelaram um nível de desempenho comparáveis à exatidão humana e próxima do desempenho estadodaarte. A experiência reduzida subsequente melhorou consideravelmente a eficácia da CNN reduzindo o número de parâmetros e tempo de treino enquanto mantém um nível de desempenho semelhante à experiência de referência. Em ambas as experiências a exatidão global foi cerca de 66% para os dados de teste FER2013. A experiência reduzida também foi efectuada nos dados de test da AffectNet, alcançando a exatidão global de 61,3%. É de notar que estes resultados referemse a um problema de 7 classes em bases dados desequilibradas. Para classes individuais, a experiência reduzida alcançou uma exatidão de 85%(FER2013) e 86%(AffectNet) para amostras de teste rotuladas como Feliz e 81% para amostras de teste rotuladas Surpresa no AffectNet.
Description
Keywords
Deep Learning Efficientnet Otimização de Hiper Parâmetros Reconhecimento de Expressões Faciais