Deep Learning-Based Software Defect Prediction via Semantic Key Features of Source Code, Handling Imbalanced Datasets

Andrade, Hiro Gaspar Inglês de

Publicação

Deep Learning-Based Software Defect Prediction via Semantic Key Features of Source Code, Handling Imbalanced Datasets

2025-02-19Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
dc.contributor.advisor	Pombo, Nuno Gonçalo Coelho Costa
dc.contributor.advisor	Pais, Sebastião Augusto Rodrigues Figueiredo
dc.contributor.author	Andrade, Hiro Gaspar Inglês de
dc.date.accessioned	2025-11-10T11:50:53Z
dc.date.available	2025-11-10T11:50:53Z
dc.date.issued	2025-02-19
dc.description.abstract	This work is part of the master’s thesis in Computer Engineering at the University of Beira Interior. It addresses themes related to software defect prediction, known as SDP, with the main objective of developing a predictive model using contextual features generated through deep learning models. To achieve the defined goals, five fundamental steps were followed: data preprocessing, mapping and embedding of tokens, extraction of contextual information, handling of datasets with class imbalance, and building the machine learning model for defect prediction. The dataset used was PROMISE, which encompasses software projects developed in Java, with multiple versions for each one. The experiments were conducted individually for each version, using static and contextual features generated through LSTM networks. The models were evaluated based on AUC, Accuracy, MCC, Recall, and Precision metrics. In general, it was observed that the use of contextual features resulted in significantly better performance. Among the models tested, Logistic Regression proved to be the most effective, demonstrating the best predictive capability. However, when combining different versions of the projects, a drop in performance was recorded, with the MCC showing low values, especially in the case of Naive Bayes, which in some scenarios even presented negative values. This phenomenon can be explained by factors such as concept drift (the change in data behavior over time) and overfitting (when the model fits excessively to the training data, compromising its ability to generalize), issues that have not been deeply addressed but are considered for future work.	eng
dc.description.abstract	Este trabalho insere-se na dissertação de mestrado em Engenharia Informática na Universidade da Beira Interior. Nele são abordados temas relacionados com a previsão de defeitos de software, conhecida como Software Defect Prediction (SDP), tendo como principal objetivo o desenvolvimento de um modelo preditivo utilizando características contextuais geradas por meio de modelos de deep learning. Para atingir os objetivos definidos, seguiram-se cinco etapas fundamentais: pré-processamento de dados, mapeamento e embedding de tokens, extração de informações contextuais, tratamento de conjuntos de dados com desequilíbrio de classes e construção do modelo de machine learning para previsão de defeitos. O conjunto de dados utilizado foi o PROMISE, que abrange projetos de software desenvolvidos em Java, com várias versões para cada um. Os experimentos foram realizados para cada versão individualmente, utilizando tanto características estáticas como contextuais, geradas por meio de redes Long Short-Term Memory (LSTM). Os modelos foram avaliados com base em métricas como Area under the ROC Curve (AUC), Accuracy, Matthews correlation coefficient (MCC), Recall e Precision. De modo geral, observou-se que a utilização de características contextuais resultou num desempenho significativamente superior. Entre os modelos testados, o Logistic Regression revelou-se o mais eficaz, apresentando a melhor capacidade preditiva. No entanto, ao combinar diferentes versões dos projetos, registou-se uma queda no desempenho, com o MCC a apresentar valores baixos, especialmente no caso do Naive Bayes, que em alguns cenários chegou a apresentar valores negativos. Este fenómeno pode ser explicado por fatores como concept drift (mudança no comportamento dos dados ao longo do tempo) e overfitting (quando o modelo se ajusta excessivamente aos dados de treino, comprometendo a sua capacidade de generalização), questões que não foram profundamente abordadas, mas são consideradas para trabalho futuro.	por
dc.identifier.tid	204027071
dc.identifier.uri	http://hdl.handle.net/10400.6/19164
dc.language.iso	eng
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subject	Previsão de Defeitos de Software
dc.subject	Aprendizagem de Máquina
dc.subject	Aprendizagem Profunda
dc.subject	Característica Semânticas e Contextuais
dc.subject	Pré-processamento de Dados
dc.subject	Desequilíbrio de Classe
dc.subject	Software Defect Prediction
dc.subject	Machine Learning
dc.subject	Deep Learning
dc.title	Deep Learning-Based Software Defect Prediction via Semantic Key Features of Source Code, Handling Imbalanced Datasets	por
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.name	2º Ciclo em Engenharia Informática

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: 10836_28487.pdf
Tamanho:: 927.15 KB
Formato:: Adobe Portable Document Format
Descrição:: Documento em Acesso Embargado até dia 12-05-2028. Tente solicitar cópia ao autor carregando no ficheiro

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 4.03 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

FE - DI | Dissertações de Mestrado e Teses de Doutoramento