Repository logo
 
Publication

Imputação de Valores Omissos em Análise Descritiva de Dados, em R

dc.contributor.authorSalambiaku, Luzizila
dc.contributor.authorPrata, Paula
dc.contributor.authorFerrão, Maria Eugénia
dc.date.accessioned2023-09-06T09:11:16Z
dc.date.available2023-09-06T09:11:16Z
dc.date.issued2023-03-03
dc.description.abstractOs valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.pt_PT
dc.description.abstractMissing values represent a frequent problem in the data analysis process. In this paper, six different imputation methods, available in software R, were used and compared. Their performance was evaluated in datasets related to the education area, namely data from the national evaluation of school performance (Prova Brasil). A sample of 20408 students was studied to test the six algorithms in four subsets of data with different percentages of missing values, considering 5%, 10%, 15% and 20% in the variables of interest. Single imputation methods (Mean, Median and Mode), methods based on machine learning (kNN and bPCA) and a multiple imputation method (MICE) were explored. The performance of each method adopted in this work was evaluated by calculating the respective imputation errors using the metrics RMSE and MAE. The results obtained show that the method of imputation by Mode provided almost constantly lower values of error.pt_PT
dc.description.versioninfo:eu-repo/semantics/publishedVersionpt_PT
dc.identifier.doi10.18227/2447-7028rct.v96974pt_PT
dc.identifier.issn2447-7028
dc.identifier.urihttp://hdl.handle.net/10400.6/13418
dc.language.isoporpt_PT
dc.publisherCentro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR)pt_PT
dc.relation.publisherversionhttps://doi.org/10.18227/2447-7028rct.v96974pt_PT
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/pt_PT
dc.subjectValores omissospt_PT
dc.subjectAnálise de dadospt_PT
dc.titleImputação de Valores Omissos em Análise Descritiva de Dados, em Rpt_PT
dc.typejournal article
dspace.entity.typePublication
oaire.citation.endPage11pt_PT
oaire.citation.startPage1pt_PT
oaire.citation.titleRCT - Revista de Ciência Tecnologiapt_PT
oaire.citation.volume9pt_PT
person.familyNameSalambiaku
person.familyNamePrata
person.familyNameFerrão
person.givenNameLuzizila
person.givenNamePaula
person.givenNameMaria Eugénia
person.identifier.ciencia-id651F-C1C8-44AD
person.identifier.orcid0000-0001-7678-5404
person.identifier.orcid0000-0002-3072-0186
person.identifier.orcid0000-0002-1317-0629
person.identifier.ridA-2665-2011
person.identifier.scopus-author-id6506143567
person.identifier.scopus-author-id24075949800
rcaap.rightsopenAccesspt_PT
rcaap.typearticlept_PT
relation.isAuthorOfPublication3ac6d5b0-a338-446f-a2a2-6bf2d5a26a26
relation.isAuthorOfPublication138a0dac-5e5d-466c-901d-4ed34f860403
relation.isAuthorOfPublicationf32b6cd9-ea61-4de5-898c-d4e0d40a057f
relation.isAuthorOfPublication.latestForDiscoveryf32b6cd9-ea61-4de5-898c-d4e0d40a057f

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
LuzizilaRCT-2023.pdf
Size:
863.08 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: