Browsing by Author "Salambiaku, Luzizila"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
- Imputação de Valores Omissos em Análise Descritiva de DadosPublication . Salambiaku, Luzizila; Sousa, Maria Paula Prata de; Silva, Maria Eugénia Neto Ferrão daAtualmente lidamos com um grande volume de dados e vários programas que permitem fazer análise destes dados. No entanto, os valores omissos representam um problema frequente no processo de análise destes conjuntos de dados que podem surgir por vários motivos. Por exemplo, podem ser resultados perdidos das análises duma amostra, ou alguns indivíduos não responderem a um determinado questionário. Visto que a maior parte dos programas e algoritmos utilizados para o tratamento de dados requere conjuntos de dados sem valores omissos, isto é, dados completos, a sua existência pode limitar a análise dos dados. Daí, surge a necessidade de recorrer a métodos de imputação de valores omissos. Nesta dissertação foram utilizados e comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação, nomeadamente dados da avaliação nacional do rendimento escolar (Prova Brasil). Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro subconjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método adotado neste trabalho calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que o método de imputação pela Moda forneceu quase de forma constante menores valores de erro.
- Imputação de Valores Omissos em Análise Descritiva de Dados, em RPublication . Salambiaku, Luzizila; Prata, Paula; Ferrão, Maria EugéniaOs valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.