Repository logo
 
Loading...
Project Logo
Research Project

Research in Economics and Mathematics

Authors

Publications

Garantia de Privacidade Versus Utilidade dos Dados em Anonimização: um estudo no ensino superior
Publication . Prata, Paula; Ferrão, Maria Eugénia; Santos, Wilson; Sousa, Gonçalo
No mundo digital, toda a atividade humana deixa um rasto de dados que constitui um recurso cada vez mais valioso, para avaliação e definição de estratégias nos mais variados domínios. A partilha desses dados, sendo socialmente importante, implica o respeito pela privacidade individual e portanto a sua anonimização. As atuais leis e regulamentos sobre privacidade oferecem orientações limitadas para lidar com um vasto leque de tipos de dados, ou com técnicas de reidentificação. Este trabalho pretende ilustrar um processo de anonimização, comparando para vários modelos de privacidade a perda de informação e a utilidade do conjunto de dados resultante. Encontrar o equilíbrio entre privacidade e utilidade é um desafio que pode ser mais facilmente alcançado por quem melhor conhece o significado dos dados e dos objetivos que se pretendem alcançar com eles.
Anonymized Data Assessment via Analysis of Variance: An Application to Higher Education Evaluation
Publication . Ferrão, Maria Eugénia; Prata, Paula; Fazendeiro, Paulo
The assessment of the utility of an anonymized data set can be operational-ized by the determination of the amount of information loss. To investigate the possible degradation of the relationship between variables after anony-mization, hence measuring the loss, we perform an a posteriori analysis of variance. Several anonymized scenarios are compared with the original data. Differential privacy is applied as data anonymization process. We assess data utility based on the agreement between the original data structure and the anonymized structures. Data quality and utility are quantified by standard metrics, characteristics of the groups obtained. In addition, we use analysis of variance to show how estimates change. For illustration, we apply this ap-proach to Brazilian Higher Education data with focus on the main effects of interaction terms involving gender differentiation. The findings indicate that blindly using anonymized data for scientific purposes could potentially un-dermine the validity of the conclusions.
Anonimização de Dados em Educação
Publication . Santos, Wilson Gama dos; Sousa, Maria Paula Prata de; Silva, Maria Eugénia Neto Ferrão da
Interest in data privacy is not only growing, but the quantity of data collected is also increasing. This data, which is collected and stored electronically, contains information related with all aspects of our lives, frequently containing sensitive information, such as financial records, activity in social networks, location traces collected by our mobile phones and even medical records. Consequently, it becomes paramount to assure the best protection for this data, so that no harm is done to individuals even if the data is to become publicly available. To achieve it, it is necessary to avoid the linkage between records in a dataset and a real world individual. Despite some attributes, such as gender and age, though alone they can not identify a corresponding individual, their combination with other datasets can lead to the existence of unique records in the dataset and a consequent linkage to a real world individual. Therefore, with data anonymization, it is possible to assure, with various degrees of protection, that said linkage is avoided the best we can. However, this process can have a decline in data utility as consequence. In this work, we explore the terminology and some of the techniques that can be used during the process of data anonymization. Moreover, we show the effects of said techniques on information loss, data utility and re-identification risk, when applied to a dataset with personal information collected from college graduated students. Finally, and once the results are presented, we perform an analysis and comparative discussion of the obtained results.
Utility-driven assessment of anonymized data via clustering
Publication . Ferrão, Maria Eugénia; Prata, Paula; Fazendeiro, Paulo
In this study, clustering is conceived as an auxiliary tool to identify groups of special interest. This approach was applied to a real dataset concerning an entire Portuguese cohort of higher education Law students. Several anonymized clustering scenarios were compared against the original cluster solution. The clustering techniques were explored as data utility models in the context of data anonymization, using k-anonymity and (ε, δ)-differential as privacy models. The purpose was to assess anonymized data utility by standard metrics, by the characteristics of the groups obtained, and the relative risk (a relevant metric in social sciences research). For a matter of self-containment, we present an overview of anonymization and clustering methods. We used a partitional clustering algorithm and analyzed several clustering validity indices to understand to what extent the data structure is preserved, or not, after data anonymization. The results suggest that for low dimensionality/cardinality datasets the anonymization procedure easily jeopardizes the clustering endeavor. In addition, there is evidence that relevant field-of-study estimates obtained from anonymized data are biased.
Imputação de Valores Omissos em Análise Descritiva de Dados
Publication . Salambiaku, Luzizila; Sousa, Maria Paula Prata de; Silva, Maria Eugénia Neto Ferrão da
Atualmente lidamos com um grande volume de dados e vários programas que permitem fazer análise destes dados. No entanto, os valores omissos representam um problema frequente no processo de análise destes conjuntos de dados que podem surgir por vários motivos. Por exemplo, podem ser resultados perdidos das análises duma amostra, ou alguns indivíduos não responderem a um determinado questionário. Visto que a maior parte dos programas e algoritmos utilizados para o tratamento de dados requere conjuntos de dados sem valores omissos, isto é, dados completos, a sua existência pode limitar a análise dos dados. Daí, surge a necessidade de recorrer a métodos de imputação de valores omissos. Nesta dissertação foram utilizados e comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação, nomeadamente dados da avaliação nacional do rendimento escolar (Prova Brasil). Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro subconjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método adotado neste trabalho calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que o método de imputação pela Moda forneceu quase de forma constante menores valores de erro.

Organizational Units

Description

Keywords

Contributors

Funders

Funding agency

Fundação para a Ciência e a Tecnologia

Funding programme

6817 - DCRRNI ID

Funding Award Number

UIDB/05069/2020

ID