Repository logo
 
Publication

Métodos eficientes de deteção de plágio em grandes corpora

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapor
dc.contributor.advisorCordeiro, João Paulo da Costa
dc.contributor.authorFelipe, Bruno Garcia Prata Graciano
dc.date.accessioned2019-12-11T16:51:36Z
dc.date.available2019-12-11T16:51:36Z
dc.date.issued2016-11-22
dc.date.submitted2016-10-10
dc.description.abstractO crescente aumento da quantidade de informação publicada na Web, na forma de publicações literárias, científicas e académicas, implica uma constante verificação da integridade de novos documentos (suspeitos) em função dos documentos existentes (fonte). Surge, portanto, a necessidade de aumentar: a eficiência na redução do espaço de procura em grandes conjuntos de documentos fonte; a eficácia na deteção de plágios cada vez mais sofisticados. Nesta dissertação descreve-se uma metodologia baseada em dois atos: (i) indexação do corpus fonte, com um motor de pesquisa (código aberto), e extração de documentos fonte (candidatos), através de pesquisa por palavras relevantes e caraterísticas textuais; (ii) localização de excertos de plágio em documentos suspeitos, com uma métrica robusta, criada através da aplicação de programação genética sobre as caraterísticas de dados plagiados. Os resultados experimentais obtidos mostram uma redução significativa no tempo de processamento, devido à estratificação do corpus, assim como a capacidade de detetar eficientemente excertos de plágio literal, modificado e ofuscado.por
dc.description.abstractThe increasing information volume published in the Web, either in terms of literary publications or scientific and academic papers, requires a constant surveillance to verify the integrity of daily entering new documents (suspicious), on the basis of the existing ones (sources). As a consequence arises the need to improve the efficiency in reducing the search space for large sets of documents source and the effectiveness in detecting increasingly sophisticated plagiarism events. In this dissertation it is described a methodology based on two actions: (I) indexing the source corpus, with a search engine (open-source), and the extraction of source documents (candidates) by searching for key relevant words and textual features; (II) locating plagiarized passages in suspicious documents with a hybrid metric created by applying genetic programming on the characteristics of plagiarized data. The results show a significant reduction in processing time due to the corpus stratification, as well as a high success rate in detecting plagiarism passages, having none, low, and high obfuscation. The experimental results show a significant reduction in processing time due to stratification of the corpus, as well as the ability to detect plagiarism extracts of diffrent kind: literal, modified and obfuscated.eng
dc.identifier.tid202330575
dc.identifier.urihttp://hdl.handle.net/10400.6/7723
dc.language.isoporpor
dc.subjectAnálise Detalhadapor
dc.subjectDeteção de Plágio Externopor
dc.subjectMineração de Dadospor
dc.subjectPesquisa de Informaçãopor
dc.subjectProgramação Genéticapor
dc.subjectRecuperação Fontepor
dc.subjectSimilaridade Textualpor
dc.titleMétodos eficientes de deteção de plágio em grandes corporapor
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspor
rcaap.typemasterThesispor
thesis.degree.name2º Ciclo em Engenharia Informáticapor

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
5199_10265.pdf
Size:
573.4 KB
Format:
Adobe Portable Document Format