Discovery of noun semantic relations based on sentential context analysis

Moraliyski, Rumen Valentinov

Publicação

Discovery of noun semantic relations based on sentential context analysis

2013Tese de doutoramento

dc.contributor.advisor	Dias, Gaël Harry Adélio André
dc.contributor.author	Moraliyski, Rumen Valentinov
dc.date.accessioned	2015-07-24T14:46:51Z
dc.date.available	2015-07-24T14:46:51Z
dc.date.issued	2013
dc.date.submitted	2013-02
dc.description.abstract	The last years saw a surge in the statistical processing of natural language and in particular in corpus based methods oriented to language acquisition. Polysemy is pointed at as the main obstacle to many tasks in the area and to thesaurus construction in particular. This dissertation summarizes the current results of a work on automatic synonymy discovery. The accent is focused on the difficulties that spring from polysemy and on linguistically and empirically motivated means to deal with it. In particular, we propose an unsupervised method to identify word usage profiles pertinent to specific word meanings. Further, we show that the routine to verify every possibility in search of semantic relations is not only computationally expensive but is rather counterproductive. As a consequence, we propose an application of a recently developed system for paraphrases extraction and alignment so that the exhaustive search is avoided in an unsupervised manner. This led to a method, that creates short lists of pairs of words that are highly probable to be in synonymy relation. The results show that the negative impact of polysemy is significantly reduced for part of the polysemy specter that covers about two thirds of the vocabulary. Besides the increased probability to discover frequently manifested synonymy relations, paraphrase alignment proved to highlight infrequent word meanings, and to reliably identify a set of very specific semantic relations.	por
dc.description.abstract	Nos últimos anos surgiu um aumento no tratamento estatístico da linguagem natural, em particular nos métodos baseados em corpus orientados para a compreensão da linguagem. A polissemia foi apontada como o principal obstáculo para muitas tarefas nesta área, onde se destaca a construção de dicionários de sinónimos. Esta dissertação resume os resultados atuais de um trabalho que tem como objetivo a descoberta de sinónimos de modo automático. A ênfase recai sobre as dificuldades que advêm da polissemia onde as mesmas são superadas através de métodos linguísticos e empíricos. Propomos um método não supervisionado para fazer a comparação entre os diversos perfis de uso de palavras polissémicas. Esta é a nossa principal contribuição. Além disso, mostramos que as formas habituais de verificar todas as possibilidades na busca de relações semânticas, têm um custo computacional elevado e não apresentam resultados satisfatórios. São contraproducente. Como consequência, propomos a utilização de um sistema recentemente desenvolvido para a extração e alinhamento de paráfrases. Assim, conseguimos evitar de forma não supervisionada a busca exaustiva e criar listas curtas de pares de palavras que são altamente prováveis de estarem em relação de sinonímia. Os resultados mostram que o impacto negativo da polissemia é significativamente reduzido para uma fração do espectro da polissemia que abrange cerca de dois terços do vocabulário. Obtivemos probabilidades elevadas para descobrir relações de sinonímia que se manifestam frequentemente. Conseguimos também provar que, a partir do alinhamento de paráfrases, se destaca o significado de palavras não frequentes e é possível identificar com segurança um conjunto de relações semânticas específicas.
dc.identifier.tid	101234406
dc.identifier.uri	http://hdl.handle.net/10400.6/3777
dc.language.iso	eng	por
dc.relation	MEDON - Using ontologies to model data and medical procedures [PTDC/EIA/80772/2006]
dc.relation	Bolsa de Doutoramento FCT - Discovery of Noun Semantic Relations based on Sentential Context [SFRH/BD/19909/2004]
dc.subject	Linguística computacional	por
dc.subject	Linguagem natural - Processamento automático	por
dc.subject	Linguagem natural - Sinonímia	por
dc.subject	Linguagem natural - Análise lexical	por
dc.subject	Linguagem natural - Relações semânticas	por
dc.subject	Processamento da linguagem natural	por
dc.title	Discovery of noun semantic relations based on sentential context analysis	por
dc.type	doctoral thesis
dspace.entity.type	Publication
oaire.awardNumber	PTDC/EIA/80772/2006
oaire.awardNumber	SFRH/BD/19909/2004
oaire.awardTitle	MEDON - Using ontologies to model data and medical procedures [PTDC/EIA/80772/2006]
oaire.awardTitle	Bolsa de Doutoramento FCT - Discovery of Noun Semantic Relations based on Sentential Context [SFRH/BD/19909/2004]
oaire.awardURI	http://hdl.handle.net/10400.6/19986
oaire.awardURI	http://hdl.handle.net/10400.6/19987
oaire.fundingStream	Concurso para Projectos de I&D em todos os Domínios Científicos - 2006
oaire.fundingStream	Bolsa de Doutoramento
rcaap.rights	openAccess	por
rcaap.type	doctoralThesis	por
relation.isProjectOfPublication	749cb078-d622-4338-8af2-b52dcaa57231
relation.isProjectOfPublication	b986ac22-e74c-4534-8691-4354efe8cc93
relation.isProjectOfPublication.latestForDiscovery	749cb078-d622-4338-8af2-b52dcaa57231
thesis.degree.discipline	Engenharia Informática	por
thesis.degree.level	Doutor	por
thesis.degree.name	Tese apresentada à Universidade da Beira Interior para a obtenção do grau de Doutor em Engenharia Informática	por

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: thesis-ubi.pdf
Tamanho:: 1.03 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

FE - DI | Dissertações de Mestrado e Teses de Doutoramento