Discovery of noun semantic relations based on sentential context analysis

Moraliyski, Rumen Valentinov

http://hdl.handle.net/10400.6/3777

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
thesis-ubi.pdf		1.03 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Moraliyski, Rumen Valentinov

Orientador(es)

Dias, Gaël Harry Adélio André

Resumo(s)

The last years saw a surge in the statistical processing of natural language and in particular in corpus based methods oriented to language acquisition. Polysemy is pointed at as the main obstacle to many tasks in the area and to thesaurus construction in particular. This dissertation summarizes the current results of a work on automatic synonymy discovery. The accent is focused on the difficulties that spring from polysemy and on linguistically and empirically motivated means to deal with it. In particular, we propose an unsupervised method to identify word usage profiles pertinent to specific word meanings. Further, we show that the routine to verify every possibility in search of semantic relations is not only computationally expensive but is rather counterproductive. As a consequence, we propose an application of a recently developed system for paraphrases extraction and alignment so that the exhaustive search is avoided in an unsupervised manner. This led to a method, that creates short lists of pairs of words that are highly probable to be in synonymy relation. The results show that the negative impact of polysemy is significantly reduced for part of the polysemy specter that covers about two thirds of the vocabulary. Besides the increased probability to discover frequently manifested synonymy relations, paraphrase alignment proved to highlight infrequent word meanings, and to reliably identify a set of very specific semantic relations.

Nos últimos anos surgiu um aumento no tratamento estatístico da linguagem natural, em particular nos métodos baseados em corpus orientados para a compreensão da linguagem. A polissemia foi apontada como o principal obstáculo para muitas tarefas nesta área, onde se destaca a construção de dicionários de sinónimos. Esta dissertação resume os resultados atuais de um trabalho que tem como objetivo a descoberta de sinónimos de modo automático. A ênfase recai sobre as dificuldades que advêm da polissemia onde as mesmas são superadas através de métodos linguísticos e empíricos. Propomos um método não supervisionado para fazer a comparação entre os diversos perfis de uso de palavras polissémicas. Esta é a nossa principal contribuição. Além disso, mostramos que as formas habituais de verificar todas as possibilidades na busca de relações semânticas, têm um custo computacional elevado e não apresentam resultados satisfatórios. São contraproducente. Como consequência, propomos a utilização de um sistema recentemente desenvolvido para a extração e alinhamento de paráfrases. Assim, conseguimos evitar de forma não supervisionada a busca exaustiva e criar listas curtas de pares de palavras que são altamente prováveis de estarem em relação de sinonímia. Os resultados mostram que o impacto negativo da polissemia é significativamente reduzido para uma fração do espectro da polissemia que abrange cerca de dois terços do vocabulário. Obtivemos probabilidades elevadas para descobrir relações de sinonímia que se manifestam frequentemente. Conseguimos também provar que, a partir do alinhamento de paráfrases, se destaca o significado de palavras não frequentes e é possível identificar com segurança um conjunto de relações semânticas específicas.

Palavras-chave

Linguística computacional Linguagem natural - Processamento automático Linguagem natural - Sinonímia Linguagem natural - Análise lexical Linguagem natural - Relações semânticas Processamento da linguagem natural