Browsing by Author "Fernandes, Bruno Miguel"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Sumarização Personalizada e Subjectiva de TextoPublication . Fernandes, Bruno Miguel; Cordeiro, João Paulo da CostaUm texto pode ser sumarizado ou resumido, isto é, o seu assunto ou conceito pode ser representado de uma forma mais sucinta. A representação mais comum de um sumário é a escrita, pois é constantemente produzida pelas pessoas, quando estas querem descrever uma determinado assunto. Ao longo dos últimos anos o uso da Internet tem vindo a massificar-se e com isso a quantidade de informação disponível nesta enorme rede, aumentou exponencialmente, sendo este acontecimento denominado como sobrecarga de informação. Isto levanta uma série de problemas, entre eles a procura de informação relevante, sobre um determinado tema. Quando alguém procura essa informação pretende encontrá-la de forma eficiente, ou seja, rápido e que aborde diretamente o assunto pretendido. Quanto ao assunto, existem algumas formas de procurar o mesmo, já em relação à celeridade da pesquisa, deparamo-nos com uma quantidade enorme de informação que por vezes difere daquilo que procuramos, sendo muito demoroso o processo de leitura de toda essa informação. Uma das formas de resolver esse problema é resumir o conteúdo do texto encontrado, para que assim possamos de uma forma mais rápida ter uma noção sobre o tema do texto encontrado. Na área da sumarização existem várias técnicas que possibilitam a obtenção de um sumário mais específico. Esta dissertação tem como base a combinação de algumas das técnicas estudadas ao longo do tempo, tais como, relevância e informatividade das palavras, objetividade, segmentação em tópicos e no uso de palavras que representem o domínio do texto. Numa abordagem estatística destacam-se a relevância dos termos de um texto, que é calculada através da frequência dos termos presentes nesse texto e num corpus,a extração das palavraschave que serão encontradas através da sua relevância no texto e a posição das frases no documento que consoante o seu tipo, pode ser calculado de diversas formas, neste caso, sendo avaliado com textos noticioso, foi implementada uma heurística posicional que atribui mais relevância a frases cimeiras. A abordagem baseada na subjectividade de um texto é implementada recorrendo a um conjunto de dados textuais conhecido como SentiWordNet [BES10]. Foi ainda implementada uma abordagem híbrida em que se combinam total ou parcialmente os métodos referidos anteriormente. De modo a proceder à avaliação do sistema foram utilizados dois conjuntos de dados noticiosos. Um destes conjuntos de dados é proveniente da Document Understanding Conference, datado de 2001, o outro é o corpus TeMário. Para que os sumários produzidos pudessem ser avaliados automaticamente, foi utilizada uma implementação em linguagem JAVA da ferramenta ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Após a comparação dos resultados do método híbrido com os restantes, com e sem identificação dos tópicos ficou evidenciado que a heurística posicional das frases obtém melhores resultados, pelo que os métodos híbridos onde esta característica tem peso superior às restantes, tanto para quando o texto é separado em tópicos como no caso contrário, de uma forma geral, obtém melhores resultados. O melhor desempenho no total dos resultados é obtido com o método híbrido, atribuindo maior peso à componente da heurística posicional da frase, sem identificação dos tópicos.