Interface Ubíqua, Interoperativa e Escalável para uma Plataforma de Serviços PLN em Big Data

Chitongua, Fátima Joana Dantas Gonçalves

http://hdl.handle.net/10400.6/9937

Utilize este identificador para referenciar este registo.

Contacte-nos

Autores

Chitongua, Fátima Joana Dantas Gonçalves

Orientador(es)

Pais, Sebastião Augusto Rodrigues Figueiredo

Cordeiro, João Paulo da Costa

Resumo(s)

Os sistemas de aquisição, armazenamento, processamento, recuperação e divulgação da informação, apresentam uma complexidade indiscutível, existindo por isso, uma grande necessidade académica e científica de criar mecanismos que permitam a pesquisa e o tratamento de dados e informações de forma eficaz. Com o aumento explosivo de dados, o processamento textual torna-se cada vez mais difícil e em alguns casos, onerosos. Apesar dos avanços quanto a criação de ferramentas para a extração de informações relevantes, há uma clara falta de ferramentas ou Corpora online multilingues para extrair automaticamente tais informações em documentos. Observou-se que o vasto conjunto criado e disponíveis na Web apresenta limitações à nível linguístico, áreas de domínio e às regras de utilização e acesso. Neste contexto, o estudo realizado no presente trabalho visa desenvolver uma plataforma que disponibilize serviços de PLN em Big Data, sem fins lucrativos. Para tal foi criado o Hultig-C e desenvolvida a plataforma para a disponibilização dos serviços que o mesmo poderá oferecer, proporcionando o acesso aos mais variados dados de diferentes temáticas e idiomas, o que permite a extração de informações relevantes, descomplexificando a recuperação seletiva da informação e consultas de forma geral. Cujo objetivo é dar suporte ao processamento automático da linguagem humana e providenciar recursos de alto nível para a investigação e desenvolvimento de tecnologias em PLN. O estudo apresenta como proposta uma nova abordagem não supervisionada e independente da língua para extrair termos relevantes (específicos) em um documento até Trigram e através destes determinar os termos mais gerais de um documento, fazendo uso da abordagem da Implicação Textual por Generalidade. Vários experimentos foram realizados e com base neles podemos afirmar que o método de extração de termos relevantes proposto na presente Dissertação alcança bons resultados, cujo grau de eficácia revela-se elevado quando comparado com abordagens semelhantes e que fazem uso dos algoritmos mais sofisticados de extração de termos relevantes sem supervisão como o Yake e o Rake. A abordagem apresentada neste trabalho faz uso dos recursos fornecidos pelo próprio texto, tornando-a independente em relação às técnicas de PLN, acrescido ao facto de ser não supervisionada e independente da língua a torna adequada para outros Corpora dos vários domínios e idiomas ao contrário das abordagens supervisionadas dependentes de um Corpus de treinamento.

The acquisition systems, storage, processing, recovery and popularization of the information, they present an unquestionable complexity, existing for that, a great need academic and scientific of creating mechanisms to allow the research and the treatment of data and information in an effective way. With the explosive increase of data, the textual processing becomes more and more difficult and in some cases, expensive. Although the advances how much the creation of tools for the extration of relevant information, has a clear lack of tools or Corpora online multilingues to extract such information in documents automatically. It was observed that the vast set bred and available in the Web presents limitations to the linguistic level, areas of domain and to the rules of use and access. In this context, the study accomplished in the present work seeks to develop a platform that makes available services of PLN in Big Date, without lucrative ends. For such Hultig-C was created and developed the platform for the disponibilização of the services that the same can offer, providing the access to the most varied data of different themes and languages, what allows the extraction of relevant information, descomplexificando the selective recovery of the information and consultations in a general way. Whose objective is to give support to the automatic processing of the human language and to provide resources of high level for the investigation and development of technologies in PLN. The study presents as proposal a new approach no supervised and independent of the language to extract relevant (specific) terms even in a document Trigram and through these to determine the most general terms of a document, making use of the approach of the Textual Entailment by Generality. Several experiments were accomplished and with base in them can affirm that to method of extraction of relevant terms proposed in the present Dissertation reaches good results, whose degree of effectiveness is revealed high when compared with similar approaches and that you/they make use of the most sophisticated algorithms of extraction of relevant terms without supervision as Yake and Rake. The approach presented in this work does use of the resources supplied by the own text, turning her independent in relation to the techniques of PLN, added to the facto of being not supervised and independent of the language it turns her appropriate for other Corpora of the several domains and languages unlike the approaches supervised dependents of a training Corpus.

Palavras-chave

Corpora Extração de Termos Relevantes Seleção de Características

URI

http://hdl.handle.net/10400.6/9937

Coleções

FE - DI | Dissertações de Mestrado e Teses de Doutoramento

Ver registo completo