Name: | Description: | Size: | Format: | |
---|---|---|---|---|
885.36 KB | Adobe PDF |
Authors
Abstract(s)
Increasingly in social media, we find cases where groups are organized to protest against something, often in those groups, members with extremist ideologies are inserted. These cases are
happing more often, groups are created for the organization of peaceful protests and someone
starts a topic with an extremist language leading, sometimes, to a radicalisation of the group.
This research aims to create an approach that allows the detection of cases of extremism and
collective radicalisation within social networks, this should be done in an unsupervised and
independent of language way.
The methods used to achieve the intended objectives are the creation of a lexicon of extreme
sentiment terms named ExtremeSentiLex and a classifier of extreme sentiment in which the
input is the extreme sentiment terms and the social network post. For the development of
these tools were used purely statistical natural language processing methods. To validate the
ExtremeSentiLex it was applied using the extreme sentiment classifier, the input posts that
are analysed are posts from a dataset already validated by the scientific community. For a
comparative study, word embeddings are used to expand the first ExtremeSentiLex obtained
and a test is also performed in which the ExtremeSentiLex is balanced and applied to a balanced
polarity dataset.
The results obtained in this content level research that will be available to the scientific community are the ExtremeSentiLex and several datasets that were evaluated by us regarding the
presence of extreme sentiment. At the level of tests performed when the ExtremeSentiLex was
validated, the level of precision in finding extreme sentiment at the correct polarity was very
high. When applying word embeddings the results dropped. Regarding the ExtremeSentiLex and
balanced dataset, the results were very positive.
It has been concluded that our dataset is suitable for the application in detecting extreme
sentiments in text. Furthermore, it was found that with the help of linguistic and psychological
experts the ExtremeSentiLex could be improved. However, this investigation aimed to do so
using purely statistical methods. This goal has been successfully achieved.
Cada vez mais nos social medias encontramos grupos que se organizam para protestarem contra algo e, muitas vezes, nesses mesmos grupos por vezes estão inseridos membros com ideologias extremistas, com o intuito de destabilizar a ordem publica e espalhar os seus ideias recorrendo ao terror. Verifica-se que estes casos são cada vez mais recorrentes, ao criar-se um grupo específico cuja finalidade é a realização de protestos pacíficos com objetivos liberais e concretos, existe muitas vezes alguém que inicia um tópico com linguagem extremista. E, daqui, justificado pela influência de grupo, é possível ter-se em consideração a possibilidade de radicalização coletiva. O objetivo desta investigação é criar uma abordagem para deteção de casos de extremismo e radicalização coletiva em redes sociais e isto deve ser feito de forma não supervisionada e independente da língua. Os métodos utilizados foram: a criação de um léxico de termos de sentimento extremo denominado ExtremeSentiLex e de um classificador de sentimentos extremos em que o input são os termos de sentimento extremo e os posts de redes sociais. Para o desenvolvimento destas ferramentas foram utilizados métodos de processamento da linguagem natural puramente estatísticos. Sendo que, para podermos validar o ExtremeSentiLex este foi aplicado recorrendo ao classificador de sentimentos extremos e aos posts de input que são analisados que são posts de datasets já validados pela comunidade cientifica. Para um estudo comparativo, são utilizados word embeddings para expandir o ExtremeSentiLex obtido e é também feito um teste em que o ExtremeSentiLex é balanceado e aplicado a um dataset também balanceado a nível da polaridade de sentimentos. Os resultados obtidos nesta investigação e que serão disponibilizados para a comunidade cientifica são: o ExtremeSentiLex e datasets, que foram avaliados, relativamente à presença de sentimentos extremos; Os testes efetuados aquando da validação do ExtremeSentiLex: o nível de precisão ao encontrar sentimentos extremos na polaridade correta foi muito elevada. Já aquando da aplicação dos word embeddings os resultados pioraram; Com ExtremeSentiLex e dataset balanceados, os resultados melhoraram. Concluí-se que o ExtremeSentiLex é adequado para a deteção de sentimentos extremos em texto. Detetou-se ainda que com a ajuda de especialistas na área da linguística e da psicologia o ExtremeSentiLex poderia ser aprimorado. Contudo o objetivo desta investigação era apenas fazê-lo recorrendo a métodos puramente estatísticos.
Cada vez mais nos social medias encontramos grupos que se organizam para protestarem contra algo e, muitas vezes, nesses mesmos grupos por vezes estão inseridos membros com ideologias extremistas, com o intuito de destabilizar a ordem publica e espalhar os seus ideias recorrendo ao terror. Verifica-se que estes casos são cada vez mais recorrentes, ao criar-se um grupo específico cuja finalidade é a realização de protestos pacíficos com objetivos liberais e concretos, existe muitas vezes alguém que inicia um tópico com linguagem extremista. E, daqui, justificado pela influência de grupo, é possível ter-se em consideração a possibilidade de radicalização coletiva. O objetivo desta investigação é criar uma abordagem para deteção de casos de extremismo e radicalização coletiva em redes sociais e isto deve ser feito de forma não supervisionada e independente da língua. Os métodos utilizados foram: a criação de um léxico de termos de sentimento extremo denominado ExtremeSentiLex e de um classificador de sentimentos extremos em que o input são os termos de sentimento extremo e os posts de redes sociais. Para o desenvolvimento destas ferramentas foram utilizados métodos de processamento da linguagem natural puramente estatísticos. Sendo que, para podermos validar o ExtremeSentiLex este foi aplicado recorrendo ao classificador de sentimentos extremos e aos posts de input que são analisados que são posts de datasets já validados pela comunidade cientifica. Para um estudo comparativo, são utilizados word embeddings para expandir o ExtremeSentiLex obtido e é também feito um teste em que o ExtremeSentiLex é balanceado e aplicado a um dataset também balanceado a nível da polaridade de sentimentos. Os resultados obtidos nesta investigação e que serão disponibilizados para a comunidade cientifica são: o ExtremeSentiLex e datasets, que foram avaliados, relativamente à presença de sentimentos extremos; Os testes efetuados aquando da validação do ExtremeSentiLex: o nível de precisão ao encontrar sentimentos extremos na polaridade correta foi muito elevada. Já aquando da aplicação dos word embeddings os resultados pioraram; Com ExtremeSentiLex e dataset balanceados, os resultados melhoraram. Concluí-se que o ExtremeSentiLex é adequado para a deteção de sentimentos extremos em texto. Detetou-se ainda que com a ajuda de especialistas na área da linguística e da psicologia o ExtremeSentiLex poderia ser aprimorado. Contudo o objetivo desta investigação era apenas fazê-lo recorrendo a métodos puramente estatísticos.
Description
Keywords
Análise de Sentimentos Análise de Sentimentos Extremos Extremismo Multidões Processamento de Linguagem Natural Processamento de Linguagem Natural Estatistico Radicalização Coletiva Redes Sociais Social Media