Investigation of sentiment strength detection in twitter texts

Orešković, Maja

Publicação

Investigation of sentiment strength detection in twitter texts

2012Dissertação de mestrado

datacite.subject.fos	Humanidades::Línguas e Literaturas	pt_PT
dc.contributor.advisor	Thelwall, Michael
dc.contributor.advisor	Carvalho, Paula
dc.contributor.author	Orešković, Maja
dc.date.accessioned	2018-04-05T12:01:28Z
dc.date.available	2018-04-05T12:01:28Z
dc.date.issued	2012
dc.date.submitted	2012
dc.description	Dissertação de mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. School of Law, Social Sciences and Communications, The University of Wolverhampton, 2012
dc.description.abstract	A análise de sentimento envolve a detecção automática de emoções em textos. Observase actualmente um significativo aumento da sua popularidade devido à vasta quantidade de textos de cariz opinativo/emocional disponível na Internet. Apesar do extenso interesse que a investigação no campo da análise de sentimento tem para a área comercial, como no feedback dos clientes, nas pesquisas de mercado e nas críticas de cinema, é evidente o seu crescente interesse também para a análise das ferramentas de microblogging das redes sociais. Um dos mais populares sítios de microblogging é o Twitter. Devido ao seu formato gratuito e fácil acessibilidade, o Twitter atrai um grande número de utilizadores, que publicam mensagens sobre temas variados. Estas mensagens, popularmente chamadas “tweets”, por serem limitadas a um máximo de 140 caracteres são compostas, com frequência, por uma frase representativa da emoção globalmente associada à mensagem, o que as torna numa boa fonte para a análise de sentimento. Existem várias abordagens na análise de sentimentos de dados do Twitter. Essa tarefa é desafiante, dado que a gramática e as regras de ortografia em textos pequenos e informais, tais como os do Twitter, são muitas vezes ignoradas. No nosso projecto utilizámos um algoritmo chamado SentiStrenght, que foi concebido para a extracção de sentimento a partir de pequenos textos informais. Este algoritmo é um quantificador de base lexical desenhado para extrair sentimento tanto positivo quanto negativo a partir de um texto e atribuir, a cada um, um valor numa escala de 1 a 5. O elemento nuclear do algoritmo é uma lista de palavras-sentimento, que consiste nos próprios termos, na sua polaridade e na força associada ao sentimento. Entre outras características, o sistema apresenta um algoritmo de treino que optimiza a força associada a cada sentimento, e que é baseado em aprendizagem automática. O sistema foi inicialmente calibrado com uma compilação processada por operadores humanos e posteriormente testado numa amostra aleatória de comentários no Myspace, pelo que os termos que constam da lista de palavras-sentimento são palavras em língua inglesa tradicional ou palavras não-tradicionais de uso comum no Myspace. O objectivo do nosso trabalho era investigar a capacidade de detecção da força de sentimentos numa base de dados formada por 3.241 textos de Twitter, utilizando a versão actual do SentiStrenght e aprimorá-la com introduções lexicais que pudessem melhorar a capacidade de quantificação do sistema. A nossa abordagem consistiu, inicialmente, na identificação de incorrecções na quantificação dos sentimentos positivos e negativos, calculando o grau de desacordo entre o gold-standard e os resultados analíticos obtidos pelo sistema. Além disso, optimizámos o léxico da lista de palavras-sentimento através de um algoritmo de optimização baseado em aprendizagem automática, incorporado no SentiStrenght. De seguida, investigámos a correlação existente entre frequentes palavras indicadoras de sentimentos da nossa base de dados e os erros na sua quantificação produzidos com ambos os léxicos de palavras-sentimento, o original e o optimizado, ao recolher automaticamente essas palavras-sentimento, a sua frequência e os tweets em que apareciam. Calculámos o desvio médio para cada palavra-sentimento dos tweets classificados de forma errada e seleccionámos as palavras cuja força atribuída ao sentimento poderia ser modificada. Finalmente, realizámos ajustes manuais à força atribuída a estas palavras-sentimento seleccionadas, tanto no léxico original como no optimizado. Testámos o nosso método numa amostra aleatória de 1000 tweets e comparámos os resultados obtidos com: o uso do léxico optimizado através de aprendizagem automática; as alterações introduzidas manualmente; e as alterações manuais feitas sobre o léxico previamente optimizado. Todos os resultados revelam um aumento da precisão comparativamente às definições do léxico original, cuja precisão era de 60.2% para sentimentos positivos e de 71.1%para sentimentos negativos. As modificações introduzidas manualmente apresentam resultados ligeiramente piores do que a optimização automática, proporcionando um aumento para valores de 63,2% para sentimentos positivos, contra 63.9%, e para 72.9%, contra 73%, para sentimentos negativos. Os melhores resultados foram obtidos com as modificações introduzidas manualmente sobre a optimização automática prévia, atingindo-se níveis de precisão de 64% para sentimentos positivos e de 73,3% para sentimentos negativos. Os resultados mostram que ao refinar, aprimorar algumas pistas lexicais, de facto, é possível melhorar a capacidade de detecção de sentimentos no Twitter.	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.1/10546
dc.language.iso	eng	pt_PT
dc.subject	Análise de sentimento	pt_PT
dc.subject	Twitter	pt_PT
dc.subject	SentiStrength	pt_PT
dc.subject	Base lexical	pt_PT
dc.subject	Classificação	pt_PT
dc.title	Investigation of sentiment strength detection in twitter texts	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	restrictedAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.discipline	Processamento de Linguagem Natural e Indústrias da Língua
thesis.degree.grantor	Universidade do Algarve. Faculdade de Ciências Humanas e Sociais
thesis.degree.level	Mestre
thesis.degree.name	Mestrado em Processamento de Linguagem Natural e Indústrias da Língua	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Maja_Oreskovic_Investigation_of_sentiment_strength_detection.pdf
Tamanho:: 680.83 KB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 3.41 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

UA01-Teses
FCH1-Teses