Repository logo
 
Loading...
Thumbnail Image
Publication

Investigation of sentiment strength detection in twitter texts

Use this identifier to reference this record.

Abstract(s)

A análise de sentimento envolve a detecção automática de emoções em textos. Observase actualmente um significativo aumento da sua popularidade devido à vasta quantidade de textos de cariz opinativo/emocional disponível na Internet. Apesar do extenso interesse que a investigação no campo da análise de sentimento tem para a área comercial, como no feedback dos clientes, nas pesquisas de mercado e nas críticas de cinema, é evidente o seu crescente interesse também para a análise das ferramentas de microblogging das redes sociais. Um dos mais populares sítios de microblogging é o Twitter. Devido ao seu formato gratuito e fácil acessibilidade, o Twitter atrai um grande número de utilizadores, que publicam mensagens sobre temas variados. Estas mensagens, popularmente chamadas “tweets”, por serem limitadas a um máximo de 140 caracteres são compostas, com frequência, por uma frase representativa da emoção globalmente associada à mensagem, o que as torna numa boa fonte para a análise de sentimento. Existem várias abordagens na análise de sentimentos de dados do Twitter. Essa tarefa é desafiante, dado que a gramática e as regras de ortografia em textos pequenos e informais, tais como os do Twitter, são muitas vezes ignoradas. No nosso projecto utilizámos um algoritmo chamado SentiStrenght, que foi concebido para a extracção de sentimento a partir de pequenos textos informais. Este algoritmo é um quantificador de base lexical desenhado para extrair sentimento tanto positivo quanto negativo a partir de um texto e atribuir, a cada um, um valor numa escala de 1 a 5. O elemento nuclear do algoritmo é uma lista de palavras-sentimento, que consiste nos próprios termos, na sua polaridade e na força associada ao sentimento. Entre outras características, o sistema apresenta um algoritmo de treino que optimiza a força associada a cada sentimento, e que é baseado em aprendizagem automática. O sistema foi inicialmente calibrado com uma compilação processada por operadores humanos e posteriormente testado numa amostra aleatória de comentários no Myspace, pelo que os termos que constam da lista de palavras-sentimento são palavras em língua inglesa tradicional ou palavras não-tradicionais de uso comum no Myspace. O objectivo do nosso trabalho era investigar a capacidade de detecção da força de sentimentos numa base de dados formada por 3.241 textos de Twitter, utilizando a versão actual do SentiStrenght e aprimorá-la com introduções lexicais que pudessem melhorar a capacidade de quantificação do sistema. A nossa abordagem consistiu, inicialmente, na identificação de incorrecções na quantificação dos sentimentos positivos e negativos, calculando o grau de desacordo entre o gold-standard e os resultados analíticos obtidos pelo sistema. Além disso, optimizámos o léxico da lista de palavras-sentimento através de um algoritmo de optimização baseado em aprendizagem automática, incorporado no SentiStrenght. De seguida, investigámos a correlação existente entre frequentes palavras indicadoras de sentimentos da nossa base de dados e os erros na sua quantificação produzidos com ambos os léxicos de palavras-sentimento, o original e o optimizado, ao recolher automaticamente essas palavras-sentimento, a sua frequência e os tweets em que apareciam. Calculámos o desvio médio para cada palavra-sentimento dos tweets classificados de forma errada e seleccionámos as palavras cuja força atribuída ao sentimento poderia ser modificada. Finalmente, realizámos ajustes manuais à força atribuída a estas palavras-sentimento seleccionadas, tanto no léxico original como no optimizado. Testámos o nosso método numa amostra aleatória de 1000 tweets e comparámos os resultados obtidos com: o uso do léxico optimizado através de aprendizagem automática; as alterações introduzidas manualmente; e as alterações manuais feitas sobre o léxico previamente optimizado. Todos os resultados revelam um aumento da precisão comparativamente às definições do léxico original, cuja precisão era de 60.2% para sentimentos positivos e de 71.1%para sentimentos negativos. As modificações introduzidas manualmente apresentam resultados ligeiramente piores do que a optimização automática, proporcionando um aumento para valores de 63,2% para sentimentos positivos, contra 63.9%, e para 72.9%, contra 73%, para sentimentos negativos. Os melhores resultados foram obtidos com as modificações introduzidas manualmente sobre a optimização automática prévia, atingindo-se níveis de precisão de 64% para sentimentos positivos e de 73,3% para sentimentos negativos. Os resultados mostram que ao refinar, aprimorar algumas pistas lexicais, de facto, é possível melhorar a capacidade de detecção de sentimentos no Twitter.

Description

Dissertação de mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. School of Law, Social Sciences and Communications, The University of Wolverhampton, 2012

Keywords

Análise de sentimento Twitter SentiStrength Base lexical Classificação

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License