Repository logo
 
Publication

Investigation of sentiment strength detection in twitter texts

datacite.subject.fosHumanidades::Línguas e Literaturaspt_PT
dc.contributor.advisorThelwall, Michael
dc.contributor.advisorCarvalho, Paula
dc.contributor.authorOrešković, Maja
dc.date.accessioned2018-04-05T12:01:28Z
dc.date.available2018-04-05T12:01:28Z
dc.date.issued2012
dc.date.submitted2012
dc.descriptionDissertação de mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. School of Law, Social Sciences and Communications, The University of Wolverhampton, 2012
dc.description.abstractA análise de sentimento envolve a detecção automática de emoções em textos. Observase actualmente um significativo aumento da sua popularidade devido à vasta quantidade de textos de cariz opinativo/emocional disponível na Internet. Apesar do extenso interesse que a investigação no campo da análise de sentimento tem para a área comercial, como no feedback dos clientes, nas pesquisas de mercado e nas críticas de cinema, é evidente o seu crescente interesse também para a análise das ferramentas de microblogging das redes sociais. Um dos mais populares sítios de microblogging é o Twitter. Devido ao seu formato gratuito e fácil acessibilidade, o Twitter atrai um grande número de utilizadores, que publicam mensagens sobre temas variados. Estas mensagens, popularmente chamadas “tweets”, por serem limitadas a um máximo de 140 caracteres são compostas, com frequência, por uma frase representativa da emoção globalmente associada à mensagem, o que as torna numa boa fonte para a análise de sentimento. Existem várias abordagens na análise de sentimentos de dados do Twitter. Essa tarefa é desafiante, dado que a gramática e as regras de ortografia em textos pequenos e informais, tais como os do Twitter, são muitas vezes ignoradas. No nosso projecto utilizámos um algoritmo chamado SentiStrenght, que foi concebido para a extracção de sentimento a partir de pequenos textos informais. Este algoritmo é um quantificador de base lexical desenhado para extrair sentimento tanto positivo quanto negativo a partir de um texto e atribuir, a cada um, um valor numa escala de 1 a 5. O elemento nuclear do algoritmo é uma lista de palavras-sentimento, que consiste nos próprios termos, na sua polaridade e na força associada ao sentimento. Entre outras características, o sistema apresenta um algoritmo de treino que optimiza a força associada a cada sentimento, e que é baseado em aprendizagem automática. O sistema foi inicialmente calibrado com uma compilação processada por operadores humanos e posteriormente testado numa amostra aleatória de comentários no Myspace, pelo que os termos que constam da lista de palavras-sentimento são palavras em língua inglesa tradicional ou palavras não-tradicionais de uso comum no Myspace. O objectivo do nosso trabalho era investigar a capacidade de detecção da força de sentimentos numa base de dados formada por 3.241 textos de Twitter, utilizando a versão actual do SentiStrenght e aprimorá-la com introduções lexicais que pudessem melhorar a capacidade de quantificação do sistema. A nossa abordagem consistiu, inicialmente, na identificação de incorrecções na quantificação dos sentimentos positivos e negativos, calculando o grau de desacordo entre o gold-standard e os resultados analíticos obtidos pelo sistema. Além disso, optimizámos o léxico da lista de palavras-sentimento através de um algoritmo de optimização baseado em aprendizagem automática, incorporado no SentiStrenght. De seguida, investigámos a correlação existente entre frequentes palavras indicadoras de sentimentos da nossa base de dados e os erros na sua quantificação produzidos com ambos os léxicos de palavras-sentimento, o original e o optimizado, ao recolher automaticamente essas palavras-sentimento, a sua frequência e os tweets em que apareciam. Calculámos o desvio médio para cada palavra-sentimento dos tweets classificados de forma errada e seleccionámos as palavras cuja força atribuída ao sentimento poderia ser modificada. Finalmente, realizámos ajustes manuais à força atribuída a estas palavras-sentimento seleccionadas, tanto no léxico original como no optimizado. Testámos o nosso método numa amostra aleatória de 1000 tweets e comparámos os resultados obtidos com: o uso do léxico optimizado através de aprendizagem automática; as alterações introduzidas manualmente; e as alterações manuais feitas sobre o léxico previamente optimizado. Todos os resultados revelam um aumento da precisão comparativamente às definições do léxico original, cuja precisão era de 60.2% para sentimentos positivos e de 71.1%para sentimentos negativos. As modificações introduzidas manualmente apresentam resultados ligeiramente piores do que a optimização automática, proporcionando um aumento para valores de 63,2% para sentimentos positivos, contra 63.9%, e para 72.9%, contra 73%, para sentimentos negativos. Os melhores resultados foram obtidos com as modificações introduzidas manualmente sobre a optimização automática prévia, atingindo-se níveis de precisão de 64% para sentimentos positivos e de 73,3% para sentimentos negativos. Os resultados mostram que ao refinar, aprimorar algumas pistas lexicais, de facto, é possível melhorar a capacidade de detecção de sentimentos no Twitter.pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.1/10546
dc.language.isoengpt_PT
dc.subjectAnálise de sentimentopt_PT
dc.subjectTwitterpt_PT
dc.subjectSentiStrengthpt_PT
dc.subjectBase lexicalpt_PT
dc.subjectClassificaçãopt_PT
dc.titleInvestigation of sentiment strength detection in twitter textspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsrestrictedAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.disciplineProcessamento de Linguagem Natural e Indústrias da Língua
thesis.degree.grantorUniversidade do Algarve. Faculdade de Ciências Humanas e Sociais
thesis.degree.levelMestre
thesis.degree.nameMestrado em Processamento de Linguagem Natural e Indústrias da Línguapt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Maja_Oreskovic_Investigation_of_sentiment_strength_detection.pdf
Size:
680.83 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.41 KB
Format:
Item-specific license agreed upon to submission
Description: