Publication
Investigation of sentiment strength detection in twitter texts
| datacite.subject.fos | Humanidades::Línguas e Literaturas | pt_PT |
| dc.contributor.advisor | Thelwall, Michael | |
| dc.contributor.advisor | Carvalho, Paula | |
| dc.contributor.author | Orešković, Maja | |
| dc.date.accessioned | 2018-04-05T12:01:28Z | |
| dc.date.available | 2018-04-05T12:01:28Z | |
| dc.date.issued | 2012 | |
| dc.date.submitted | 2012 | |
| dc.description | Dissertação de mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. School of Law, Social Sciences and Communications, The University of Wolverhampton, 2012 | |
| dc.description.abstract | A análise de sentimento envolve a detecção automática de emoções em textos. Observase actualmente um significativo aumento da sua popularidade devido à vasta quantidade de textos de cariz opinativo/emocional disponível na Internet. Apesar do extenso interesse que a investigação no campo da análise de sentimento tem para a área comercial, como no feedback dos clientes, nas pesquisas de mercado e nas críticas de cinema, é evidente o seu crescente interesse também para a análise das ferramentas de microblogging das redes sociais. Um dos mais populares sítios de microblogging é o Twitter. Devido ao seu formato gratuito e fácil acessibilidade, o Twitter atrai um grande número de utilizadores, que publicam mensagens sobre temas variados. Estas mensagens, popularmente chamadas “tweets”, por serem limitadas a um máximo de 140 caracteres são compostas, com frequência, por uma frase representativa da emoção globalmente associada à mensagem, o que as torna numa boa fonte para a análise de sentimento. Existem várias abordagens na análise de sentimentos de dados do Twitter. Essa tarefa é desafiante, dado que a gramática e as regras de ortografia em textos pequenos e informais, tais como os do Twitter, são muitas vezes ignoradas. No nosso projecto utilizámos um algoritmo chamado SentiStrenght, que foi concebido para a extracção de sentimento a partir de pequenos textos informais. Este algoritmo é um quantificador de base lexical desenhado para extrair sentimento tanto positivo quanto negativo a partir de um texto e atribuir, a cada um, um valor numa escala de 1 a 5. O elemento nuclear do algoritmo é uma lista de palavras-sentimento, que consiste nos próprios termos, na sua polaridade e na força associada ao sentimento. Entre outras características, o sistema apresenta um algoritmo de treino que optimiza a força associada a cada sentimento, e que é baseado em aprendizagem automática. O sistema foi inicialmente calibrado com uma compilação processada por operadores humanos e posteriormente testado numa amostra aleatória de comentários no Myspace, pelo que os termos que constam da lista de palavras-sentimento são palavras em língua inglesa tradicional ou palavras não-tradicionais de uso comum no Myspace. O objectivo do nosso trabalho era investigar a capacidade de detecção da força de sentimentos numa base de dados formada por 3.241 textos de Twitter, utilizando a versão actual do SentiStrenght e aprimorá-la com introduções lexicais que pudessem melhorar a capacidade de quantificação do sistema. A nossa abordagem consistiu, inicialmente, na identificação de incorrecções na quantificação dos sentimentos positivos e negativos, calculando o grau de desacordo entre o gold-standard e os resultados analíticos obtidos pelo sistema. Além disso, optimizámos o léxico da lista de palavras-sentimento através de um algoritmo de optimização baseado em aprendizagem automática, incorporado no SentiStrenght. De seguida, investigámos a correlação existente entre frequentes palavras indicadoras de sentimentos da nossa base de dados e os erros na sua quantificação produzidos com ambos os léxicos de palavras-sentimento, o original e o optimizado, ao recolher automaticamente essas palavras-sentimento, a sua frequência e os tweets em que apareciam. Calculámos o desvio médio para cada palavra-sentimento dos tweets classificados de forma errada e seleccionámos as palavras cuja força atribuída ao sentimento poderia ser modificada. Finalmente, realizámos ajustes manuais à força atribuída a estas palavras-sentimento seleccionadas, tanto no léxico original como no optimizado. Testámos o nosso método numa amostra aleatória de 1000 tweets e comparámos os resultados obtidos com: o uso do léxico optimizado através de aprendizagem automática; as alterações introduzidas manualmente; e as alterações manuais feitas sobre o léxico previamente optimizado. Todos os resultados revelam um aumento da precisão comparativamente às definições do léxico original, cuja precisão era de 60.2% para sentimentos positivos e de 71.1%para sentimentos negativos. As modificações introduzidas manualmente apresentam resultados ligeiramente piores do que a optimização automática, proporcionando um aumento para valores de 63,2% para sentimentos positivos, contra 63.9%, e para 72.9%, contra 73%, para sentimentos negativos. Os melhores resultados foram obtidos com as modificações introduzidas manualmente sobre a optimização automática prévia, atingindo-se níveis de precisão de 64% para sentimentos positivos e de 73,3% para sentimentos negativos. Os resultados mostram que ao refinar, aprimorar algumas pistas lexicais, de facto, é possível melhorar a capacidade de detecção de sentimentos no Twitter. | pt_PT |
| dc.identifier.uri | http://hdl.handle.net/10400.1/10546 | |
| dc.language.iso | eng | pt_PT |
| dc.subject | Análise de sentimento | pt_PT |
| dc.subject | pt_PT | |
| dc.subject | SentiStrength | pt_PT |
| dc.subject | Base lexical | pt_PT |
| dc.subject | Classificação | pt_PT |
| dc.title | Investigation of sentiment strength detection in twitter texts | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | restrictedAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
| thesis.degree.discipline | Processamento de Linguagem Natural e Indústrias da Língua | |
| thesis.degree.grantor | Universidade do Algarve. Faculdade de Ciências Humanas e Sociais | |
| thesis.degree.level | Mestre | |
| thesis.degree.name | Mestrado em Processamento de Linguagem Natural e Indústrias da Língua | pt_PT |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- Maja_Oreskovic_Investigation_of_sentiment_strength_detection.pdf
- Size:
- 680.83 KB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 3.41 KB
- Format:
- Item-specific license agreed upon to submission
- Description:
