Thelwall, MichaelCarvalho, PaulaOrešković, Maja2018-04-052018-04-0520122012http://hdl.handle.net/10400.1/10546Dissertação de mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. School of Law, Social Sciences and Communications, The University of Wolverhampton, 2012A análise de sentimento envolve a detecção automática de emoções em textos. Observase actualmente um significativo aumento da sua popularidade devido à vasta quantidade de textos de cariz opinativo/emocional disponível na Internet. Apesar do extenso interesse que a investigação no campo da análise de sentimento tem para a área comercial, como no feedback dos clientes, nas pesquisas de mercado e nas críticas de cinema, é evidente o seu crescente interesse também para a análise das ferramentas de microblogging das redes sociais. Um dos mais populares sítios de microblogging é o Twitter. Devido ao seu formato gratuito e fácil acessibilidade, o Twitter atrai um grande número de utilizadores, que publicam mensagens sobre temas variados. Estas mensagens, popularmente chamadas “tweets”, por serem limitadas a um máximo de 140 caracteres são compostas, com frequência, por uma frase representativa da emoção globalmente associada à mensagem, o que as torna numa boa fonte para a análise de sentimento. Existem várias abordagens na análise de sentimentos de dados do Twitter. Essa tarefa é desafiante, dado que a gramática e as regras de ortografia em textos pequenos e informais, tais como os do Twitter, são muitas vezes ignoradas. No nosso projecto utilizámos um algoritmo chamado SentiStrenght, que foi concebido para a extracção de sentimento a partir de pequenos textos informais. Este algoritmo é um quantificador de base lexical desenhado para extrair sentimento tanto positivo quanto negativo a partir de um texto e atribuir, a cada um, um valor numa escala de 1 a 5. O elemento nuclear do algoritmo é uma lista de palavras-sentimento, que consiste nos próprios termos, na sua polaridade e na força associada ao sentimento. Entre outras características, o sistema apresenta um algoritmo de treino que optimiza a força associada a cada sentimento, e que é baseado em aprendizagem automática. O sistema foi inicialmente calibrado com uma compilação processada por operadores humanos e posteriormente testado numa amostra aleatória de comentários no Myspace, pelo que os termos que constam da lista de palavras-sentimento são palavras em língua inglesa tradicional ou palavras não-tradicionais de uso comum no Myspace. O objectivo do nosso trabalho era investigar a capacidade de detecção da força de sentimentos numa base de dados formada por 3.241 textos de Twitter, utilizando a versão actual do SentiStrenght e aprimorá-la com introduções lexicais que pudessem melhorar a capacidade de quantificação do sistema. A nossa abordagem consistiu, inicialmente, na identificação de incorrecções na quantificação dos sentimentos positivos e negativos, calculando o grau de desacordo entre o gold-standard e os resultados analíticos obtidos pelo sistema. Além disso, optimizámos o léxico da lista de palavras-sentimento através de um algoritmo de optimização baseado em aprendizagem automática, incorporado no SentiStrenght. De seguida, investigámos a correlação existente entre frequentes palavras indicadoras de sentimentos da nossa base de dados e os erros na sua quantificação produzidos com ambos os léxicos de palavras-sentimento, o original e o optimizado, ao recolher automaticamente essas palavras-sentimento, a sua frequência e os tweets em que apareciam. Calculámos o desvio médio para cada palavra-sentimento dos tweets classificados de forma errada e seleccionámos as palavras cuja força atribuída ao sentimento poderia ser modificada. Finalmente, realizámos ajustes manuais à força atribuída a estas palavras-sentimento seleccionadas, tanto no léxico original como no optimizado. Testámos o nosso método numa amostra aleatória de 1000 tweets e comparámos os resultados obtidos com: o uso do léxico optimizado através de aprendizagem automática; as alterações introduzidas manualmente; e as alterações manuais feitas sobre o léxico previamente optimizado. Todos os resultados revelam um aumento da precisão comparativamente às definições do léxico original, cuja precisão era de 60.2% para sentimentos positivos e de 71.1%para sentimentos negativos. As modificações introduzidas manualmente apresentam resultados ligeiramente piores do que a optimização automática, proporcionando um aumento para valores de 63,2% para sentimentos positivos, contra 63.9%, e para 72.9%, contra 73%, para sentimentos negativos. Os melhores resultados foram obtidos com as modificações introduzidas manualmente sobre a optimização automática prévia, atingindo-se níveis de precisão de 64% para sentimentos positivos e de 73,3% para sentimentos negativos. Os resultados mostram que ao refinar, aprimorar algumas pistas lexicais, de facto, é possível melhorar a capacidade de detecção de sentimentos no Twitter.engAnálise de sentimentoTwitterSentiStrengthBase lexicalClassificaçãoInvestigation of sentiment strength detection in twitter textsmaster thesis