Cardey-Greenfield, SylvianeGreenfield, PeterBatista, JorgeZaretskaya, Anna2018-10-182018-10-1820122012http://hdl.handle.net/10400.1/10884O impacto do correio eletrónico na nossa vida diária é hoje mais óbvio do que nunca. A cada minuto, milhões de mensagens são enviadas e recebidas em todo o mundo. O fenómeno do e-mail sobrecarregado está a tornar-se um problema para os utilizadores e as empresas. Uma das possíveis soluções que pode ajudar a reduzir despesas e a poupar tempo é oferecida pelos sistemas de resposta automática a e-mails. O desafio é construir centros de e-mail ou software personalizado que sejam capazes de analisar uma mensagem recebida e depois propor ou até enviar uma resposta adequada à questão do remetente. O objetivo deste projeto consiste em explorar as possíveis vantagens de usar um sistema baseado em regras de classificação de texto para a tarefa de resposta a e-mails num domínio particular. O projeto é baseado no corpus de e-mail recebido pela administração do programa Erasmus Mundus NLP&HLT de 2009 a 2011. Neste período, o Centre Tesnière da Universidade de Franche-Comté recebeu centenas de mensagens, contendo questões sobre o programa Erasmus Mundus NLP&HLT, requisitos de candidatura e procedimentos, condições de aceitação, etc. O assunto destes e-mails é previsível, portanto, o domínio da informação a ser processada é bastante restrito. Assim, a tarefa consiste em associar as mensagens recebidas às respostas já existentes. Isto pode ser realizado associando as mensagens às classes pré-definidas de maneira a que cada classe corresponda a um tópico específico com uma resposta adequada atribuída. A Classificação de Texto é a área de investigação que lida com esta tarefa e consiste em associar um conjunto de textos em linguagem natural a uma ou mais categorias baseadas no seu conteúdo. Para este efeito usa-se um programa de computador chamado Semegram. É um sistema baseado em regras desenvolvido no Centre Tesnière na Universidade de Franche-Comté. Este é baseado na etiquetagem semântica de textos no sentido de fazer corresponder estruturas linguísticas que indicam a relação de um dado texto com uma das classes pré-definidas. Dado que a abordagem do sistema baseado em regras foi uma das primeiras usadas na Classificação de Texto, e a presente investigação se foca mais nas abordagens a aprendizagem de máquina, é interessante comparar os resultados do Semegram com os resultados obtidos ao aplicar um dos classificadores de aprendizagem de máquina no mesmo conjunto de dados. Acreditamos que a comparação destes resultados pode esclarecer algumas vantagens e deficiências tanto da abordagem baseada em regras como de aprendizagem de máquina. O corpus dos textos estudados consiste em 871 e-mails em Inglês. Todos eles foram manualmente classificados de acordo com o seu conteúdo e tendo em consideração as possíveis respostas baseadas na informação do website do Programa. Seguindo este critério, as mensagens foram classficadas em 20 categorias. 175 mensagens continham questões ou informação em caracteres muito específicos e que poderiam apenas ser tratados por humanos. Estas mensagens foram postas na categoria “Outras”. Cada mensagem podia pertencer a mais do que uma categoria. O número de mensagens em cada categoria era diferente, o maior deles contava 345 mensagens e o menor 4 mensagens. Um determinado processo de amostragem foi aplicado no sentido de selecionar um subcorpus de textos para ser usado no processo de criação das regras. No total, 120 regras foram criadas. As regras foram programadas em Prolog, que é a linguagem de programação do sistema Semegram. Para a avaliação do sistema, dois testes foram realizados. O primeiro testou o sistema sobre todo o corpus. Já que a inicialmente as mensagens nele tinham de ser anotadas manualmente, todas elas foram previamente vistas pela mesma pessoa que criou as regras. O segundo teste, assim, foi realizado noutro conjunto de dados, que foi pré-classificado por outro anotador e não foi visto por nós antes. Os resultados foram apresentados e discutidos, seguido da análise dos erros. Para obter os resultados no mesmo conjunto de dados usando as ferramentas de Weka dois testes foram realizados com dois algoritmos de aprendizagem de máquina: Naïve Bayes e J4.8. Um subcorpus equilibrado foi criado ao selecionar as onze classes mais frequentes do conjunto de dados inicial. O performance dos algoritmos de aprendizagem de máquina foi então comparado com os resultados do sistema Semegram no mesmo subcorpus. De acordo com os três testes, os resultados foram discutidos. O resultado do sistema baseado em regras em todo o corpus foi avaliado como satisfatório: ainda que este exiba uma baixa recuperação de 44%, o valor de precisão de 84% é bastante alto para afirmar que quase todas as 44% de mensagens que foram respondidas, foram respondidas corretamente, o que reduz significativamente o número de e-mails processados por utilizadores humanos. Comparados os resultados das duas abordagens, foi observado que o sistema Semegram claramente supera os algoritmos de aperndizagem de máquina em termos de precisão, enquanto os valores de recuperação são semelhantes. Isto prova a intuição geral de que os sistemas baseados em regras tendem a apresentar maior precisão devido à sua capacidade de capturar as estruturas corretas no texto. Por outro lado, o teste realizado num conjunto de dados não visto mostrou uma taxa de eficácia inferior, o que possivelmente indica a influência do fator humano no sistemas baseadas em regras. A grande desvantagem da abordagem do sistema baseado em regras consiste em larga escala no necessário esforço humano para criação das regras. Além disso, ele requere um préprocessamento mais elaborado, em comparação com a abordagem de aprendizagem de máquina. Para concluir, a abordagem baseada em regras só é aplicável em domínios restritos e estáveis. Os resultados do teste do Machine Learning foram menos satisfatórios devido a uma desigual distribuição da classe, um conjunto de informação limitado e o problema das múltiplas classes. De qualquer maneira, a abordagem de aprendizagem de máquina pode ser usada como ponto de partida para investigação futura.engSistemas de resposta automática a e-mailsClassificação de textoSistema baseado em regrasAprendizagem de máquinaMineração de textoAutomatic e-mail answering based on text classification: a rule-based approachmaster thesis