Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.08 MB | Adobe PDF |
Authors
Abstract(s)
O impacto do correio eletrónico na nossa vida diária é hoje mais óbvio do que nunca. A
cada minuto, milhões de mensagens são enviadas e recebidas em todo o mundo. O fenómeno
do e-mail sobrecarregado está a tornar-se um problema para os utilizadores e as empresas. Uma
das possíveis soluções que pode ajudar a reduzir despesas e a poupar tempo é oferecida pelos
sistemas de resposta automática a e-mails. O desafio é construir centros de e-mail ou software
personalizado que sejam capazes de analisar uma mensagem recebida e depois propor ou até
enviar uma resposta adequada à questão do remetente.
O objetivo deste projeto consiste em explorar as possíveis vantagens de usar um sistema
baseado em regras de classificação de texto para a tarefa de resposta a e-mails num domínio
particular. O projeto é baseado no corpus de e-mail recebido pela administração do programa
Erasmus Mundus NLP&HLT de 2009 a 2011. Neste período, o Centre Tesnière da
Universidade de Franche-Comté recebeu centenas de mensagens, contendo questões sobre o
programa Erasmus Mundus NLP&HLT, requisitos de candidatura e procedimentos, condições
de aceitação, etc. O assunto destes e-mails é previsível, portanto, o domínio da informação a ser
processada é bastante restrito. Assim, a tarefa consiste em associar as mensagens recebidas às
respostas já existentes. Isto pode ser realizado associando as mensagens às classes pré-definidas
de maneira a que cada classe corresponda a um tópico específico com uma resposta adequada
atribuída.
A Classificação de Texto é a área de investigação que lida com esta tarefa e consiste em
associar um conjunto de textos em linguagem natural a uma ou mais categorias baseadas no seu
conteúdo.
Para este efeito usa-se um programa de computador chamado Semegram. É um sistema
baseado em regras desenvolvido no Centre Tesnière na Universidade de Franche-Comté. Este é
baseado na etiquetagem semântica de textos no sentido de fazer corresponder estruturas
linguísticas que indicam a relação de um dado texto com uma das classes pré-definidas.
Dado que a abordagem do sistema baseado em regras foi uma das primeiras usadas na
Classificação de Texto, e a presente investigação se foca mais nas abordagens a aprendizagem
de máquina, é interessante comparar os resultados do Semegram com os resultados obtidos ao
aplicar um dos classificadores de aprendizagem de máquina no mesmo conjunto de dados.
Acreditamos que a comparação destes resultados pode esclarecer algumas vantagens e
deficiências tanto da abordagem baseada em regras como de aprendizagem de máquina.
O corpus dos textos estudados consiste em 871 e-mails em Inglês. Todos eles foram manualmente classificados de acordo com o seu conteúdo e tendo em consideração as possíveis
respostas baseadas na informação do website do Programa. Seguindo este critério, as
mensagens foram classficadas em 20 categorias. 175 mensagens continham questões ou
informação em caracteres muito específicos e que poderiam apenas ser tratados por humanos.
Estas mensagens foram postas na categoria “Outras”. Cada mensagem podia pertencer a mais
do que uma categoria. O número de mensagens em cada categoria era diferente, o maior deles
contava 345 mensagens e o menor 4 mensagens.
Um determinado processo de amostragem foi aplicado no sentido de selecionar um
subcorpus de textos para ser usado no processo de criação das regras. No total, 120 regras
foram criadas. As regras foram programadas em Prolog, que é a linguagem de programação do
sistema Semegram.
Para a avaliação do sistema, dois testes foram realizados. O primeiro testou o sistema
sobre todo o corpus. Já que a inicialmente as mensagens nele tinham de ser anotadas
manualmente, todas elas foram previamente vistas pela mesma pessoa que criou as regras. O
segundo teste, assim, foi realizado noutro conjunto de dados, que foi pré-classificado por outro
anotador e não foi visto por nós antes. Os resultados foram apresentados e discutidos, seguido
da análise dos erros.
Para obter os resultados no mesmo conjunto de dados usando as ferramentas de Weka
dois testes foram realizados com dois algoritmos de aprendizagem de máquina: Naïve Bayes e
J4.8. Um subcorpus equilibrado foi criado ao selecionar as onze classes mais frequentes do
conjunto de dados inicial. O performance dos algoritmos de aprendizagem de máquina foi
então comparado com os resultados do sistema Semegram no mesmo subcorpus.
De acordo com os três testes, os resultados foram discutidos. O resultado do sistema
baseado em regras em todo o corpus foi avaliado como satisfatório: ainda que este exiba uma
baixa recuperação de 44%, o valor de precisão de 84% é bastante alto para afirmar que quase
todas as 44% de mensagens que foram respondidas, foram respondidas corretamente, o que
reduz significativamente o número de e-mails processados por utilizadores humanos.
Comparados os resultados das duas abordagens, foi observado que o sistema Semegram
claramente supera os algoritmos de aperndizagem de máquina em termos de precisão, enquanto
os valores de recuperação são semelhantes. Isto prova a intuição geral de que os sistemas
baseados em regras tendem a apresentar maior precisão devido à sua capacidade de capturar as
estruturas corretas no texto. Por outro lado, o teste realizado num conjunto de dados não visto
mostrou uma taxa de eficácia inferior, o que possivelmente indica a influência do fator humano
no sistemas baseadas em regras.
A grande desvantagem da abordagem do sistema baseado em regras consiste em larga escala no necessário esforço humano para criação das regras. Além disso, ele requere um préprocessamento
mais elaborado, em comparação com a abordagem de aprendizagem de
máquina. Para concluir, a abordagem baseada em regras só é aplicável em domínios restritos e
estáveis.
Os resultados do teste do Machine Learning foram menos satisfatórios devido a uma
desigual distribuição da classe, um conjunto de informação limitado e o problema das múltiplas
classes. De qualquer maneira, a abordagem de aprendizagem de máquina pode ser usada como
ponto de partida para investigação futura.
Description
Keywords
Sistemas de resposta automática a e-mails Classificação de texto Sistema baseado em regras Aprendizagem de máquina Mineração de texto