Browsing by Author "Markov, Ilia"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
- Authorship attribution in portuguese using character N-gramsPublication . Markov, Ilia; Baptista, Jorge; Pichardo-Lagunas, ObduliaFor the Authorship Attribution (AA) task, character n-grams are considered among the best predictive features. In the English language, it has also been shown that some types of character n-grams perform better than others. This paper tackles the AA task in Portuguese by examining the performance of different types of character n-grams, and various combinations of them. The paper also experiments with different feature representations and machine-learning algorithms. Moreover, the paper demonstrates that the performance of the character n-gram approach can be improved by fine-tuning the feature set and by appropriately selecting the length and type of character n-grams. This relatively simple and language-independent approach to the AA task outperforms both a bag-of-words baseline and other approaches, using the same corpus.
- Automatic identification of whole-part relations in PortuguesePublication . Markov, Ilia; Baptista, Jorge Manuel Evangelista; Mamede, Nuno João NevesNeste trabalho, procurou-se melhorar a extração de relações semânticas entre elementos textuais tal como é atualmente realizada pela STRING, um sistema híbrido de Processamento de Linguagem Natural (PLN), baseado em métodos estatísticos e regras híbrido, e desenvolvido para o Português. Visaram-se as relações todo-parte (meronímia), que pode ser definida como uma relação semântica entre uma entidade que é percebido como parte integrante de outra entidade, ou a relação entre um membro e um conjunto de elementos. Neste caso, vamos-nos concentrar num tipo de meronímia envolvendo entidades humanas e nomes parte-do-corpo (Npc); e.g., O Pedro partiu uma perna: WHOLE-PART(Pedro,perna). Para extrair este tipo de relações parte-todo, foi construído um módulo de extração de relações meronímicas baseado em regras e que foi integrado na gramática do sistema de STRING. Cerca de 17.000 instâncias de Npc foram extraídas do primeiro fragmento do corpus CETEMPúblico para a avaliação deste trabalho. Foram também recolhidos 79 casos de nomes de doença (Nd), derivados a partir de um Npc subjacente (e.g., gastrite-estômago). A fim de produzir um corpus de referência (golden standard) para a avaliação, foi selecionada uma amostra aleatória estratificada de 1.000 frases, mantendo a proporção da frequência total de Npc no corpus. Esta amostra também inclui um pequeno número de Nd (6 lemas, 17 frases). Essas instâncias foram repartidas e anotadas por quatro falantes nativos de português. 100 frases foram dadas a todos os anotadores a fim de calcular o acordo inter-anotadores, que foi considerado entre “razoável” (fair) e “bom” (good). Comparando a saída do sistema com o corpus de referência, os resultados mostram, para as relações parte-todo envolvendo Npc, 0,57 de precisão, 0,38 de cobertura (recall), 0,46 de medida-F e 0,81 de acurácia. A cobertura foi relativamente pequena (0,38), o que pode ser explicada por vários fatores, tais como o facto de, em muitas frases, o todo e a parte não estarem relacionadas sintaticamente e até se encontrarem por vezes bastante distantes. A precisão é um pouco melhor (0,57). A acurácia é relativamente elevada (0,81), uma vez que existe um grande número de casos verdadeiro-negativos. Os resultados para os nomes de doença, embora o número de casos seja pequeno, mostram uma 0,50 de precisão, 0,11 de cobertura, 0,17 de medida-F e 0,76 de acurácia. A cuidadosa análise de erros realizada permitiu detetar as principais causas para este desempenho, tendo sido possível, em alguns casos, encontrar soluções para diversos problemas. Foi então realizada uma segunda avaliação do desempenho do sistema, verificando-se uma melhoria geral dos resultados: a precisão melhorou +0,13 (de 0,57 para 0,70), a cobertura +0,11 (de 0,38 para 0,49), a medida-F +0,12 (de 0,46 para 0,58) e a acurácia +0,04 (de 0,81 para 0,85). Os resultados para os Nd permaneceram idênticos. Em suma, este trabalho pode ser considerado como uma primeira tentativa de extrair relações partetodo, envolvendo entidades humanas e Npc em Português. Um módulo baseado em regras foi construído e integrado no sistema STRING, tendo sido avaliado com resultados promissores.