Repository logo
 
Loading...
Thumbnail Image
Publication

Verb and – mente adverb collocations in portuguese: Extraction from corpora and automatic translation into english

Use this identifier to reference this record.
Name:Description:Size:Format: 
MA_Dissertation_LucasVieira.pdf3.8 MBAdobe PDF Download

Abstract(s)

Esta dissertação tem por objetivo a investigação do padrão colocacional formado por verbo e advérbio terminado em –mente em português em vista de sua extração de corpora e sua tradução automática para o inglês. O trabalho envolve o processamento computacional de um corpus do português; o desenvolvimento de um conjunto de regras que permitam um melhor processamento desse padrão, sobretudo resolvendo o problema de coordenação adverbial; um teste da intuição de falantes nativos do português em vista da identificação do valor colocacional do padrão linguístico estudado; uma avaliação da sensibilidade de medidas de associação para a identificação de colocações com este padrão; o desenvolvimento de um classificador automático de colocações com base em métodos de aprendizagem supervisionada; a construção de um léxico bilíngue deste tipo de colocações; e a avaliação da tradução automática deste padrão para o inglês. Na primeira fase do estudo, um corpus do português de grande porte, o CETEMPúlico, composto por 191 milhões de palavras de textos jornalísticos, foi processado computacionalmente por meio da cadeia de processamento STRING, que faz desde a segmentação do texto até sua análise sintática. Nesta fase, uma série de regras com vistas a um melhor processamento de casos de coordenação adverbial em português foram criadas e incorporadas na STRING. Os resultados obtidos para desambiguação de partes do discurso consistem em uma medida-f de 0.724, já para chunking e extração de dependências, uma medida-f de 0.810 foi obtida. Uma vez processado o corpus, 65.535 dependências sintáticas entre verbo e advérbio terminado em –mente foram extraídas. Em seguida, uma série de filtros foram aplicados ao resultado da extração para que fossem excluídos desde o início casos que não apresentavam potencial para formar colocações. Primeiramente, um filtro de frequência que excluía pares que ocorrem menos de 5 vezes no corpus foi adotado. Também foram excluídos bigramas que incluíam verbos de ligação, assim como bigramas que incluíam classes adverbiais que apresentam pouco ou nenhum potencial colocacional. Uma classificação previamente existente de advérbios terminados em –mente em português foi utilizada para este fim. Esta classificação foi estendida em aproximadamente 500 advérbios e em seguida incorporada na cadeia de processamento STRING como parte do presente estudo. Uma série de critérios propostos para a classificação de advérbios terminados em –ment, em francês, foi tomada como o conjunto de princípios linguísticos que serviram de base para a classificação dos advérbios em português. Após a fase de filtragem, 5.793 pares de verbo e advérbio terminado em –mente restaram da extração. Para que se chegasse a uma lista de colocações deste padrão em português, esses 5.793 pares, considerados como o conjunto de pares-candidatos, passaram por uma classificação manual que etiquetava os pares como “colocação” ou como “não colocação”. Uma série de testes linguísticos foram desenvolvidos para a classificação dos pares. O objetivo desses testes era facilitar a identificação deste tipo de colocação por meio de princípios sintático-semânticos que discutivelmente refletem a existência de um caráter colocacional em um par ou grupo de palavras. Como resultado da classificação manual, 501 bigramas foram considerados colocações dos 5.793 candidatos. Pôde-se notar que a frequência dos pares no corpus estava de certa forma ligada ao seu caráter colocacional, uma vez que 60 por cento dos pares mais frequentes, contra 8.6 por cento do total de candidatos, foram considerados como casos de colocação. Para averiguar a intuição de falantes nativos do português a respeito desse padrão colocacional, uma tarefa de classificação foi desempenhada com uma amostra de 30 pares selecionados aleatoriamente da lista de candidatos – 15 tendo sido previamente classificados como colocações, e 15 como não colocações. Vinte e um falantes nativos do português foram recrutados para a tarefa de classificação, dos quais 13 eram falantes nativos do português europeu, e 8 do português brasileiro. Foi possível concluir com o resultado dessa experiência que o padrão colocacional tratado é extremamente problemático no que diz respeito a sua identificação. A medida Kappa de acordo entre anotadores para a amostra de 30 pares foi de 0.06, o que, embora possa ser interpretado como “leve acordo”, é ainda discutivelmente um valor consideravelmente baixo. A dificuldade de se explicar o próprio conceito de colocação assim como o tamanho reduzido da amostra seriam algumas das razões para o baixo nível de convergência alcançado. Haja vista a baixa qualidade dos resultados alcançados com a tarefa de classificação envolvendo falantes nativos do português, uma série de medidas de associação foram testadas em vista do padrão colocacional tratado. Primeiramente, constatou-se que o limiar de referência existente para a análise das medidas “t test” e “chi-quadrado” não apresenta resultados satisfatórios na identificação do tipo de colocação tratado. Em seguida, a sensibilidade dessas mesmas medidas, e também de “Informação Mútua”, “Log-Likelihood Ratio”, “Coeficiente Dice”, e “Unigram Subtuples”, foi testada com base em sua correlação com a classificação manual dos pares-candidatos. Constatou-se que “Informação Mútua”, “Log-Likelihood Ratio”, e “Unigram Subtuples” são as medidas de associação com maior correlação com a classificação manual, o que representa um desempenho satisfatório dessas medidas para a identificação do padrão colocacional sob estudo. Em seguida, técnicas de aprendizagem de máquina supervisionada foram utilizadas para que, a partir do conjunto de pares-candidatos classificados manualmente e seus respectivos valores de medidas associação, fosse possível treinar um classificador automático de colocações. Os resultados alcançados com esta experiência são extremamente promissores. O desempenho de quarenta e cinco classificadores disponíveis na ferramenta de aprendizagem de máquina WEKA foi testado com base em validação cruzada. O classificador que apresentou o melhor resultado foi “RotationForest”, que alcançou uma medida-f de 0.816 em um corpus de treino balanceado composto pelos 501 bigramas classificados como colocação, mais outros 501 bigramas classificados como não colocação. A estratégia que consiste em combinar diferentes classificadores por meio do algoritmo “Vote”, disponível na ferramenta WEKA, provou ser capaz de melhorar ainda mais os resultados. O desempenho de uma série de combinações foi testado, e o melhor resultado foi alcançado com a combinação “Rotation Forest” e “LMT”. Para validar os resultados obtidos, o classificador proveniente da combinação desses dois algoritmos foi testado em um corpus não visto, o NILC/São Carlos, consideravelmente menor que o corpus de treino. Considerando os casos de colocação que ocorrem nos dois corpora e excluindo-se casos de hápax legomena no NILC/São Carlos, o classificador alcançou uma medida-f de 0.733 para o corpus não visto, o que pode considerado bastante promissor devido à considerável diferença de tamanho entre os dois corpora. Após os testes com os diferentes métodos mencionados acima, compilou-se um léxico bilíngue português-inglês contendo o padrão colocacional tratado. Três corpora paralelos e um dicionário de colocações foram utilizados como fontes de referência para que versões equivalentes das colocações em inglês fossem estabelecidas. O dicionário adotado, o Oxoford Collocations Dictionary, foi considerado como fonte principal já que, mais que apenas ocorrências em um corpus paralelo, entradas em um dicionário de colocações atestam o verdadeiro valor colocacional das combinações em inglês. Uma vez construído o léxico, as equivalências deste tipo de colocação entre português e inglês foram utilizadas como referencia para a avaliação de três sistemas de tradução automática disponíveis gratuitamente na rede: Google Translate, Systranet, e Reverso. Exemplos do contexto de ocorrência dos pares em português foram extraídos do corpus CETEMPúblico e então traduzidos automaticamente para o inglês com esses três sistemas. Foi constatado que a tradução da maioria dos pares é correta no sentido de não infringir regras gramaticais da língua, mas, em contrapartida, a tradução sugerida para a maioria dos pares não reflete uma escolha lexical fluente em inglês. A avaliação da fluência das traduções foi feita tomando-se como referência medidas de associação calculadas para os pares com base em dados de frequência do corpus do inglês Collins Wordbanks. De modo geral, os resultados obtidos com este trabalho demonstram que o padrão linguístico formado por verbo e advérbio terminado em –mente impõe uma série de obstáculos a diversos níveis de processamento de linguagem natural, desde desambiguação de partes do discurso até tradução automática. A identificação do valor colocacional deste padrão também mostrou-se problemática, sobretudo quando a classificação de diversos anotares, ainda que falantes nativos do português, é considerada. Por fim, espera-se que os métodos testados no decorrer desta pesquisa possam não somente servir a um melhor tratamento computacional do padrão estudado em português, mas que possam também ser replicados a outros problemas linguísticos, sobretudo àqueles relacionados a termos compostos e expressões multipalavra em geral.

Description

Dissertação de mestrado, Processamento de linguagem natural e tecnologia da linguagem humana, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. UFR Sciences du Langage, de L’Homme et de la Societé, Université de Franche-Comté, 2012

Keywords

Colocações Processamento de linguagem natural Advérbios terminados em -mente Medidas de associação Tradução automática

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License