Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.8 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Esta dissertação tem por objetivo a investigação do padrão colocacional formado por
verbo e advérbio terminado em –mente em português em vista de sua extração de
corpora e sua tradução automática para o inglês. O trabalho envolve o processamento
computacional de um corpus do português; o desenvolvimento de um conjunto de
regras que permitam um melhor processamento desse padrão, sobretudo resolvendo o
problema de coordenação adverbial; um teste da intuição de falantes nativos do
português em vista da identificação do valor colocacional do padrão linguístico
estudado; uma avaliação da sensibilidade de medidas de associação para a
identificação de colocações com este padrão; o desenvolvimento de um classificador
automático de colocações com base em métodos de aprendizagem supervisionada; a
construção de um léxico bilíngue deste tipo de colocações; e a avaliação da tradução
automática deste padrão para o inglês.
Na primeira fase do estudo, um corpus do português de grande porte, o
CETEMPúlico, composto por 191 milhões de palavras de textos jornalísticos, foi
processado computacionalmente por meio da cadeia de processamento STRING, que
faz desde a segmentação do texto até sua análise sintática. Nesta fase, uma série de
regras com vistas a um melhor processamento de casos de coordenação adverbial em
português foram criadas e incorporadas na STRING. Os resultados obtidos para
desambiguação de partes do discurso consistem em uma medida-f de 0.724, já para
chunking e extração de dependências, uma medida-f de 0.810 foi obtida.
Uma vez processado o corpus, 65.535 dependências sintáticas entre verbo e
advérbio terminado em –mente foram extraídas. Em seguida, uma série de filtros
foram aplicados ao resultado da extração para que fossem excluídos desde o início
casos que não apresentavam potencial para formar colocações. Primeiramente, um
filtro de frequência que excluía pares que ocorrem menos de 5 vezes no corpus foi
adotado. Também foram excluídos bigramas que incluíam verbos de ligação, assim
como bigramas que incluíam classes adverbiais que apresentam pouco ou nenhum
potencial colocacional. Uma classificação previamente existente de advérbios
terminados em –mente em português foi utilizada para este fim. Esta classificação foi
estendida em aproximadamente 500 advérbios e em seguida incorporada na cadeia de
processamento STRING como parte do presente estudo. Uma série de critérios
propostos para a classificação de advérbios terminados em –ment, em francês, foi
tomada como o conjunto de princípios linguísticos que serviram de base para a
classificação dos advérbios em português.
Após a fase de filtragem, 5.793 pares de verbo e advérbio terminado em –mente
restaram da extração. Para que se chegasse a uma lista de colocações deste padrão em
português, esses 5.793 pares, considerados como o conjunto de pares-candidatos,
passaram por uma classificação manual que etiquetava os pares como “colocação” ou
como “não colocação”. Uma série de testes linguísticos foram desenvolvidos para a
classificação dos pares. O objetivo desses testes era facilitar a identificação deste tipo de colocação por meio de princípios sintático-semânticos que discutivelmente
refletem a existência de um caráter colocacional em um par ou grupo de palavras.
Como resultado da classificação manual, 501 bigramas foram considerados
colocações dos 5.793 candidatos. Pôde-se notar que a frequência dos pares no corpus
estava de certa forma ligada ao seu caráter colocacional, uma vez que 60 por cento
dos pares mais frequentes, contra 8.6 por cento do total de candidatos, foram
considerados como casos de colocação.
Para averiguar a intuição de falantes nativos do português a respeito desse padrão
colocacional, uma tarefa de classificação foi desempenhada com uma amostra de 30
pares selecionados aleatoriamente da lista de candidatos – 15 tendo sido previamente
classificados como colocações, e 15 como não colocações. Vinte e um falantes
nativos do português foram recrutados para a tarefa de classificação, dos quais 13
eram falantes nativos do português europeu, e 8 do português brasileiro. Foi possível
concluir com o resultado dessa experiência que o padrão colocacional tratado é
extremamente problemático no que diz respeito a sua identificação. A medida Kappa
de acordo entre anotadores para a amostra de 30 pares foi de 0.06, o que, embora
possa ser interpretado como “leve acordo”, é ainda discutivelmente um valor
consideravelmente baixo. A dificuldade de se explicar o próprio conceito de
colocação assim como o tamanho reduzido da amostra seriam algumas das razões
para o baixo nível de convergência alcançado.
Haja vista a baixa qualidade dos resultados alcançados com a tarefa de
classificação envolvendo falantes nativos do português, uma série de medidas de
associação foram testadas em vista do padrão colocacional tratado. Primeiramente,
constatou-se que o limiar de referência existente para a análise das medidas “t test” e
“chi-quadrado” não apresenta resultados satisfatórios na identificação do tipo de
colocação tratado. Em seguida, a sensibilidade dessas mesmas medidas, e também de
“Informação Mútua”, “Log-Likelihood Ratio”, “Coeficiente Dice”, e “Unigram
Subtuples”, foi testada com base em sua correlação com a classificação manual dos
pares-candidatos. Constatou-se que “Informação Mútua”, “Log-Likelihood Ratio”, e
“Unigram Subtuples” são as medidas de associação com maior correlação com a
classificação manual, o que representa um desempenho satisfatório dessas medidas
para a identificação do padrão colocacional sob estudo.
Em seguida, técnicas de aprendizagem de máquina supervisionada foram
utilizadas para que, a partir do conjunto de pares-candidatos classificados
manualmente e seus respectivos valores de medidas associação, fosse possível treinar
um classificador automático de colocações. Os resultados alcançados com esta
experiência são extremamente promissores. O desempenho de quarenta e cinco
classificadores disponíveis na ferramenta de aprendizagem de máquina WEKA foi
testado com base em validação cruzada. O classificador que apresentou o melhor
resultado foi “RotationForest”, que alcançou uma medida-f de 0.816 em um corpus de
treino balanceado composto pelos 501 bigramas classificados como colocação, mais
outros 501 bigramas classificados como não colocação. A estratégia que consiste em
combinar diferentes classificadores por meio do algoritmo “Vote”, disponível na
ferramenta WEKA, provou ser capaz de melhorar ainda mais os resultados. O
desempenho de uma série de combinações foi testado, e o melhor resultado foi
alcançado com a combinação “Rotation Forest” e “LMT”. Para validar os resultados
obtidos, o classificador proveniente da combinação desses dois algoritmos foi testado
em um corpus não visto, o NILC/São Carlos, consideravelmente menor que o corpus
de treino. Considerando os casos de colocação que ocorrem nos dois corpora e
excluindo-se casos de hápax legomena no NILC/São Carlos, o classificador alcançou uma medida-f de 0.733 para o corpus não visto, o que pode considerado bastante
promissor devido à considerável diferença de tamanho entre os dois corpora.
Após os testes com os diferentes métodos mencionados acima, compilou-se um
léxico bilíngue português-inglês contendo o padrão colocacional tratado. Três corpora
paralelos e um dicionário de colocações foram utilizados como fontes de referência
para que versões equivalentes das colocações em inglês fossem estabelecidas. O
dicionário adotado, o Oxoford Collocations Dictionary, foi considerado como fonte
principal já que, mais que apenas ocorrências em um corpus paralelo, entradas em um
dicionário de colocações atestam o verdadeiro valor colocacional das combinações
em inglês.
Uma vez construído o léxico, as equivalências deste tipo de colocação entre
português e inglês foram utilizadas como referencia para a avaliação de três sistemas
de tradução automática disponíveis gratuitamente na rede: Google Translate,
Systranet, e Reverso. Exemplos do contexto de ocorrência dos pares em português
foram extraídos do corpus CETEMPúblico e então traduzidos automaticamente para o
inglês com esses três sistemas. Foi constatado que a tradução da maioria dos pares é
correta no sentido de não infringir regras gramaticais da língua, mas, em contrapartida,
a tradução sugerida para a maioria dos pares não reflete uma escolha lexical fluente
em inglês. A avaliação da fluência das traduções foi feita tomando-se como referência
medidas de associação calculadas para os pares com base em dados de frequência do
corpus do inglês Collins Wordbanks.
De modo geral, os resultados obtidos com este trabalho demonstram que o padrão
linguístico formado por verbo e advérbio terminado em –mente impõe uma série de
obstáculos a diversos níveis de processamento de linguagem natural, desde
desambiguação de partes do discurso até tradução automática. A identificação do
valor colocacional deste padrão também mostrou-se problemática, sobretudo quando
a classificação de diversos anotares, ainda que falantes nativos do português, é
considerada. Por fim, espera-se que os métodos testados no decorrer desta pesquisa
possam não somente servir a um melhor tratamento computacional do padrão
estudado em português, mas que possam também ser replicados a outros problemas
linguísticos, sobretudo àqueles relacionados a termos compostos e expressões
multipalavra em geral.
Description
Dissertação de mestrado, Processamento de linguagem natural e tecnologia da linguagem humana, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve. UFR Sciences du Langage,
de L’Homme et de la Societé, Université de Franche-Comté, 2012
Keywords
Colocações Processamento de linguagem natural Advérbios terminados em -mente Medidas de associação Tradução automática