Repository logo
 

Search Results

Now showing 1 - 10 of 19
  • Early experiments on automatic annotation of Portuguese medieval texts
    Publication . Bico, Maria Inês; Baptista, Jorge; Batista, Fernando; Cardeira, Esperança
    This paper presents the challenges and solutions adopted to the lemmatization and part-of-speech (PoS) tagging of a corpus of Old Portuguese texts (up to 1525), to pave the way to the implementation of an automatic annotation of these Medieval texts. A highly granular tagset, previously devised for Modern Portuguese, was adapted to this end. A large text (similar to 155 thousand words) was manually annotated for PoS and lemmata and used to train an initial PoS-tagger model. When applied to two other texts, the resulting model attained 91.2% precision with a textual variant of the same text, and 67.4% with a new, unseen text. A second model was then trained with the data provided by the previous three texts and applied to two other unseen texts. The new model achieved a precision of 77.3% and 82.4%, respectively.
  • Parafraseamento automático de registo informal em registo formal na Língua Portuguesa
    Publication . Barreiro, Anabela Marques; Rebelo-Arnold, Ida; Baptista, Jorge; Mota, Cristina; Garcez, Isabel
    Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT, que envolvem a colocação normalizada de pronomes clíticos quando co-ocorrem com compostos verbais. A tarefa consiste em parafrasear e normalizar, entre outras, construções como vou-lhe/posso-lhe fazer uma surpresa em vou/posso fazer-lhe uma surpresa. Este artigo apresenta o processo de automatização de parafraseamento em português e conversão de construções típicas do registo informal ou da linguagem falada em construções de registo formal usadas na linguagem escrita. Ilustraremos o processo de automatização com exemplos extraídos do corpus e-PACT,que envolvem a colocação normalizada de pronomesclíticos quando co-ocorrem com compostos verbais.A tarefa consiste em parafrasear e normalizar, en-tre outras, constru ̧c ̃oes comovou-lhe/posso-lhefazeruma surpresaemvou/posso fazer-lheuma surpresa,em que o pronome cl ́ıticolhemigra de uma posi ̧c ̃aoencl ́ıtica imediatamente a seguir ao primeiro verbo docomposto verbal para uma posi ̧c ̃ao encl ́ıtica a seguirao verbo principal, que ́e o verbo respons ́avel pelasele ̧c ̃ao do argumento pronominal. O primeiro verbo ́e um verbo auxiliar ou um verbo volitivo, e.g.,querer.Este ́e um procedimento padronizado no processo de revisão em português europeu. Casos como este representam fenómenos linguísticos em que os estudantes de língua portuguesa e falantes em geral se confundem ou onde “tropeçam”. O artigo enfatiza a língua padrão em que os fenómenos observados ocorrem,descreve exemplos de interesse encontrados no cor-pus e apresenta uma solução automática, baseada na aplica ̧c ̃ao de gramáticas transformacionais genéricas,que facilitam a normalização de inadequações ou falhas sintáticas (registos informais) encontradas nas construções pesquisadas em construções padronizadas típicas da escrita formal ou escrita profissional.
  • Linguistic resources for paraphrase generation in portuguese: a lexicon-grammar approach
    Publication . Barreiro, Anabela; Mota, Cristina; Baptista, Jorge; Chacoto, Lucília; Carvalho, Paula
    This paper presents a new linguistic resource for the generation of paraphrases in Portuguese, based on the lexicon-grammar framework. The resource components include: (i) a lexicon-grammar based dictionary of 2100 predicate nouns co-occurring with the support verb ser de 'be of', such as in ser de uma ajuda inestimavel 'be of invaluable help'; (ii) a lexicon-grammar based dictionary of 6000 predicate nouns co-occurring with the support verb fazer 'do' or 'make', such as in fazer uma comparacao 'make a comparison'; and (iii) a lexicon-grammar based dictionary of about 5000 human intransitive adjectives co-occurring with the copula verbs ser and/or estar 'be', such as in ser simpatico 'be kind' or estar entusiasmado 'be enthusiastic'. A set of local grammars explore the properties described in linguistic resources, enabling a variety of text transformation tasks for paraphrasing applications. The paper highlights the different complementary and synergistic components and integration efforts, and presents some preliminary evaluation results on the inclusion of such resources in the eSPERTo paraphrase generation system.
  • Estimating lexical availability of European Portuguese proverbs
    Publication . Reis, Sónia; Baptista, Jorge
    This paper relates data on lexical availability with data on textual frequency of proverbs in European Portuguese. Each data source should provide different perspectives on the use of proverbs in the language. This should allow an empirically well-motivated selection of proverbs aiming at the development of NLP resources, specifically for applications for learning Portuguese as a Foreign Language and for the diagnosis/therapy of speech impairments/disabilities. A large database (over 114,000 proverbs and their variants) was independently classified by two annotators, according to intuitively estimated lexical availability. Next, a random, stratified sample was selected and lexical availability was then confirmed with an online survey. Frequency data was gathered from two web browsers and a large-sized, publicly available, corpus of journalistic texts. Results from the survey, the web and the corpus by and large confirm the initial intuitive classification and a core of commonly used proverbs was defined
  • Um filtro para palavras exóticas frequentes em Português
    Publication . Baptista, Jorge; Faísca, Luís
    As formas gráficas (tokens) que constituem as palavras de um texto são muitas vezes ambíguas, podendo frequentemente uma mesma forma corresponder a diferentes flexões de duas ou mais entradas lexicais distintas. Algumas dessas formas correspondem a palavras ‘exóticas’, isto é, palavras pouco frequentes ou até caídas em desuso. O objectivo deste estudo é a determinação, a partir do corpus do CETEMPúblico, das formas ambíguas mais frequentes de palavras exóticas do Português, com vista à construção de um filtro que, durante a fase de análise lexical, elimine o ‘ruído’ provocado por essas formas exóticas e que permita assim reduzir a ambiguidade formal dos textos, simplificando as fases posteriores do seu processamento automático.
  • Synchronous and asynchronous distance learning of anaphora in foreign languages
    Publication . Bruscato, A. M.; Baptista, Jorge
    This paper analyses the influence of the distance learning modality (synchronous/asynchronous) in the learning of anaphora in English and Spanish as foreign languages, based on the results of a course offered to 45 Modern Language students at a Brazilian university in the first semester of 2020. Factors as the level of proficiency, type of task, and degree of motivation were also considered in this experimental study. Two experimental groups and one control group were compared in four written tests. English learners demonstrated a higher prior knowledge of anaphora than Spanish learners and showed the best test results. A positive and moderate correlation was found between the knowledge of anaphora, level of proficiency, and degree of motivation to study the language. Although the experimental groups made progress in the reading tests, the same did not happen in the writing tests. Finally, the difference was not significant between the two experimental groups.
  • Avaliação de recursos computacionais para o português
    Publication . Gonçalves, Matilde; Coheur, Luisa; Baptista, Jorge; Mineiro, Ana
    Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliaçãao (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/ afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto ´e, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
  • Portuguese proverbs: types and variants
    Publication . Reis, Sónia; Baptista, Jorge
    Drawing on the methodology and previous results of Rassi et al. (2014) on the automatic identification of Brazilian Portuguese proverbs, this paper reports on an extension of that experiment, but now focused on the identification of the European Portuguese proverbs and their variants. Based on a large collection of over 56 thousand Portuguese proverbs and their variants, a database of proverb types was specifically built for natural language processing, along with the finite-state tools that allow for the identification of these strings in texts. Our aim is to make these linguistic resources and language processing tools publicly available, which will undoubtedly be deemed useful assets to other paremiologic studies.
  • Determinação de um mínimo paremiológico do português europeu
    Publication . Reis, Sónia; Baptista, Jorge
    O principal objetivo deste estudo é apresentar o ‘mínimo paremiológico’ do português europeu, isto é, a lista dos provérbios mais conhecidos e mais frequentemente utilizados pela generalidade dos falantes da comunidade linguística do português europeu. Para o estabelecimento do ‘mínimo paremiológico’ do português europeu foram utilizados diferentes procedimentos metodológicos ao longo de cinco anos. Numa primeira fase, coligiu-se uma base de dados digital com mais de 114.000 entradas (provérbios e variantes) e fez-se uma primeira seleção manual dos provérbios considerados mais usuais, tendo-se depois calculado a concordância entre anotadores, que foi bastante elevada. Procedeu-se também ao cálculo da frequência de provérbios e variantes (n. de ocorrências) em várias fontes: (1) em dicionários e coletâneas de provérbios; (2) num corpus de textos jornalísticos (CETEMPúblico, Santos & Rocha, 2001); (3) em manuais escolares de Português e de Português Língua não Materna; e (4) em dois motores de busca (Google e Bing). Procedeu-se ainda à aplicação de dois questionários distintos, online. Obteve-se assim uma lista de 318 provérbios – o mínimo paremiológico do português europeu. A lista dos 318 provérbios poderá́ ter diversas aplicações, quer para o desenvolvimento de instrumentos de diagnóstico ou terapia de certas patologias da linguagem, quer para a aprendizagem de português como língua estrangeira.
  • Authorship attribution in portuguese using character N-grams
    Publication . Markov, Ilia; Baptista, Jorge; Pichardo-Lagunas, Obdulia
    For the Authorship Attribution (AA) task, character n-grams are considered among the best predictive features. In the English language, it has also been shown that some types of character n-grams perform better than others. This paper tackles the AA task in Portuguese by examining the performance of different types of character n-grams, and various combinations of them. The paper also experiments with different feature representations and machine-learning algorithms. Moreover, the paper demonstrates that the performance of the character n-gram approach can be improved by fine-tuning the feature set and by appropriately selecting the length and type of character n-grams. This relatively simple and language-independent approach to the AA task outperforms both a bag-of-words baseline and other approaches, using the same corpus.