Repository logo
 

Search Results

Now showing 1 - 5 of 5
  • Early experiments on automatic annotation of Portuguese medieval texts
    Publication . Bico, Maria Inês; Baptista, Jorge; Batista, Fernando; Cardeira, Esperança
    This paper presents the challenges and solutions adopted to the lemmatization and part-of-speech (PoS) tagging of a corpus of Old Portuguese texts (up to 1525), to pave the way to the implementation of an automatic annotation of these Medieval texts. A highly granular tagset, previously devised for Modern Portuguese, was adapted to this end. A large text (similar to 155 thousand words) was manually annotated for PoS and lemmata and used to train an initial PoS-tagger model. When applied to two other texts, the resulting model attained 91.2% precision with a textual variant of the same text, and 67.4% with a new, unseen text. A second model was then trained with the data provided by the previous three texts and applied to two other unseen texts. The new model achieved a precision of 77.3% and 82.4%, respectively.
  • Linguistic resources for paraphrase generation in portuguese: a lexicon-grammar approach
    Publication . Barreiro, Anabela; Mota, Cristina; Baptista, Jorge; Chacoto, Lucília; Carvalho, Paula
    This paper presents a new linguistic resource for the generation of paraphrases in Portuguese, based on the lexicon-grammar framework. The resource components include: (i) a lexicon-grammar based dictionary of 2100 predicate nouns co-occurring with the support verb ser de 'be of', such as in ser de uma ajuda inestimavel 'be of invaluable help'; (ii) a lexicon-grammar based dictionary of 6000 predicate nouns co-occurring with the support verb fazer 'do' or 'make', such as in fazer uma comparacao 'make a comparison'; and (iii) a lexicon-grammar based dictionary of about 5000 human intransitive adjectives co-occurring with the copula verbs ser and/or estar 'be', such as in ser simpatico 'be kind' or estar entusiasmado 'be enthusiastic'. A set of local grammars explore the properties described in linguistic resources, enabling a variety of text transformation tasks for paraphrasing applications. The paper highlights the different complementary and synergistic components and integration efforts, and presents some preliminary evaluation results on the inclusion of such resources in the eSPERTo paraphrase generation system.
  • Synchronous and asynchronous distance learning of anaphora in foreign languages
    Publication . Bruscato, A. M.; Baptista, Jorge
    This paper analyses the influence of the distance learning modality (synchronous/asynchronous) in the learning of anaphora in English and Spanish as foreign languages, based on the results of a course offered to 45 Modern Language students at a Brazilian university in the first semester of 2020. Factors as the level of proficiency, type of task, and degree of motivation were also considered in this experimental study. Two experimental groups and one control group were compared in four written tests. English learners demonstrated a higher prior knowledge of anaphora than Spanish learners and showed the best test results. A positive and moderate correlation was found between the knowledge of anaphora, level of proficiency, and degree of motivation to study the language. Although the experimental groups made progress in the reading tests, the same did not happen in the writing tests. Finally, the difference was not significant between the two experimental groups.
  • Avaliação de recursos computacionais para o português
    Publication . Gonçalves, Matilde; Coheur, Luisa; Baptista, Jorge; Mineiro, Ana
    Têm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliaçãao (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/ afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto ´e, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
  • Determinação de um mínimo paremiológico do português europeu
    Publication . Reis, Sónia; Baptista, Jorge
    O principal objetivo deste estudo é apresentar o ‘mínimo paremiológico’ do português europeu, isto é, a lista dos provérbios mais conhecidos e mais frequentemente utilizados pela generalidade dos falantes da comunidade linguística do português europeu. Para o estabelecimento do ‘mínimo paremiológico’ do português europeu foram utilizados diferentes procedimentos metodológicos ao longo de cinco anos. Numa primeira fase, coligiu-se uma base de dados digital com mais de 114.000 entradas (provérbios e variantes) e fez-se uma primeira seleção manual dos provérbios considerados mais usuais, tendo-se depois calculado a concordância entre anotadores, que foi bastante elevada. Procedeu-se também ao cálculo da frequência de provérbios e variantes (n. de ocorrências) em várias fontes: (1) em dicionários e coletâneas de provérbios; (2) num corpus de textos jornalísticos (CETEMPúblico, Santos & Rocha, 2001); (3) em manuais escolares de Português e de Português Língua não Materna; e (4) em dois motores de busca (Google e Bing). Procedeu-se ainda à aplicação de dois questionários distintos, online. Obteve-se assim uma lista de 318 provérbios – o mínimo paremiológico do português europeu. A lista dos 318 provérbios poderá́ ter diversas aplicações, quer para o desenvolvimento de instrumentos de diagnóstico ou terapia de certas patologias da linguagem, quer para a aprendizagem de português como língua estrangeira.