A carregar...
Projeto de investigação
Center of Linguistics of the University of Lisbon
Financiador
Autores
Publicações
Early experiments on automatic annotation of Portuguese medieval texts
Publication . Bico, Maria Inês; Baptista, Jorge; Batista, Fernando; Cardeira, Esperança
This paper presents the challenges and solutions adopted to the lemmatization and part-of-speech (PoS) tagging of a corpus of Old Portuguese texts (up to 1525), to pave the way to the implementation of an automatic annotation of these Medieval texts. A highly granular tagset, previously devised for Modern Portuguese, was adapted to this end. A large text (similar to 155 thousand words) was manually annotated for PoS and lemmata and used to train an initial PoS-tagger model. When applied to two other texts, the resulting model attained 91.2% precision with a textual variant of the same text, and 67.4% with a new, unseen text. A second model was then trained with the data provided by the previous three texts and applied to two other unseen texts. The new model achieved a precision of 77.3% and 82.4%, respectively.
Evidências do português médio no corpus de textos antigos
Publication . Bico, Maria Inês; Cardeira, Esperança; Baptista, Jorge; Batista, Fernando
A partir de um conjunto de dados semi-automaticamente anotados do Corpus de Textos Antigos (CTA), este artigo propõe-se a analisar os resultados obtidos sobre a síncope de -d- intervocálico no morfema da 2.ª pessoa plural, e a consequente resolução do hiato, e as terminações de Particípio Passado -udo/-ido nos verbos com origem etimológica nas 2.ª e 3.ª conjugações latinas. A novidade deste artigo está no recurso a métodos de Processamento de Linguagem Natural (PLN) para a otimização da obtenção e extração sistemática dos dados relevantes para análise, contribuindo para um estudo que engloba um maior conjunto de textos. É apresentada a metodologia adotada para a anotação dos dados, e consequente extração dos dados relevantes à análise, afirmando-se a importância do recurso a métodos e ferramentas de PLN para o estudo linguístico e para a descrição dos estados anteriores da língua portuguesa.
Unidades organizacionais
Descrição
Palavras-chave
Contribuidores
Financiadores
Entidade financiadora
Fundação para a Ciência e a Tecnologia
Programa de financiamento
6817 - DCRRNI ID
Número da atribuição
UIDP/00214/2020
