Repositório :: Percorrer por autor "Mamede, Nuno"

Percorrer por autor "Mamede, Nuno"

A mostrar 1 - 10 de 11

Apoio ao planeamento de viagens em transportes públicos
Publication . Correia, Marisol B.; Mamede, Nuno
Apresenta-se um sistema informático que elabora planos de viagens para pessoas utilizando transportes públicos e que escolhe os melhores de entre esses planos, em função dos critérios indicados pelo utilizador, como sejam, o tempo de duração da viagem, o preço dos bilhetes e a qualidade dos transportes.
1998-09Artigo científico Acesso aberto Ver mais
Aprendizado por transferência para correção automática de redação
Publication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge
A tarefa de Correção Automática de Redação tem despertado crescente interesse na ´área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
2025-12-31Artigo científico Acesso aberto Ver mais
Aprendizado por transferência para correção automática de redação
Publication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge
A tarefa de Correção Automática de Redação tem despertado crescente interesse na área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
2025-12-31Artigo científico Acesso aberto Ver mais
Aprendizado por transferência para correção automática de redação
Publication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge
A tarefa de Correção Automática de Redação tem despertado crescente interesse na área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataset (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de features em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
2025-12-31Artigo científico Acesso aberto Ver mais
Assisting European Portuguese teaching: linguistic features extraction and automatic readability classifier
Publication . Curto, Pedro; Mamede, Nuno; Baptista, Jorge
This paper describes two automatic systems: a linguistic features extractor and a text readability classifier for European Portuguese texts. Its main goal is to assist the selection of adequate reading materials to support Portuguese teaching, especially as a second language. To the feature extraction from texts, the system uses several Natural Language Processing (NLP) tools. Currently, 52 features are extracted: parts-of-speech (POS), syllables, words, chunks and phrases, averages and frequencies, among others. A classifier was created using these features and a corpus, previously annotated readability level, adopting the five-levels language classification official standard for Portuguese as Second Language. In a five-levels (from A1 to C1) scenario, the best-performing learning algorithm (LogitBoost) achieved an accuracy of 75.11% with a root mean square error (RMSE) of 0.269. In a three-levels (A, B and C) scenario, the best-performing learning algorithm (C4.5 grafted) achieved 81.44% accuracy, with a RMSE of 0.346.
2016Artigo científico Acesso aberto Ver mais
Automated anonymization of text documents
Publication . Dias, Francisco; Mamede, Nuno; Baptista, Jorge
Sharing data in the form of text is important for a wide range of activities but it also raises a concern about privacy when sharing data that could be sensitive. Automated text anonymization is a solution for removing all the sensitive information from documents. However, this is a challenging task due to the unstructured form of textual data and the ambiguity of natural language. In this work, we present our implementation of an automated anonymization system, built in a modular structure, for documents written in Portuguese. Four different methods of anonymization are evaluated and compared. Two methods replace the sensitive information by artificial labels: suppression and tagging. The other two methods replace the information by textual expressions: random substitution and generalization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information.
2016Artigo científico Acesso restrito Ver mais
Avaliação automática do nível de complexidade de textos em Português Europeu
Publication . Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge
A avaliação da inteligibilidade de textos e a sua classificação por níveis de complexidade é essencial para o ensino de língua e para indústrias relacionadas com a linguagem que dependem de uma comunicação eficaz. O Quadro Europeu Comum de Referência para as Línguas (CEFR) é uma referência amplamente reconhecida para a classificação dos níveis de proficiência linguística. Este quadro pode ser utilizado não apenas para avaliar a proficiência de aprendentes de uma língua, mas também, de uma perspetiva de inteligibilidade, como um meio de identificar a proficiência necessária para compreender um texto. O objetivo deste estudo é desenvolver e avaliar modelos automáticos capazes de classificar textos em português europeu de acordo com os níveis de complexidade definidos pelo CEFR. Para tal, exploramos o ajuste de vários modelos de base pré-treinados em dados textuais utilizados para fins de avaliação de proficiência e exploramos abordagens que tiram partido da natureza ordinal dos níveis. Realizamos ainda uma análise preliminar da capacidade de base que modelos baseados em instruções têm para desempenhar esta tarefa. Nas experiências, os melhores modelos conseguem atingir mais de 80% de taxa de acerto e 75% de medida F1 mas têm dificuldade em generalizar para diferentes tipos de texto, o que revela a necessidade de dados de treino adicionais e mais diversificados.
2024-12-31Artigo científico Acesso aberto Ver mais
Exploring few-shot approaches to automatic text complexity assessment in european portuguese
Publication . Ribeiro, Eugénio; Antunes, David; Mamede, Nuno; Baptista, Jorge
The automatic assessment of text complexity has an important role to play in the context of language education. In this study, we shift the focus from L2 learners to adult native speakers with low literacy by exploring the new iRead4Skills dataset in European Portuguese. Furthermore, instead of relying on classical machine learning approaches or fine-tuning a pre-trained language model, we leverage the capabilities of prompt-based Large Language Models (LLMs), with a special focus on few-shot prompting approaches. We explore prompts with varying degrees of information, as well as different example selection approaches. Overall, the results of our experiments reveal that even a single example significantly increases the performance of the model and that few-shot approaches generalize better than fine-tuned models. However, automatic complexity assessment is a difficult and highly subjective task that is still far from solved.
2025-08-21Artigo científico Acesso aberto Ver mais
Processamento automático de expressões idiomáticas do português europeu
Publication . Antunes, David; Baptista, Jorge; Mamede, Nuno
Expressões idiomáticas verbais são expressões multipalavra em que o verbo principal ´e distribucional mente fixo com um ou mais dos seus argumentos. O significado global destas expressões ´e, geralmente, não composicional, isto ´e, não pode ser regularmente inferido a partir do significado individual dos seus constituintes, quando usados separadamente. O principal objetivo deste trabalho ´e a construção de um sistema capaz de processar expressões idiomáticas do português europeu, integrado de forma fluida numa cadeia (pipeline) de processamento de linguagem natural. Para tal, foram desenvolvidas duas componentes fundamentais: (i) a criação de um corpus anotado com instancias de expressões idiomáticas verbais do português europeu, e (ii) o desenvolvimento de um sistema que gera regras de análise de dependência para identificar automaticamente expressões idiomáticas com base nas restrições linguísticas representadas numa matriz léxico-gramatical. O sistema foi avaliado com frases produzidas manualmente, frases geradas artificialmente (por um m´modulo específico do sistema) e usando documentos selecionados a partir de dois corpora e onde foram anotadas instâncias de expressões idiomáticas. Os resultados globais indicam que a Precisão do sistema ´e bastante satisfatória, enquanto a Abrangência (Recall) ´e menos favorável. Estes dados destacam a necessidade de direcionar esforços para melhorar o desempenho do sistema, nomeadamente das regras que permitem identificar automaticamente as expressões fixas em textos. Uma parte do corpus utilizado bem como das anotações de expressões idiomáticas são disponibilizados para a comunidade científica.
2025-06-30Artigo científico Acesso aberto Ver mais
The role of adverbs in language variety identification: the case of Portuguese multi-word adverbs
Publication . Meira Grein Muller, Izabela; Baptista, Jorge; Mamede, Nuno
This paper aims to assess the role of multi-word compound adverbs in distinguishing Brazilian Portuguese (PT-BR) from European Portuguese (PT-PT). For this study, a large lexicon of Portuguese multi-word adverbs (3,665) was annotated with diatopic information regarding language variety, which has not been available so far. The paper then investigates the distribution of this category in the DSL (Dialect and Similar Language) corpus of journalistic texts, representing Brazilian (PT-BR) and European Portuguese (PT-PT). Results indicate a substantial similarity between the two varieties, with a considerable overlap in the lexicon of multiword adverbs. Additionally, specific adverbs unique to each language variety were identified. Lexical entries recognized in the corpus represent 18.2% (PT-BR) to 19.5% (PT-PT) of the lexicon, and approximately 5,700 matches in each partition. While many of the matches are spurious due to ambiguity with otherwise nonidiomatic, free strings, occurrences of adverbs marked as exclusive to one variety in texts from the other variety are rare.
2024-06-20Documento de conferência Acesso aberto Ver mais

Percorrer por autor "Mamede, Nuno"

Resultados por página

Opções de ordenação