Percorrer por autor "Baptista, Jorge"
A mostrar 1 - 10 de 37
Resultados por página
Opções de ordenação
- A elaboração de um léxico-gramática para os adjetivos do Português BrasileiroPublication . Martinez, Ryan Saldanha; Baptista, Jorge; Vale, Oto AraújoEste artigo descreve uma classificação e descrição em larga escala, ainda em andamento, dos adjetivos do português brasileiro. Classificamos em predicativo ou n ̃ao predicativo os 3.367 lemas mais frequentes de adjetivo em um corpus de referência, o que corresponde a 92.09% das ocorrências de adjetivos nesse corpus. Os adjetivos predicativos receberam classificações adicionais com base no número (um ou dois) e tipo de argumentos (grupo nominal ou ora ̧c ̃ao), o que levou a seis classes diferentes de adjetivo predicativo, acrescidos de outras duas subclasses. Também descrevemos as propriedades distribucionais de cada adjetivo predicativo: sujeito e complemento humano ou n ̃ao humano, modo dos argumentos oracionais, verbos copulativos e preposições. A classe mais representativa foi a dos adjetivos não predicativos, seguida pelos adjetivos intransitivos com grupo nominal e com sujeito oracional, respetivamente. Os adjetivos tendem a se construir com verbo copulativo ser, selecionar mais argumentos não humanos e, quando estes são orações, só mais comumente reduzidas de infinitivo ou orações modo subjuntivo. As preposições mais comumente aceitas foram para de e a.
- A elaboração de um léxico-gramática para os adjetivos do Português BrasileiroPublication . Martinez, Ryan Saldanha; Baptista, Jorge; Vale, Oto AraújoEste artigo descreve uma classificação e descrição em larga escala, ainda em andamento, dos adjetivos do português brasileiro. Classificamos em predicativo ou não predicativo os 3.367 lemas mais frequentes de adjetivo em um corpus de referência, o que corresponde a 92.09% das ocorrências de adjetivos nesse corpus. Os adjetivos predicativos receberam classificações adicionais com base no número (um ou dois) e tipo de argumentos (grupo nominal ou oração), o que levou a seis classes diferentes de adjetivo predicativo, acrescidos de outras duas subclasses. Também descrevemos as propriedades distribucionais de cada adjetivo predicativo: sujeito e complemento humano ou não humano, modo dos argumentos oracionais, verbos copulativos e preposições. A classe mais representativa foi a dos adjetivos não predicativos, seguida pelos adjetivos intransitivos com grupo nominal e com sujeito oracional, respetivamente. Os adjetivos tendem a se construir com verbo copulativo ser, selecionar mais argumentos não humanos e, quando estes são orações, são mais comumente reduzidas de infinitivo ou orações no modo subjuntivo. As preposições mais comumente aceitas foram para, de e a.
- Aprendizado por transferência para correção automática de redaçãoPublication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, JorgeA tarefa de Correção Automática de Redação tem despertado crescente interesse na ´área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
- Aprendizado por transferência para correção automática de redaçãoPublication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, JorgeA tarefa de Correção Automática de Redação tem despertado crescente interesse na área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
- Assisting European Portuguese teaching: linguistic features extraction and automatic readability classifierPublication . Curto, Pedro; Mamede, Nuno; Baptista, JorgeThis paper describes two automatic systems: a linguistic features extractor and a text readability classifier for European Portuguese texts. Its main goal is to assist the selection of adequate reading materials to support Portuguese teaching, especially as a second language. To the feature extraction from texts, the system uses several Natural Language Processing (NLP) tools. Currently, 52 features are extracted: parts-of-speech (POS), syllables, words, chunks and phrases, averages and frequencies, among others. A classifier was created using these features and a corpus, previously annotated readability level, adopting the five-levels language classification official standard for Portuguese as Second Language. In a five-levels (from A1 to C1) scenario, the best-performing learning algorithm (LogitBoost) achieved an accuracy of 75.11% with a root mean square error (RMSE) of 0.269. In a three-levels (A, B and C) scenario, the best-performing learning algorithm (C4.5 grafted) achieved 81.44% accuracy, with a RMSE of 0.346.
- Authorship attribution in portuguese using character N-gramsPublication . Markov, Ilia; Baptista, Jorge; Pichardo-Lagunas, ObduliaFor the Authorship Attribution (AA) task, character n-grams are considered among the best predictive features. In the English language, it has also been shown that some types of character n-grams perform better than others. This paper tackles the AA task in Portuguese by examining the performance of different types of character n-grams, and various combinations of them. The paper also experiments with different feature representations and machine-learning algorithms. Moreover, the paper demonstrates that the performance of the character n-gram approach can be improved by fine-tuning the feature set and by appropriately selecting the length and type of character n-grams. This relatively simple and language-independent approach to the AA task outperforms both a bag-of-words baseline and other approaches, using the same corpus.
- Automated anonymization of text documentsPublication . Dias, Francisco; Mamede, Nuno; Baptista, JorgeSharing data in the form of text is important for a wide range of activities but it also raises a concern about privacy when sharing data that could be sensitive. Automated text anonymization is a solution for removing all the sensitive information from documents. However, this is a challenging task due to the unstructured form of textual data and the ambiguity of natural language. In this work, we present our implementation of an automated anonymization system, built in a modular structure, for documents written in Portuguese. Four different methods of anonymization are evaluated and compared. Two methods replace the sensitive information by artificial labels: suppression and tagging. The other two methods replace the information by textual expressions: random substitution and generalization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information.
- Automatic generation of exercises on passive transformation in portuguesePublication . Baptista, Jorge; Lourenço, Sandra; Mamede, Nuno J.Technology plays a very important role in education and Intelligent Computer-Assisted Language Learning (iCALL) has emerged as a complementary or even alternative method to the conventional language teaching practices. The automatic generation (and correction) of language exercises based on real texts extracted from corpora constitutes a non-trivial challenge to iCALL tutorial systems, and may involve the use of sophisticated Natural Language Processing tools and large-scale linguistic resources. This paper presents the main issues related to the automatic generation of exercises on the Passive transformation, a commonly occurring type of exercises in language textbooks, but also a very complex topic of Portuguese grammar. The paper describes the methods used to produce a large batch of passive-active sentence pairs, where the active sentence was automatically generated from naturally occurring passive sentences, taken from a large-sized, publicly available, corpus. Sentence pairs are ranked by difficulty level. A sample of randomly selected sentence pairs (40 from difficult level, 100 from medium, and 100 from easy level) was manually evaluated by an expert. Results are presented and error analysis is performed. The sentence pairs can be used as prime and correct answer for iCALL systems.
- Avaliação automática do nível de complexidade de textos em Português EuropeuPublication . Ribeiro, Eugénio; Mamede, Nuno; Baptista, JorgeA avaliação da inteligibilidade de textos e a sua classificação por níveis de complexidade é essencial para o ensino de língua e para indústrias relacionadas com a linguagem que dependem de uma comunicação eficaz. O Quadro Europeu Comum de Referência para as Línguas (CEFR) é uma referência amplamente reconhecida para a classificação dos níveis de proficiência linguística. Este quadro pode ser utilizado não apenas para avaliar a proficiência de aprendentes de uma língua, mas também, de uma perspetiva de inteligibilidade, como um meio de identificar a proficiência necessária para compreender um texto. O objetivo deste estudo é desenvolver e avaliar modelos automáticos capazes de classificar textos em português europeu de acordo com os níveis de complexidade definidos pelo CEFR. Para tal, exploramos o ajuste de vários modelos de base pré-treinados em dados textuais utilizados para fins de avaliação de proficiência e exploramos abordagens que tiram partido da natureza ordinal dos níveis. Realizamos ainda uma análise preliminar da capacidade de base que modelos baseados em instruções têm para desempenhar esta tarefa. Nas experiências, os melhores modelos conseguem atingir mais de 80% de taxa de acerto e 75% de medida F1 mas têm dificuldade em generalizar para diferentes tipos de texto, o que revela a necessidade de dados de treino adicionais e mais diversificados.
- Avaliação de recursos computacionais para o portuguêsPublication . Gonçalves, Matilde; Coheur, Luisa; Baptista, Jorge; Mineiro, AnaTêm sido desenvolvidas várias ferramentas para o processamento da língua portuguesa. No entanto, devido a escolhas variadas na base dos comportamentos destas ferramentas (diferentes opções de pré-processamento, diferentes conjuntos de etiquetas morfossintáticas e de dependências, etc.), torna-se difícil ter uma ideia do desempenho comparativo de cada uma. Neste trabalho, avaliamos um conjunto de ferramentas gratuitas e publicamente disponíveis, que realizam as tarefas de Etiquetação Morfossintática e de Reconhecimento de Entidades Mencionadas, para a língua portuguesa. São tidos em conta doze modelos diferentes para a primeira tarefa e oito para a segunda. Todos os recursos usados nesta avaliaçãao (tabelas de mapeamento de etiquetas, corpora de referência, etc.) são disponibilizados, permitindo replicar/ afinar os resultados. Apresentamos ainda um estudo qualitativo de dois analisadores de dependências. Não temos conhecimento de nenhum trabalho similar recente, isto ´e, que tenha em conta as ferramentas atuais disponíveis, realizado para a língua portuguesa.
