Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa

Financiador

Organização

Publicações

Automated anonymization of text documents

Publication . Dias, Francisco; Mamede, Nuno; Baptista, Jorge

Sharing data in the form of text is important for a wide range of activities but it also raises a concern about privacy when sharing data that could be sensitive. Automated text anonymization is a solution for removing all the sensitive information from documents. However, this is a challenging task due to the unstructured form of textual data and the ambiguity of natural language. In this work, we present our implementation of an automated anonymization system, built in a modular structure, for documents written in Portuguese. Four different methods of anonymization are evaluated and compared. Two methods replace the sensitive information by artificial labels: suppression and tagging. The other two methods replace the information by textual expressions: random substitution and generalization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information.

2016Artigo científico

Acesso restrito

Ver mais

Aprendizado por transferência para correção automática de redação

Publication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge

A tarefa de Correção Automática de Redação tem despertado crescente interesse na ´área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.

2025-12-31Artigo científico

Acesso aberto

Ver mais

Entidade financiadora

Fundação para a Ciência e a Tecnologia

Programa de financiamento

6817 - DCRRNI ID

Número da atribuição

UID/CEC/50021/2013