A carregar...
Projeto de investigação
Instituto de Engenharia de Sistemas e Computadores, Investigação e Desenvolvimento em Lisboa
Financiador
Autores
Publicações
Automated anonymization of text documents
Publication . Dias, Francisco; Mamede, Nuno; Baptista, Jorge
Sharing data in the form of text is important for a wide range of activities but it also raises a concern about privacy when sharing data that could be sensitive. Automated text anonymization is a solution for removing all the sensitive information from documents. However, this is a challenging task due to the unstructured form of textual data and the ambiguity of natural language. In this work, we present our implementation of an automated anonymization system, built in a modular structure, for documents written in Portuguese. Four different methods of anonymization are evaluated and compared. Two methods replace the sensitive information by artificial labels: suppression and tagging. The other two methods replace the information by textual expressions: random substitution and generalization. Evaluation showed that the use of the tagging and the generalization methods facilitates the reading of an anonymized text while preventing some semantic drifts caused by the remotion of the original information.
Aprendizado por transferência para correção automática de redação
Publication . Silveira, Igor Cataneo; Ribeiro, Eugénio; Mamede, Nuno; Baptista, Jorge
A tarefa de Correção Automática de Redação tem despertado crescente interesse na ´área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataste (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de fatures em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.
Unidades organizacionais
Descrição
Palavras-chave
Contribuidores
Financiadores
Entidade financiadora
Fundação para a Ciência e a Tecnologia
Programa de financiamento
6817 - DCRRNI ID
Número da atribuição
UID/CEC/50021/2013
