A supervised machine learning method for word sense disambiguation of Portuguese nouns

Marco, Marcos Eduardo Zampieri de

http://hdl.handle.net/10400.1/8689

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
MarcosZampieriDissertationFinalVersion.pdf		622.3 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Marco, Marcos Eduardo Zampieri de

Orientador(es)

Orasan, Constantin

Baptista, Jorge

Resumo(s)

Word Sense Disambiguation (WSD) is vital in many Natural Language Processing (NLP) applications. This work aims to explore supervised machine learning techniques for the disambiguation of Portuguese nouns. The primary motivation for this work was the conceptualization of WSD integrated in an Information Retrieval (IR) engine in order to show how WSD may improve document retrieval from the world-wide web. After a brief overview of the most relevant applications for WSD, the main approaches and state-of-the-art techniques available for the task are presented. For the comparison of different WSD algorithms and techniques, a selection of ambiguous words from a Portuguese academic vocabulary was taken and a catalogue of word senses was established for each of them. A training corpus of real occurrences of each word in context was collected, providing manually annotated contextual data for each sense of the ambiguous word. The corpus was processed and features were extracted using Python and the Natural Language Tool Kit (NLTK) to feed into machine learning algorithms. Results are evaluated and discussed.

Desambiguação lexical de sentido, do inglês Word Sense Disambiguation (WSD), é uma tarefa vital para muitas aplicações na área do Processamento de Linguagem Natural. O trabalho aqui apresentado visa explorar técnicas de aprendizado supervisionado para a desambiguação de substantivos em Português. A motivação principal desse trabalho surgiu da ideia de integrar técnicas de desambiguação lexical a um motor de busca para recuperação de informação e com isso, mostrar como um módulo de desambiguação automática pode aumentar a performance da recuperação de documentos da internet. Após uma breve introdução acerca das aplicações mais relevantes de WSD, as principais técnicas para a resolução da tarefa serão discutidas.Com intuito de estudar diferentes algoritmos e técnicas para desambiguação automática, foi efetuada a seleção de palavras ambíguas a partir de um vocabulário académico do Português e um corpus de ocorrências reais de cada palavra em contexto foi coletado. O corpus foi processado utilizando a linguagem de programação Python e os componentes do NLTK e diferentes algoritmos foram utilizados. Ao fim, resultados são avaliados e discutidos.

Descrição

Dissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2010

URI

http://hdl.handle.net/10400.1/8689

Coleções

UA01-Teses
FCH1-Teses

Licença CC

cclicense-by

Ver registo completo