Repository logo
 
Publication

A supervised machine learning method for word sense disambiguation of Portuguese nouns

datacite.subject.fosHumanidades::Artespt_PT
datacite.subject.fosHumanidades::Outras Humanidadespt_PT
dc.contributor.advisorOrasan, Constantin
dc.contributor.advisorBaptista, Jorge
dc.contributor.authorMarco, Marcos Eduardo Zampieri de
dc.date.accessioned2016-09-13T12:23:01Z
dc.date.available2016-09-13T12:23:01Z
dc.date.issued2010
dc.date.submitted2010
dc.descriptionDissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2010pt_PT
dc.description.abstractWord Sense Disambiguation (WSD) is vital in many Natural Language Processing (NLP) applications. This work aims to explore supervised machine learning techniques for the disambiguation of Portuguese nouns. The primary motivation for this work was the conceptualization of WSD integrated in an Information Retrieval (IR) engine in order to show how WSD may improve document retrieval from the world-wide web. After a brief overview of the most relevant applications for WSD, the main approaches and state-of-the-art techniques available for the task are presented. For the comparison of different WSD algorithms and techniques, a selection of ambiguous words from a Portuguese academic vocabulary was taken and a catalogue of word senses was established for each of them. A training corpus of real occurrences of each word in context was collected, providing manually annotated contextual data for each sense of the ambiguous word. The corpus was processed and features were extracted using Python and the Natural Language Tool Kit (NLTK) to feed into machine learning algorithms. Results are evaluated and discussed.pt_PT
dc.description.abstractDesambiguação lexical de sentido, do inglês Word Sense Disambiguation (WSD), é uma tarefa vital para muitas aplicações na área do Processamento de Linguagem Natural. O trabalho aqui apresentado visa explorar técnicas de aprendizado supervisionado para a desambiguação de substantivos em Português. A motivação principal desse trabalho surgiu da ideia de integrar técnicas de desambiguação lexical a um motor de busca para recuperação de informação e com isso, mostrar como um módulo de desambiguação automática pode aumentar a performance da recuperação de documentos da internet. Após uma breve introdução acerca das aplicações mais relevantes de WSD, as principais técnicas para a resolução da tarefa serão discutidas.Com intuito de estudar diferentes algoritmos e técnicas para desambiguação automática, foi efetuada a seleção de palavras ambíguas a partir de um vocabulário académico do Português e um corpus de ocorrências reais de cada palavra em contexto foi coletado. O corpus foi processado utilizando a linguagem de programação Python e os componentes do NLTK e diferentes algoritmos foram utilizados. Ao fim, resultados são avaliados e discutidos.pt_PT
dc.description.sponsorshipErasmus Munduspt_PT
dc.identifier.urihttp://hdl.handle.net/10400.1/8689
dc.language.isoengpt_PT
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_PT
dc.titleA supervised machine learning method for word sense disambiguation of Portuguese nounspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsrestrictedAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.grantorUniversidade do Algarve. Faculdade de Ciências Humanas e Sociaispt_PT
thesis.degree.levelMestrept_PT
thesis.degree.nameMestrado em Ciências da Linguagempt_PT

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
MarcosZampieriDissertationFinalVersion.pdf
Size:
622.3 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.46 KB
Format:
Item-specific license agreed upon to submission
Description: