Name: | Description: | Size: | Format: | |
---|---|---|---|---|
125.15 KB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
As formas gráficas (tokens) que constituem as palavras de um texto são muitas vezes
ambíguas, podendo frequentemente uma mesma forma corresponder a diferentes flexões
de duas ou mais entradas lexicais distintas. Algumas dessas formas correspondem
a palavras ‘exóticas’, isto é, palavras pouco frequentes ou até caídas em desuso.
O objectivo deste estudo é a determinação, a partir do corpus do CETEMPúblico, das
formas ambíguas mais frequentes de palavras exóticas do Português, com vista à
construção de um filtro que, durante a fase de análise lexical, elimine o ‘ruído’ provocado
por essas formas exóticas e que permita assim reduzir a ambiguidade formal dos
textos, simplificando as fases posteriores do seu processamento automático.
Description
Keywords
Processamento Computacional de Linguagem Natural Línguística de corpora
Citation
Baptista, Jorge; Faísca, Luís. Um filtro para palavras exóticas frequentes em Português, Seminários de Linguística, 4, 1-24, 2001.