Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.7 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
An idiom is a string of words whose meaning is different from the meaning conveyed by its
individual words. This project will study Persian idioms with the structure N0 C1 V, which are
sentences with a free subject (N0), a frozen direct object (C1) and a verb (V). The purpose of this
project is to build a database of Persian idioms in order to be used in the computational
processing of this language. First, a selection of web sources was used for the collection of
idioms; second, from this a database of Persian idioms was built; third, a set of finite-state tools
was used to intersect the database with reference graphs and build FSTs (transducers) for corpus
exploring; forth, these FSTs were then used to extract idiom candidates from a large subtitles
Persian corpus; fifth, the resulting candidates lists was evaluated in order to: (a) estimate the
scope of the database; (b) determine the precision of the task of identifying the idioms, using the
finite-state tools; and (c) compare it with two association measures (t-test and chi-square).
Results show chi-square to be an efficient association measures to retrieve idioms candidates;
however, the finite state tolls allow for a better precision. Attention should also give to the
idioms´ main verb; namely, full verbs tend to yield more precise result than more
grammaticalized verbs such as support verbs. The database, in its current state, contains 364
verbal idioms form a single formal class.
Uma expressão idiomática é uma sequência de palavras cujo significado é diferente do significado veiculado pelas suas palavras quando usadas individualmente. Este projeto estudou as expressões idiomáticas em língua Persa com a estrutura N0 V C1, que são frases com um sujeito livre (N0), um objeto direto fixo (C1) e um verbo (V). O objetivo deste projeto é construir um banco de dados (ou léxico-gramática) de expressões idiomáticas persas, a fim de ser utilizado no processamento computacional desta língua. Em primeiro lugar, uma seleção de fontes da web foi utilizada para a recolha de expressões idiomáticas; a partir desta recolha, procedeu-se à construção de um banco de dados de expressões idiomáticas persas; seguidamente, usaram-se ferramentas próprias para construir máquinas de estados-finitos de referência e intercetá-las com o banco de dados e assim produzir FSTs (transdutores ) capazes de explorar corpora textuais; estes FSTs foram então usados para extrair sequências candidatas ao estatuto de expressão idiomática partir de um corpus Persa de legendas de filmes; em quinto lugar, as listas de candidatos resultantes foram avaliadas com o fim de: (a) estimar a extensão da base de dados; (b) determinar a precisão da tarefa de identificação das expressões idiomáticas quando são usadas as ferramentas de estados finitos aqui empregues; e (c) comparar estes resultados com os que podem ser obtidos usando duas medidas de associação (o Student t-teste e o qui-quadrado). Os resultados mostram que o qui-quadrado é uma medida de associação eficiente para recuperar sequências candidatas a expressões idiomáticas; no entanto, as máquinas de estados finitos permitem uma melhor precisão; Também se deve dar atenção ao verbo principal envolvido nessas expressões idiomáticas, ou seja, verbos plenos tendem a produzir resultados mais precisos do que verbos mais gramaticalizados, como os verbos-suporte. O banco de dados, no seu estado atual, contém 364 expressões idiomáticas verbais, de uma única classe formal.
Uma expressão idiomática é uma sequência de palavras cujo significado é diferente do significado veiculado pelas suas palavras quando usadas individualmente. Este projeto estudou as expressões idiomáticas em língua Persa com a estrutura N0 V C1, que são frases com um sujeito livre (N0), um objeto direto fixo (C1) e um verbo (V). O objetivo deste projeto é construir um banco de dados (ou léxico-gramática) de expressões idiomáticas persas, a fim de ser utilizado no processamento computacional desta língua. Em primeiro lugar, uma seleção de fontes da web foi utilizada para a recolha de expressões idiomáticas; a partir desta recolha, procedeu-se à construção de um banco de dados de expressões idiomáticas persas; seguidamente, usaram-se ferramentas próprias para construir máquinas de estados-finitos de referência e intercetá-las com o banco de dados e assim produzir FSTs (transdutores ) capazes de explorar corpora textuais; estes FSTs foram então usados para extrair sequências candidatas ao estatuto de expressão idiomática partir de um corpus Persa de legendas de filmes; em quinto lugar, as listas de candidatos resultantes foram avaliadas com o fim de: (a) estimar a extensão da base de dados; (b) determinar a precisão da tarefa de identificação das expressões idiomáticas quando são usadas as ferramentas de estados finitos aqui empregues; e (c) comparar estes resultados com os que podem ser obtidos usando duas medidas de associação (o Student t-teste e o qui-quadrado). Os resultados mostram que o qui-quadrado é uma medida de associação eficiente para recuperar sequências candidatas a expressões idiomáticas; no entanto, as máquinas de estados finitos permitem uma melhor precisão; Também se deve dar atenção ao verbo principal envolvido nessas expressões idiomáticas, ou seja, verbos plenos tendem a produzir resultados mais precisos do que verbos mais gramaticalizados, como os verbos-suporte. O banco de dados, no seu estado atual, contém 364 expressões idiomáticas verbais, de uma única classe formal.
Description
Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014
Keywords
Ciências da linguagem Língua persa Expressões idiomáticas Linguística Unidades lexicais multipalavra