Image summarisation: human action description from static images

Tsironi, Eleni

Publicação

Image summarisation: human action description from static images

2014Dissertação de mestrado

datacite.subject.fos	Humanidades::Outras Humanidades	pt_PT
datacite.subject.fos	Ciências Sociais::Outras Ciências Sociais	pt_PT
dc.contributor.advisor	Baptista, Jorge Manuel Evangelista
dc.contributor.advisor	Madec, Henri
dc.contributor.advisor	Orăsan, Constantin
dc.contributor.author	Tsironi, Eleni
dc.date.accessioned	2016-06-27T16:04:29Z
dc.date.available	2016-06-27T16:04:29Z
dc.date.issued	2014
dc.date.submitted	2014
dc.description	Dissertação de Mestrado, Processamento de Linguagem Natural e Indústrias da Língua, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014	pt_PT
dc.description.abstract	The object of this master thesis is Image Summarisation and more specifically the automatic human action description from static images. The work has been organised into three main phases, with first one being the data collection, second the actual system implementation and third the system evaluation. The dataset consists of 1287 images depicting human activities belonging in fours semantic categories; "walking a dog", "riding a bike", "riding a horse" and "playing the guitar". The images were manually annotated with an approach based in the idea of crowd sourcing, and the annotation of each sentence is in the form of one or two simple sentences. The system is composed by two parts, a Content-based Image Retrieval part and a Natural Language Processing part. Given a query image the first part retrieves a set of images perceived as visually similar and the second part processes the annotations following each of the images in order to extract common information by using a graph merging technique of the dependency graphs of the annotated sentences. An optimal path consisting of a subject-verb-complement relation is extracted and transformed into a proper sentence by applying a set of surface processing rules. The evaluation of the system was carried out in three different ways. Firstly, the Content-based Image Retrieval sub-system was evaluated in terms of precision and recall and compared to a baseline classification system based on randomness. In order to evaluate the Natural Language Processing sub-system, the Image Summarisation task was considered as a machine translation task, and therefore it was evaluated in terms of BLEU score. Given images that correspond to the same semantic as a query image the system output was compared to the corresponding reference summary as provided during the annotation phase, in terms of BLEU score. Finally, the whole system has been qualitatively evaluated by means of a questionnaire. The conclusions reached by the evaluation is that even if the system does not always capture the right human action and subjects and objects involved in it, it produces understandable and efficient in terms of language summaries.	pt_PT
dc.description.abstract	O objetivo desta dissertação é sumarização imagem e, mais especificamente, a geração automática de descrições de ações humanas a partir de imagens estáticas. O trabalho foi organizado em três fases principais: a coleta de dados, a implementação do sistema e, finalmente, a sua avaliação. O conjunto de dados é composto por 1.287 imagens que descrevem atividades humanas pertencentes a quatro categorias semânticas: "passear o cão", "andar de bicicleta", "andar a cavalo" e "tocar guitarra". As imagens foram anotadas manualmente com uma abordagem baseada na ideia de 'crowd-sourcing' e a anotação de cada frase foi feita sob a forma de uma ou duas frases simples. O sistema é composto por duas partes: uma parte consiste na recuperação de imagens baseada em conteúdo e a outra parte, que envolve Processamento de Língua Natural. Dada uma imagem para procura, a primeira parte recupera um conjunto de imagens percebidas como visualmente semelhantes e a segunda parte processa as anotações associadas a cada uma dessas imagens, a fim de extrair informações comuns, usando uma técnica de fusão de grafos a partir dos grafos de dependência das frases anotadas. Um caminho ideal consistindo numa relação sujeito-verbo-complemento é então extraído desses grafos e transformado numa frase apropriada, pela aplicação de um conjunto de regras de processamento de superfície. A avaliação do sistema foi realizado de três maneiras diferentes. Em primeiro lugar, o subsistema de recuperação de imagens baseado em conteúdo foi avaliado em termos de precisão e abrangência (recall) e comparado com um limiar de referência (baseline) definido com base num resultado aleatório. A fim de avaliar o subsistema de Processamento de Linguagem Natural, a tarefa de sumarização imagem foi considerada como uma tarefa de tradução automática e foi, portanto, avaliada com base na medida BLEU. Dadas as imagens que correspondem ao mesmo significado da imagem de consulta, a saída do sistema foi comparada com o resumo de referência correspondente, fornecido durante a fase de anotação, utilizando a medida BLEU. Por fim, todo o sistema foi avaliado qualitativamente por meio de um questionário. Em conclusão, verificou-se que o sistema, apesar de nem sempre capturar corretamente a ação humana e os sujeitos ou objetos envolvidos, produz, no entanto, descrições compreensíveis e e linguisticamente adequadas.	pt_PT
dc.description.sponsorship	Erasmus Mundus	pt_PT
dc.identifier.tid	202486133
dc.identifier.uri	http://hdl.handle.net/10400.1/8435
dc.language.iso	eng	pt_PT
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_PT
dc.subject	Image summarisation	pt_PT
dc.subject	Image description	pt_PT
dc.subject	Content-based image retrieval	pt_PT
dc.subject	Information extraction	pt_PT
dc.subject	Sentence generation	pt_PT
dc.subject	Sumarização automática de imagem	pt_PT
dc.subject	Descrição automática de imagem	pt_PT
dc.subject	Recuperação de imagens baseada em conteúdo	pt_PT
dc.subject	Extração de informação	pt_PT
dc.subject	Geração de frases	pt_PT
dc.title	Image summarisation: human action description from static images	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.grantor	Universidade do Algarve. Faculdade de Ciências Humanas e Sociais	pt_PT
thesis.degree.level	Mestre	pt_PT
thesis.degree.name	Mestrado Internacional em Processamento de Linguagem Natural e Indústrias da Língua	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: EleniTsironiMasterThesisFinal.pdf
Tamanho:: 7.36 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 3.46 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

UA01-Teses
FCH1-Teses