Name: | Description: | Size: | Format: | |
---|---|---|---|---|
2.34 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Time series are an important class of data objects that arise from various sources and
their analysis typically involves huge amounts of information requiring usage of data mining
techniques. Measuring similarity in long time series plays an important role in searching for
similar patterns, classification, clustering, prediction and knowledge discovery. In clinical
context any estimation of future values based on its past values can be useful in disease
prognosis.
In this thesis different methods of measuring similarity between time series of arterial
blood pressure (ABP) signals are described and experimental results are provided. To classify
an ABP record within a particular diseases’ class (a cluster), the typical procedure is the prior
determination of the similarity of the ABP record with a reference signal characterizing a
cardiovascular disease (CVD) and then identifying the strength of that similarity to enable a
true positive classification of the illness (or not). Several methods of measuring similarity
among time-series are referred in literature, the most commonly employed one were object
of this research. Since the goal was the application of the similarity results to perform
clustering of the ABP signals, similarity methods were investigated particularly in what
concerns their performance when proceeding for the clustering following step.
So, this thesis reports the usage of seven different similarity methods, five working in
the time domain and two in the transform-based domain, and explores their usage when
clustering by Partitioning Around Medoids is implemented. As data records are noisy and
signals suffer from variations due to other sources than heart, six types of variations were
imposed on the reference signal and 20 degrees of possible variations were tested. The time
series considered on this study were 10 seconds length, referring to healthy,
electrocardiogram (ECG) long term ST’s, atrial fibrillation and a collection of diagnostic
ECGs. Three clusters were considered, each involving healthy and pathological records, in
different proportions.
Results demonstrate that the Discrete Wavelet Transform using a Haar wavelet
decomposition with the Karhunen-Loève transforms, besides reducing the computational
processing load enables clustering with an accuracy between 76% and 84% among the three
diagnostic classes considered. The organization of this thesis is as follows. A short representation of Time-series is in
chapter.1. A brief description of various similarity methods and clustering methods are given
in chapters 2 and 3. Experiments performed and results obtained are described in chapter 4.
Finally, the conclusion of this work is presented in chapter 5 where the list of publications
resultant from this thesis is included.
As séries temporais são uma classe importante de objetos de dados que surgem de várias fontes e a sua análise geralmente envolve enormes quantidades de informações que exigem o uso de técnicas de mineração de dados. A medição da similaridade em séries de longo prazo desempenha um papel importante na busca por padrões semelhantes, classificação, agrupamento, previsão e descoberta de conhecimento. No contexto clínico qualquer estimativa de valores futuros baseada em seus valores passados pode ser útil no prognóstico de doenças. Nesta tese são descritos diferentes métodos para medir a similaridade entre séries temporais de sinais de pressão arterial (ABP) e são fornecidos resultados experimentais. Para classificar um registro ABP dentro de uma classe de doenças particulares (um cluster), o procedimento típico é a determinação prévia da similaridade do registro ABP com um sinal de referência caracterizando uma doença cardiovascular (CVD) e depois, identificando a força dessa similaridade, possibilita-se uma classificação verdadeira positiva da doença (ou não). Vários métodos de mensuração da similaridade entre séries temporais são referidos na literatura, sendo os mais comumente empregados objeto desta pesquisa. Uma vez que o objetivo foi a aplicação dos resultados de similaridade para realizar agrupamento dos sinais ABP (clustering), vários métodos de similaridade foram investigados particularmente no que diz respeito ao seu desempenho ao prosseguir para a etapa seguinte de agrupamento de acordo com a patologia. Assim, esta tese relata o uso de sete métodos de similaridade diferentes, cinco trabalhando no domínio do tempo e dois no domínio baseado em transformação, e explora o seu uso quando o clustering pelo método de Partitioning Around Medoids é implementado. Como os registros de dados são ruidosos e os sinais sofrem de variações devido a outras fontes além das do coração, seis tipos de variações foram impostas ao sinal de referência e foram testados 20 graus de possíveis variações. As séries temporais consideradas neste estudo foram de 10 segundos de duração, referindo-se a eletrocardiogramas (ECG) saudáveis, a sinais de ECG com segmentos ST de longo prazo, a ECG’s relativos a fibrilação atrial e ainda a uma coleção de ECGs de diagnóstico. Foram considerados três agrupamentos, cada um envolvendo registros saudáveis e patológicos, em diferentes proporções. Os resultados demonstram que a Transformação de Wavelet Discreta usando uma decomposição de wavelet de Haar com as transformações de Karhunen-Loève, além de reduzir a carga de processamento computacional, possibilita o agrupamento com uma precisão entre 76% e 84% entre as três classes diagnósticas consideradas. A organização desta tese é a seguinte. Uma breve representação de séries temporais está incluída no capítulo 1. Uma breve descrição de vários métodos de similaridade e métodos de agrupamento são apresentados nos capítulos 2 e 3. As experiências realizadas e os resultados obtidos são descritos no capítulo 4. Finalmente, a conclusão deste trabalho é apresentada no capítulo 5, onde a lista de publicações resultantes desta tese está incluído.
As séries temporais são uma classe importante de objetos de dados que surgem de várias fontes e a sua análise geralmente envolve enormes quantidades de informações que exigem o uso de técnicas de mineração de dados. A medição da similaridade em séries de longo prazo desempenha um papel importante na busca por padrões semelhantes, classificação, agrupamento, previsão e descoberta de conhecimento. No contexto clínico qualquer estimativa de valores futuros baseada em seus valores passados pode ser útil no prognóstico de doenças. Nesta tese são descritos diferentes métodos para medir a similaridade entre séries temporais de sinais de pressão arterial (ABP) e são fornecidos resultados experimentais. Para classificar um registro ABP dentro de uma classe de doenças particulares (um cluster), o procedimento típico é a determinação prévia da similaridade do registro ABP com um sinal de referência caracterizando uma doença cardiovascular (CVD) e depois, identificando a força dessa similaridade, possibilita-se uma classificação verdadeira positiva da doença (ou não). Vários métodos de mensuração da similaridade entre séries temporais são referidos na literatura, sendo os mais comumente empregados objeto desta pesquisa. Uma vez que o objetivo foi a aplicação dos resultados de similaridade para realizar agrupamento dos sinais ABP (clustering), vários métodos de similaridade foram investigados particularmente no que diz respeito ao seu desempenho ao prosseguir para a etapa seguinte de agrupamento de acordo com a patologia. Assim, esta tese relata o uso de sete métodos de similaridade diferentes, cinco trabalhando no domínio do tempo e dois no domínio baseado em transformação, e explora o seu uso quando o clustering pelo método de Partitioning Around Medoids é implementado. Como os registros de dados são ruidosos e os sinais sofrem de variações devido a outras fontes além das do coração, seis tipos de variações foram impostas ao sinal de referência e foram testados 20 graus de possíveis variações. As séries temporais consideradas neste estudo foram de 10 segundos de duração, referindo-se a eletrocardiogramas (ECG) saudáveis, a sinais de ECG com segmentos ST de longo prazo, a ECG’s relativos a fibrilação atrial e ainda a uma coleção de ECGs de diagnóstico. Foram considerados três agrupamentos, cada um envolvendo registros saudáveis e patológicos, em diferentes proporções. Os resultados demonstram que a Transformação de Wavelet Discreta usando uma decomposição de wavelet de Haar com as transformações de Karhunen-Loève, além de reduzir a carga de processamento computacional, possibilita o agrupamento com uma precisão entre 76% e 84% entre as três classes diagnósticas consideradas. A organização desta tese é a seguinte. Uma breve representação de séries temporais está incluída no capítulo 1. Uma breve descrição de vários métodos de similaridade e métodos de agrupamento são apresentados nos capítulos 2 e 3. As experiências realizadas e os resultados obtidos são descritos no capítulo 4. Finalmente, a conclusão deste trabalho é apresentada no capítulo 5, onde a lista de publicações resultantes desta tese está incluído.
Description
Dissertação de mestrado, Engenharia Electrónica e Telecomunicações, Faculdade de Ciências e Tecnologia, Universidade do Algarve, 2017
Keywords
Séries temporais Correspondência de dados Medidas de similaridade Distância Euclideana Transformada de Wavelet Transformada de Fourier Coeficiente de Correlação Distância de Mahalanobis PAM Cl