Repository logo
 
Loading...
Thumbnail Image
Publication

How really reliable is Real World Data? An implementation study in diabetes and cardiovascular risk

Use this identifier to reference this record.
Name:Description:Size:Format: 
teseGoncaloAlmeidaVersaoFinal.pdf2.78 MBAdobe PDF Download

Abstract(s)

Real-world data (RWD) is, more and more often, being used in many medical areas, and data mining is becoming an important feature of any given study. The medical practice has been dominated by tools derived from controlled trials and focused studies, but now with the availability of RWD and information worldwide, new and better sets of tools are being created. With this in mind, a study was created to verify if the internal database of a private clinic is suitable for data-mining with the main objective of creating more efficient tools capable of being helpful for the clinicians in the near future. Working with a database that possesses records as late as 1999 poses many challenges. Besides requiring a constant update to include the new digital areas and recent clinical parameters, it is also necessary to evaluate the existence and impact of human errors and if other improvements are required to avoid lack or mistaken results on future database queries. After the establishment of relevant datasets and tables, a standardization of the data is required. A systematic analysis of the database management was undertaken regarding data mining. The present study focused only on the database structure and content related with cardiovascular diseases of diabetic patients. For this goal, a thorough and exhaustive mining and understanding of the data had to be made manually using only pure logic and SQL queries to capture all the information needed. Resultant analysis shows epidemiological results consistent with previous studies and concludes about the need of improvements of the database’s Front and Back offices. These improvements will facilitate future studies relating cardiovascular and diabetes pathologies. Besides the existence of a huge amount of valuable clinical information, usage of the database’s data for general data-mining becomes a difficult task due to its unfriendly querying structure.
Estamos a começar a viver numa era onde existe acesso a enormes volumes de dados provenientes de qualquer parte do mundo. Com tão fácil acesso a várias fontes de dados, autónomas e heterogéneas, é possível criar ferramentas e processos capazes de sumariar, correlacionar, e tratar grandes quantidades de dados, mesmo em tempo real. Isto no fundo reflete o conceito básico de exploração de dados reais, ou mineração de dados reais, traduzido da expressão inglesa que identifica esta ação: data mining, ou simplesmente MD (de Mineração de Dados) daqui em diante.O objetivo fundamental de MD é a exploração de grandes volumes de dados reais e extração de qualquer informação ou conhecimentos que sejam úteis em aplicações futuras. O bom funcionamento de uma MD está dependente de um conjunto de dados que estejam devidamente bem acondicionados e tratados, capazes de serem interligados mesmo que seja através de bases de dados diferentes e autónomas. Sem a garantia que os dados estejam livres de erros, valores duplicados ou corrompidos, o resultados obtidos através do uso de MD podem perder fidelidade e propagar erros de elevada magnitude. Na área da medicina em geral, inúmeros estudos e ferramentas têm sido elaborados com o intuito de assistir os médicos e clínicos em todas as suas tarefas (consultas, prescrições, diagnósticos) e fazer com que estas sejam cada vez mais rápidas e eficazes. Ao longo do tempo, a forma de estudo e criação de novas ferramentas para as várias áreas da medicina tem sido através de Testes Controlados e Aleatórios (TCA) ou também através de Estudos Comparativos de Eficiência (ECE), sendo que ambos são considerados o padrão no que toca à criação de novos estudos e ferramentas. TCAs funcionam, tal como o nome indica, através de estudos realizados em pequenas populações de teste, escolhidos com determinadas características aleatórias, sob as quais são então produzidos testes em cenários totalmente artificiais e controlados. Devido à natureza dos TCAs, os resultados obtidos podem não possuir eficácia e resolução suficiente derivado do uso de um população muito pequena e do uso de ambientes artificiais e controlados que podem não refletir na totalidade todos os pormenores da condição clínica que esteja a ser estudada, perdendo-se assim informação valiosa o que faz com que não haja sensibilidade a variações naturais e inerentes ao estudo em questão. ECEs apresentam uma funcionalidade mais teórica que o tipo de estudo anterior, que se baseia mais em testes práticos. ECEs, como o nome indica, são estudo que efetuam comparações entre dois tipos de ferramentas, estudos, medicamentos, ou qualquer outro factor ligada à medicina. Dada a sua natureza mais teórica, os ECEs podem ser considerados mais fiáveis que os TCAs, mas para obter resultados igualmente complexos e específicos, tornam-se numa ferramenta bastante complexa e difícil de implementar. Por isso mesmo, ECEs não são ideias para casos mais específicos, pois podem criar resultados pobres em parâmetros importantes e portanto podem não refletir com exatidão as condições clinicas em questão. Mais recentemente, MD tem vindo a ser introduzida nas áreas de medicina, e tem provado ser uma ferramenta bastante poderosa na criação e manipulação de grandes quantidades de dados. Graças ao seu estilo de funcionamento, é bastante útil na vanguarda de novos métodos e ferramentas. Em relação a Doenças Cardiovasculares (DCV) e Diabetes Mellitus, ou simplesmente diabetes, existe bastante literatura que estuda a relação a estas duas patologias, e hoje em dia é inegável que ambas afetam-se mutuamente e partilham vários factores de risco. A literatura demonstra uma grande ligação entre diabetes e hipertensão, e por sua vez, doenças relacionadas com a coronária são também afetadas pela diabetes diretamente e também indiretamente. Vários trabalhos têm sido realizados com o intuito de utilizar MD em base de dados de várias áreas da medicina, no entanto, a comunidade na medicina em geral ainda não aceita totalmente a legitimidade dos resultados obtidos por via de MD, e estes muitas vezes ficam renegados a título de apoio a outros estudos ou como precursores da necessidade de estudos futuros consoante os resultados inesperados que são muitas vezes obtidos. Existem já vários modelos estabelecidos para a utilização de MD em bases de dados provenientes de qualquer área da medicina, sendo os mais utilizados redes neuronais, regressões logísticas ou árvores de decisões. No entanto, muitos estudos preferem utilizar métodos manuais para a utilização de MD, devido à grande variância de tipos de dados que são encontrados em base de dados das áreas de medicina, pois torna-se mais eficaz o tratamento manual, do que a utilização de métodos estabelecidos que têm a necessidade de um precondicionamento dos dados que por vezes se torna bastante complexo e demorado. Tendo toda esta informação em conta, este estudo tem como objetivo o estudo da base de dados da Associação Protetora dos Diabéticos de Portugal (APDP) de modo a concluir o estado dos dados nela contida, para discernir se é possível a criação de novas ferramentas que auxiliem os clínicos no seu trabalho. A APDP possui uma base de dados completamente personalizada e gerida por um empresa dedicada, havendo sido criada uma Framework que gere tanto o Front Office como o Back Office (FO e BO), sendo estes respetivamente o software gráfico que os clínicos utilizam e a estrutura da base de dados interna onde a toda a informação é guardada. Para tal, foi decidido que um estudo completamente manual seria mais indicado, ao invés de aplicar métodos já estabelecidos na industria, devido à natureza errática dos conjuntos de dados. Foi decidido também que não seria benéfico a utilização da Framework utilizada pela APDP devido a esta não conter as ferramentas diretas necessárias a este estudo e assim apenas adicionava mais complexidade ao estudo sem acréscimo de benefícios. Por isso, foi utilizada apenas a linguagem SQL, sendo que a base de dados foi criada com o modelo de PostgreSQL, e deste modo todo o estudo foi feito através da manipulação e visualização puramente lógica e manual através de comandos SQL. Este processo demonstrou-se deveras exaustivo e complicado devido ao modo como a base de dados se encontra estruturada, sendo que não apresenta um ambiente muito amigável no que toca à criação deste tipo de estudos. Assim sendo, o primeiro passo foi o estudo aprofundado da estrutura e hierarquia das tabelas que a base de dados contém, de modo a descobrir onde a informação necessária a este estudo se encontra. Deste modo foi possível caracterizar todas as tabelas que contém dados relevantes ao estudo, e como estas importam e exportam valores de uma para a outra. Assim que a estrutura e hierarquia foram estabelecidas, foi então possível começar a retirar valores para prosseguir com o estudo. Mas antes, é necessário a definição de uma população fixa e representativa do estudo em questão. Dada a natureza deste tipo de estudos, os dados a considerar devem ser sempre o mais recente e atualizados possível para uma melhor representação do estado atual da população de diabéticos de Portugal. Tendo em conta que a APDP não possui uma regra de definição para considerar um paciente como ativo ou inativo na sua clinica, foi necessária a criação de uma regra para filtrar os pacientes deste modo. Foi considerado que para um paciente ser considerado ativo este deveria ter tido pelo menos uma consulta nos últimos três anos e não ter falecido entretanto. Foram então considerados 20,222 pacientes ativos e foi assim criada a população de teste que este estudo considerou. A partir daí foi então possível começar a MD da base de dados de acordo com os dados que foram achados e a população definida. Foi definido que as tabelas que têm informação importante para este estudo foram as tabelas de Consultas, Fichas de Paciente e Exames Cardiovasculares. A partir de comandos exaustivos de SQL, foram calculados os números e as suas distribuições de cada tipo de tabelas, e assim foram criados histogramas da distribuição do número de consultas por paciente da população, assim como número de fichas de paciente e número de exames realizados. Com estes valores um estudo estatístico da população foi feito para indicar as tendências dos diabéticos em termos clínicos. Depois, a correlação entre o número de consultas e o número de entradas de fichas de pacientes foi escrutinada, de modo a ter uma noção da percentagem e qualidade de preenchimento das fichas após uma consulta. O número de entradas de fichas de pacientes é sempre, em média, inferior ao número de consultas que um dado paciente possui, o que seria de esperar, pois deve-se ter em atenção que algumas consultas podem ser só de rotina e não adicionam qualquer informação nova ao estado do paciente. Foi concluído que a relação entre o número de consultas e o entradas de fichas de pacientes é linear. Dentro das fichas de pacientes encontra-se informação sobre a distribuição de complicações relevantes a este estudo, como é o caso de hipertensão, doenças da coronária, acidentes vasculares e cerebrais (AVC) ou enfartes do miocárdio. Cerca de 78% da população apresenta hipertensão, 68% doenças da coronária, 10% AVC e 5% enfarte do miocárdio, valores estes que vão de encontro aos valores obtidos por vários estudos nacionais e internacionais, o que prova que a base de dados possui informação valiosa e que vale a pena a criação de estudos que a utilizem. De seguida, foram considerados os exames de cardiologia. Existem vários tipos de exames praticados na clínica mas, tal como seria de esperar, o Eletrocardiograma (ECG) é, de longe, o mais utilizado. Um número total dos vários tipos de exames e a sua consequente distribuição foram calculados relativos à população em questão. Após todos os dados serem extraídos, tratados e escrutinados, chegou-se à conclusão que a base de dados possui muita informação que pode vir a ser de extrema importância para estudos futuros que auxiliem o desenvolvimento da medicina, neste caso em relação a indivíduos diabéticos. No entanto, a base de dados apresenta um nível de qualidade e consistência de dados não muito saudável para a prática de ditos estudos. Isto deve-se a vários fatores, sendo eles os mais importantes o facto de haver dados antigos (desde 1999) e que já começam se a demonstrar quase obsoletos, a existência de erros humanos devido à inserção de informação por parte dos clínicos e não de formas mais autónomas, e alguma falta de funcionalidades que previnem a inserção de dados vazios, corruptos, duplicados ou enganosos de qualquer forma. Como tal, pode-se concluir que a base de dados tem imenso potencial, mas não antes sofrendo um correto condicionamento dos seus dados para se que seja possível no futuro a implementação de estudos diretos que tenham como base MD.

Description

Dissertação de mestrado, Engenharia Eletrónica e Telecomunicações, Faculdade de Ciências e Tecnologia, Universidade do Algarve, 2017

Keywords

Base de dados Mineração de dados Diabetes Mellitus Patologias cardiovasculares Epidemiologia

Citation

Organizational Units

Journal Issue

Publisher

CC License