Repository logo
 
Loading...
Thumbnail Image
Publication

From data to discovery: designing new pipelines for the analysis of high-throughput antibody data in Malaria and Chronic Fatigue Syndrome

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese Doutoramento Andre Fonseca.pdf27.22 MBAdobe PDF Download

Abstract(s)

Current serological studies, where thousands of antibodies can now be simultaneously screened, has allowed to enhance our understanding of the immune responses to various pathogens and to support the development of better diagnostic tools and treatment strategies. Nonetheless, the complexity of such data has broughtnewhurdles regarding the capability of traditional statistical methods to cope with such data. Although Machine Learning (ML) techniques have offered enhanced capabilities to unravel antibody biomarkers, the exact identity of antibody biomarkers against certain diseases remains a struggle. This challenge underscores the pressing need for innovative methodologies to enhance the accuracy in biomarker identification, facilitatingmore effective diagnostics and targeted therapeutics. In this thesis I developed analytical pipelines for the analysis of high-throughput antibody data. To illustrate the potential of these pipelines, I focused on antibody data on Malaria and Chronic Fatigue Syndrome/MyalgicEncephalomyelitis. Ingeneral, these pipelines were based on an initial variable selection step to identify the most relevant and informative variables, followed by a predictive step where distinct classifiers would be constructed using ML-based approaches. At first, distinct approaches for the analysis of a relative low number of antibodies under analysis to test the suitability on the analysis of such data. We then proceeded to analyze data containing thousands of antibodies. This morechallenging situation motivatedmeto fine-tune the initial pipelines to better cope with the high dimensionality of the data. Each pipeline leveraged different statistical assumptions and yielded benefits and drawbacks, providing predictive accuracies that ranged fromclose to 72% up to 90% when implemented on different datasets, surpassing previous published analyzes on he same data. In conclusion, these new pipelines generated a good predictive performance in the case studies evaluated. Given that they are based on general principles of data analysis, they have the potential to increase the robustness and reproducibility of the analysis of highdimensional antibody data.
Actualmente, estudos serológicos permitem que milhares de anticorpos sejam rastreados simultaneamente, o que tem contribuído significativamente para o aprimoramento de nossa compreensão da resposta imunitária a diversos agentes patogénicos, bemcomopara o avanço no desenvolvimento de ferramentas diagnósticas e estrat´gias terapêuticas mais eficazes. Contudo, a complexidade desses dados tem imposto novos desafios no tocante à habilidade de analisar tais dados recorrendo a métodos estatísticos tradicionais. Embora as técnicas de aprendizagem de máquina (ML) tenham melhorado a nossa capacidade de identificar biomarcadores immunes, a precisão na identificação de biomarcadores específicos para certas doenças ainda é um obstáculo a ser superado. Isso ressalta a necessidade urgente do desenvolvimento de novas metodologias que possam melhorar o rigor na identificação de biomarcadores, possibilitando diagnósticos mais efetivos e terapias mais direcionadas. Neste trabalho, desenvolvi pipelines analíticos para a análise de dados de anticorpos em larga escala. Para demonstrar o potencial desses pipelines, concentrei-me nos dados relacionados a malária e à síndrome de fadiga crônica/encefalomielite miálgica. Esses pipelines basearam-seemumaetapa inicial de seleção de variáveis para identificar aquelas mais relevantes e informativas, seguida por uma etapa preditiva em que diferentes classificadores foram construídos utilizando abordagens baseadas em ML. Inicialmente, explorei diferentes abordagens para analisar um número relativamente pequeno de anticorpos, a fim de avaliar sua adequação na análise desses dados. Posteriormente, expandi a análise para incluir dados contendo milhares de anticorpos. Esta situação mais desafiadora motivou-me a ajustar os pipelines iniciais ou a lidar melhor com a alta dimensionalidade dos dados. Cada pipeline aproveitou diferentes suposições estatísticas e apresentou vantagens e desvantagens, resultando em precisões preditivas variando de aproximadamente 72% a 90% quando aplicadas a conjuntos de dados diferentes, superando análises anteriores publicadas referentes aos mesmos dados Em conclusão, esses novos pipelines demonstraram um bom desempenho preditivo na avaliação dos estudos de caso. Dado que são fundamentados em princípios gerais de análise de dados, têm o potencial de aumentar a robustez e a reprodutibilidade da análise de dados de anticorpos em larga escala.

Description

Keywords

Anticorpos: biomarcadores Pipelines Aprendizagem deMáquina Classificadores

Citation

Organizational Units

Journal Issue

Publisher

CC License