Cox, Cymon J.Brazão, João Miguel Rodrigues da Silva2025-02-282025-02-282024http://hdl.handle.net/10400.1/26839A major challenge in phylogenetic reconstruction of evolutionary relationships lies in understanding the impact of model-fit on the accuracy of phylogenetic trees. The work conducted in this thesis aims to infer better trees by using amino-acid substitution models that are specific to the study data, and to evaluate strategies to mitigate the effects of systematic bias. Several software programmes for calculating data-specific models were evaluated, with IQ-TREE exhibiting the best features. These models consistently showed a better fit to the data than the pre-computed empirical models, indicating their greater robustness against biases caused by poorer-fitting models. Data-specific substitution models combined with more complex heterogeneous models or data partitioning strategies helped to reduce systematic bias. Among methods evaluated to identify heterogeneous data, the matched-pairs test of marginal symmetry combined with the Benjamini-Hochberg method exhibited the highest statistical power, identifying composition-heterogeneous sequences that biased the relationships among Archaeplastida and Bryophyta. By contrast, the process of evolution underlying the emergence of land plants from charophyte algae was shown to be composition-homogeneous among lineages in the analyses of nuclear and chloroplast data. Tree-homogeneous and heterogeneous analyses using these data robustly recovered the green algae Zygnematophyceae as the most-closely related to land plants. However, analyses of mitochondrial data placed Charophyceae as the sister-group to land plants; a result that was shown not to be caused by compositional heterogeneity among lineages. Nevertheless, further analyses identified a weak signal favouring Zygnematophyceae as the sister-group of land plants in buried-sites and slower-evolving sites data partitions. The cause of the incongruence between nuclear plus chloroplast data and the mitochondrial data remain unknown but maybe biological in nature rather than due to systematic bias, and perhaps a result of evolutionary processes such as horizontal gene transfer.Atualmente a disponibilidade de dados não é mais uma restrição para a maioria das análises filogenéticas e um dos principais desafios dos filogeneticistas reside sobretudo em aspetos metodológicos relacionados com o uso dos modelos de evolução e o impacto de erros sistemáticos. O objetivo do trabalho desenvolvido nesta tese é inferir melhores árvores filogenéticas através do uso de modelos de substituição de aminoácidos específicos para os dados em análise e implementação de estratégias para mitigar os efeitos de erros sistemáticos. Foram avaliados cinco métodos para calcular modelos de substituição específicos para dados de sequências de aminoácidos, implementados nos programas FastMG, IQ-TREE, PAML e P4. Os quatro programas utilizam máxima verossimilhança, enquanto o P4 também utiliza inferência Bayesiana, sendo este método também avaliado. Os modelos específicos foram calculados utilizando alinhamentos de aminoácidos simulados com diferentes comprimentos. O processo de simulação dos dados de alinhamento incluiu um modelo de substituição e uma árvore filogenética conhecidos, isto é, o modelo e árvore de simulação. Cada modelo específico foi depois utilizado para calcular a pontuação de máxima verossimilhança da árvore e alinhamento usados para gerar o modelo específico. Este valor foi comparado com a pontuação de máxima verossimilhança resultante das análises da mesma árvore e alinhamento, mas usando o modelo de simulação. Os valores comparados foram estatisticamente similares, indicando que os métodos utilizados para cálculo de modelos específicos de acordo com esta métrica são precisos. Quando as árvores filogenéticas estimadas livremente por estes modelos foram comparadas entre si, as árvores resultantes das análises que usaram os modelos calculados através de métodos de máxima verossimilhança implementados no IQ-TREE e P4 foram as mais precisas. Os modelos específicos foram também comparados com os modelos empíricos cpREV e WAG. Independentemente do método usando para cálculo dos modelos específicos, estes demonstraram um ajuste superior aos dados e inferiram árvores mais precisas quando comparados com os modelos empíricos. Estes resultados indicam que os modelos específicos deverão ter uma maior robustez contra desvios sistemáticos que resultem da falta de ajuste aos dados. O programa IQ-TREE demonstrou o melhor balanço entre rapidez no cálculo de modelos específicos e precisão das árvores filogenéticas inferidas usando estes modelos. A análise de conjuntos de dados empíricos utilizando modelos de substituição específicos corroborou os resultados anteriores. Tendo em conta a existência de programas eficientes e rápidos para o cálculo de modelos específicos eficientes torna-se assim pouco razoável o uso de modelos de substituição empíricos em análises filogenéticas. As análises anteriores e a maioria das análises filogenéticas assumem que o processo evolutivo é homogéneo ao longo do tempo, isto é, ao longo da árvore. No entanto, este pressuposto não corresponde à realidade do processo evolutivo, e quando fortemente rejeitado, pode resultar em erros sistemático que podem afetar a correta inferência da árvore filogenética. Os testes de pares emparelhados de simetria permitem investigar a heterogeneidade na composição e substituições ao longo da árvore. O teste de pares emparelhados de simetria marginal permite auferir a presença de processos composicionalmente heterogéneos, enquanto o teste de simetria interna permite avaliar processos de substituiç heterogéneos. O teste de pares emparelhados de simetria permite avaliar ambos. Uma vez estes incluem comparações múltiplas, o valor-p (valor da probabilidade) da comparação entre cada duas sequências no alinhamento deverá ser ajustado para uma correta identificação das sequências heterogéneas. Assim, em conjunto com os três testes de simetria, quatro métodos para correção do valor-p, nomeadamente, Bonferroni, Bonferroni-Holm, Benjamini-Yekutieli, e Benjamini-Hochberg foram avaliados. Para isso, foram simulados conjuntos de dados de acordo com quatro critérios: heterogéneos na composição, heterogéneos nas substituições, heterogéneos em ambos e totalmente homogéneos. O teste de pares emparelhados de simetria marginal combinado com o método de correção Benjamini-Hochberg exibiu a potência estatística mais elevada comparado com outros métodos. O teste de simetria e simetria interna revelaram uma baixa capacidade de deteção das sequências com substituições heterogéneas. Os métodos Bonferroni apresentaram a menor potência estatística. Análises de conjuntos de dados nucleares e mitocondriais utilizando o teste de simetria e o teste de simetria marginal combinados com os métodos de correção Benjamini, mas principalmente o teste de simetria marginal combinado com o método Bonferroni-Holm, identificaram sequências composicionalmente heterogéneas que distorceram a inferência das relações evolutivas nos clados Archaeplastida, Bryophyta e Setaphyta. Desta forma, o processo evolutivo é heterogéneo ao longo da árvore não podendo ser acomodado pelos modelos habituais que assumem a homogeneidade. A remoção destas sequências anulou ou reduziu o efeito negativo na inferência, resultando na monofilia destes grupos, o que está de acordo com outros estudos de análise filogenética utilizando modelos mais sofisticados. O estudo do surgimento das plantas terrestres tem sido marcadamente debatido, incluindo três grupos de algas como possível grupo mais próximo das plantas, nomeadamente, Zygnematophyceae, Charophyceae e Coleochaetophyceae. Utilizando os métodos descritos acima e outros, foi investigado a história evolucionária entre as algas verdes, charophytes, e as plantas terrestres. As análises foram realizadas com recurso a dados sequencias de aminoácidos nucleares, mitocondriais e de cloroplasto. Contrariamente aos processos evolutivos descritos acima, o surgimento das plantas terrestres foi demonstrado ser homogéneo ao longo da árvore na análise de dados nucleares e de cloroplasto. Estas análises recuperaram as algas verdes Zygnematophyceae como grupo irmão das plantas terrestres, indicando este ser o grupo de algas mais próximo das plantas. Adicionalmente, análises que utilizaram modelos que acomodam heterogeneidade ao longo do alinhamento e estratégias para partição dos dados obtiveram resultados congruentes. No entanto, as análises de dados mitocondriais reconstruiram invés o grupo Charophyceae como o grupo de algas mais próximo das plantas. Posteriormente, análises de partições de dados associados a rácios de substituição mais lentos ou associados a aminoácidos com localizações mais conservadas na estrutura da proteína, recuperaram Zygnematophyceae como o grupo mais próximo das plantas, embora com pouco suporte. Estes resultados sugerem que os modelos de evolução atuais não são capazes de modelar corretamente o surgimento das plantas usando dados mitocondriais. Por outro lado, os sinais inerentes poderão estar corretos e o genoma mitocondrial possuir uma forma quimérica resultante de um processo biológico, nomeadamente a transferência horizontal de genes. No entanto, sendo este conflito o resultado de desvios sistemáticos ou de um processo biológico, as análises aqui realizadas não permitem apurar o mais provável.engModelos de substituiçãoSequências de aminoácidosErro sistemáticoHeterogeneidade ao longo da árvoreStreptophytaApplying data-specific substitution models and mitigating the effects of among-lineage heterogeneity to infer better protein-based phylogeniesdoctoral thesis101809883