Maia, Ana TeresaDuarte, André Alexandre Rodrigues Besouro2021-12-102023-04-212021-04-21http://hdl.handle.net/10400.1/17368Genome-wide association studies (GWAS) were pivotal in identifying genomic variants associated with susceptibility to breast cancer (BC). Given most identified loci are on non-coding regions, unidentified causal variants are predicted to act through cis-regulatory mechanisms. Post- GWAS era relies on functional analysis to identify causal and characterize how risk-associated variants modulate gene expression. To this end several in silico techniques are used associating molecular phenotypes with genotype but most of these focus on transcriptional processes. With this work, I analyse the potential contribution of alternative splicing (AS) altering variants in breast tissue to BC susceptibility. To this end I used RNA-seq data from healthy breast tissue with matching sample genotype. Afterwards, I employed two different packages to independently quantify AS. Splicing Quantitative Trait Loci (sQTL) analysis was performed in order to identify sQTLs, variants associated with changes in splicing patterns. BC GWAS associated single nucleotide polymorphisms (hit-SNPs) were retrieved and co-localization analysis based on ancestry-specific linkage disequilibrium was performed to assess if any of the identified sQTLs is associated with GWAS hit-SNPs. Three loci were identified where sQTLs are co-localized with BC GWAS hit-SNPs. In locus 1p36 variants rs4908724 and rs17229081 are associated with changes in splicing of PARK7, a protein deglycase previously identified as an oncogene. Regarding locus 11q13, 4 sQTLs – rs56984820, rs6591195 and rs9735063 – were identified, reporting changes in splicing patterns of BANF1, responsible for activating genome repair pathways interacting with PARP; with publications proposing as multi-cancer biomarker. Changes in ULK3 splice pattern were associated with variants rs12591513 and rs12898397 on locus 15q24. This gene is a regulator of Hedgehog pathway, whose dysregulation is associated with carcinogenesis. These changes in AS impact isoform ratios resulting in different protein and/or on UTRs, impacting other gene expression regulatory mechanisms. Further functional studies are required to identify causal variants as well as impacted cis-regulatory elements. Thus, variants may increase risk for BC modulating CRE of AS.Diferentes metodologias têm sido implementadas com o objetivo de identificar variantes genómicas associadas ao aumento do risco de cancro da mama. A mais recente são os estudos de associação genómica (do inglês genome-wide association studies, GWAS), onde polimorfismos de nucleótido único (single nucleotide polymorphism, SNP) ao longo de todo o genoma são testados em um só estudo. No entanto, dado a forma como estes são conduzidos, não identificam uma variante causal, mas sim um locus genómico associado ao risco onde várias variantes se encontram em desequilíbrio de ligação (linkage desiquilibrium, LD). Adicionalmente, a maior parte dos loci identificados são em regiões não-codificantes do genoma, colocando-se como hipótese que estes afetam elementos de cis-regulação de mecanismos de expressão génica. Por forma a identificar as variantes causais, bem como caracterizar os mecanismos através dos quais estas modulam o risco, diferentes métodos como estudos de associação de genótipo ou alelo e fenótipo molecular (quantitative trait loci, QTL e differential allelic studies, DAS) são empregues. No entanto, estes têm se focado maioritariamente na modulação da expressão génica através de alterações na ligação de fatores de transcrição em elementos cis-reguladores, ignorando outros mecanismos. Com este trabalho examino a potencial contribuição para o risco do cancro da mama por parte de variantes genómicas que alteram o splicing alternativo. Para tal uso informação de sequenciação de ácido ribonucleico (ARN-seq) de tecido mamário saudável de dadores para os quais estão disponíveis genótipos obtidos através do projecto Genotype-Tissue Expression (GTEx). Estes dados são processados de modo a remover enviesamentos técnicos e contaminantes conhecidos de sequenciação de ácido ribonucleico. Em seguida utilizei duas ferramentas informáticas que me permitiram quantificar splicing alternativo, LeafCutter e psichomics, usando a métrica de percentagem de inclusão de splicing (PSI). De seguida procurei associações entre alterações de PSI e genótipo de variantes próximas de cada evento de splicing utilizando o tensorQTL. De forma a reduzir o efeito de outras variáveis, utilizei os cinco componentes principais obtidos a partir da análise dos componentes principais nas contagens dos intrões. Os loci significativamente associados com alteração em eventos de splicing são denominadas de sQTL (splicing quantitative trait loci). Utilizando o pacote de R gwasrapidd, acedi aos registos do GWAS Catalog, um repositório online de estudos GWAS, de forma a obter todas as variantes genómicas que foram previamente associadas com risco de cancro de mama na população europeia. Utilizando padrões de LD da população europeia, procurei co-localização entre os loci associados a cancro de mama e sQTLs, utilizando um limiar mínimo de LD (r2 ≥ 0.4). Três loci diferente foram identificados, cada um com pelo menos um sQTL obtido por cada método de quantificação de splicing alternativo. No locus 1p36, o gene PARK7 foi identificado sendo o seu padrão de splicing dependente das variantes rs4908724 e rs17229081. Este gene produz uma deglicase de proteínas que foi previamente identificada como oncogene, inibindo a proteína PTEN, um gene supressor de tumores extensamente estudado. Alelos associados com risco parecem alterar a expressão das isoformas reduzindo o transcrito ENST00000338639 e aumentando os transcritos ENST00000493678 e ou ENST00000377493. Uma destas isoformas em particular, ENST00000377493, resulta numa alteração da dimensão da sequência codificante da proteína, com cerca de menos 20 aminoácidos. Adicionalmente as regiões transcritas e não traduzidas (UTR) em ambos os extremos dos transcritos também são modificados. No locus 11q13, quatro sQTLs foram detetados alterando os rácios de splicing no gene BANF1. Este gene é responsável pela ativação de vias de reparação do genoma, interagindo com a PARP, para além de desempenhar funções na organização do genoma dentro do núcleo. Mutações no BANF1 são comuns em diferentes cancros, sendo particularmente associados com cancros da mama triplo negativos, no quais não há sobreexpressão de recetores hormonais nem de receptores de fatores de crescimento epidérmico humanos (HER2). A expressão deste gene foi proposta como biomarcador de diversas doenças oncológica. O alelo de risco de cancro de mama é associado à redução das isoformas ENST00000533166, ENST00000312175 e ENST00000445560 sem identificar aumento de qualquer isoforma. Apesar de todas as isoformas terem sequências codificantes idênticas, as porções não-codificantes não o são, podendo o risco estar associado a diferentes níveis de estabilidade do ácido ribonucleico mensageiro de cada isoforma. No locus 15q24, variação de splicing nos transcritos do gene ULK3 foram associados com duas variantes, rs12591513 e rs12898397. ULK3 interage com diversas proteínas participando na regulação da atividade de PTEN, um gene supressor de tumores bem caracterizado. Alelos associados a risco parece reduzir as isoformas ENST00000440863, ENST00000566479 e ENST00000567472 e aumentar o rácio dos transcrito ENST00000569437, ENST00000561725 ou ENST00000568718. Comparando a sequência codificante dos transcritos que são traduzidos em proteína, ENST00000440863 e ENST00000569437, estes distinguem-se na sua dimensão, reduzida em seis nucleótidos, que resulta numa proteína com menos dois aminoácidos. Apesar de identificação de diversas alterações nos rácios de splicing dos genes, a caracterização quanto à função das isoformas alternativas é dificultada uma vez que os estudos de função de genes focam-se no fenótipo em resposta a alteração quantitativa da isoforma principal e não de variantes estruturais originadas posteriormente. Variantes associadas ao aumento de risco de cancro da mama são associadas a alteração dos rácios de splicing. Estas podem exercer o seu efeito modulando elementos cis-reguladores de splicing e modificando a expressão das diferentes isoformas. Desta forma modulação de splicing alternativo parece ser um dos mecanismos modificados por variantes associados ao risco de cancro sendo, no entanto, um mecanismo com menor contributo que outros anteriormente estudados. É importante salientar que os dados de ARN-seq que foram analisados provêm de um conjunto heterogéneo de tipos celulares, com programas de expressão genética diferentes sendo, portanto, a expressão medida uma média do conjunto. Identificação e análise de células individualmente tem potencial para identificar com maior precisão mudanças na expressão genética devido à presença de variantes genómicas. Para além de mudanças na sequência codificante, alteração nas regiões não traduzidas tem potencial para modificar regulação pós-processamento como a localização sub-celular, estabilidade do ARN mensageiro e eficiência de tradução em proteína, como é sugerido pela dupla nomeação das variantes identificadas como associadas não só a alterações de splicing como também de expressão total. Estudos funcionais futuros serão importantes para identificar a(s) variante(s) responsável(eis) pela variação nos padrões de splicing identificadas. Adicionalmente, métodos de co-localização mais robustos aliados a estudos in vitro e in vivo irão clarificar se é por alteração da regulação dos mecanismos de splicing que ocorre o aumento de risco ou se a co-localização de variantes associadas a risco de cancro de mama e alteração de splicing é fortuita.engCancro de mamaEstudos de associação genómicosSplicing alternativoRisco de Cancro da MamaPercentagem de inclusão de splicingAlternative splicing-mediated cis-regulation in Breast Cancer Riskmaster thesis202807940