Name: | Description: | Size: | Format: | |
---|---|---|---|---|
13.17 MB | Adobe PDF |
Advisor(s)
Abstract(s)
In 2020 female breast cancer moved from second to the most commonly diagnosed cancer
worldwide. Although an estimated 30% of breast cancer cases are heritable or due to underlying
genetic factors, approximately half of the familial risk for breast cancer still remains unknown.
Since 2007, continuous efforts from genome-wide association studies (GWAS) and the
Collaborative Oncological Gene-Environment Study (COGS) identified low-risk loci that explain
up to 18% of the familial relative risk. But, most of the risk-associated variants identified by
GWAS are not the true causal variants, and therefore, functional variants and the biological
mechanisms underlying breast cancer susceptibility remain largely unknown. Since most of the
variants identified by GWAS lie on non-coding genomic regions, risk-associated variants likely
have a cis-regulatory function, as shown by several post-GWAS studies focusing on the
identification of the causal variants. In this context, the main goal of this project was to develop
and use a new and efficient approach to detect target genes and causal variants in known and
new breast cancer predisposition loci.
Firstly, to address the aforementioned challenges, this work intended to Identify causal variants
acting in candidate loci with strong cis-regulatory potential and association with published and
unpublished GWAS. Allelic expression (AE) ratios were used as a quantitative variable in case control association studies to understand how genetic variation can control gene expression and
to identify cis-regulatory variants and their target genes. For the 17q22 locus two potential
regulatory variants – rs17817901 and rs8066588 – altering a miRNA and a transcription factor
binding site, respectively, were identified. Additionally, results showed that STXBP4 and COX11
are the most likely target genes in this locus. A significant association was found in normal breast
tissue between the preferential expression of the reference alleles of two single nucleotide
polymorphisms (SNPs) located on the 17q22 locus – rs17817901 (TOM1L1/COX11) and
rs2628315 (STXBP4) –, and increased risk for breast cancer. This association was also observed
in blood samples, which shows the possibility of using this approach in the screening of the
general population for breast cancer risk. These results showed that integrating AE ratios as a
quantitative variable in case-control association studies is a powerful approach to identify novel
risk loci.
Next, to perform a genome-wide AE analysis from RNA-sequencing (RNA-seq) data, a
comprehensive comparison of variant calling pipelines was conducted. Forty-two variant calling
pipelines were systematically compared using data from a gold standard and a normal breast tissue sample. This allowed establishing the most suitable analysis pipeline for further studies
aiming at precise AE quantification using RNA-seq data.
Finally, this work aimed to identify new loci associated with breast cancer risk, using a genome wide approach. RNA-seq data from 12 normal breast tissue samples of healthy women (controls)
and 14 breast cancer patients (cases) was analysed and AE ratios were calculated genome-wide
across 7,054 genetic variants. Eight candidate variants associated with breast cancer risk were
identified, and for those, the previously proposed case-control association analysis using AE
ratios was conducted. This identified CDC16 as the strongest candidate new locus associated
with breast cancer risk, with a predicted effect size of -1.83 [95% CI=-2.38, -1.14].
Results from this work provide further evidence that cis-regulatory variation plays a major role
in breast cancer susceptibility and shows the power of integrating allelic expression data in
cancer risk studies, particularly in identifying risk causal variants and their target genes.
Furthermore, it presents a novel efficient approach to identify risk – case-control association
analysis using AE ratios. Overall, besides providing important new knowledge on the biological
mechanism underlying the risk of breast cancer, which will improve the identification and
management of the population at risk, it also provides concepts and approaches that are
applicable to other cancers and complex diseases
Em 2020, o cancro da mama passou a ser o cancro mais diagnosticado em todo o mundo. No total, estima-se que foram diagnosticados 2.261.419 (11,7% de todos os cancros), sendo que as 684.996 mortes decorrentes de cancro da mama (6,9% de todas as mortes por cancro), o colocou em quinto lugar como causa mais comum de morte por cancro. O cancro da mama é uma doença multifactorial, com vários factores de risco ambientais e de estilo de vida, para além dos genéticos. Estes últimos são responsáveis por, aproximadamente, 30% de todos os casos de cancro da mama, sendo que 5-10% dos casos totais apresentam um padrão Mendeliano de heritabilidade. No entanto, as alterações responsáveis pelo risco genético não são completamente claras. Vários estudos levaram à identificação de variantes associadas ao risco para o cancro da mama, as quais são divididas em variantes de penetrância alta, moderada e baixa, consoante a sua frequência e risco associado. As variantes de alta penetrância têm uma frequência do alelo menor (MAF, do inglês minor allele frequency) na população geral abaixo dos 0,005 e conferem um risco relativo acima de 5. As variantes de penetrância moderada apresentam uma MAF de 000,5-0,01 e conferem um aumento de risco entre 2 a 4 vezes. As variantes de baixa penetrância são comuns na população, com uma MAF igual ou superior a 0,05 e aumentam o risco para cancro da mama menos de 1,5 vezes. Estas variantes são geralmente polimorfismos de nucleotídeos únicos (SNPs, do inglês single nucleotide polymorphisms). As variantes de alta e moderada penetrâncias explicam menos de 30% de todo o risco familiar para o cancro da mama, pelo que a restante fracção é provavelmente explicada por um grande número de variantes, que conferem, cada uma, um baixo risco. Este tipo de variantes tem sido maioritariamente identificado pelos estudos de associação do genoma completo (GWAS, do inglês genome-wide association studies). Estes estudos comparam a frequência dos SNPs entre pessoas com a doença (casos) e sem a doença (controlos), e partem do pressuposto que a variante causal se encontra num haplótipo, e que, consequentemente, uma variante que represente o haplótipo e que esteja em desequilíbrio de ligação (LD, do inglês linkage disequilibrium) com a variante causal, apresenta, por aproximação, uma associação com o fenótipo de interesse. No entanto, e a apesar de todos os esforços realizados pelos GWAS, desde 2007, na identificação de variantes comuns que possam explicar a percentagem de risco familiar desconhecida para o cancro da mama, os loci associados a risco por estes estudos representam apenas 18% do risco genético. Para além disso, a maioria das variantes dos GWAS não são as variantes funcionais causadoras do risco, permanecendo também desconhecidos os mecanismos biológicos responsáveis pela associação ao risco. Ainda, a maioria das variantes identificadas pelos GWAS encontram-se em regiões não codificantes do genoma, o que sugere que as variantes causais associadas ao risco têm uma função cis regulatória – regulam a expressão de genes perto e longe – o que tem sido corroborado por estudos funcionais subsequentes, cujo objectivo se focou na identificação das variantes causais. Neste contexto, o presente estudo assenta na hipótese de que as variantes cis-regulatórias, por alterarem a expressão genética, desempenham um papel fundamental na susceptibilidade para o cancro mama. Assim, o objectivo central deste projecto foi desenvolver e utilizar uma abordagem nova e eficiente para detectar as variantes causais e os genes alvo em novos loci e em loci previamente associados ao risco para cancro da mama. Inicialmente, este trabalho focou-se na identificação de variantes causais em loci com forte potencial cis-regulatório e previamente associados com risco por GWAS. Para isso, rácios de expressão alélica (AE, do inglês allelic expression) foram utilizados como variável quantitativa em estudos de associação caso-controlo em amostras de tecido mamário normal e em sangue, para validar as variantes cis-regulatórias candidatas, bem como os genes sob o seu efeito. Dados de uma análise exploratória de expressão alélica diferencial em amostras de tecido mamário de mulheres saudáveis, identificou um forte potencial cis-regulatório em 12 loci associados anteriormente por GWAS a risco para cancro da mama, tendo o maior potencial sido verificado para os loci 1q32.1, 16q23.2, e 17q22. Para este último, foram identificadas duas possíveis variantes regulatórias – rs17817901 e rs8066588 – responsáveis por alterar, respectivamente, o local de ligação de um microRNA e de um factor de transcrição. Os genes COX11 e STXBP4 foram identificados como os mais prováveis genes alvo neste locus. Foi encontrada uma associação significativa em tecido mamário normal entre a expressão preferencial dos alelos de referência das variantes rs17817901 (TOM1L1/COX11) e rs2628315 (STXBP4), e um aumento de risco para o cancro da mama. Esta associação foi igualmente observada em amostras de sangue, demonstrando o potencial impacto da utilização desta abordagem no rastreio do risco de cancro da mama na população. Este trabalho mostra que integrar rácios de expressão alélica como uma variável quantitativa em estudos de associação caso-controlo, constitui uma abordagem poderosa na identificação de novos loci de risco. Seguidamente, este trabalho também validou o SNP rs2699887 como variante regulatória do gene PIK3CA, por alteração da ligação do factor de transcrição NF-YA. As implicações funcionais desta variante incluem a modelação de resposta a fármacos específicos cujo alvo são as mutações no gene PIK3CA. O objectivo seguinte deste projecto centrou-se na identificação de um pipeline adequado para a análise de expressão alélica a partir de dados de sequenciação de amostras de RNA (RNA-seq do inglês RNA-sequencing). Os dados de RNA-seq permitem quantificar a AE, através da contabilização do número de sequências (reads) que alinham em cada um dos alelos de indivíduos heterozigóticos. Dado que a determinação precisa de AE requer uma análise adequada dos dados de RNA-seq, e não existindo um único processo aplicável a todos os casos, este trabalho incluiu uma comparação detalhada de 42 sequências de ferramentas computacionais (pipelines). Uma vez determinado o pipeline mais adequado para análise de dados de RNA-seq direccionada para a quantificação de AE, este trabalho teve também como objectivo identificar novos loci associados com risco para o cancro da mama. Dados de RNA-seq de amostras de tecido mamário normal de 12 mulheres saudáveis (controlos) e 14 mulheres com cancro da mama (casos) foram analisados, tendo sido quantificada a AE e determinados os rácios de AE em todo o genoma. Das 7.054 variantes genéticas para as quais os rácios de AE foram determinados, 353 apresentaram uma diferença significativa (p-value<0.05) entre os rácios de AE dos casos e dos controlos, sendo que para sete dessas variantes, essa diferença era superior a quatro vezes. A análise de seis destas sete variantes numa segunda fase de validação usando PCR em tempo-real para determinar AE num grupo de amostras maior, identificou a variante rs3211416 (CDC16), como associada a risco para cancro da mama, com um efeito previsto de pelo menos 1.83 [95% CI=- 2.38, -1.14]. Os resultados mostram ainda que este risco estará associado ao alelo C do rs3211416 e à expressão mais elevada do gene CDC16, sugerindo assim um papel oncogénico para este gene no contexto do cancro da mama. Os resultados deste trabalho fornecem evidências adicionais de que a variação cis-regulatória desempenha um papel crucial na suscetibilidade para o cancro de mama, e mostra o poder de integrar dados de expressão alélica em estudos de risco de cancro, particularmente na identificação de variantes causais de risco e seus genes alvo. Adicionalmente, apresenta uma nova abordagem altamente eficiente para identificar loci de risco – análise de associação de caso-controlo usando rácios de AE. No geral, além de gerar novo conhecimento sobre os mecanismos biológicos subjacentes ao risco de cancro de mama, o que irá melhorar a identificação e gestão da população em risco, também fornece conceitos e abordagens que são aplicáveis a outros cancros e doenças complexas.
Em 2020, o cancro da mama passou a ser o cancro mais diagnosticado em todo o mundo. No total, estima-se que foram diagnosticados 2.261.419 (11,7% de todos os cancros), sendo que as 684.996 mortes decorrentes de cancro da mama (6,9% de todas as mortes por cancro), o colocou em quinto lugar como causa mais comum de morte por cancro. O cancro da mama é uma doença multifactorial, com vários factores de risco ambientais e de estilo de vida, para além dos genéticos. Estes últimos são responsáveis por, aproximadamente, 30% de todos os casos de cancro da mama, sendo que 5-10% dos casos totais apresentam um padrão Mendeliano de heritabilidade. No entanto, as alterações responsáveis pelo risco genético não são completamente claras. Vários estudos levaram à identificação de variantes associadas ao risco para o cancro da mama, as quais são divididas em variantes de penetrância alta, moderada e baixa, consoante a sua frequência e risco associado. As variantes de alta penetrância têm uma frequência do alelo menor (MAF, do inglês minor allele frequency) na população geral abaixo dos 0,005 e conferem um risco relativo acima de 5. As variantes de penetrância moderada apresentam uma MAF de 000,5-0,01 e conferem um aumento de risco entre 2 a 4 vezes. As variantes de baixa penetrância são comuns na população, com uma MAF igual ou superior a 0,05 e aumentam o risco para cancro da mama menos de 1,5 vezes. Estas variantes são geralmente polimorfismos de nucleotídeos únicos (SNPs, do inglês single nucleotide polymorphisms). As variantes de alta e moderada penetrâncias explicam menos de 30% de todo o risco familiar para o cancro da mama, pelo que a restante fracção é provavelmente explicada por um grande número de variantes, que conferem, cada uma, um baixo risco. Este tipo de variantes tem sido maioritariamente identificado pelos estudos de associação do genoma completo (GWAS, do inglês genome-wide association studies). Estes estudos comparam a frequência dos SNPs entre pessoas com a doença (casos) e sem a doença (controlos), e partem do pressuposto que a variante causal se encontra num haplótipo, e que, consequentemente, uma variante que represente o haplótipo e que esteja em desequilíbrio de ligação (LD, do inglês linkage disequilibrium) com a variante causal, apresenta, por aproximação, uma associação com o fenótipo de interesse. No entanto, e a apesar de todos os esforços realizados pelos GWAS, desde 2007, na identificação de variantes comuns que possam explicar a percentagem de risco familiar desconhecida para o cancro da mama, os loci associados a risco por estes estudos representam apenas 18% do risco genético. Para além disso, a maioria das variantes dos GWAS não são as variantes funcionais causadoras do risco, permanecendo também desconhecidos os mecanismos biológicos responsáveis pela associação ao risco. Ainda, a maioria das variantes identificadas pelos GWAS encontram-se em regiões não codificantes do genoma, o que sugere que as variantes causais associadas ao risco têm uma função cis regulatória – regulam a expressão de genes perto e longe – o que tem sido corroborado por estudos funcionais subsequentes, cujo objectivo se focou na identificação das variantes causais. Neste contexto, o presente estudo assenta na hipótese de que as variantes cis-regulatórias, por alterarem a expressão genética, desempenham um papel fundamental na susceptibilidade para o cancro mama. Assim, o objectivo central deste projecto foi desenvolver e utilizar uma abordagem nova e eficiente para detectar as variantes causais e os genes alvo em novos loci e em loci previamente associados ao risco para cancro da mama. Inicialmente, este trabalho focou-se na identificação de variantes causais em loci com forte potencial cis-regulatório e previamente associados com risco por GWAS. Para isso, rácios de expressão alélica (AE, do inglês allelic expression) foram utilizados como variável quantitativa em estudos de associação caso-controlo em amostras de tecido mamário normal e em sangue, para validar as variantes cis-regulatórias candidatas, bem como os genes sob o seu efeito. Dados de uma análise exploratória de expressão alélica diferencial em amostras de tecido mamário de mulheres saudáveis, identificou um forte potencial cis-regulatório em 12 loci associados anteriormente por GWAS a risco para cancro da mama, tendo o maior potencial sido verificado para os loci 1q32.1, 16q23.2, e 17q22. Para este último, foram identificadas duas possíveis variantes regulatórias – rs17817901 e rs8066588 – responsáveis por alterar, respectivamente, o local de ligação de um microRNA e de um factor de transcrição. Os genes COX11 e STXBP4 foram identificados como os mais prováveis genes alvo neste locus. Foi encontrada uma associação significativa em tecido mamário normal entre a expressão preferencial dos alelos de referência das variantes rs17817901 (TOM1L1/COX11) e rs2628315 (STXBP4), e um aumento de risco para o cancro da mama. Esta associação foi igualmente observada em amostras de sangue, demonstrando o potencial impacto da utilização desta abordagem no rastreio do risco de cancro da mama na população. Este trabalho mostra que integrar rácios de expressão alélica como uma variável quantitativa em estudos de associação caso-controlo, constitui uma abordagem poderosa na identificação de novos loci de risco. Seguidamente, este trabalho também validou o SNP rs2699887 como variante regulatória do gene PIK3CA, por alteração da ligação do factor de transcrição NF-YA. As implicações funcionais desta variante incluem a modelação de resposta a fármacos específicos cujo alvo são as mutações no gene PIK3CA. O objectivo seguinte deste projecto centrou-se na identificação de um pipeline adequado para a análise de expressão alélica a partir de dados de sequenciação de amostras de RNA (RNA-seq do inglês RNA-sequencing). Os dados de RNA-seq permitem quantificar a AE, através da contabilização do número de sequências (reads) que alinham em cada um dos alelos de indivíduos heterozigóticos. Dado que a determinação precisa de AE requer uma análise adequada dos dados de RNA-seq, e não existindo um único processo aplicável a todos os casos, este trabalho incluiu uma comparação detalhada de 42 sequências de ferramentas computacionais (pipelines). Uma vez determinado o pipeline mais adequado para análise de dados de RNA-seq direccionada para a quantificação de AE, este trabalho teve também como objectivo identificar novos loci associados com risco para o cancro da mama. Dados de RNA-seq de amostras de tecido mamário normal de 12 mulheres saudáveis (controlos) e 14 mulheres com cancro da mama (casos) foram analisados, tendo sido quantificada a AE e determinados os rácios de AE em todo o genoma. Das 7.054 variantes genéticas para as quais os rácios de AE foram determinados, 353 apresentaram uma diferença significativa (p-value<0.05) entre os rácios de AE dos casos e dos controlos, sendo que para sete dessas variantes, essa diferença era superior a quatro vezes. A análise de seis destas sete variantes numa segunda fase de validação usando PCR em tempo-real para determinar AE num grupo de amostras maior, identificou a variante rs3211416 (CDC16), como associada a risco para cancro da mama, com um efeito previsto de pelo menos 1.83 [95% CI=- 2.38, -1.14]. Os resultados mostram ainda que este risco estará associado ao alelo C do rs3211416 e à expressão mais elevada do gene CDC16, sugerindo assim um papel oncogénico para este gene no contexto do cancro da mama. Os resultados deste trabalho fornecem evidências adicionais de que a variação cis-regulatória desempenha um papel crucial na suscetibilidade para o cancro de mama, e mostra o poder de integrar dados de expressão alélica em estudos de risco de cancro, particularmente na identificação de variantes causais de risco e seus genes alvo. Adicionalmente, apresenta uma nova abordagem altamente eficiente para identificar loci de risco – análise de associação de caso-controlo usando rácios de AE. No geral, além de gerar novo conhecimento sobre os mecanismos biológicos subjacentes ao risco de cancro de mama, o que irá melhorar a identificação e gestão da população em risco, também fornece conceitos e abordagens que são aplicáveis a outros cancros e doenças complexas.
Description
Keywords
Cancro da mama Loci associados a risco Expressão alélica Cis-regulação Variantes causais Genes alvo