Repository logo
 
Publication

Functional analysis of genetic variants associated with risk for breast cancer: 12q24, a candidate risk locus

datacite.subject.fosCiências Médicas::Ciências da Saúdept_PT
dc.contributor.advisorMaia, Ana Teresa
dc.contributor.authorSilva, Joceline Janice Correia
dc.date.accessioned2017-09-25T11:28:49Z
dc.date.available2017-09-25T11:28:49Z
dc.date.issued2017-03-03
dc.date.submitted2016
dc.descriptionDissertação de mestrado, Oncobiologia - Mecanismos Moleculares do Cancro, Departamento de Ciências Biomédicas e Medicina, Universidade do Algarve, 2017
dc.description.abstractCommon risk alleles identified through Genome-Wide Association Studies (GWAS) explain about 14% of familial breast cancer cases. However, GWAS do not identify causative variants in the risk loci and do not contribute to the understanding of risk mechanisms. All of the risk loci functionally analysed to date are cis-regulatory, i.e. polymorphisms that modify gene expression. Therefore, we hypothesize that cis-regulation is a central mechanism in breast cancer susceptibility. Differential allelic expression (DAE) is the most robust method to identify the effect of cis-regulatory single nucleotide polymorphisms (SNPs). Our group established a whole-genome DAE map for normal breast tissue, which we integrated with the GWAS data, to identify risk loci with greater potential to be cis-regulatory. We identified 111 loci, with one of them in the 12q24 locus, containing an unpublished GWAS SNP, rs7307700, and 15 DAE SNPs. We performed in silico analysis to characterize the regulatory potential of candidate cis-regulatory SNPs (rSNPs) in breast cell lines, and in vitro analysis by electrophoretic mobility shift assay (EMSA) to explore interactions between candidate rSNPs and candidate transcription factors (TFs). Three candidate rSNPs, rs10773145, rs10846834 and rs12302714, overlapped regulatory elements and DNase I hypersensitivity sites, and were associated with the DAE observed for two transcribed SNPs (or DAE SNPs), rs7301263 and rs12581512. The candidate SNPs rs10773145 and rs10846834 were both located within known c-FOS and STAT3 binding sites, but showed small allelic differences in the ChIP-seq data. Since there was no ChIP-seq data for rs12302714, we carried EMSA analysis. Although we detected DNA-protein binding for both alleles of this SNP, no allelic differences were detected. We also analysed candidate SNPs for microRNA binding and the results suggested that a microRNA have preferentially binding to the alleles of candidate rSNP rs12302714. These results indicate that the DAE observed might not be explained by differential binding of TFs at the three candidate rSNPs and might be due to other regulatory mechanisms, that require further exploration, such as splicing and microRNAs.pt_PT
dc.description.abstractO cancro da mama é uma das doenças oncológicas mais comuns, sendo a mais frequente causa de morte entre as mulheres. É estimado que uma em cada onze mulheres será diagnosticada com cancro da mama ao longo da sua vida. Trata-se de uma patologia complexa cuja etiologia pode ser devido a fatores genéticos e não genéticos. Estima-se que 5% a 10% dos casos de cancro da mama são devido a fatores genéticos, no entanto, o conhecimento atual acerca do risco hereditável não explica cerca 50% destes casos familiares. Recentes avanços tecnológicos, nomeadamente nos microarrays de genotipagem, e nos Estudos de Associação no Genoma Inteiro (genome-wide association studies, GWAS) permitiram identificar um grande número de variantes associadas a risco para cancro da mama. Os GWAS são estudos divididos por fases, que analisam variações no genoma inteiro, com o objetivo de descobrir fatores genéticos de risco de doenças comuns na população, como o cancro da mama. As variantes cis-reguladoras são polimorfismos frequentes na população (>5% de frequência do alelo menos frequente na população), ao contrário das mutações (<1% de frequência na população). Estes polimorfismos têm a capacidade de regular a expressão de genes quando localizados em elementos reguladores, nomeadamente, promotores ou elementos intensificadores (enhancer), podendo afetar a ligação de fatores de transcrição e consequentemente, a regulação de determinado gene. Atualmente, 94 loci de suscetibilidade para o cancro da mama foram identificados através de GWAS, que explicam apenas cerca de 14% do risco para esta patologia. Até à data, foram estudados funcionalmente 13 loci, e os resultados sugerem que os polimorfismos analisados tinham como mecanismo de atuação a cis-regulação. Adicionalmente, do 94 loci somente um se localiza numa região codificante, com todos os outros a localizarem-se em intrões, regiões intergénicas e regiões sem transcrição detetável (“gene deserts”). Finalmente, os GWAS para além dos 94 loci de risco validados, produziram longas listas de loci com significância estatística muito elevada, que necessitam de ser priorizados para estudos de validação. Com base nestas evidências, a nossa hipótese é que a cis-regulação é um mecanismo importante para o risco do cancro da mama e que a maioria dos polimorfismos associados ao risco para o cancro da mama ainda por descobrir poderão ser também cis-reguladores. Este trabalho foca-se nos polimorfismos de nucleótido único (SNPs) cis-reguladores e, entre outras abordagens, estes SNPs cis-reguladores (rSNP) podem ser identificados através da análise de loci de características quantitativas de expressão (expression quantitative trait loci, eQTL) e da análise de Expressão Alélica Diferencial (differential allelic expression, DAE). A análise de eQTL permite fazer uma associação entre SNPs e a variação de expressão total de determinado gene. No entanto, o nível de expressão total está sujeito a fatores em trans (tal como o nível de proteínas com função de fatores de transcrição), para além dos fatores em cis (alterações na sequência, tal como os SNPs). DAE é um dos possíveis efeitos observados na presença de rSNPs em elementos reguladores, dessa forma, a análise de DAE permite comparar os níveis relativos de expressão dos dois alelos do mesmo gene em indivíduos heterozigóticos, utilizando um SNP transcrito (tSNP ou DAE SNP). Esta abordagem não só indica qual o alelo a causar DAE, como elimina o efeito de fatores trans, pois compara os níveis de transcritos dos alelos individualmente no mesmo contexto celular e haplótipos. Num trabalho anterior feito pela Prof. Ana Teresa Maia e colegas, desenvolveu-se um mapa de DAE em 64 amostras de tecido mamário normal, que informa quais genes estão sob a influência de rSNPs. O próximo passo será identificar os SNPs causadores de risco. Assim, os dados do mapa de DAE foram cruzados com os resultados publicados e não publicados de GWAS para cancro da mama. Este cruzamento de dados foi feito de acordo com a localização cromossómica, distância física (janelas de ±250kb entre o GWAS SNP e o DAE SNP) e padrões de desequilíbrio de ligação (linkage disequilibrium, LD) com o valor mínimo de r2 = 0.4. Foram identificados 111 loci candidatos que contêm pelo menos um GWAS SNP e um DAE SNP e com forte potencial cis-regulador. Em 32 loci o GWAS SNP e o DAE SNP estavam em elevado LD, ou seja, os seus genótipos estavam fortemente associados. Como todos os loci estudados funcionalmente sugerem que o mecanismo causador de risco para o cancro da mama é a cis-regulação, e como todos os loci identificados, com exceção a um, encontram-se em regiões não codificantes (sugerindo que estão localizados em regiões regulatórias), selecionámos para análise funcional o locus 12q24, não publicado, para testar se este locus encontra-se também sob influência de rSNPs e validar este locus para o risco de cancro da mama. O GWAS SNP neste locus não atingiu o valor estabelecido pelo GWAS para passar a fase III, talvez por não estar em elevado LD com o rSNP causal. Desta forma, iremos testar se a integração do nosso mapa de DAE com os dados do GWAS relativos ao cancro da mama é uma boa abordagem para priorizar loci ainda por validar, com maior probabilidade de estarem sob influência de variantes cis-reguladoras, e consequentemente, mais prováveis a estarem associados ao risco para o cancro da mama. Este trabalho teve como objetivo: 1) validar um dos loci identificados, mas não validados, localizado na região 12q24, e confirmar a sua associação com o risco para o cancro da mama; 2) identificar e analisar funcionalmente as variantes com potencial a serem cis-reguladoras no locus 12q24; 3) testar se a nossa abordagem é um método eficaz para priorizar variantes candidatas a associados com risco. Começou-se por analisar o nosso mapa de DAE nesta região. A região do locus 12q24 apresenta 15 DAE SNPs e um GWAS SNP, rs7307700, localizado no gene AACS. Para identificar e analisar possíveis variantes associadas ao risco e com potencial a serem rSNPs, foram feitas análises in silico. Os dados dos projetos HapMap e 1000 Genomes Project foram consultados para identificar os melhores candidatos a rSNPs em LD ≥ 0.4 com o GWAS SNP, sendo identificados 72 rSNPs candidatos. Para analisar estes candidatos, acedeu-se aos dados dos projetos ENCODE e Roadmap Epigenomics, que contêm informações sobre zonas de hipersensibilidade à desoxirribonuclease I (DHSs), imuno-precipitação da cromatina (ChIP-seq) para diversas modificações de histonas e fatores de transcrição, previsões alélicas de ligação de proteínas (PWM). No final desta análise, 12 rSNPs candidatos foram encontrados em sobreposição com DHSs e com regiões que contêm marcadores para elementos reguladores, com evidência de estarem ativos em linhas celulares mamárias, sugerindo que esses podem ter um efeito funcional através da regulação da expressão de genes alvo., Para identificar as variantes que poderão estar a causar DAE no locus 12q24, testaram-se os níveis de expressão alélica dos 15 DAE SNPs com os genótipos dos 12 rSNPs candidatos. Dado o padrão de DAE demonstrado pelos DAE SNPs, pretendeu-se identificar os rSNP candidatos cujos homozigóticos não demonstrassem DAE nos DAE SNPs (i.e., SNPs transcritos), e cujos heterozigóticos apresentassem DAE nos DAE SNPs. Três dos 12 candidatos (rs10773145, rs10846834 e rs12302714) explicavam o DAE de dois DAE SNPs (rs12581512 e rs7301263). Para dois deles, rs10773145 e rs10846834, que se encontravam em completo LD um com o outro, existiam dados de ChIP-seq disponíveis que indicavam a ligação das proteínas STAT3 e c-FOS. No entanto, esses dados não revelavam diferenças de afinidade entre os alelos de cada SNP. Para o terceiro candidato, rs12302714, como não existiam dados de ChIP-seq, procedemos com ensaios in vitro. Os resultados de EMSA (electrophoretic mobility shift assay) sugeriram que, apesar de haver ligação de proteína, não existiam diferenças de afinidade para os alelos deste rSNP candidato. De acordo com estes resultados, é possível que estes três candidatos estejam a afetar o DAE observado nos DAE SNPs do gene AACS por outro mecanismo que não a ligação diferencial de fatores de transcrição em elementos reguladores. Outros mecanismos possíveis incluem diferenças alélicas de produção de transcritos alternativos (alelos a afetar o processo de splicing), ou de regulação por microRNAs. De seguida, analisou-se se havia alguma previsão de ligação preferencial de microRNAs aos alelos dos 72 SNPs candidatos. Em 17 dos 72 SNPs (incluindo o SNP rs12302714) houve previsões de ligação microRNAs com preferência a um dos alelos comparativamente ao outro. Posteriormente, analisaram-se os genótipos dos candidatos rSNPs, DAE SNP e GWAS SNP para a estrutura de LD nessa região e para identificação dos haplótipos, nas 64 amostras de tecido normal da mama, que poderão ser responsáveis pelo aumento ou diminuição da expressão dos genes. Foram identificados seis haplótipos comuns, estando dois haplótipos associados a diferenças nos níveis de expressão. Estes resultados sugerem que talvez seja o efeito acumulativo de dois ou mais rSNPs a causar o risco para cancro da mama e o DAE observado nos DAE SNPs no locus 12q24. Em paralelo a este trabalho, um outro locus (5q14.2) foi funcionalmente analisado. Um dos candidatos rSNP identificados através da análise in silico, afeta diferencialmente a ligação de um fator de transcrição no gene ATG10, causando assim, DAE por cis-regulação. No entanto, o fator de transcrição que se liga preferencialmente a um dos alelos deste rSNP permanece por identificar. Em suma, o cruzamento dos nossos dados de DAE com os dados de GWAS foi uma boa abordagem para priorizar loci não publicados dos GWASes que estão sob influência de cis-regulação, e com potencial para ser associado ao risco, para validação para o risco de cancro da mama. Futuramente, mais análises in silico e in vitro deverão ser feitas, de modo a entender que outro mecanismo de regulação poderá explicar o DAE observado no locus 12q24, e que fator de transcrição poderá estar a regular a expressão do gene ATG10 (locus 5q14.2). Uma análise mais aprofundada da regulação destes genes poderá levar também à compreensão da biologia de predisposição ao cancro e contribuir para o desenvolvimento de terapias futuras, especialmente na área da medicina personalizada, baseada nos haplótipos que regem o DAE em cada indivíduo.pt_PT
dc.identifier.tid201712105pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.1/10019
dc.language.isoengpt_PT
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_PT
dc.subjectCancro da mamapt_PT
dc.subjectSuscetibilidadept_PT
dc.subjectPolimorfismos de nucleóticos únicospt_PT
dc.subjectVariantes cis-reguladoraspt_PT
dc.subjectExpressão alélica diferencialpt_PT
dc.titleFunctional analysis of genetic variants associated with risk for breast cancer: 12q24, a candidate risk locuspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.grantorUniversidade do Algarve, Departamento de Ciências Biomédicas e Medicina
thesis.degree.levelMestre
thesis.degree.nameOncobiologia - Mecanismos Moleculares do Cancropt_PT

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
JJS_Tese Mestrado 2016.pdf
Size:
2.06 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
3.41 KB
Format:
Item-specific license agreed upon to submission
Description: