Repository logo
 
Loading...
Thumbnail Image
Publication

Assembly and annotation of the sardine (Sardina pilchardus) transcriptome

Use this identifier to reference this record.
Name:Description:Size:Format: 
Sardine Transcriptome_final.pdf3.01 MBAdobe PDF Download

Abstract(s)

The European sardine (Sardina pilchardus) is a fish of high cultural and economic importance in Portugal and current stock assessment studies report an alarming stock biomass decrease due to overfishing and/or environmental change. For better management of the sardine fisheries, there is an urgent need to understand the causal factors leading to the historically low level of the sardine stock in Portuguese waters. Important biological questions such as population diversity level, structure and migrations can be tackled with the development and usage of genomic tools. The ability to answer such important biological questions will be valuable and can be integrated into stock assessment data modelling and aid data-based policy making for better biological resource management. Eleven tissues were sequenced and curated to assemble the transcriptome. Through the comparison of different approaches, the best seemed to go through a quality control step with Trim Galore and a de novo assembly. A post-assembly quality control with Transrate seemed to be better when assembling a group of different tissues rather than one specific ones. The assembly with reads from all the tissues studied contained 170,478 contigs and had an N50 value of 486. Before this project almost no genomic/genetics resources existed to assist biological studies of the sardine and the species genome and transcriptome are cornerstone resources needed to translate applied scientific genetic data into management measures. In this project, a reference transcriptome of the sardine was assembled and functionally annotated.
A sardinha europeia (Sardina pilchardus) é um peixe de grande importância cultural e económica em Portugal e os atuais estudos de avaliação das unidades populacionais mostram uma diminuição preocupante da biomassa das unidades populacionais devido à sobrepesca e / ou alterações ambientais. Para uma melhor gestão da pesca da sardinha, existe uma necessidade urgente de compreender os fatores que levam ao baixo nível histórico do estoque de sardinha nas águas portuguesas. Questões importantes biológicas, como níveis de diversidade populacional, estrutura e migrações, podem ser abordadas com o desenvolvimento e uso de ferramentas genómicas. A capacidade de responder a essas importantes questões biológicas será valiosa e poderá ser integrada à modelagem de dados de avaliação de estoques e à criação de políticas baseadas em dados de ajuda para um melhor gerenciamento dos recursos biológicos. Onze tecidos foram sequenciados e tratados para montar o transcriptoma. Através da comparação de diferentes abordagens, os melhores pareciam passar por uma etapa de controlo de qualidade com o Trim Galore e uma montagem de novo. Um controlo de qualidade pós-montagem com o Transrate parecia ser melhor quando se montava um grupo de diferentes tecidos, em vez de um único específico. A montagem com leituras de todos os tecidos estudados continha 170 478 contigs e tinha um valor de N50 de 486. Através da comparação do controlo de qualidade executado pelo Trim Galore com o Trimmomatic, notou-se uma melhor qualidade de leituras após o Trimmomatic com pontuações de qualidade acima de 32 e percentagens de leituras removidas entre os 0,28 e 0,44 % em contraste com pontuações de qualidade de 28 e percentagens de leituras removidas entre os 5,77 e 8,08 % resultantes do Trim Galore, ambas as abordagens originaram em percentagens de guanina-citocina entre os 49 e 55 %. No entanto, devido a sequências menores do que 30 pares de base inesperadas e percentagens de leituras removidas maiores do que o esperado resultantes do Trimmomatic o projeto procedeu com as leituras resultantes do Trim Galore. Entre as duas abordagens para a montagem do transcriptoma com o Trinity, como a montagem guiada pelo genoma originou valores de N50 mais baixos para o primeiro tecido testado nos dois métodos de alinhamento (local e de ponta-a-ponta) mais nenhum tecido foi testado e o projeto procedeu com as montagens de novo. As montagens de novo passaram por outro passo de controlo de qualidade feito pelo Transrate que reteve entre 44 e 80 % de sequências com medias de comprimento entre os 425,98 e 686,88 pares de base e valores de N50 entre os 474 e 1 039. O Transrate diminui os valores de N50, o que não era esperado, mas diminuiu também o número de contigs para um valor mais realista para os tecidos tendo assim ter sido escolhidas para a anotação as montagens de novo após tratadas pelo Transrate. Através do Trinotate, entre 14,66 e 38,07 % dos contigs foram deduzidos em regiões codificadoras com TransDecoder; 25,49 a 44,77 % e 11,56 a 31,71 % dos contigs foram anotados com homologias de sequências via Sprot blastx Sprot blastp, respetivamente. Com base na sequência SwissProt ID obtida e no banco de dados SQL do Trinotate, 20,92 a 39,63 % anotados com homologias de sequências via BLAST + tiveram a anotação de Kegg, 19,70 a 39,20 % de eggNOG, 24,81 a 44,11 % de GO blast. Foram identificados 9,70 a 25,05 % de domínios proteicos com HMMER / PFAM e, consequentemente, 5,90 a 15,00 % anotados com GO com base nos domínios Pfam. No geral, o banco de dados que anotou o maior número de transcritos foi eggNOG, enquanto o que anotou o menor foi com SignalP, mostrando apenas uma pequena percentagem (1,02 a 1,94 % de peptídeos de sinal) dos transcritos representam proteínas que são secretadas a partir da célula, seguido por proteínas transmembranares identificadas com tmHMM, com 2,73 a 5,46 % de domínios transmembranares encontrados. Comparando a anotação antes das montagens passarem pelo Transrate, foram também anotadas as montagens do tecido da barbatana caudal e da montagem com todos os tecidos notando-se no geral uma diminuição de percentagem de transcritos anotados após o Transrate, o que não deveria acontecer. As isoformas dos genes foram retiradas para novos cálculos das percentagens para perceber se era o motivo da diminuição, com esta forma a percentagem de genes anotados diminuíram menos. Uma quantificação de transcritos fornecida pelo Trinity determinou 12 747 genes e 13 732 transcritos expressos entre 10 e 100 TPM (transcritos por milhão), dos quais 26 053 genes e 28 211 transcritos são expressos por pelo menos 10 TPM. Foram considerados entre 64 a 1189 genes específicos de tecidos dos quais foram anotados por volta de 64 % quando os genes tinham uma expressão total de 95 % nesse tecido. A anotação dos 10 genes específicos mais significantes por tecido permitiu a verificação de genes que correspondiam com a função de cada tecido e onde seriam mais expressos como também a verificação de genes duplicados. Após estes genes duplicados terem sido analisados notou-se que apenas existia uma cópia destes antes dos teleostes e entres os teleostes era possível verificar mais do que uma, confirmando assim um evento de duplicação de genoma inteiro nos teleostes. Pelo website REVIGO foram gerados gráficos de dispersão e tabelas com GOs de processos biológicos e funções moleculares que correspondiam com a função de cada tecido para os quais foram gerados. Antes, quase não existiam recursos genómicos / genéticos para auxiliar os estudos biológicos, e o genoma e o transcriptoma das espécies são recursos fundamentais necessários para transformar dados genéticos científicos aplicados em manejo. Neste projeto, o transcriptoma representativo da sardinha foi montado e funcionalmente.

Description

Keywords

Sardinha Transcriptoma Anotação Bioinformática Dieta mediterrânica

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License