<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p>Hello,</p>
<p>As I do not receive answers of my previous email I will try to describe a bit more my goals and questions.</p>
<p>I generated my own transcriptome fasta file using gtf from ensembl, genome fasta file from ensembl (same release) and a tool like gtf_to_fasta (TopHat) or gffread (Cufflinks). Once I did that I compared the generated file with the cdna transcriptome fasta
 file available at ensembl ftp. Unfortunately I found some differences between my transcriptome fasta file and the one provided by ensembl. That is why I tried to determine the origin of these differences.<br>
All my tests have been run on different species (human, D. melanogaster, ...) and different releases (84 and 93)<br>
<br>
I used the approach described below to define differences :<br>
- take all transcript_ids from transcriptome fasta file of ensembl<br>
- take all transcript_ids from gtf file of ensembl<br>
- detect number of transcript in common in both files and transcript specific to each file<br>
- map transcript_id to the gtf annotation and detect gene_biotype associated to transcripts of each file.<br>
<br>
<b>results for human release 84:</b></p>
<p>gtf file : <a class="moz-txt-link-freetext" href="http://ftp.ensembl.org/pub/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh38.84.gtf.gz">
http://ftp.ensembl.org/pub/release-84/gtf/homo_sapiens/Homo_sapiens.GRCh38.84.gtf.gz</a><br>
fasta file : <a class="moz-txt-link-freetext" href="http://ftp.ensembl.org/pub/release-84/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz">
http://ftp.ensembl.org/pub/release-84/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz</a><br>
</p>
<p>transcripts common in both files : 161150<br>
transcripts present only in gtf : 38034<br>
transcripts present only in fasta file : 15091<br>
number of different gene biotypes for transcripts present in gtf: 44<br>
number of different gene biotypes for transcripts in fasta file : 23<br>
list of biotypes present only in gtf and their count :<br>
<br>
gene_biotype  freq<br>
3prime_overlapping_ncrna    32<br>
antisense 10183<br>
bidirectional_promoter_lncrna     5<br>
lincRNA 12648<br>
macro_lncRNA     1<br>
miRNA  4198<br>
misc_RNA  2306<br>
Mt_rRNA     2<br>
Mt_tRNA    22<br>
non_coding     3<br>
processed_transcript  2760<br>
ribozyme     8<br>
rRNA   549<br>
scaRNA    49<br>
sense_intronic   978<br>
sense_overlapping   334<br>
snoRNA   961<br>
snRNA  1905<br>
sRNA    20<br>
TEC  1069<br>
vaultRNA     1<br>
<br>
All the 38034 transcripts present only in gtf have a gene_biotype not present anymore in ensembl transcriptome.
<br>
</p>
<p><b>results for D. melanogaster release 93:</b></p>
<p>gtf file : <a class="moz-txt-link-freetext" href="http://ftp.ensembl.org/pub/release-93/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP6.93.gtf.gz">
http://ftp.ensembl.org/pub/release-93/gtf/drosophila_melanogaster/Drosophila_melanogaster.BDGP6.93.gtf.gz</a><br>
fasta file : <a class="moz-txt-link-freetext" href="http://ftp.ensembl.org/pub/release-93/fasta/drosophila_melanogaster/cdna/Drosophila_melanogaster.BDGP6.cdna.all.fa.gz">
http://ftp.ensembl.org/pub/release-93/fasta/drosophila_melanogaster/cdna/Drosophila_melanogaster.BDGP6.cdna.all.fa.gz</a><br>
</p>
<p>transcripts in both files : 30819<br>
transcripts present only in gtf : 3948<br>
transcripts present only in fasta : 9<br>
number of different gene biotypes for transcripts present in gtf: 8<br>
number of different gene biotypes for transcripts present in fasta file : 2<br>
list of biotypes present only in gtf and their count :</p>
<p>gene_biotype    freq<br>
ncRNA    2941<br>
pre_miRNA    259<br>
rRNA    115<br>
snoRNA    289<br>
snRNA    32<br>
tRNA    312<br>
</p>
<p>All the 3948 transcripts present only in gtf have a gene_biotype not present anymore in ensembl transcriptome.
</p>
<p><br>
</p>
<p>Could someone please explain to me :</p>
<p>    1. Why all the transcripts with these gene biotypes are removed during the creation of the transcriptome ?<br>
    2. Where do the transcripts present in the transcriptome fasta file but not in the gtf file (15091 in human, 9 in D. melanogaster) come from ?<br>
    3. How does the cdna transcriptome fasta file is generated ?<br>
    4. Should I generate my own transcriptome fasta file or take the ensembl cdna fasta file ?</p>
<p>Sorry for such a long email.... and thank you for your answers.</p>
<p>Best Regards,</p>
<p><br>
</p>
<p>Julien Wollbrett<br>
</p>
<p><br>
</p>
<p><br>
</p>
<p><br>
</p>
<p><br>
</p>
</body>
</html>