<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi all,<div><br></div><div>Has anyone else encountered this issue?</div><div><br></div><div>We use the GTF dumps for various things and one thing I'm having trouble understanding is why some items marked as 'processed_transcripts' when viewed via the web interface are marked as 'protein_coding' in the dumps.</div><div><br></div><div>Take the gene <a href="http://www.ensembl.org/Homo_sapiens/Transcript/Summary?db=core;g=ENSG00000185608;r=22:19420462-19420479;t=ENST00000471259">MRPL40</a> (Homo sapiens).  MRPL40-003 is clearly indicated to have a Biotype of 'Processed transcript' yet the entry in the GTF file is 'protein_coding' (tabs replaced with space for readability):</div><div><br></div><div><div>22 protein_coding exon 19420462 19420871 . + . gene_id "ENSG00000185608"; transcript_id "ENST00000471259"; exon_number "1"; gene_name "MRPL40"; transcript_name "MRPL40-003";</div><div>22 protein_coding exon 19422259 19422417 . + . gene_id "ENSG00000185608"; transcript_id "ENST00000471259"; exon_number "2"; gene_name "MRPL40"; transcript_name "MRPL40-003";</div><div>22 protein_coding exon 19423161 19423533 . + . gene_id "ENSG00000185608"; transcript_id "ENST00000471259"; exon_number "3"; gene_name "MRPL40"; transcript_name "MRPL40-003";</div><div apple-content-edited="true"> <div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><span class="Apple-style-span" style="font-size: 12px; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><br></div><div>I'm aware that not all Biotypes are reflected directly, for instance I'm aware that 'Nonsense mediated decay' is still considered 'protein_coding' as a protein is still generated, however there are many examples of transcripts in the GTF file being marked as 'processed_transcript'.</div><div><br></div><div>It appears that the value being recorded is the biotype of the gene rather than the biotype of the transcript, is this correct?  If so is this what it should be or could it be a bug in the exports?  I can confirm that this is consistent between v58 and v63 of Ensembl.</div><div><br></div><div>Regards,</div><div><br class="Apple-interchange-newline">Keiran Raine</div><div>Senior Computer Biologist</div><div>The Cancer Genome Project</div><div>Ext: <span class="Apple-style-span" style="font-size: medium; ">7703</span></div><div><a href="mailto:kr2@sanger.ac.uk">kr2@sanger.ac.uk</a></div><div><br></div></div></span></div></span></span><br class="Apple-interchange-newline"></span></span></div><br class="Apple-interchange-newline"></div><br class="Apple-interchange-newline"> </div><br></div></body></html>