<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Hi Vivek,<div class=""><br class=""></div><div class="">I wanted to send some further information to help answer your question based on some discussions with my colleagues, here in Ensembl.</div><div class=""><br class=""></div><div class="">The transcript set represented in the Homo_sapiens.GRCh38.92.chr.gtf is <span style="background-color: rgb(255, 255, 255);" class="">a subset of the transcripts represented in the cdna + ncrna FASTA combined, </span><span style="background-color: rgb(255, 255, 255);" class="">because the </span><span style="background-color: rgb(255, 255, 255);" class="">Homo_sapiens.GRCh38.92.chr.gtf file includes only the top level chromosomal regions (1..22, X,Y, MT). But the  Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf includes all the top level sequences including the patches, haplotypes and scaffold.</span></div><div class=""><span style="background-color: rgb(255, 255, 255);" class=""><br class=""></span></div><div class=""><span style="background-color: rgb(255, 255, 255);" class="">However, the FASTA files represents features on all top-level sequences, including patches and haplotype regions.</span></div><div class=""><span style="background-color: rgb(255, 255, 255);" class=""><br class=""></span></div><div class=""><span style="background-color: rgb(255, 255, 255);" class="">I hope this helps, but please do get back in touch if you have any further questions.</span></div><div class=""><div class=""><br class=""></div><div class="">Best wishes</div><div class=""><br class=""></div><div class="">Ben<br class=""><div><br class=""><blockquote type="cite" class=""><div class="">On 21 Sep 2018, at 14:27, Ben Moore <<a href="mailto:bmoore@ebi.ac.uk" class="">bmoore@ebi.ac.uk</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html; charset=utf-8" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class=""><div class=""><div class=""><div class=""><div class="">Hi Vivek,</div><div class=""><br class=""></div><div class="">Ensembl provides an automatic gene annotation for Homo sapiens. For some species (human, mouse, zebrafish, pig and rat), the annotation provided through Ensembl also includes manual annotation from HAVANA. In the case of human and mouse, the GTF files found here are equivalent to the GENCODE gene set. There should be a number of GTF files in the Ensembl92 human GTF folder:</div><div class=""><a href="http://ftp.ensembl.org/pub/release-92/gtf/homo_sapiens/" class="">http://ftp.ensembl.org/pub/release-92/gtf/homo_sapiens/</a></div><div class=""><br class=""></div><div class="">.gtf:</div><div class="">This is the default file, it should contain the full annotation for all species except human and mouse. For human and mouse, it will contain all annotation on the primary assembly, ie excluding patch and haplotype regions. All species have one.</div><div class=""><br class=""></div><div class="">.chr.gtf:</div><div class="">Contains only annotation on chromosomes, so toplevel scaffolds are excluded (patch and haplotypes are not included).</div><div class=""><br class=""></div><div class="">.chr_patch_hapl_scaff:</div><div class="">Contains all annotation on all toplevel sequences, including patch and haplotype regions.</div><div class="">It should only exist for human and mouse</div><div class=""><br class=""></div><div class="">Species with no chromosomes will have a single file, .gtf</div><div class="">Species with only chromosomes but no scaffolds will have a single file, .gtf</div><div class="">Species with chromosomes and scaffolds will have two files, .gtf and .chr.gtf </div><div class=""><br class=""></div><div class="">Further information can be found in the README file:</div><div class=""><a href="http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/README" class="">http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/README</a></div><div class=""><br class=""></div><div class="">Best wishes</div><div class=""><br class=""></div><div class="">Ben</div><div class=""><br class=""><blockquote type="cite" class=""><div class="">On 19 Sep 2018, at 10:50, Vivek Iyer <<a href="mailto:vvi@sanger.ac.uk" class="">vvi@sanger.ac.uk</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html; charset=utf-8" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Hi all,<div class=""><br class=""></div><div class="">From the downloadable data on <font color="#0069d9" class=""><span style="caret-color: rgb(0, 105, 217);" class=""><u class=""><a href="ftp://ftp.ensembl.org/pub/release-92/gtf/" class="">ftp://ftp.ensembl.org/pub/release-92/gtf/</a> </u></span></font>I can see one gtf file for download (I’m using v92 at the moment): Homo_sapiens.GRCh38.92.chr.gtf </div><div class=""><br class=""></div><div class="">Are the transcripts in here a superset / subset or the identical to the combined transcripts in the sum of these two fasta files under <a href="ftp://ftp.ensembl.org/pub/release-92/fasta/homo_sapiens/:" class="">ftp://ftp.ensembl.org/pub/release-92/fasta/homo_sapiens/:</a></div><div class="">Homo_sapiens.GRCh38.cdna.all.fa  </div><div class="">Homo_sapiens.GRCh38.ncrna.fa</div><div class=""><br class=""></div><div class="">Of course, I could resolve the IDs and do a simple comparison :-) I was hoping someone could point me at docs (along with a nudge to RTFM) or supply some motivation for the split. Both types of files are needed at different points of an RNAseq pipeline.</div><div class=""><br class=""></div><div class="">Thanks,</div><div class=""><br class=""></div><div class="">Vivek</div></div>_______________________________________________<br class="">Dev mailing list    <a href="mailto:Dev@ensembl.org" class="">Dev@ensembl.org</a><br class="">Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" class="">http://lists.ensembl.org/mailman/listinfo/dev</a><br class="">Ensembl Blog: <a href="http://www.ensembl.info/" class="">http://www.ensembl.info/</a><br class=""></div></blockquote></div><br class=""><div class="">
<div style="letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div style="letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class=""><div class="">Ben Moore</div><div class="">Ensembl Outreach Officer</div><div class=""><br class=""></div><div class="">European Bioinformatics Institute (EMBL-EBI)</div><div class="">European Molecular Biology Laboratory</div><div class="">Wellcome Trust Genome Campus</div><div class="">Hinxton</div><div class="">Cambridge</div><div class="">CB10 1SD</div><div class="">UK</div><div class=""><br class=""></div><div class=""><a href="mailto:bmoore@ebi.ac.uk" class="">bmoore@ebi.ac.uk</a></div><div class="">+44 (0)1223 494265</div></div></div>
</div>
<br class=""></div></div></div></div></div></div></blockquote></div><br class=""><div class="">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div style="color: rgb(0, 0, 0); letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class="">Ben Moore</div><div class="">Ensembl Outreach Officer</div><div class=""><br class=""></div><div class="">European Bioinformatics Institute (EMBL-EBI)</div><div class="">European Molecular Biology Laboratory</div><div class="">Wellcome Trust Genome Campus</div><div class="">Hinxton</div><div class="">Cambridge</div><div class="">CB10 1SD</div><div class="">UK</div><div class=""><br class=""></div><div class=""><a href="mailto:bmoore@ebi.ac.uk" class="">bmoore@ebi.ac.uk</a></div><div class="">+44 (0)1223 494265</div></div></div>
</div>
<br class=""></div></div></body></html>