<div dir="ltr"><div><div><div>The files I am currently using for wheat as a benchmark are hosted here:<br><br><span class="" title="havasquezgross@ucdavis.edu"></span> <span dir="ltr" id=":43m"><a href="ftp://ftp.ensemblgenomes.org/pub/plants/release-22/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.22.gff3.gz">ftp://ftp.ensemblgenomes.org/pub/plants/release-22/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.22.gff3.gz</a></span><br><span dir="ltr" id=":44m"><a href="ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.23.gff3.gz">ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.23.gff3.gz</a></span><br><br></div>Is there another version formatted differently somewhere else in the database? Please, let me know.<br><br></div>Best wishes,<br><br></div>Ksenia</div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Ksenia Krasileva, PhD<br>USDA NIFA Post Doctoral Scholar<br>Department of Plant Sciences<br>University of California, Davis<br>124 Robbins Hall<br>Davis, CA 95616<br><br><div>Email: <a href="mailto:krasileva@ucdavis.edu" target="_blank">krasileva@ucdavis.edu</a><br><div>Twitter: <a href="https://twitter.com/kseniakrasileva" target="_blank">@kseniakrasileva</a><br></div><div>Web: <a href="http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva" target="_blank">http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva</a><br></div></div></div></div>
<br><div class="gmail_quote">On Wed, Sep 24, 2014 at 2:09 AM, Will McLaren <span dir="ltr"><<a href="mailto:wm2@ebi.ac.uk" target="_blank">wm2@ebi.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi Ksenia,<div><br></div><div>These GFF files do not match the specification of GTF required for the <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> script to work.</div><div><br></div><div>See <a href="http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#gtf" target="_blank">http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#gtf</a> for specifications. Looking at your files, the following are not fulfilled:</div><div><br></div><div>- the exon line does not have transcript_id, gene_id and exon_number defined</div><div>- the CDS line does not have transcript_id and exon_number defined</div><div>- the source column is set to "ensembl" rather than some biotype e.g. "protein_coding"</div><div><br></div><div>The GTF files provided by the Ensembl project can give you an idea of what the format should be like:</div><div><br></div><div><a href="http://www.ensembl.org/info/data/ftp/index.html" target="_blank">http://www.ensembl.org/info/data/ftp/index.html</a><br></div><div><br></div><div>The following is an example from C.elegans, just showing the first exon:</div><div><br></div><div><div>V       protein_coding  exon    7651    7822    .       -       .       gene_id "WBGene00002061"; transcript_id "B0348.6a.1"; exon_number "1"; gene_name "ife-3"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "B0348.6a.1"; transcript_source "ensembl"; exon_id "WBGene00002061.e1";</div><div>V       protein_coding  CDS     7651    7818    .       -       0       gene_id "WBGene00002061"; transcript_id "B0348.6a.1"; exon_number "1"; gene_name "ife-3"; gene_source "ensembl"; gene_biotype "protein_coding"; transcript_name "B0348.6a.1"; transcript_source "ensembl"; protein_id "B0348.6a.1";<br></div></div><div><br></div><div>HTH</div><div><br></div><div>Will McLaren</div><div>Ensembl Variation</div></div><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On 23 September 2014 21:00, Ksenia Krasileva <span dir="ltr"><<a href="mailto:krasileva@ucdavis.edu" target="_blank">krasileva@ucdavis.edu</a>></span> wrote:<br></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5"><div dir="ltr"><div><div><div><div>Dear developers team,<br><br></div>I am working towards using a custom annotation of wheat genes in variant effect prediction with VEP.<br><br></div>While building cache with <span style="font-family:courier new,monospace"><a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a></span>, I see that my exon and transcript features are cached, but CDS features are most likely not read correctly (gene biotype gets re-set to 'pseudogene' by <span style="font-family:courier new,monospace">fix_transcript</span> and there is no translation). VEP is able to use this cache but the prediction is not correct as there is no translation or CDS.<br><br></div>I tried to de-bug by running <span style="font-family:courier new,monospace"><a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> </span>with an example single exon gene from Ensembl annotation for Triticum aestivum. I tried both v22 and v23 annotations and both give me the same result as before - biotype gets re-set to 'pseudogene' in cache and there is no CDS/translation. Attached are two test input gtfs that I am using from <br></div><div><span style="font-family:courier new,monospace">Triticum_aestivum.IWGSP1.22.gff3</span> and <span style="font-family:courier new,monospace">Triticum_aestivum.IWGSP1.23.gff3</span> respectively.<br><br></div><div>The command line is below:<br><br><span style="font-family:courier new,monospace">perl <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> -i test.v23.gff -f IWGSC_CSS_AB-TGAC_v1.fa -d 23 -s wheat_custom<br><br></span></div><div><span style="font-family:courier new,monospace"><span style="font-family:arial,helvetica,sans-serif">I appreciate your suggestions of what might be going on. <br><br>Thank you in advance,<br><br></span></span></div><span style="font-family:courier new,monospace"><span style="font-family:arial,helvetica,sans-serif"></span></span><div><span style="font-family:courier new,monospace"><span style="font-family:arial,helvetica,sans-serif">Ksenia<br><br><br></span></span></div><div><div><div><div><div><div><div><div><div><div><div><div dir="ltr">Ksenia Krasileva, PhD<br>USDA NIFA Post Doctoral Scholar<br>Department of Plant Sciences<br>University of California, Davis<br>124 Robbins Hall<br>Davis, CA 95616<br><br><div>Email: <a href="mailto:krasileva@ucdavis.edu" target="_blank">krasileva@ucdavis.edu</a><br><div>Twitter: <a href="https://twitter.com/kseniakrasileva" target="_blank">@kseniakrasileva</a><br></div><div>Web: <a href="http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva" target="_blank">http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva</a><br></div></div></div></div>
</div></div></div></div></div></div></div></div></div></div></div>
<br></div></div>_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org" target="_blank">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br></blockquote></div><br></div>