<div dir="ltr"><div>Hi Arnauld,<br><br>Great! Now I see that I was looking at GFF3 not GTF. This should resolve the issues. Thank you for providing the link.<br><br></div><div>Best wishes,<br><br></div>Ksenia<br></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Ksenia Krasileva, PhD<br>USDA NIFA Post Doctoral Scholar<br>Department of Plant Sciences<br>University of California, Davis<br>124 Robbins Hall<br>Davis, CA 95616<br><br><div>Email: <a href="mailto:krasileva@ucdavis.edu" target="_blank">krasileva@ucdavis.edu</a><br><div>Twitter: <a href="https://twitter.com/kseniakrasileva" target="_blank">@kseniakrasileva</a><br></div><div>Web: <a href="http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva" target="_blank">http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva</a><br></div></div></div></div>
<br><div class="gmail_quote">On Tue, Sep 30, 2014 at 12:51 PM, Arnaud Kerhornou <span dir="ltr"><<a href="mailto:arnaud@ebi.ac.uk" target="_blank">arnaud@ebi.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Knesia,<br>
<br>
we also provide gtf<br>
<a href="ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gtf/triticum_aestivum/" target="_blank">ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gtf/triticum_aestivum/</a><br>
<br>
Arnaud<br>
<span class=""><br>
> The files I am currently using for wheat as a benchmark are hosted here:<br>
><br>
> <a href="ftp://ftp.ensemblgenomes.org/pub/plants/release-22/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.22.gff3.gz" target="_blank">ftp://ftp.ensemblgenomes.org/pub/plants/release-22/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.22.gff3.gz</a><br>
> <a href="ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.23.gff3.gz" target="_blank">ftp://ftp.ensemblgenomes.org/pub/plants/release-23/gff3/triticum_aestivum/Triticum_aestivum.IWGSP1.23.gff3.gz</a><br>
><br>
> Is there another version formatted differently somewhere else in the<br>
> database? Please, let me know.<br>
><br>
> Best wishes,<br>
><br>
> Ksenia<br>
><br>
> Ksenia Krasileva, PhD<br>
> USDA NIFA Post Doctoral Scholar<br>
> Department of Plant Sciences<br>
> University of California, Davis<br>
> 124 Robbins Hall<br>
> Davis, CA 95616<br>
><br>
> Email: <a href="mailto:krasileva@ucdavis.edu">krasileva@ucdavis.edu</a><br>
</span>> Twitter: @kseniakrasileva <<a href="https://twitter.com/kseniakrasileva" target="_blank">https://twitter.com/kseniakrasileva</a>><br>
<div><div class="h5">> Web: <a href="http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva" target="_blank">http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva</a><br>
><br>
> On Wed, Sep 24, 2014 at 2:09 AM, Will McLaren <<a href="mailto:wm2@ebi.ac.uk">wm2@ebi.ac.uk</a>> wrote:<br>
><br>
>> Hi Ksenia,<br>
>><br>
>> These GFF files do not match the specification of GTF required for the<br>
>> <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> script to work.<br>
>><br>
>> See <a href="http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#gtf" target="_blank">http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#gtf</a><br>
>> for specifications. Looking at your files, the following are not<br>
>> fulfilled:<br>
>><br>
>> - the exon line does not have transcript_id, gene_id and exon_number<br>
>> defined<br>
>> - the CDS line does not have transcript_id and exon_number defined<br>
>> - the source column is set to "ensembl" rather than some biotype e.g.<br>
>> "protein_coding"<br>
>><br>
>> The GTF files provided by the Ensembl project can give you an idea of<br>
>> what<br>
>> the format should be like:<br>
>><br>
>> <a href="http://www.ensembl.org/info/data/ftp/index.html" target="_blank">http://www.ensembl.org/info/data/ftp/index.html</a><br>
>><br>
>> The following is an example from C.elegans, just showing the first exon:<br>
>><br>
>> V       protein_coding  exon    7651    7822    .       -       .<br>
>> gene_id "WBGene00002061"; transcript_id "B0348.6a.1"; exon_number "1";<br>
>> gene_name "ife-3"; gene_source "ensembl"; gene_biotype "protein_coding";<br>
>> transcript_name "B0348.6a.1"; transcript_source "ensembl"; exon_id<br>
>> "WBGene00002061.e1";<br>
>> V       protein_coding  CDS     7651    7818    .       -       0<br>
>> gene_id "WBGene00002061"; transcript_id "B0348.6a.1"; exon_number "1";<br>
>> gene_name "ife-3"; gene_source "ensembl"; gene_biotype "protein_coding";<br>
>> transcript_name "B0348.6a.1"; transcript_source "ensembl"; protein_id<br>
>> "B0348.6a.1";<br>
>><br>
>> HTH<br>
>><br>
>> Will McLaren<br>
>> Ensembl Variation<br>
>><br>
>> On 23 September 2014 21:00, Ksenia Krasileva <<a href="mailto:krasileva@ucdavis.edu">krasileva@ucdavis.edu</a>><br>
>> wrote:<br>
>><br>
>>> Dear developers team,<br>
>>><br>
>>> I am working towards using a custom annotation of wheat genes in<br>
>>> variant<br>
>>> effect prediction with VEP.<br>
>>><br>
>>> While building cache with <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a>, I see that my exon and transcript<br>
>>> features are cached, but CDS features are most likely not read<br>
>>> correctly<br>
>>> (gene biotype gets re-set to 'pseudogene' by fix_transcript and there<br>
>>> is<br>
>>> no translation). VEP is able to use this cache but the prediction is<br>
>>> not<br>
>>> correct as there is no translation or CDS.<br>
>>><br>
>>> I tried to de-bug by running <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> with an example single exon<br>
>>> gene<br>
>>> from Ensembl annotation for Triticum aestivum. I tried both v22 and v23<br>
>>> annotations and both give me the same result as before - biotype gets<br>
>>> re-set to 'pseudogene' in cache and there is no CDS/translation.<br>
>>> Attached<br>
>>> are two test input gtfs that I am using from<br>
>>> Triticum_aestivum.IWGSP1.22.gff3 and Triticum_aestivum.IWGSP1.23.gff3<br>
>>> respectively.<br>
>>><br>
>>> The command line is below:<br>
>>><br>
>>> perl <a href="http://gtf2vep.pl" target="_blank">gtf2vep.pl</a> -i test.v23.gff -f IWGSC_CSS_AB-TGAC_v1.fa -d 23 -s<br>
>>> wheat_custom<br>
>>><br>
>>> I appreciate your suggestions of what might be going on.<br>
>>><br>
>>> Thank you in advance,<br>
>>><br>
>>> Ksenia<br>
>>><br>
>>><br>
>>> Ksenia Krasileva, PhD<br>
>>> USDA NIFA Post Doctoral Scholar<br>
>>> Department of Plant Sciences<br>
>>> University of California, Davis<br>
>>> 124 Robbins Hall<br>
>>> Davis, CA 95616<br>
>>><br>
>>> Email: <a href="mailto:krasileva@ucdavis.edu">krasileva@ucdavis.edu</a><br>
</div></div>>>> Twitter: @kseniakrasileva <<a href="https://twitter.com/kseniakrasileva" target="_blank">https://twitter.com/kseniakrasileva</a>><br>
<div class="HOEnZb"><div class="h5">>>> Web: <a href="http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva" target="_blank">http://dubcovskylab.ucdavis.edu/lab-member/ksenia-v-krasileva</a><br>
>>><br>
>>> _______________________________________________<br>
>>> Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
>>> Posting guidelines and subscribe/unsubscribe info:<br>
>>> <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
>>> Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
>>><br>
>>><br>
>><br>
>> _______________________________________________<br>
>> Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
>> Posting guidelines and subscribe/unsubscribe info:<br>
>> <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
>> Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
>><br>
>><br>
> _______________________________________________<br>
> Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
> Posting guidelines and subscribe/unsubscribe info:<br>
> <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
> Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
</div></div></blockquote></div><br></div>