<div dir="ltr">Hello!<div><br></div><div>I would like to build a VEP cache from a GTF file which I downloaded from Ensembl (Escherichia_coli_str_k_12_substr_mg1655.GCA_000005845.2.29.gtf)</div><div><br></div><div>The following commands were used to create the cache and were applied on a test vcf file that includes all sorts of variants (missense and silent SNPs, short indels, etc):</div><div><br></div><blockquote style="margin:0px 0px 0px 40px;border:none;padding:0px"><div><div><font face="monospace, monospace">set VEPDIR=variant_effect_predictor_version79</font></div></div><div><div><font face="monospace, monospace">set REF=Escherichia_coli_str_k_12_substr_mg1655.fa</font></div></div><div><span style="font-family:monospace,monospace">set species=Escherichia_coli_str_k_12_substr_mg1655.GCA_000005845.2.29</span><br></div><div><div><font face="monospace, monospace">perl $VEPDIR/<a href="http://gtf2vep.pl">gtf2vep.pl</a> -i $species.gtf -f Escherichia_coli_str_k_12_substr_mg1655.fa -d 79 -species $species --dir cache_files</font></div></div><div><div><font face="monospace, monospace">rm -rf ${species}</font></div></div><div><div><font face="monospace, monospace">mv cache_files${species} ${species}</font></div></div><div><div><font face="monospace, monospace">perl $VEPDIR/<a href="http://variant_effect_predictor.pl">variant_effect_predictor.pl</a> --force_overwrite -offline -i test.vcf -o test_${species}_vep.txt -species $species --dir .</font></div></div><div><font face="monospace, monospace"><br></font></div></blockquote><div>It works well and without any warning:</div><div>Building the cache:</div><blockquote style="margin:0px 0px 0px 40px;border:none;padding:0px"><div><div><font face="monospace, monospace">2015-11-11 10:09:08 - Checking/creating FASTA index</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:08 - Processing chromosome Chromosome</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:17 - All done!</font></div></div></blockquote><div><br></div><div>Applying to test.vcf gives</div><blockquote style="margin:0px 0px 0px 40px;border:none;padding:0px"><div><div><font face="monospace, monospace">2015-11-11 10:09:50 - Starting...</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:50 - Detected format of input file as vcf</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:50 - Read 387 variants into buffer</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:50 - Reading transcript data from cache and/or database</font></div></div><div><div><font face="monospace, monospace">[================================================================================================================================================================================================================================]  [ 100% ]</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:51 - Retrieved 4497 transcripts (0 mem, 4497 cached, 0 DB, 0 duplicates)</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:51 - Analyzing chromosome Chromosome</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:51 - Analyzing variants</font></div></div><div><div><font face="monospace, monospace">[================================================================================================================================================================================================================================]  [ 100% ]</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:53 - Calculating consequences</font></div></div><div><div><font face="monospace, monospace">[================================================================================================================================================================================================================================]  [ 100% ]</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:55 - Processed 387 total variants (77 vars/sec, 77 vars/sec total)</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:55 - Wrote stats summary to test_Escherichia_coli_str_k_12_substr_mg1655.GCA_000005845.2.29_vep.txt_summary.html</font></div></div><div><div><font face="monospace, monospace">2015-11-11 10:09:55 - Finished!</font></div></div></blockquote><div><br></div><div><br></div><div><br clear="all"><div>However, in the output I do not obtain the amino acid changes/codons as well as the position of the changes in the protein:</div></div><div><br></div><blockquote style="margin:0px 0px 0px 40px;border:none;padding:0px"><div><div><div><font face="monospace, monospace">Chromosome_66528_T/C    Chromosome:66528        C       b0061   AAC73172        Transcript      non_coding_transcript_exon_variant,non_coding_transcript_variant        23      -       -       -       -       -       IMPACT=MODIFIER;STRAND=-1</font></div></div></div></blockquote><div><div><br></div><div><font face="arial, helvetica, sans-serif">On the other side, I get all this information when I download the pre-built cache file (escherichia_coli_str_k_12_substr_mg1655) and run it on the command line using (source: <a href="ftp://ftp.ensemblgenomes.org/pub/bacteria/current/">ftp://ftp.ensemblgenomes.org/pub/bacteria/current/</a>):</font></div><div><br></div></div><blockquote style="margin:0px 0px 0px 40px;border:none;padding:0px"><div><div><div><font face="monospace, monospace">set species=escherichia_coli_str_k_12_substr_mg1655</font></div></div></div><div><div><div><font face="monospace, monospace">perl $VEPDIR/<a href="http://variant_effect_predictor.pl">variant_effect_predictor.pl</a> --force_overwrite -offline -i test.vcf -o test_${species}_vep.txt -species $species --dir .</font></div></div></div><div><div><font face="monospace, monospace"><br></font></div></div><div><div><div><font face="monospace, monospace">Chromosome_66528_T/C    Chromosome:66528        C       b0061   AAC73172        Transcript      missense_variant        23      23      8       Q/R     cAg/cGg -       IMPACT=MODERATE;STRAND=-1</font></div></div></div></blockquote><div><div><br></div><div><br></div><div>Does anyone know how to build/apply the cache from a GTF file so that I get the same output as from the pre-built cache?</div><div>I want to compare the downloaded GTF file with the one that was used to generate the pre-built cache files (in order to fully understand the required format).</div><div>Moreover, I would like to understand how to make a valid GTF for other genomes assemblies and annotations (which are not in Ensembl) so that I can create my own VEP cache files.</div><div><br></div><div>Thanks for any help and suggestions!</div><div><br></div><div>Roland</div><div><br></div><div><br></div><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><p style="margin-bottom:0.0001pt"><a name="UNIQUE_ID_SafeHtmlFilter__GoBack"></a><span style="font-size:10pt;font-family:Imago;background-image:initial;background-repeat:initial">Roland Schmucki, PhD</span><span style="font-size:10pt;font-family:Imago"><br>
<span style="background-image:initial;background-repeat:initial">Computational Biologist, Pharmaceutical
Sciences</span><br>
<span style="background-image:initial;background-repeat:initial">Roche Pharma Research and Early Development</span></span><span style="font-size:12pt;font-family:Imago"></span></p>

<p style="margin-bottom:12pt;background-image:initial;background-repeat:initial"><span style="font-size:10pt;font-family:Imago"><br>
Roche Innovation Center Basel</span></p>

<p style="margin-bottom:0.0001pt;background-image:initial;background-repeat:initial"><span style="font-size:10pt;font-family:Imago">F. Hoffmann-La Roche Ltd<br>
Grenzacherstrasse 124<br>
4070 Basel</span></p>

<p style="margin-bottom:0.0001pt;background-image:initial;background-repeat:initial"><span style="font-size:10pt;font-family:Imago">Switzerland<br>
Phone +41 61 687 13 30</span></p>

<p style="margin-bottom:0.0001pt;background-image:initial;background-repeat:initial"><span style="font-size:10pt;font-family:Imago"> </span></p>

<p style="margin-bottom:0.0001pt;background-image:initial;background-repeat:initial"><span style="font-size:10pt;font-family:Imago"><br>
Confidentiality Note: This message is intended only for the use of the named
recipient(s) and may contain confidential and/or proprietary information. If
you are not the intended recipient, please contact the sender and delete this
message. Any unauthorized use of the information contained in this message is
prohibited.</span></p></div></div></div></div>
</div></div>