<div dir="ltr">Hi Dave,<div><br></div><div>Thanks for spotting this.</div><div><br></div><div>The VEP's VCF parser assumes that if any part of the given variant is "unbalanced" (i.e. the reference is a different length to the alternate allele), then the whole should be treated as such. Because Ensembl treats unbalanced substitutions differently to VCF in terms of the position and alleles (see <a href="http://www.ensembl.org/info/docs/tools/vep/vep_formats.html#vcf">http://www.ensembl.org/info/docs/tools/vep/vep_formats.html#vcf</a>), the first base of your variant is getting trimmed off and the substitution part is, as you rightly point out, disappearing.</div>
<div><br></div><div>I will try and work on a fix for this - it should be possible to separate them out - but in the meantime I think the best solution is to separate out your indels from your substitutions. While I'm not a VCF format expert, I would hope that such an expert would suggest this is the best way to encode your variants anyway - both Ensembl and dbSNP, for example, have a policy of treating SNVs and indels separately if they occur at the same position.</div>
<div><br></div><div>Hope this helps, and thanks for using the VEP!</div><div><br></div><div>Will McLaren</div><div>Ensembl Variation</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 17 September 2013 10:22, David Parry <span dir="ltr"><<a href="mailto:D.A.Parry@leeds.ac.uk" target="_blank">D.A.Parry@leeds.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
I apologize if I have misunderstood the caveats given regarding the VCF<br>
input format for the VEP but I am observing unexpected behavior that I<br>
don't think is covered by the documentation. If I provide a multiallelic<br>
variant with both an insertion and a deletion call at the same site the<br>
VEP correctly outputs both consequences. However, if a variant contains<br>
either an insertion or deletion alongside a substitution the VEP ignores<br>
the substitution variant.  For example, while the following variant in a<br>
VCF:<br>
<br>
6       32634300        .       G       C,CTA<br>
<br>
gives the output:<br>
<br>
## ENSEMBL VARIANT EFFECT PREDICTOR v73<br>
## Output produced at 2013-09-17 09:57:41<br>
## Connected to<br>
## Using cache in /home/davidparry/.vep/homo_sapiens/73<br>
## Using API version 73, DB version ?<br>
## Extra column keys:<br>
## DISTANCE : Shortest distance from variant to transcript<br>
#Uploaded_variation     Location        Allele  Gene    Feature<br>
Feature_type    Consequence     cDNA_position   CDS_position<br>
Protein_position        Amino_acids     Codons  Existing_variation<br>
Extra<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000484729 Transcript<br>
frameshift_variant,NMD_transcript_variant,feature_elongation    115-116<br>
84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399082 Transcript      frameshift_variant,feature_elongation<br>
129-130 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399084 Transcript      frameshift_variant,feature_elongation<br>
263-264 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000434651 Transcript      frameshift_variant,feature_elongation<br>
171-172 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399079 Transcript      frameshift_variant,feature_elongation<br>
141-142 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000374943 Transcript      frameshift_variant,feature_elongation<br>
161-162 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000241287<br>
ENST00000443574 Transcript      upstream_gene_variant   -       -<br>
-       -       -       -       DISTANCE=4073<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000487676 Transcript<br>
non_coding_exon_variant,nc_transcript_variant,feature_elongation<br>
115-116 -       -       -       -  -<br>
<br>
In this case the substitution variant is ignored and we only get a<br>
consequence for the insertion.  Similarly, for a deletion at the same<br>
site as a substitution:<br>
<br>
6       32634300        .       GTA     G,CTA<br>
<br>
gives:<br>
<br>
## ENSEMBL VARIANT EFFECT PREDICTOR v73<br>
## Output produced at 2013-09-17 09:51:08<br>
## Connected to<br>
## Using cache in /home/davidparry/.vep/homo_sapiens/73<br>
## Using API version 73, DB version ?<br>
## Extra column keys:<br>
## DISTANCE : Shortest distance from variant to transcript<br>
#Uploaded_variation     Location        Allele  Gene    Feature<br>
Feature_type    Consequence     cDNA_position   CDS_position<br>
Protein_position        Amino_acids     Codons  Existing_variation<br>
Extra<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000484729 Transcript<br>
frameshift_variant,NMD_transcript_variant,feature_truncation    114-115<br>
83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399082 Transcript      frameshift_variant,feature_truncation<br>
128-129 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399084 Transcript      frameshift_variant,feature_truncation<br>
262-263 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000434651 Transcript      frameshift_variant,feature_truncation<br>
170-171 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399079 Transcript      frameshift_variant,feature_truncation<br>
140-141 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000374943 Transcript      frameshift_variant,feature_truncation<br>
160-161 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000241287<br>
ENST00000443574 Transcript      upstream_gene_variant   -       -<br>
-       -       -       -       DISTANCE=4074<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000487676 Transcript<br>
non_coding_exon_variant,nc_transcript_variant,feature_truncation<br>
114-115 -       -       -       -  -<br>
<br>
...we only get the consequence for the deletion.<br>
<br>
Generally I am processing multisample VCF files with VEP and outputting<br>
in VCF format.  I want to be able to assess the consequences for a given<br>
sample's genotype but this sometimes fails at sites like this where my<br>
script can't find an allele corresponding to the substitution in the VEP<br>
output.  A workaround would be to separate my indel and my substitution<br>
calls before running the VEP, but I wondered whether this is<br>
known/desired behaviour for this tool?<br>
<br>
The VEP is a really great tool, so it would be brilliant if there were a<br>
fix for this.<br>
<br>
Cheers,<br>
<br>
Dave<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
</blockquote></div><br></div>