<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On 27 September 2016 at 14:24, João Eiras <span dir="ltr"><<a href="mailto:joao.eiras@gmail.com" target="_blank">joao.eiras@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span class="gmail-">On 27 September 2016 at 11:07, Will McLaren <<a href="mailto:wm2@ebi.ac.uk">wm2@ebi.ac.uk</a>> wrote:<br>
> Hi João,<br>
><br>
> VEP does not currently support N as a valid REF or ALT allele. As you point<br>
> out, in theory it's possible to make some deductions in some cases, but<br>
> currently our code does not support this.<br>
><br>
> If you have N as your REF allele, then you should be able to correct this by<br>
> looking up the reference allele at each position. The --check_ref flag in<br>
> VEP will report the correct REF allele for you.<br>
><br>
<br>
</span>Currently, VEP behaves like this<br>
<span class="gmail-"><br>
chr1 99772780 . N G 5000 . . .<br>
</span># Nga/Gga, coding_sequence_variant<br>
<br>
chr1 99772780 . A G 5000 . . .<br>
# Aga/Gga, missense_variant, R/G<br>
<br>
So, N  is pretty much ignored, since coding_sequence_variant has no<br>
information about how the sequence is changed. </blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
If I use --check_ref, then VEP complains<br>
WARNING: Could not fetch sub-slice from 1:99772780-99772780(1) on line 15<br>
WARNING: Specified reference allele N does not match Ensembl reference<br>
allele on line 15<br></blockquote><div><br></div><div>You will need to either connect to the database server (use --cache without --offline) or make a FASTA file available (--fasta) for VEP to read sequence data from.</div><div><br></div><div><a href="http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#fasta">http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#fasta</a><br></div><div><br></div><div>The variant will still be skipped, but the correct reference allele will be reported in the warning message.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
And the whole variant is dropped from the output.<br>
<br>
None of these are the behavior I expected in my first message.<br>
<br>
But the question is, would it be interesting to be more gracious<br>
handling N-content ?<br>
<span class="gmail-"><br>
> If you have N as your ALT allele, you could spoof the annotation you might<br>
> expect by substituting N for the remaining non-REF alleles e.g. if you have<br>
> REF=A, then you could set ALT=C,G,T.<br>
<br>
</span>That obviously does not scale well with variants longer than one<br>
nucleotide., and that would produce several annotations, instead of<br>
only one.<br></blockquote><div><br></div><div>Of course, but this is only marginally worse than all the combinations that would have to be computed if you did give N as the ALT. You cite the codons that have N in the third position in the genetic code, but this doesn't account for variants that fall in any other position in the codon. And nor does it offer any better solution for variants of longer than 1 nucleotide, or variants that fall in splicing or other non-coding regions.</div><div><br></div><div>If you can describe (or even better write code!) to do as you are suggesting then feel free to contribute, but as it stands VEP will remain annotating only input given in definitive form.</div><div><br></div><div>Cheers</div><div><br></div><div>Will</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div class="gmail-HOEnZb"><div class="gmail-h5"><br>
______________________________<wbr>_________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/<wbr>mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
</div></div></blockquote></div><br></div></div>