<div dir="ltr">Hi Venu,<div class="gmail_extra"><br><div class="gmail_quote">On 8 May 2013 14:51, Venugopal Valmeekam <span dir="ltr"><<a href="mailto:vvalmeekam@yahoo.com" target="_blank">vvalmeekam@yahoo.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><table cellspacing="0" cellpadding="0" border="0"><tbody><tr>
<td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">Hi,<br>We are using VEP in our organization to build a comprehensive database of human mutation consequences.  I am using the refseq and ensembl cache files to run VEP.  I would really appreciate if you could answer the following questions:<br>
1. Is VEP using the reference genome (vs mRNA sequence) to derive the amino acid sequence for a particular transcript? I do see several examples of refseq proteins, where the amino acid sequence from VEP interpretation is different compared to the refseq protein sequence.<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>The source of the RefSeq transcripts is the Ensembl otherfeatures database - this transcripts in this DB consist of sequences that have been aligned to the genome. Because of this, it is possible that the underlying reference genome may differ from the original RefSeq sequence that was aligned. The VEP uses the reference genome sequence (the Ensembl transcripts are built on the reference sequence directly), so this is a possible source of discrepancies that you are seeing.</div>
<div style><br></div><div style>See <a href="http://www.ensembl.org/info/docs/variation/vep/vep_script.html#refseq">http://www.ensembl.org/info/docs/variation/vep/vep_script.html#refseq</a> for a bit more detail.</div><div>
 </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><table cellspacing="0" cellpadding="0" border="0"><tbody><tr>
<td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">2. There are several cases of RefSeq proteins with special amino acids such as selenocysteine or "U" coded by a stop codon "UGA".  I see that VEP makes accurate calls at these positions.  Is VEP somehow using the protein sequence to make these calls?<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>The Ensembl API accounts for special selenocysteines. I'm afraid I don't know the details of how this works; if you resend a question to the list without the VEP context someone in our core or genebuild team should be able to answer your questions.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><table cellspacing="0" cellpadding="0" border="0">
<tbody><tr><td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">3. For some refseq proteins e.g.NM_020469 (NP_065202) VEP interpretation has
 pre-terminal stop codons.  These seem to correspond to indels in the reference genome.  However, I do not see such instances in the Ensembl collection.  could you please let me know if VEP is using different approach for these two collections?<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>This is probably explained by the same as in 1.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">4. What cutoffs does VEP use to establish "downstream"/"upstream" variants?  for e.g. 2kb upstream/2kb downstream ?<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>We use 5kb both up and downstream.</div><div><br></div><div style>The definitions of our consequence types come from the Sequence Ontology. You can see them all here:</div>
<div style><br></div><div style><a href="http://www.ensembl.org/info/docs/variation/predicted_data.html#consequences">http://www.ensembl.org/info/docs/variation/predicted_data.html#consequences</a></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">5. Since mitochondrial codons for several amino acids is different compared to the nuclear codons, does VEP use the mitochondrial codon table to translate mitochondrial transcripts?<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>Yes, the VEP uses the correct codon table depending on the source of the transcript.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<table cellspacing="0" cellpadding="0" border="0"><tbody><tr><td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">Thanks for providing such a wonderful resource.<br>
</td></tr></tbody></table></blockquote><div><br></div><div style>Thanks for your questions, hope this has helped you.</div><div style><br></div><div style>Will McLaren</div><div style>Ensembl Variation</div><div style><br>
</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><table cellspacing="0" cellpadding="0" border="0">
<tbody><tr><td valign="top" style="font-family:inherit;font-size:inherit;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit">Venu<br></td></tr></tbody></table><br>_______________________________________________<br>

Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br></blockquote></div><br></div></div>