Hi Bram (recopied in dev list for others' benefit),<div><br><div class="gmail_quote">On 14 December 2010 22:13, Bram De Wilde <span dir="ltr"><<a href="mailto:gbramdewilde@gmail.com">gbramdewilde@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div style="word-wrap:break-word">Thanx Will for a quick response,<div><br></div><div>Following your (and I presume the ensembl team's) logic my assumption for an insertion following a substitution would then be wrong since in that case we just replace a single base with multiple bases resulting in a</div>
<div>z<span style="white-space:pre-wrap"> </span>3<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>G/AC<span style="white-space:pre-wrap">    </span>+</div></div></blockquote><div><br></div>
<div>Yes this is the correct format for this variation.</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div style="word-wrap:break-word"><div>instead of my suggestion of</div>
<div class="im"><div>z<span style="white-space:pre-wrap"> </span>4<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>G/AC<span style="white-space:pre-wrap">    </span>+</div><div><br></div>
</div><div>for this situation:</div><div class="im"><div><span style="white-space:pre-wrap"><font face="Menlo"> </font></span><font face="Menlo">1 2 3 - 4 5 6 7</font></div></div><div><font face="Menlo">ref:</font><span style="white-space:pre-wrap"><font face="Menlo">  </font></span><font face="Menlo">A C G - T A C A </font></div>
<div><font face="Menlo">var:<span style="white-space:pre-wrap">   </span>A C A C T A C A</font></div><div><br></div><div>The vcf format does also foresee an option to encode structural variations, does anyone want to shed some light on how these structural variations will be encoded in the ensembl API? Presuming there already exists a consensus on that?</div>
</div></blockquote><div><br></div><div>At the moment Ensembl Variation offers only limited support for structural variations; we store some structural variation locations in our human, mouse and dog databases, but we do not carry any further information, nor do we currently have the ability to predict the effect of structural variations.</div>
<div><br></div><div>When we do come to address this, the issues will obviously be a lot more complex, since the size and variation type of structural variations can lead to so many different consequences (exon loss, gene loss, gene duplication, loss of regulatory region etc.)</div>
<div><br></div><div>Cheers</div><div><br></div><div>Will</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;"><div style="word-wrap:break-word"><div><br></div>
<div>Kind regards</div><div><br></div><div>bram</div><div><br></div><div>kind regards</div><div><div></div><div class="h5"><div><br></div><div><div><div>On 14-dec-2010, at 17:30, Will McLaren wrote:</div><br><blockquote type="cite">
Hi Bram,<div><br></div><div>You're not alone in wondering about these more complex variation types!</div><div><br></div><div>While the software does support them (provided you get the input format right!), the results may not always reflect the complexity, as the consequence types we currently return do not cover all possible events. You can however get a good sense of what is happening by carefully considering what is returned by the coordinate methods (cds_start, cds_end, cdna_start, cdna_end, translation_start, translation_end) and the pep_allele_string() and codons() methods.</div>

<div><br></div><div>In determining the input format, you need to consider what region of the reference sequence is being affected, and what is replacing the reference. I would input this variant as:</div><div><font face="'courier new', monospace"><br>

</font></div><div><font face="'courier new', monospace">        1 2 3 4 5 6 7</font></div><div><div><font face="'courier new', monospace">ref:<span style="white-space:pre-wrap">     </span>A C G T A G A</font></div>

<div><font face="'courier new', monospace">var:<span style="white-space:pre-wrap">        </span>A C A - - G A</font></div></div><div><font face="'courier new', monospace"><br>
</font></div><div><font face="arial, helvetica, sans-serif">You could view this as a SNP and a deletion (two events, as you describe), or as an unbalanced substitution (one event)</font></div><div>
<font face="arial, helvetica, sans-serif"><br></font></div><div><font face="arial, helvetica, sans-serif">As two events, this would have input (assuming chromosome 1 and coords as above for simplicity):</font></div>
<div><font face="arial, helvetica, sans-serif"><br></font></div><div><font face="arial, helvetica, sans-serif">1  3  3  G/A  +</font></div><div><font face="arial, helvetica, sans-serif">1  4  5  TA/-  +</font></div>
<div><font face="arial, helvetica, sans-serif"><br></font></div><div><font face="arial, helvetica, sans-serif">As one event, which is how I would input this variation:</font></div>
<div><font face="arial, helvetica, sans-serif"><br></font></div><div><font face="arial, helvetica, sans-serif">1  3  5  GTA/A  +</font></div><div><font face="arial, helvetica, sans-serif"><br>
</font></div><div><font face="arial, helvetica, sans-serif">So we are substituting GTA (bases 3-5 of the reference) with A.</font></div><div><font face="arial, helvetica, sans-serif"><br>
</font></div><div><font face="arial, helvetica, sans-serif">Although (and I guess this isn't a real example!), a better alignment would surely be:</font></div><div><font face="arial, helvetica, sans-serif"><span style="font-family:arial"><div>

<font face="'courier new', monospace"><br>        1 2 3 4 5 6 7</font></div><div><div><font face="'courier new', monospace">ref:<span style="white-space:pre-wrap">       </span>A C G T A G A</font></div>
<div><font face="'courier new', monospace">var:<span style="white-space:pre-wrap">        </span>A C - - A G A</font></div></div></span></font></div><div><br></div><div>where there's just one deletion event of bases 3 & 4. But that's just nit-picking!</div>

<div><br></div><div>Hope this helps anyway</div><div><br></div><div>Cheers</div><div><br></div><div>Will McLaren</div><div>Ensembl Variation</div><div><br></div><div><br><div class="gmail_quote">On 14 December 2010 15:42, Bram De Wilde <span dir="ltr"><<a href="mailto:gbramdewilde@gmail.com" target="_blank">gbramdewilde@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin-top:0px;margin-right:0px;margin-bottom:0px;margin-left:0.8ex;border-left-width:1px;border-left-color:rgb(204, 204, 204);border-left-style:solid;padding-left:1ex"><div style="word-wrap:break-word">
Hi everyone,<div><br></div><div>While unraveling the complex variants that can be encoded in the vcf format (<a href="http://www.1000genomes.org/wiki/Analysis/Variant%20Call%20Format/vcf-variant-call-format-version-40" target="_blank">http://www.1000genomes.org/wiki/Analysis/Variant%20Call%20Format/vcf-variant-call-format-version-40</a>) I came to realize that I don't know how to submit some of these complex alleles to the ensembl variation API for effect prediction.</div>

<div>For simple SNP's and indels the situation is clearly described in the help pages. The problem I seem to be having is with complex alleles:</div><div><br></div><div>eg. when a SNP is directly followed by an deletion on a chromosome z</div>

<div>ref:<span style="white-space:pre-wrap">      </span>ACGTAGA</div><div>var:<span style="white-space:pre-wrap">      </span>ACA--GA</div><div><br></div><div>this can be encoded as 2 variants:</div><div>chr<span style="white-space:pre-wrap">     </span>start<span style="white-space:pre-wrap">           </span>stop<span style="white-space:pre-wrap">            </span>variant<span style="white-space:pre-wrap"> </span>strand</div>

<div>z<span style="white-space:pre-wrap"> </span>3<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>G/A<span style="white-space:pre-wrap">             </span>+</div><div>z<span style="white-space:pre-wrap">       </span>4<span style="white-space:pre-wrap">       </span>5<span style="white-space:pre-wrap">       </span>TA/-<span style="white-space:pre-wrap">            </span>+</div>

<div>but clearly none of these  will have the functional consequence of the true allele namely:</div><div>z<span style="white-space:pre-wrap">        </span>3<span style="white-space:pre-wrap">       </span>5<span style="white-space:pre-wrap">       </span>GTA/A<span style="white-space:pre-wrap">   </span>+</div>

<div><span style="white-space:pre-wrap">unfortunately</span> this kind of allele does not seem to return any response from the variation API</div><div><span style="white-space:pre-wrap"><br></span></div><div>I can think of a simmilar situation for an insertion:</div>

<div><div>ref:<span style="white-space:pre-wrap">   </span>ACG-TAGA</div><div>var:<span style="white-space:pre-wrap">     </span>ACACTAGA</div></div><div><br></div><div>where:</div><div><div>chr<span style="white-space:pre-wrap"> </span>start<span style="white-space:pre-wrap">           </span>stop<span style="white-space:pre-wrap">            </span>variant<span style="white-space:pre-wrap"> </span>strand</div>

<div>z<span style="white-space:pre-wrap"> </span>3<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>G/A<span style="white-space:pre-wrap">             </span>+</div><div>z<span style="white-space:pre-wrap">       </span>4<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>-/C<span style="white-space:pre-wrap">             </span>+</div>

</div><div>will not have the same consequence as</div><div>z<span style="white-space:pre-wrap"> </span>4<span style="white-space:pre-wrap">       </span>3<span style="white-space:pre-wrap">       </span>G/AC<span style="white-space:pre-wrap">    </span>+</div>

<div><br></div><div><br></div><div>Or do I see this all wrong?</div><div>is there a way to submit alleles like these for effect prediction?</div><div><br></div><div><br></div><div>Kind regards,</div><div><br></div><font color="#888888"><div>

<span style="border-collapse:collapse;font-family:arial, sans-serif;font-size:13px;white-space:pre-wrap"><br></span></div><div><span style="border-collapse:collapse;font-family:arial, sans-serif;font-size:13px;white-space:pre-wrap">Bram De Wilde, MD</span></div>

<div><span style="border-collapse:separate;color:rgb(0, 0, 0);font-family:Helvetica;font-size:medium;font-style:normal;font-variant:normal;font-weight:normal;letter-spacing:normal;line-height:normal;text-align:auto;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px"><div>

<span style="font-family:arial, sans-serif;border-collapse:collapse;font-size:13px;white-space:pre-wrap">Center for Medical Genetics Ghent (CMGG)
Ghent University Hospital
Medical Research Building (MRB), 2nd floor, room 120.050
De Pintelaan 185, B-9000 Ghent, Belgium
+32 9 332 4812 (phone) | +32 9 332 6549 (fax)
<a href="http://medgen.ugent.be/" target="_blank">http://medgen.ugent.be/</a>
<a href="mailto:Bram.DeWilde@UGent.be" target="_blank">Bram.DeWilde@UGent.be</a> </span></div><div><br></div></span><br>
</div>
<br></font></div><br>_______________________________________________<br>
Dev mailing list<br>
<a href="mailto:Dev@ensembl.org" target="_blank">Dev@ensembl.org</a><br>
<a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
<br></blockquote></div><br></div>
</blockquote></div><br></div></div></div></div></blockquote></div><br></div>