Hi,<div><br></div><div>Apologies for sending this again, I'm just hoping someone might be able to shed some light on this?</div><div>I haven't been able to find an explanation elsewhere,</div><div><br></div><div>Thanks.</div>
<div><br><br><div class="gmail_quote">On Tue, Oct 5, 2010 at 7:16 PM, Bio X2Y <span dir="ltr"><<a href="mailto:bio.x2y@gmail.com">bio.x2y@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Hi,<div><br></div><div>I understand that the Ensembl 59 is based on GRCh37.p1.</div><div><br></div><div>For haplotypes, GRCh37 seems to include sequences for the alternative part of the target chromosome, rather than a full alternative version of the chromosome. Ensembl seems to take the other approach, releasing a full-sized alternative chromsome sequence (at least for file downloads).</div>

<div><br></div><div>Intuitively, I imagine this is done by identifying the region in the original chromosome that corresponds to the alternative region, and replacing it with that region.</div><div><br></div><div>When I try to verify this, however, I seem to be seeing an off-by-one error for some haplotypes, and not for others.</div>

<div><br></div><div>GRCh37 releases a small file (alt_locus_scaf2primary.pos) with each haplotype, and this seems to provide the coordinates (start from 1, inclusive) that determine how to insert the alternative sequence into the parent chromosome. For example, the following details are provided for the APD haplotype for the chromosome 6 MHC:</div>

<div><br></div><div>Chrom_start = 28696604</div><div>Chrom_end = 33335493</div><div>Alt_loci_start = 1</div><div>Alt_loci_end = 4622290</div><div><br></div><div>The sequence size of APD is 4622290 in GRCh37, and the full length APD haplotype in Ensembl is 171098467.</div>

<div>Since the original chromosome 6 is length 171115067, I would intuitively think that the following procedure can be used to predict the Ensembl size for the full haplotype:</div><div><br></div><div>(Full_chromosome_length - [chrom_end - chrom_start + 1] + [alt_loci_end - alt_loci_start + 1])</div>

<div>Where we can imagine that chrom_start and chrom_end describe the region ("hole") in the original chromosome that is replaced with the alternative region.</div><div><br></div><div>Indeed, this works for APD - we get the Ensembl figure of 171098467.</div>

<div><br></div><div>However, it doesn't work for the haplotypes where the size of the "hole" in the original sequence is smaller than the region being inserted. In these cases, it is off-by-one.</div><div><br>

</div><div>Also, it doesn't work for the chromosome 4 haplotype, even though the "hole" in the original sequence is larger than the region being inserted.</div><div><br></div><div>Could someone perhaps explain why I'm seeing this? I assume I'm missing something simple.</div>

<div><br></div><div>Thanks for your time.</div>
</blockquote></div><br></div>