<meta http-equiv="content-type" content="text/html; charset=utf-8"><span class="Apple-style-span" style="font-family: arial, sans-serif; font-size: 13px; border-collapse: collapse; ">Hi all,<div><br></div><div>I'm having trouble identifying the cause of a strange inconsistency in the choice of human transcript for Compara's gene trees from release to release. Maybe someone from the Compara team or elsewhere can shed some light.</div>

<div><br></div><div>Looking at the gene tree image for the human gene WDFY3 (<a href="http://www.ensembl.org/Homo_sapiens/Gene/Compara_Tree?db=core;g=ENSG00000163625;r=4:85590704-85887544" target="_blank" style="color: rgb(51, 51, 204); ">http://www.ensembl.org/Homo_sapiens/Gene/Compara_Tree?db=core;g=ENSG00000163625;r=4:85590704-85887544</a>), it's obvious that the human sequence (along with cow) is strangely truncated in comparison to the rest of the well-aligned and complete homologs in the gene tree. This is understandably common in non-model organisms and low-quality genomes, but surprising to see in human.</div>

<div><br></div><div>If you go to the prior release (v60, here: <a href="http://nov2010.archive.ensembl.org/Homo_sapiens/Gene/Compara_Tree?db=core;g=ENSG00000163625;r=4:85590704-85887544" target="_blank" style="color: rgb(51, 51, 204); ">http://nov2010.archive.ensembl.org/Homo_sapiens/Gene/Compara_Tree?db=core;g=ENSG00000163625;r=4:85590704-85887544</a>) human is in the correct place and has a complete transcript!</div>

<div><br></div><div>It seems that a very short transcript (protein ID ENSP00000422256) was chosen to be included in the Compara pipeline for release 61. This transcript is neither the longest nor the CCDS transcript for the gene, which were the criteria I thought were being used to choose transcripts for Compara's pipeline.</div>

<div><br></div><div>Have there been any recent changes to the Compara pipeline that might have caused this? Is this problem more widespread, or limited to isolated cases?</div><div><br></div><div>I'm fine using the old November 2010 (e60) release for now, but it would give me more confidence in the pipeline if there weren't such drastic changes in relatively well-behaved gene families and alignments (such as this example) from one release to the next.</div>

<div><br></div><div>Cheers,</div><div> Greg</div></span>