Hi Matthieu,<div><br></div><div>Thanks for the tips. I was just about to run some analyses on v64 (the addition of lamprey looks pretty cool!), but maybe I'll hold off till the next release if there's a problem with gorilla.</div>

<div><br></div><div>Regarding dN/dS estimates -- I've got some ideas on how one might sensibly incorporate more accurate phylogenetic (rather than pairwise) dN/dS calculations into the Compara pipeline, with most of the code already written. Perhaps we should chat sometime.</div>

<div><br></div><div>--greg<br><br><div class="gmail_quote">On Fri, Sep 16, 2011 at 1:04 PM, Matthieu Muffato <span dir="ltr"><<a href="mailto:muffato@ebi.ac.uk">muffato@ebi.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">

Hi Will and Greg<br>
<br>
For the protein tree pipeline, this tag is used to select the genomes for the dn/ds calculation. Because it was considered as a low-coverage genome, we don't have any dn/ds value for gorilla vs * homologues.<br>
<br>
By the way, some of the gorilla CDS sequences stored in the Compara database are erroneous (<a href="http://www.ensembl.info/contact-us/known-bugs/" target="_blank">http://www.ensembl.info/<u></u>contact-us/known-bugs/</a>), so any comparative analysis using the gorilla should go to the core database to fetch the CDS sequences (the protein sequences are unaffected)<br>


<br>
Hope this helps,<br>
Matthieu<div class="im"><br>
<br>
On 15/09/11 22:56, William Spooner wrote:<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">
Thanks for the heads-up Greg,<br>
<br>
This meta_key is certainly used by the Compara ProteinTrees pipeline (Bio::EnsEMBL::Compara::<u></u>RunnableDB::ProteinTrees::<u></u>GroupGenomesUnderTaxa), although I don't know what the downstream ramifications of the 'low' (basically not 'high' or '6X') setting are. I tend to set everything to 'high' to be on the safe side.<br>


<br>
Will<br>
<br>
On 15 Sep 2011, at 18:36, Gregory Jordan wrote:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I understand that things in the 'meta' table tend to be for internal use only. But the assembly coverage depth information is only accessible from there, and surely this can't be accurate anymore:<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
mysql -uensro -hens-livemirror -e "select * from gorilla_gorilla_core_64_31.<u></u>meta where meta_key='assembly.coverage_<u></u>depth'\G"<br>
</blockquote>
*************************** 1. row ***************************<br>
    meta_id: 81<br>
species_id: 1<br>
   meta_key: assembly.coverage_depth<br>
meta_value: low<br>
<br>
I doubt many people are actually using this undocumented information... but it caught me off guard, and it would be a shame for someone attempting to filter out low-coverage genomes to end up throwing the baby out with the bathwater, so to speak!<br>


<br>
Cheers,<br>
  greg<br>
</blockquote>
<br></div><div class="im">
--<br>
William Spooner<br>
<a href="mailto:whs@eaglegenomics.com" target="_blank">whs@eaglegenomics.com</a><br>
<a href="http://www.eaglegenomics.com" target="_blank">http://www.eaglegenomics.com</a><br>
<br>
</div></blockquote><font color="#888888">
<br>
-- <br>
Matthieu Muffato, Ph.D.<br>
Ensembl Developer - Comparative Genomics<br>
European Bioinformatics Institute (EMBL-EBI)<br>
Wellcome Trust Genome Campus, Hinxton<br>
Cambridge, CB10 1SD, United Kingdom<br>
</font></blockquote></div><br></div>