Hello all:<br>
<br>
I am writing to request clarification regarding the meaning of the directory and file organization of the <a href="ftp://ftp.ensemblgenomes.org/pub/release-13/metazoa/emf/ensembl_compara/homologies/Compara.phyloxml_aa_trees.13.tar.gz">ftp.ensemblgenomes.org/pub/release-13/metazoa/emf/ensembl_compara/homologies/Compara.phyloxml_aa_trees.13.tar.gz</a> dump.<br>

<br>
The extracted directory contains 42 folders (named 000 to 041) and each dir contains multiple xml files with rather cryptic names that start with EMGT.  I will append the 'readme.phyloxml' text at the end of this message for reference, but it was not so helpful in these regards.  I am naively ASSUMING that EMGT stands for "Ensembl Metazoa Gene Tree" but would appreciate your help on nailing that down as well.<br>

<br>
I would like to instantiate the information included in your gene tree analyses in my python scripts to allow me to map transcriptome level expression similarities (as well as other OMICs type data) from Anopheles gambiae, Aedes aegypti, and Culex quinquefasciatus onto these gene tree relationships to help me parse out meaningful correlations between the OMICs results across species.  I will feel much better when attempting to do this if I have some better insight into the MEANING of the organization of the trees.  <br>

<br>
I may have missed it, but scanning the supposedly relevant Ensembl publications did not provide much help.<br>
<br>
Can anyone shed some light onto this for me?<br>
<br>
Thanks as always,<br>
<br>
Gus<br>
<br>
<br>
<br>
readme.phyloxml:<br>
<br>
#### README ####<br>
<br>
IMPORTANT: Please note you can download correlation data tables,<br>
supported by Ensembl, via the highly customisable BioMart and<br>
EnsMart data mining tools. See <a href="http://bacteria.ensembl.org/biomart">http://bacteria.ensembl.org/biomart</a> or<br>
<a href="http://www.ebi.ac.uk/biomart/">http://www.ebi.ac.uk/biomart/</a> for more information.<br>
<br>
Please send comments or questions to <a href="mailto:dev@ensembl.org.">dev@ensembl.org.</a><br>
<br>
---------------------------------<br>
PhyloXML GeneTree Flat File Dumps<br>
---------------------------------<br>
<br>
PhyloXML (<a href="http://www.phyloxml.org/">http://www.phyloxml.org/</a> and Pubmed ID 19860910) is an XML format which is backed by an XMLSchema for validation purposes. Multiple parsers are available for PhyloXML from numerous toolkits including BioPerl, BioRuby, Forester (Java), Biopython and many more. The PhyloXML format also allows for richer dumps allowing us to provide more information about a gene tree in a single format.<br>

<br>
Structure<br>
=========<br>
<br>
The structure conforms to the standard PhyloXML structure apart from the following rules and extensions<br>
<br>
* A property is provided on clades called "Compara:dubious_duplication" in order to flag nodes which have this same confidence rating in our database<br>
* A property called "Compara:genome_db_name" is provided on every leaf node to indicate the source of the peptide. In some cases taxonomy is a redundant value<br>
* All stable identifiers have the source of EnsemblGenomes even though the true source may be a third party<br>
* All sequences are CDNA alignments<br>
<br>
<br>
<br>
<table cellspacing="0" cellpadding="0" width="100%">
<tbody><tr>
<td>
-- 
<pre>W. Augustine Dunn
Ph.D. Candidate
Molecular Biology and Biochemistry
Institute for Genomics and Bioinformatics
Major Advisor: Anthony James
Co-Advisor: Xiaohui Xie

University of California, Irvine
2315 McGaugh Hall
Irvine, CA 92697-3900
Lab: (949) 824-3210 
Fax: (949) 824-8551
Email: <a href="mailto:dunnw@uci.edu">dunnw@uci.edu</a>
Email: <a href="mailto:wadunn83@gmail.com">wadunn83@gmail.com</a>
</pre>
</td>
</tr>
</tbody></table>