<html><head><meta http-equiv="Content-Type" content="text/html charset=iso-8859-1"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Dear Magali,<div><br><div>Thanks so much for your helpful reply, that is really useful to know.</div><div><br></div><div>Thank you!</div><div><br></div><div>Regards,</div><div>Avril</div><div><br><div><div>On 13 Mar 2014, at 17:17, mag <<a href="mailto:mr6@ebi.ac.uk">mr6@ebi.ac.uk</a>> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">
  
    <meta content="text/html; charset=ISO-8859-1" http-equiv="Content-Type">
  
  <div text="#000000" bgcolor="#FFFFFF">
    Hi Avril,<br>
    <br>
    The system we are using is very similar to what you are describing.<br>
    <br>
    The main differences I can think of are:<br>
    <br>
    - we only project HGNC, MGI and ZFIN_ID gene names, not Uniprot or
    RefSeq<br>
    <br>
    - we only project between one-to-one orthologs for most species<br>
    for fish species, we project between one-to-many orthologs<br>
    <br>
    - for ontologies, we keep the same and do not look for the ancestor<br>
    we do, however, filter based on species (mammal-specific go terms
    should not be projected onto birds for example)<br>
    For this, there is a taxon-based constraint filter provided by GO:<br>
<a class="moz-txt-link-freetext" href="http://www.ebi.ac.uk/QuickGO/GValidate?service=taxon&action=getConstraints">http://www.ebi.ac.uk/QuickGO/GValidate?service=taxon&action=getConstraints</a><br>
    <br>
    We also try whenever possible to project only between relatively
    close species, so are not including worm, fruitfly or seasquirt in
    the projections.<br>
    <br>
    <br>
    Hope that helps,<br>
    Magali<br>
    <br>
    <div class="moz-cite-prefix">On 13/03/2014 09:17, alc wrote:<br>
    </div>
    <blockquote cite="mid:845e72172bbf8e86200d8b70d54ddbcf@sanger.ac.uk" type="cite"><p>Dear Ensembl developers and users,</p><p>I'm involved in some helminth genome sequencing projects in my
        group, and my colleague (Eleanor Stanley) has built an-house
        Compara database for these genomes, from which we have inferred
        orthologs.</p><p>I'm planning to to project protein names and GO terms across
        species. I know that the Ensembl team do this already, but can't
        find many details of how it's done on the web.</p><p>I'm wondering whether my plan is very different from the
        Ensembl one, here is what I'm thinking of doing:</p><p>(i) Projecting protein names: for each gene in a query species
        (eg. Strongyloides ratti), identify its  one-to-one and
        many-S.ratti-to-one orthologs in C. elegans, S. mansoni, human,
        D. melanogaster, zebrafish in our local Compara database. Take a
        protein name from a curated UniProt entry for one of these
        orthologs (taking orthologs from those species in order of
        preference given above), and project it to the query gene. Give
        the projected protein name evidence code ECO:0000265 and give
        the UniProt accession of the source protein. If the same protein
        name is projected to several query genes, then number then with
        Arabic numerals, as described in the UniProt protein naming
        guide <a class="moz-txt-link-abbreviated" href="http://www.uniprot.org/docs/nameprot">www.uniprot.org/docs/nameprot</a>   I couldn't find much
        information on the web about how Ensembl project protein names
        so am wondering is this very different?</p><p>(ii) Projecting GO terms: for each gene in a query species (eg.
        Strongyloides ratti), identify all its orthologs (one-to-one,
        one-to-many, many-to-one, many-to-many) in C. elegans, S.
        mansoni, human, D. melanogaster, zebrafish in our local Compara
        database. Take manually curated GO terms of types
        IDA/IEP/IGI/IMP/IPI (excluding 'protein binding') from the
        orthologs. For each pair of ortholog genes from two different
        species, find the last common ancestors of their GO terms in the
        GO hierarchy: project these ancestral GO terms to the query
        gene. Do this for each pair of ortholog genes from two different
        species. Give the projected GO terms evidence code 'IEA' and
        give the UniProt accessions of the source proteins. [Note: by
        transferring the last common ancestors of GO terms from
        orthologs from two different species, I hope to be conservative
        and just project GO terms that are likely to be conserved across
        species.] I found some information on how Ensembl project GO
        terms on the web (<a moz-do-not-send="true" href="http://www.ebi.ac.uk/GOA/compara_go_annotations">http://www.ebi.ac.uk/GOA/</a><a moz-do-not-send="true" href="http://www.ebi.ac.uk/GOA/compara_go_annotations">compara_go_annotations</a>),
        but am not sure if the GO hierarchy is used at all as in my
        idea, or if all GO terms are directly projected from orthologs
        to the query gene?</p><p>Is this very different to what the Ensembl team are doing? I
        would be very grateful to hear of any differences.</p><p>Kind Regards,</p><p>Avril</p><p>Avril Coghlan</p><p>Parasite Genomics Team</p><p>Sanger Institute </p>
      <div> </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Dev mailing list    <a class="moz-txt-link-abbreviated" href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>
Posting guidelines and subscribe/unsubscribe info: <a class="moz-txt-link-freetext" href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a>
Ensembl Blog: <a class="moz-txt-link-freetext" href="http://www.ensembl.info/">http://www.ensembl.info/</a>
</pre>
    </blockquote>
    <br>
  </div>

_______________________________________________<br>Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a><br>Ensembl Blog: <a href="http://www.ensembl.info/">http://www.ensembl.info/</a><br></blockquote></div><br></div></div></body></html>