<div dir="ltr"><div>Hi Magali,</div><div>The annotation page very informative, I wasn't aware of it. </div><div>I think processing the data and crunching the numbers is the best bet, but we'll take a look at the healthcheck SQLs, the gene_archive table and the genome_statistics table when it comes out. </div>
<div>This is more than I expected, Thanks!<br></div><div><br></div><div>-Kiran</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Jan 24, 2014 at 3:28 AM, mag <span dir="ltr"><<a href="mailto:mr6@ebi.ac.uk" target="_blank">mr6@ebi.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF" text="#000000">
    Hi Kiran,<br>
    <br>
    If you are familiar with the Ensembl healthchecks, you are probably
    aware that they mostly use SQL calls.<br>
    Hence, mysql queries or API calls should be able to give you all the
    numbers you need.<br>
    <br>
    The key factor here is to have access to two sets of databases, the
    current and the previous release.<br>
    Once you have that, you should be able to run all the comparisons
    you want.<br>
    <br>
    Another solution would be to process the databases each release and
    store the results somewhere.<br>
    Then you would be able to compare a release with any prior one.<br>
    <br>
    Keeping track of how many gene models have changed, especially if
    working with human, is a relatively tricky task.<br>
    The stable id mapping would probably be the best way to go.<br>
    In the gene_archive table, you can get a list of all genes which
    have changed from the previous release.<br>
    This includes version changes or complete retirement.<br>
    For example, select count(distinct gene_stable_id) from gene_archive
    where mapping_session_id = 395 ;<br>
    indicates that 693 genes have changed from release 73 to 74.<br>
    <br>
    For other statistics, we do try and include them on our annotation
    page:<br>
    <a href="http://www.ensembl.org/Homo_sapiens/Info/Annotation#assembly" target="_blank">http://www.ensembl.org/Homo_sapiens/Info/Annotation#assembly</a><br>
    This displays number of genes by biotype groups, total number of
    variations and assembly version.<br>
    If this does not cover all the numbers you are looking for, we will
    happily take suggestions into consideration.<br>
    <br>
    Also, from release 75 onwards, these statistics will also be
    available directly from the database, stored in the
    genome_statistics table.<br>
    <br>
    <br>
    Regards,<br>
    Magali<div><div class="h5"><br>
    <br>
    <div>On 23/01/2014 22:51, Kiran Mukhyala
      wrote:<br>
    </div>
    </div></div><blockquote type="cite"><div><div class="h5">
      <div dir="ltr">Hello,
        <div><br>
        </div>
        <div>I am looking for a way to summarize the differences between
          two versions of Ensembl databases for a given species. </div>
        <div>Specifically things like the total number of genes, how
          many gene models have changed, number of genes with PFAM
          domains, number of protein coding genes, number of variations
          from various sources, number of homologs in species X etc.<br>
        </div>
        <div><br>
        </div>
        <div>I am aware of two ways to do this:</div>
        <div><br>
        </div>
        <div>1. By reading the release details page for each version
          that I am interested in, which doesn't really give me the
          numbers I am looking for.<br>
        </div>
        <div>2. Using Ensembl healthcheck which I assume is hard to
          customize.</div>
        <div><br>
        </div>
        <div>Are there any other tools for accomplishing this? If not,
          would a tool like that be useful to anyone else?</div>
        <div><br>
        </div>
        <div>Thanks,</div>
        <div>-Kiran</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div><br>
        </div>
      </div>
      <br>
      <fieldset></fieldset>
      <br>
      </div></div><pre>_______________________________________________
Dev mailing list    <a href="mailto:Dev@ensembl.org" target="_blank">Dev@ensembl.org</a>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a>
</pre>
    </blockquote>
    <br>
  </div>

<br>_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br></blockquote></div><br></div>