<div dir="ltr">Dear Dan,<div><br></div><div>I missed your reply because I forgot that I have my email settings set to "digest" and was also filtering these emails.</div><div><br></div><div>After a bit of digging, I reached a conclusion:</div>
<div><br></div><div>The version of the Chlamydomonas genome installed at EnsemblPlants is actually version 3.1, whilst the version installed at the JGI (note, not Phytozome itself) is version 3.0, you can see a separate set of files in this page:</div>
<div><br></div><div><a href="http://genome.jgi-psf.org/Chlre3/Chlre3.download.ftp.html">http://genome.jgi-psf.org/Chlre3/Chlre3.download.ftp.html</a><br></div><div><br></div><div>(it took me a while to realize that there was actually two different sub-versions available)</div>
<div class="gmail_extra"><br></div><div class="gmail_extra">The problem was exacerbated by the fact that some of the genes are almost identical in both versions, but have different gene ids, so some recent data I downloaded, containing Chlamydomonas annotation, was using gene ids not found in version 3.1.</div>
<div class="gmail_extra"><br></div><div class="gmail_extra">On a related note, I see that Phytozome is planning on releasing v5.0, does EnsemblPlants have plans to include this version?</div><div class="gmail_extra"><br></div>
<div class="gmail_extra">Thanks</div><div class="gmail_extra">Sam</div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Sep 17, 2013 at 6:00 AM,  <span dir="ltr"><<a href="mailto:dev-request@ensembl.org" target="_blank">dev-request@ensembl.org</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">Send Dev mailing list submissions to<br>
        <a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:dev-request@ensembl.org" target="_blank">dev-request@ensembl.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:dev-owner@ensembl.org" target="_blank">dev-owner@ensembl.org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of Dev digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1. Missing genes from Chlamydomonas genome (Sam Seaver)<br>
   2. Re: [1000G #353572] How to get population names for       SNP from<br>
      homo_sapiens_variation_73_37 - <a href="http://browser.1000genomes.org" target="_blank">browser.1000genomes.org</a><br>
      (Patricia Buendia)<br>
   3. Re: Missing genes from Chlamydomonas genome (Dan Staines)<br>
   4. VEP ignoring SNVs when called alongisde an insertion      or<br>
      deletion (David Parry)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Mon, 16 Sep 2013 15:30:48 -0500<br>
From: Sam Seaver <<a href="mailto:samseaver@gmail.com" target="_blank">samseaver@gmail.com</a>><br>
Subject: [ensembl-dev] Missing genes from Chlamydomonas genome<br>
To: Ensembl developers list <<a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>><br>
Message-ID:<br>
        <CAGwzEpYYZTKm6PeWu244eSswxb7E7JzoOo69MBRqH=qCssm=<a href="mailto:Ag@mail.gmail.com" target="_blank">Ag@mail.gmail.com</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
Dear Ensembl,<br>
<br>
I just found out that approximately 10% of the C. reinhardtii genome (v3)<br>
in the JGI database is missing from the C. reinhardtii genome installed at<br>
EnsemblPlants.<br>
<br>
Would anybody be able to explain this discrepancy for me?<br>
<br>
Thanks<br>
Sam Seaver<br>
<br>
--<br>
Postdoctoral Fellow<br>
Mathematics and Computer Science Division<br>
Argonne National Laboratory<br>
9700 S. Cass Avenue<br>
Argonne, IL 60439<br>
<br>
<a href="http://www.linkedin.com/pub/sam-seaver/0/412/168" target="_blank">http://www.linkedin.com/pub/sam-seaver/0/412/168</a><br>
<a href="mailto:samseaver@gmail.com" target="_blank">samseaver@gmail.com</a><br>
<a href="tel:%28773%29%20796-7144" value="+17737967144" target="_blank">(773) 796-7144</a><br>
<br>
"We shall not cease from exploration<br>
And the end of all our exploring<br>
Will be to arrive where we started<br>
And know the place for the first time."<br>
   --T. S. Eliot<br>
-------------- next part --------------<br>
An HTML attachment was scrubbed...<br>
URL: <<a href="http://lists.ensembl.org/pipermail/dev/attachments/20130916/e6f77b96/attachment-0001.htm" target="_blank">http://lists.ensembl.org/pipermail/dev/attachments/20130916/e6f77b96/attachment-0001.htm</a>><br>


<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Mon, 16 Sep 2013 17:54:48 -0400<br>
From: "Patricia Buendia" <<a href="mailto:paty@infotechsoft.com" target="_blank">paty@infotechsoft.com</a>><br>
Subject: Re: [ensembl-dev] [1000G #353572] How to get population names<br>
        for     SNP from homo_sapiens_variation_73_37 - <a href="http://browser.1000genomes.org" target="_blank">browser.1000genomes.org</a><br>
To: <<a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>><br>
Cc: "'Laura Clarke via RT '"@<a href="http://sanger.ac.uk" target="_blank">sanger.ac.uk</a><br>
Message-ID: <002401ceb327$613fca30$23bf5e90$@com><br>
Content-Type: text/plain;       charset="utf-8"<br>
<br>
To the dev mailing list:<br>
<br>
I would very much appreciate getting some help with this question:<br>
<br>
I have a question regarding the Ensembl mySQL database. I do not want to use the API but directly query the database.<br>
<br>
What SQL statement would I use to obtain the records shown in <a href="http://browser.1000genomes.org/Homo_sapiens/Variation/Population?db=core;g=ENSG00000134242;r=1:114356433-114414381;source=dbSNP;v=rs114092230;vdb=variation;vf=27418953#_" target="_blank">http://browser.1000genomes.org/Homo_sapiens/Variation/Population?db=core;g=ENSG00000134242;r=1:114356433-114414381;source=dbSNP;v=rs114092230;vdb=variation;vf=27418953#_</a><br>


<br>
for SNP rs114092230?<br>
<br>
When running an SQL query linking the population, allele and variation tables in homo_sapiens_variation_73_37, I get only <a href="http://population.name" target="_blank">population.name</a>= "1000GENOMES:pilot_1_YRI_low_coverage_panel" for that SNP, but the above link shows many more populations. How do I get the same data using an SQL statement.<br>


<br>
Paty<br>
<br>
<br>
-----Original Message-----<br>
From: Laura Clarke via RT [mailto:<a href="mailto:info@1000genomes.org" target="_blank">info@1000genomes.org</a>]<br>
Sent: Friday, September 13, 2013 2:33 PM<br>
To: <a href="mailto:paty@infotechsoft.com" target="_blank">paty@infotechsoft.com</a><br>
Subject: [1000G #353572] How to get population names for SNP from homo_sapiens_variation_73_37 - <a href="http://browser.1000genomes.org" target="_blank">browser.1000genomes.org</a><br>
<br>
I would recommend reading the tutorial<br>
<br>
<a href="http://www.ensembl.org/info/docs/api/variation/variation_tutorial.html" target="_blank">http://www.ensembl.org/info/docs/api/variation/variation_tutorial.html</a><br>
<br>
and if that doesn't help email the dev mailing list<br>
<br>
thanks<br>
<br>
Laura<br>
<br>
On Fri Sep 13 18:35:28 2013, <a href="mailto:paty@infotechsoft.com" target="_blank">paty@infotechsoft.com</a> wrote:<br>
> Thank you, Laura. So I just have to wait and don't need to send an<br>
> email to <a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>?<br>
> Paty<br>
><br>
> -----Original Message-----<br>
> From: Laura Clarke via RT [mailto:<a href="mailto:info@1000genomes.org" target="_blank">info@1000genomes.org</a>]<br>
> Sent: Friday, September 13, 2013 4:19 AM<br>
> To: <a href="mailto:paty@infotechsoft.com" target="_blank">paty@infotechsoft.com</a><br>
> Subject: [1000G #353572] How to get population names for SNP from<br>
> homo_sapiens_variation_73_37 - <a href="http://browser.1000genomes.org" target="_blank">browser.1000genomes.org</a><br>
><br>
> Fri Sep 13 09:19:18 2013: Request 353572 was acted upon.<br>
> Transaction: Taken by <a href="mailto:laura@ebi.ac.uk" target="_blank">laura@ebi.ac.uk</a><br>
> Queue: 1000genomes<br>
> Subject: How to get population names for SNP from<br>
> homo_sapiens_variation_73_37 - <a href="http://browser.1000genomes.org" target="_blank">browser.1000genomes.org</a><br>
> Owner: <a href="mailto:laura@ebi.ac.uk" target="_blank">laura@ebi.ac.uk</a><br>
> Requestors: <a href="mailto:paty@infotechsoft.com" target="_blank">paty@infotechsoft.com</a><br>
> Status: new<br>
> Ticket <URL: <a href="https://rt.sanger.ac.uk/Ticket/Display.html?id=353572" target="_blank">https://rt.sanger.ac.uk/Ticket/Display.html?id=353572</a> ><br>
><br>
><br>
> Your ticket has been assigned to an engineer, as shown in the Owner<br>
> field above.<br>
><br>
> Regards,<br>
> 1000 Genomes Project Helpdesk<br>
> <a href="mailto:info@1000genomes.org" target="_blank">info@1000genomes.org</a><br>
><br>
><br>
><br>
<br>
<br>
<br>
This email is sent from the Hinxton Campus RT tracking system, which is managed for the Sanger Institute and the EBI by the Sanger Institute.<br>
<br>
<br>
--<br>
 The Wellcome Trust Sanger Institute is operated by Genome Research  Limited, a charity registered in England with number 1021457 and a  company registered in England with number 2742969, whose registered  office is 215 Euston Road, London, NW1 2BE.<br>


<br>
<br>
<br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Tue, 17 Sep 2013 08:51:43 +0100<br>
From: Dan Staines <<a href="mailto:dstaines@ebi.ac.uk" target="_blank">dstaines@ebi.ac.uk</a>><br>
Subject: Re: [ensembl-dev] Missing genes from Chlamydomonas genome<br>
To: <<a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>><br>
Message-ID: <<a href="mailto:defe8ae1442616bb61cc0a98aa00bac7@ebi.ac.uk" target="_blank">defe8ae1442616bb61cc0a98aa00bac7@ebi.ac.uk</a>><br>
Content-Type: text/plain; charset=UTF-8; format=flowed<br>
<br>
On 2013-09-16 21:30, Sam Seaver wrote:<br>
> Dear Ensembl,<br>
><br>
> I just found out that approximately 10% of the C. reinhardtii genome<br>
> (v3) in the JGI database is missing from the C. reinhardtii genome<br>
> installed at EnsemblPlants.?<br>
><br>
> Would anybody be able to explain this discrepancy for me?<br>
<br>
Hi Sam,<br>
<br>
This genome was loaded from the assembly and annotation submitted to<br>
INSDC:<br>
<a href="http://www.ebi.ac.uk/ena/data/view/GCA_000002595.2" target="_blank">http://www.ebi.ac.uk/ena/data/view/GCA_000002595.2</a><br>
The most likely explanation is that the JGI version has been updated<br>
more recently but has not been resubmitted. However, we'll do some more<br>
digging to as there are some discrepancies about numbers of submitted<br>
scaffolds that we need to examine.<br>
<br>
Thanks,<br>
<br>
Dan.<br>
<br>
--<br>
Dan Staines, PhD               Ensembl Genomes Technical Coordinator<br>
EMBL-EBI                       Tel: <a href="tel:%2B44-%280%291223-492507" value="+441223492507" target="_blank">+44-(0)1223-492507</a><br>
Wellcome Trust Genome Campus   Fax: <a href="tel:%2B44-%280%291223-494468" value="+441223494468" target="_blank">+44-(0)1223-494468</a><br>
Cambridge CB10 1SD, UK         <a href="http://www.ensemblgenomes.org/" target="_blank">http://www.ensemblgenomes.org/</a><br>
<br>
<br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Tue, 17 Sep 2013 10:22:24 +0100<br>
From: David Parry <<a href="mailto:D.A.Parry@leeds.ac.uk" target="_blank">D.A.Parry@leeds.ac.uk</a>><br>
Subject: [ensembl-dev] VEP ignoring SNVs when called alongisde an<br>
        insertion       or deletion<br>
To: "<a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>" <<a href="mailto:dev@ensembl.org" target="_blank">dev@ensembl.org</a>><br>
Message-ID: <<a href="mailto:52381F50.8010805@leeds.ac.uk" target="_blank">52381F50.8010805@leeds.ac.uk</a>><br>
Content-Type: text/plain; charset="iso-8859-1"<br>
<br>
Hi,<br>
<br>
I apologize if I have misunderstood the caveats given regarding the VCF<br>
input format for the VEP but I am observing unexpected behavior that I<br>
don't think is covered by the documentation. If I provide a multiallelic<br>
variant with both an insertion and a deletion call at the same site the<br>
VEP correctly outputs both consequences. However, if a variant contains<br>
either an insertion or deletion alongside a substitution the VEP ignores<br>
the substitution variant.  For example, while the following variant in a<br>
VCF:<br>
<br>
6       32634300        .       G       C,CTA<br>
<br>
gives the output:<br>
<br>
## ENSEMBL VARIANT EFFECT PREDICTOR v73<br>
## Output produced at 2013-09-17 09:57:41<br>
## Connected to<br>
## Using cache in /home/davidparry/.vep/homo_sapiens/73<br>
## Using API version 73, DB version ?<br>
## Extra column keys:<br>
## DISTANCE : Shortest distance from variant to transcript<br>
#Uploaded_variation     Location        Allele  Gene    Feature<br>
Feature_type    Consequence     cDNA_position   CDS_position<br>
Protein_position        Amino_acids     Codons  Existing_variation<br>
Extra<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000484729 Transcript<br>
frameshift_variant,NMD_transcript_variant,feature_elongation    115-116<br>
84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399082 Transcript      frameshift_variant,feature_elongation<br>
129-130 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399084 Transcript      frameshift_variant,feature_elongation<br>
263-264 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000434651 Transcript      frameshift_variant,feature_elongation<br>
171-172 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000399079 Transcript      frameshift_variant,feature_elongation<br>
141-142 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000374943 Transcript      frameshift_variant,feature_elongation<br>
161-162 84-85   28-29   -       -       -<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000241287<br>
ENST00000443574 Transcript      upstream_gene_variant   -       -<br>
-       -       -       -       DISTANCE=4073<br>
6_32634301_-/-/TA       6:32634300-32634301     TA      ENSG00000179344<br>
ENST00000487676 Transcript<br>
non_coding_exon_variant,nc_transcript_variant,feature_elongation<br>
115-116 -       -       -       -  -<br>
<br>
In this case the substitution variant is ignored and we only get a<br>
consequence for the insertion.  Similarly, for a deletion at the same<br>
site as a substitution:<br>
<br>
6       32634300        .       GTA     G,CTA<br>
<br>
gives:<br>
<br>
## ENSEMBL VARIANT EFFECT PREDICTOR v73<br>
## Output produced at 2013-09-17 09:51:08<br>
## Connected to<br>
## Using cache in /home/davidparry/.vep/homo_sapiens/73<br>
## Using API version 73, DB version ?<br>
## Extra column keys:<br>
## DISTANCE : Shortest distance from variant to transcript<br>
#Uploaded_variation     Location        Allele  Gene    Feature<br>
Feature_type    Consequence     cDNA_position   CDS_position<br>
Protein_position        Amino_acids     Codons  Existing_variation<br>
Extra<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000484729 Transcript<br>
frameshift_variant,NMD_transcript_variant,feature_truncation    114-115<br>
83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399082 Transcript      frameshift_variant,feature_truncation<br>
128-129 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399084 Transcript      frameshift_variant,feature_truncation<br>
<a href="tel:262-263%2083-84" value="+12622638384" target="_blank">262-263 83-84</a>   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000434651 Transcript      frameshift_variant,feature_truncation<br>
170-171 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000399079 Transcript      frameshift_variant,feature_truncation<br>
140-141 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000374943 Transcript      frameshift_variant,feature_truncation<br>
160-161 83-84   28      -       -       -<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000241287<br>
ENST00000443574 Transcript      upstream_gene_variant   -       -<br>
-       -       -       -       DISTANCE=4074<br>
6_32634301_TA/-/TA      6:32634301-32634302     -       ENSG00000179344<br>
ENST00000487676 Transcript<br>
non_coding_exon_variant,nc_transcript_variant,feature_truncation<br>
114-115 -       -       -       -  -<br>
<br>
...we only get the consequence for the deletion.<br>
<br>
Generally I am processing multisample VCF files with VEP and outputting<br>
in VCF format.  I want to be able to assess the consequences for a given<br>
sample's genotype but this sometimes fails at sites like this where my<br>
script can't find an allele corresponding to the substitution in the VEP<br>
output.  A workaround would be to separate my indel and my substitution<br>
calls before running the VEP, but I wondered whether this is<br>
known/desired behaviour for this tool?<br>
<br>
The VEP is a really great tool, so it would be brilliant if there were a<br>
fix for this.<br>
<br>
Cheers,<br>
<br>
Dave<br>
<br>
<br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org" target="_blank">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
End of Dev Digest, Vol 39, Issue 19<br>
***********************************<br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br>Postdoctoral Fellow<br>Mathematics and Computer Science Division<br>Argonne National Laboratory<br>9700 S. Cass Avenue<br>Argonne, IL 60439<br><br><a href="http://www.linkedin.com/pub/sam-seaver/0/412/168" target="_blank">http://www.linkedin.com/pub/sam-seaver/0/412/168</a><br>

<a href="mailto:samseaver@gmail.com" target="_blank">samseaver@gmail.com</a><br><a href="tel:%28773%29%20796-7144" value="+17737967144" target="_blank">(773) 796-7144</a><br><br>"We shall not cease from exploration<br>
And the end of all our exploring<br>Will be to arrive where we started<br>
And know the place for the first time."<br>    --T. S. Eliot
</div></div>