<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
  </head>
  <body text="#000000" bgcolor="#ffffff">
    Hello<br>
    <br>
    Whilst looking into Stuart's question I looked at the variants on
    chromosome 1 out of curiosity and found that most of them don't have
    sift/polyphen data.<br>
    Is this correct or have i made a mistake in my understanding of the
    schema<br>
    <br>
    variants on chr1 (seq_region_id = 27511)
    <br>
    ============================
    <br>
    <br>
    mysql> select count(*) from transcript_variation tv inner join
    <br>
    homo_sapiens_core_62_37g.transcript_stable_id st on st.stable_id =
    <br>
    tv.feature_stable_id inner join homo_sapiens_core_62_37g.transcript
    t on
    <br>
    t.transcript_id = st.transcript_id where t.seq_region_id = 27511;
    <br>
    +----------+
    <br>
    | count(*) |
    <br>
    +----------+
    <br>
    | 9633745 |
    <br>
    +----------+
    <br>
    1 row in set (3.34 sec)
    <br>
    <br>
    <br>
    variants on chr1 without sift and polyphen
    <br>
    ===========================
    <br>
    <br>
    mysql> select count(*) from transcript_variation tv inner join
    <br>
    homo_sapiens_core_62_37g.transcript_stable_id st on st.stable_id =
    <br>
    tv.feature_stable_id inner join homo_sapiens_core_62_37g.transcript
    t on
    <br>
    t.transcript_id = st.transcript_id where t.seq_region_id = 27511 and
    <br>
    tv.sift_prediction is null and tv.polyphen_prediction is null;
    <br>
    +----------+
    <br>
    | count(*) |
    <br>
    +----------+
    <br>
    | 9562313 |
    <br>
    +----------+
    <br>
    1 row in set (11.22 sec)
    <br>
    <br>
    <br>
    variants on chr1 with sift and polyphen
    <br>
    =========================
    <br>
    <br>
    mysql> select count(*) from transcript_variation tv inner join
    <br>
    homo_sapiens_core_62_37g.transcript_stable_id st on st.stable_id =
    <br>
    tv.feature_stable_id inner join homo_sapiens_core_62_37g.transcript
    t on
    <br>
    t.transcript_id = st.transcript_id where t.seq_region_id = 27511 and
    <br>
    tv.sift_prediction is not null and tv.polyphen_prediction is not
    null;
    <br>
    +----------+
    <br>
    | count(*) |
    <br>
    +----------+
    <br>
    | 67919 |
    <br>
    +----------+
    <br>
    1 row in set (11.19 sec)
    <br>
    <br>
    <br>
    <br>
    thanks<br>
    <br>
    <br>
    On 17/05/11 13:59, Stuart Meacham wrote:
    <blockquote cite="mid:4DD27121.7010404@cam.ac.uk" type="cite">Hello,
      <br>
      <br>
      Thanks for the reply.
      <br>
      <br>
      On 17/05/11 13:35, Will McLaren wrote:
      <br>
      <br>
      <blockquote type="cite">
        <br>
        This is strange - are you sure you are checking out the branch
        and not
        <br>
        the head of the API? You should be doing something like:
        <br>
        <br>
        cvs checkout -r branch-ensembl-62 ensembl
        <br>
        cvs checkout -r branch-ensembl-62 ensembl-variation
        <br>
      </blockquote>
      <br>
      Actually I just used the links from the site here:
      <br>
      <br>
      <a class="moz-txt-link-freetext" href="http://www.ensembl.org/info/docs/api/api_installation.html">http://www.ensembl.org/info/docs/api/api_installation.html</a>
      <br>
      <br>
      the link(s) resolve to things like:
      <br>
      <br>
<a class="moz-txt-link-freetext" href="http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl.tar.gz?root=ensembl&only_with_tag=branch-ensembl-62&view=tar">http://cvs.sanger.ac.uk/cgi-bin/viewvc.cgi/ensembl.tar.gz?root=ensembl&only_with_tag=branch-ensembl-62&view=tar</a>
      <br>
      <br>
      <blockquote type="cite">
        <br>
        <blockquote type="cite">
          <br>
          The script silently over-writes an existing output file of the
          same name,
          <br>
          this seems a bit brutal, perhaps the default should be to fail
          if the file
          <br>
          exists.
          <br>
        </blockquote>
        <br>
        I think this is pretty standard behaviour for command-line
        programs. I
        <br>
        could change it to only run if in an output file name is
        specified
        <br>
        perhaps?
        <br>
      </blockquote>
      <br>
      Yes, probably it's standard behaviour. I was just imagining
      accidentally overwriting a file the script had spent 24 hours
      creating . . .
      <br>
      <br>
      <blockquote type="cite">
        <br>
        That's also odd - any variants classified as non-synonymous
        coding
        <br>
        should have a "SIFT=*" entry in the final column. Can you try
        the
        <br>
        attached file as input on your system?
        <br>
        <br>
      </blockquote>
      <br>
      No problem, the command I used was:
      <br>
      <br>
      perl ./variant_effect_predictor_2.pl -r reg.pl -i ./test.txt -w -b
      100000 --sift=p --polyphen=p --failed=0 -terms=so
      <br>
      <br>
      and the output (no errors but also no predictions) is attached.
      <br>
      <br>
      Cheers
      <br>
      <br>
      Stuart
      <br>
      <pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
Dev mailing list    <a class="moz-txt-link-abbreviated" href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>
List admin (including subscribe/unsubscribe): <a class="moz-txt-link-freetext" href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a>
Ensembl Blog: <a class="moz-txt-link-freetext" href="http://www.ensembl.info/">http://www.ensembl.info/</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>