<html>
  <head>
    <meta content="text/html; charset=windows-1252"
      http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    Hi Ashok,<br>
    <br>
    On the gene page, we display the best RefSeq match we have based on
    coordinate overlap<br>
<a class="moz-txt-link-freetext" href="http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015">http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015</a><br>
    This is what returns the EntrezGene id 55871.<br>
    You can see the data used on the following page:<br>
<a class="moz-txt-link-freetext" href="http://useast.ensembl.org/Homo_sapiens/Share/209c84cdf8bea2ba5fb9e41097f883db3066398">http://useast.ensembl.org/Homo_sapiens/Share/209c84cdf8bea2ba5fb9e41097f883db3066398</a><br>
    which shows the overlap between RefSeq and Ensembl transcripts.<br>
    This mapping is only done for curated RefSeq transcripts, with NM_
    identifiers.<br>
    <br>
    <br>
    The full list of mappings, including EntrezGene mappings obtained
    through alignments to predicted RefSeq transcripts can be seen on
    the external references page<br>
<a class="moz-txt-link-freetext" href="http://useast.ensembl.org/Homo_sapiens/Gene/Matches?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000618217">http://useast.ensembl.org/Homo_sapiens/Gene/Matches?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000618217</a><br>
    and this is what Biomart returns.<br>
    <br>
    It should still be safe to use the EntrezGene id as displayed on the
    main gene page, as these come via the curated models and are more
    reliable than the predicted models.<br>
    Ensembl stable ids, gene names and the results from the RefSeq
    overlap entries are all included in our search indexes.<br>
    Other external references however are not, which is why you only get
    one result for a given EntrezGene id.<br>
    <br>
    To ensure you are looking at the correct genes, cross-checking with
    other resources (or using bidirectional query) is a sensible option.<br>
    You can also compare the possible EntrezGene ids with the assigned
    HGNC symbol.<br>
    The EntrezGene id you want is likely to be the one that agrees with
    the HGNC mapping.<br>
    I have attached an example from Biomart.<br>
    <br>
    <br>
    Regards,<br>
    Magali<br>
    <br>
    <div class="moz-cite-prefix">On 04/09/2015 14:29, Ragavendran, Ashok
      wrote:<br>
    </div>
    <blockquote
cite="mid:E45F60275766614BBE1EFC256771DBEF37A692B2@PHSX10MB6.partners.org"
      type="cite">
      <meta http-equiv="Content-Type" content="text/html;
        charset=windows-1252">
      hi Magali,<br>
          Thanks for your prompt response. I can understand that there
      isn't a 100% concordance across databases and that there are bound
      to be some level of incongruence. However, what I am concerned
      about is the inconsistency within the Ensembl databases themselves
      and again perhaps I am not doing something right and would be
      grateful for any suggestions on how to change my approach<br>
           To clarify:<br>
               1) using the ensembl GeneID as a key when i query biomart
      i get 4 entrezIds as seen below in my original email<br>
      <br>
               2) However if I look the gene up using the search tool on
      ensembl I get <b>
        only 1 entrez id</b>...in this case ENSG00000196873=445571 <br>
                      <a moz-do-not-send="true"
        class="moz-txt-link-freetext"
href="http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015">http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015</a><br>
               3) if i look up  entrez id 55871 on ncbi i get the
      following (<a moz-do-not-send="true" class="moz-txt-link-freetext"
        href="http://www.ncbi.nlm.nih.gov/gene/55871">http://www.ncbi.nlm.nih.gov/gene/55871</a>)<br>
      <blockquote>
        <blockquote><small>Official Symbol CBWD1provided by HGNC<br>
            Official Full Name :COBW domain containing 1provided by HGNC<br>
            Primary source HGNC:HGNC:17134<br>
            See related Ensembl:ENSG00000172785; HPRD:16686; MIM:611078;
            Vega:OTTHUMG00000019425<br>
            Gene type protein coding<br>
            RefSeq status VALIDATED<br>
            Organism Homo sapiens<br>
            Lineage Eukaryota; Metazoa; Chordata; Craniata; Vertebrata;
            Euteleostomi; Mammalia; Eutheria; Euarchontoglires;
            Primates; Haplorrhini; Catarrhini; Hominidae; Homo<br>
            Also known as COBP Orthologs all<br>
          </small></blockquote>
        <big><big><small><small>    which corresponds to ENSG00000172785
                and if I then look that EnsemblID i get
              </small></small></big></big><big><big><small><small><big><big><small><small>ENSG00000172785=55871
                        <b>only 1 entrez ID</b><br>
                      </small></small></big></big><a
                  moz-do-not-send="true" class="moz-txt-link-freetext"
href="http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000172785;r=9:121038-179147">http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000172785;r=9:121038-179147</a><br>
                <br>
                4) Finally if i query Biomart using the Entrez IDs i get
                the following Table:<br>
                <br>
                    Ensembl Gene ID    Associated Gene Name   
                EntrezGene ID<br>
                ENSG00000136682    CBWD2    150472<br>
                ENSG00000147996    CBWD5    220869<br>
                ENSG00000147996    CBWD5    55871<br>
                ENSG00000172785    CBWD1    150472<br>
                ENSG00000172785    CBWD1    55871<br>
                ENSG00000196873    CBWD3    150472<br>
                ENSG00000196873    CBWD3    220869<br>
                ENSG00000196873    CBWD3    445571<br>
                ENSG00000196873    CBWD3    55871<br>
                ENSG00000215126    CBWD7    150472<br>
                ENSG00000215126    CBWD7    220869<br>
                <br>
                Where we can see that </small></small></big></big><big><big><small><small><big><big><small><small>ENSG00000196873</small></small></big></big> 
                is associated with all 4 EntrezIDs.<br>
                <br>
                This brings me to two questions:<br>
                    1) Is the solution having to do an union of a
                bidirectional query. That is first query with the
                Ensembl Gene IDs and then use the resulting EntrezGeneId
                and query the Ensembl Gene ID and create a union of the
                results?<br>
                    2) The confusion arose partly from the web search
                result (see the URL below) where it shows only one
                entrez ID associated with the gene and the concordance
                in the NCBI hyperlink. Perhaps it might be possible to<b>
                  update the webpage to be consistent with the biomart
                  results</b>?? This is concerning because obviously
                when its a single gene we usually search using the web
                interface and this might possibly lead to erroneous
                conclusions<br>
              </small></small></big></big>
        <meta name="ProgId" content="Excel.Sheet">
        <meta name="Generator" content="Microsoft Excel 14">
        <link id="Main-File" rel="Main-File"
href="file://localhost/Users/ashok/Library/Caches/TemporaryItems/msoclip/0/clip.htm">
        <link rel="File-List"
href="file://localhost/Users/ashok/Library/Caches/TemporaryItems/msoclip/0/clip_filelist.xml">
        <style>
<!--table
        {mso-displayed-decimal-separator:"\.";
        mso-displayed-thousand-separator:"\,";}
@page
        {margin:1.0in .75in 1.0in .75in;
        mso-header-margin:.5in;
        mso-footer-margin:.5in;}
td
        {padding-top:1px;
        padding-right:1px;
        padding-left:1px;
        mso-ignore:padding;
        color:black;
        font-size:12.0pt;
        font-weight:400;
        font-style:normal;
        text-decoration:none;
        font-family:Calibri, sans-serif;
        mso-font-charset:0;
        mso-number-format:General;
        text-align:general;
        vertical-align:bottom;
        border:none;
        mso-background-source:auto;
        mso-pattern:auto;
        mso-protection:locked visible;
        white-space:nowrap;
        mso-rotate:0;}
-->\A0 \A0 \A0 \A0 \A0 \A0 \A0 \A0 \A0 \A0 
</style>            <a moz-do-not-send="true"
          class="moz-txt-link-freetext"
href="http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015">http://useast.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000196873;r=9:68232003-68300015</a><br>
        <br>
        Once again thanks a lot for all your help in this regard.<br>
        <br>
        Cheers<br>
            Ashok<br>
      </blockquote>
      <br>
      <br>
      <div class="moz-cite-prefix">On 9/4/15 4:59 AM, <a
          moz-do-not-send="true" class="moz-txt-link-abbreviated"
          href="mailto:dev-request@ensembl.org">
          dev-request@ensembl.org</a> wrote:<br>
      </div>
      <blockquote
        cite="mid:mailman.2660.1441357105.3673.dev@ensembl.org"
        type="cite">
        <pre wrap=""><div class="moz-txt-sig">Message: 2
Date: Fri, 04 Sep 2015 09:58:23 +0100
From: mag <a moz-do-not-send="true" class="moz-txt-link-rfc2396E" href="mailto:mr6@ebi.ac.uk"><mr6@ebi.ac.uk></a>
Subject: Re: [ensembl-dev] Bug?? Error Mapping EnsemblID to entrez id
To: Dev <a moz-do-not-send="true" class="moz-txt-link-rfc2396E" href="mailto:dev@ensembl.org"><dev@ensembl.org></a>
Message-ID: <a moz-do-not-send="true" class="moz-txt-link-rfc2396E" href="mailto:55E95D2F.3060505@ebi.ac.uk"><55E95D2F.3060505@ebi.ac.uk></a>
Content-Type: text/plain; charset="windows-1252"; Format="flowed"

Hi Ashok,

Mapping between resources is a complicated process which unfortunately 
exposes some edge cases like this one.

To map Ensembl genes to EntrezGene ids, there is no direct mapping 
available, hence we map via their respective transcripts, Ensembl 
transcripts and RefSeq mRNAs.
Where the data is available, we attempt to map based on genomic 
coordinates, but when everything else fails, the sequences are aligned.
Only the best hit is kept, but we do allow for mismatches as we know 
models can vary between Ensembl and RefSeq, in particular regarding UTR 
regions.
In this particular example, the Ensembl transcript ENST00000618217 
aligns very well against 3 separate RefSeq sequences
<a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://e81.ensembl.org/Homo_sapiens/Transcript/Similarity?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000618217">http://e81.ensembl.org/Homo_sapiens/Transcript/Similarity?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000618217</a>
corresponding to CBDW1, CBDW2 and CBDW3
Another transcript, ENST00000377342, aligns against 2 different RefSeq 
sequences, corresponding to CBDW3 and CBDW5
<a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://e81.ensembl.org/Homo_sapiens/Transcript/Similarity?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000377342">http://e81.ensembl.org/Homo_sapiens/Transcript/Similarity?db=core;g=ENSG00000196873;r=9:68232003-68300015;t=ENST00000377342</a>

As a result, we have not one but 4 different EntrezGene ids for the same 
Ensembl gene.
Note that all these RefSeq sequences are predicted sequences, as noted 
by the XM_ prefix.
This means that we would never use any of those EntrezGene ids to name 
the gene.
However, we still provide the initial mappings as these are our best 
guess as to which RefSeq transcript corresponds to which Ensembl transcript.

We are hoping to improve these mappings by including genomic coordinate 
information for predicted models, as this is already done for the 
curated RefSeq (NM_ like identifiers)
This is unlikely to be available before the end of the year though.

For correct gene naming, we recommend using HGNC identifiers, as these 
are obtained via curated direct mappings from HGNC, who update them 
regularly.


Hope this helps,
Magali

On 03/09/2015 20:04, Ragavendran, Ashok wrote:
</div></pre>
        <blockquote type="cite" style="color: #000000;">
          <pre wrap=""><span class="moz-txt-citetags">> </span>hello,
<span class="moz-txt-citetags">> </span>    I came upon this while using the Biomart interface. There are 
<span class="moz-txt-citetags">> </span>errors mapping Ensembl Id to entrezgeneid. The ensembl id maps to the 
<span class="moz-txt-citetags">> </span>wrong entrez, when I click the entrez link it shows a different 
<span class="moz-txt-citetags">> </span>ensembl Id. Attached is a screenshot of the results. The Ensembl ID 
<span class="moz-txt-citetags">> </span>refers to CBWD3, but the entrezgeneId are for CBDW1,CBDW2,CBDW5 and 
<span class="moz-txt-citetags">> </span>CBDW3. The last result is the correct one, All others are wrong and 
<span class="moz-txt-citetags">> </span>they actually have different Ensembl IDs, which is what i wanted to 
<span class="moz-txt-citetags">> </span>retreive.
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>    Is there something I am missing??
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>Cheers
<span class="moz-txt-citetags">> </span>    Ashok
<span class="moz-txt-citetags">> </span>====== Text based Results from querying the gene id ENSG00000196873 
<span class="moz-txt-citetags">> </span>=======
<span class="moz-txt-citetags">> </span>Ensembl Gene ID    EntrezGene ID
<span class="moz-txt-citetags">> </span>ENSG00000196873    55871
<span class="moz-txt-citetags">> </span>ENSG00000196873    150472
<span class="moz-txt-citetags">> </span>ENSG00000196873    220869
<span class="moz-txt-citetags">> </span>ENSG00000196873    445571
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>===== Screenshot of results: May not come through ===
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>-- 
<span class="moz-txt-citetags">> </span>Ashok Ragavendran
<span class="moz-txt-citetags">> </span>Bioinformatics Specialist
<span class="moz-txt-citetags">> </span>Center for Human Genetic Research
<span class="moz-txt-citetags">> </span>Massachusetts General Hospital
<span class="moz-txt-citetags">> </span>Richard B. Simches Research Center
<span class="moz-txt-citetags">> </span>185 Cambridge St, Boston MA 02114
<span class="moz-txt-citetags">> </span><a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:aragavendran@mgh.harvard.edu">aragavendran@mgh.harvard.edu</a>
<span class="moz-txt-citetags">> </span>ph: +1-617-726-1329
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>The information in this e-mail is intended only for the person to whom 
<span class="moz-txt-citetags">> </span>it is
<span class="moz-txt-citetags">> </span>addressed. If you believe this e-mail was sent to you in error and the 
<span class="moz-txt-citetags">> </span>e-mail
<span class="moz-txt-citetags">> </span>contains patient information, please contact the Partners Compliance 
<span class="moz-txt-citetags">> </span>HelpLine at
<span class="moz-txt-citetags">> </span><a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://www.partners.org/complianceline">http://www.partners.org/complianceline</a> . If the e-mail was sent to you 
<span class="moz-txt-citetags">> </span>in error
<span class="moz-txt-citetags">> </span>but does not contain patient information, please contact the sender 
<span class="moz-txt-citetags">> </span>and properly
<span class="moz-txt-citetags">> </span>dispose of the e-mail.
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">></span>
<span class="moz-txt-citetags">> </span>_______________________________________________
<span class="moz-txt-citetags">> </span>Dev mailing list    <a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>
<span class="moz-txt-citetags">> </span>Posting guidelines and subscribe/unsubscribe info: <a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a>
<span class="moz-txt-citetags">> </span>Ensembl Blog: <a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://www.ensembl.info/">http://www.ensembl.info/</a>
</pre>
        </blockquote>
      </blockquote>
      <br>
      <pre class="moz-signature" cols="72">-- 
Ashok Ragavendran
Bioinformatics Specialist
Center for Human Genetic Research
Massachusetts General Hospital
Richard B. Simches Research Center
185 Cambridge St, Boston MA 02114
<a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:aragavendran@mgh.harvard.edu">aragavendran@mgh.harvard.edu</a>
ph: +1-617-726-1329</pre>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Dev mailing list    <a class="moz-txt-link-abbreviated" href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>
Posting guidelines and subscribe/unsubscribe info: <a class="moz-txt-link-freetext" href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a>
Ensembl Blog: <a class="moz-txt-link-freetext" href="http://www.ensembl.info/">http://www.ensembl.info/</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>