<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=utf-8">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    Hi,<br>
    <br>
    I think the same Ensembl gene ID means the same gene across
    different releases of GTF. But recently I found it was not the case
    for some gene IDs.<br>
    <br>
    I am trying to map some old human gene IDs in release-51 (hg18) to
    those in release-65 (hg19). I tried ID History Converter both online
    (<a class="moz-txt-link-freetext" href="http://useast.ensembl.org/Homo_sapiens/UserData/UploadStableIDs?db=core">http://useast.ensembl.org/Homo_sapiens/UserData/UploadStableIDs?db=core</a>)
    and locally
    (<a class="moz-txt-link-freetext" href="https://github.com/Ensembl/ensembl-tools/tree/release/78/scripts/id_history_converter">https://github.com/Ensembl/ensembl-tools/tree/release/78/scripts/id_history_converter</a>).
    They gave consistent results as expected.<br>
    <br>
    However, when I tried another method as a double check which is
    based on liftover described below, I got a different mapping result.
    Then, I compared the results from the two methods. Most were
    consistent in the two methods, but some (~10%) were contradictory.
    Take
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="ProgId" content="PowerPoint.Slide">
    <meta name="Generator" content="Microsoft PowerPoint 14">
    <!--StartFragment--><!--EndFragment--> ENSG00000181404 for example.
    ID History Converter shows that this ID is stable from release 14 to
    78; thus, it mapped this gene to itself in release-65. But I mapped
    it to a different gene ID (ENSG00000234769) in release-65 using the
    method based on liftover. Then, I took a closer look at these IDs
    (ENSG00000181404 and ENSG00000234769) in release-51 and release-65
    GTF files. For  ENSG00000181404, the gene name was "WASH4P" in
    release-51 and "WASH1" in release-65 (NOTE: these two genes are
    different. WASH4P is a pseudogene
    (<a class="moz-txt-link-freetext" href="http://www.genenames.org/cgi-bin/gene_symbol_report?hgnc_id=14126">http://www.genenames.org/cgi-bin/gene_symbol_report?hgnc_id=14126</a>)
    and WASH1 is a protein-coding gene
    (<a class="moz-txt-link-freetext" href="http://www.genenames.org/cgi-bin/gene_symbol_report?hgnc_id=24361">http://www.genenames.org/cgi-bin/gene_symbol_report?hgnc_id=24361</a>)
    ). For ENSG00000234769, it was absent from release-51 (it first
    appeared in release-55 according to ID History Converter) and its
    gene name was "WASH4P" in release-65. Therefore, based on liftover
    and gene name, ENSG00000181404 in release-51 should be mapped to
    ENSG00000234769, rather than itself - ENSG00000181404, in
    release-65. Here my question came out. Do the gene IDs mean the same
    genes across different releases of GTF?<br>
    <br>
    Here is a list of gene IDs and gene names from release-51 (the first
    2 columns) and release-65 (the 3rd and 4th columns). Based on the
    gene names, it seems that the same IDs may mean different genes
    across releases.<br>
    E<tt>NSG00000018607 ZNF221  ENSG00000018607 ZNF806</tt><tt><br>
    </tt><tt>ENSG00000080910 CFHR1   ENSG00000080910 CFHR2</tt><tt><br>
    </tt><tt>ENSG00000081665 ZNF93   ENSG00000081665 ZNF506</tt><tt><br>
    </tt><tt>ENSG00000127589 TUBB4Q  ENSG00000127589 TUBBP1</tt><tt><br>
    </tt><tt>ENSG00000140478 GOLGA6B ENSG00000140478 GOLGA6D</tt><tt><br>
    </tt><tt>ENSG00000147996 CBWD1   ENSG00000147996 CBWD5</tt><tt><br>
    </tt><tt>ENSG00000159904 ZNF225  ENSG00000159904 ZNF890P</tt><tt><br>
    </tt><tt>ENSG00000160229 ZNF486  ENSG00000160229 ZNF66P</tt><tt><br>
    </tt><tt>ENSG00000170356 OR2A5   ENSG00000170356 OR2A20P</tt><tt><br>
    </tt><tt>ENSG00000174353 STAG3L1 ENSG00000174353 STAG3L3</tt><tt><br>
    </tt><tt>ENSG00000181404 WASH4P  ENSG00000181404 WASH1</tt><tt><br>
    </tt><tt>ENSG00000181997 AQP7P3  ENSG00000181997 AQP7P2</tt><tt><br>
    </tt><tt>ENSG00000183206 A26B1   ENSG00000183206 POTEC</tt><tt><br>
    </tt><tt>ENSG00000184324 CSAG3   ENSG00000184324 CSAG2</tt><tt><br>
    </tt><tt>ENSG00000184923 FAM22D  ENSG00000184923 FAM22A</tt><tt><br>
    </tt><tt>ENSG00000185829 ARL17P1 ENSG00000185829 ARL17A</tt><tt><br>
    </tt><tt>ENSG00000187537 A26C2   ENSG00000187537 POTEM</tt><tt><br>
    </tt><tt>ENSG00000187754 SSX2    ENSG00000187754 SSX7</tt><tt><br>
    </tt><tt>ENSG00000198566 ZNF658  ENSG00000198566 ZNF658B</tt><br>
    <br>
    I noticed the possibility that  different gene symbols or names may
    mean the same gene due to the existence of aliases. For those
    consistent mapping results, I checked and confirmed this
    possibility. But for those inconsistent mapping results, it seems
    that they may mean different genes in different releases. Shouldn't
    the same ID mean the same genes? How was the ID mapping done across
    releases?<br>
    <br>
    Here is a brief description of how I did the liftover and ID
    mapping. First, for those old IDs of interest in release-51, I
    converted exons to bed format with one column recording geneID, gene
    name etc; then, lift these exons to hg19 coordinates using UCSC
    liftOver ( <a class="moz-txt-link-freetext" href="https://genome.ucsc.edu/cgi-bin/hgLiftOver">https://genome.ucsc.edu/cgi-bin/hgLiftOver</a> ); then
    intersect these lifted exons with exons in release-65 to decide the
    mapping relationship of old and new exons; finally, decide the
    mapping relationship of old and new gene IDs based on the exon
    relationship.<br>
    <br>
    Thanks!<br>
    Dejian<br>
    <br>
  </body>
</html>