<div dir="ltr">Dear Ensembl Team,<div><br></div><div>I am doing a project that needs to convert stable IDs to gene symbols. When I referenced the HGNC database, one symbol corresponds to only one stable ID. However, in the Ensembl database, one symbol can correspond to many stable IDs. I worry that using the HGNC reference will drop out some gene information. To clarify this problem, I investigate why some stable IDs share their gene names. For the human genes, I found that they will belong to 3 cases:</div><div><br></div><div>1. Stable IDs from non-primary assemblies: </div><div>- These stable IDs will not be in the released GTF file (which contains chromosomes 1-22, X, Y, and MT). I can only retrieve these IDs from BioMart. This confuses me because, for a regular use case such as transcriptomic alignment and quantification, the input file is only the GTF file. So when should I consider using these IDs from other assemblies?</div><div><br></div><div>- After dropping the stable IDs from non-primary assemblies, there are still about 1700 IDs that share the external gene name. Considering only the genes with their sources from HGNC or NCBI, they will fall into the following 2 cases.</div><div><br></div><div><br></div><div>2. Stable IDs with similar chromosomal positions:</div><div>- For example: ENSG00000291019 (chr5: 178764861 - 178818435) and ENSG00000250420 (chr5: 178767204 - 178797611). They are both assigned to AACSP1 with a source from HGNC. However, the HGNC database only references ENSG00000250420. </div><div><br></div><div>- Why do these two stable IDs exist at the same time? It seems like they are essentially one gene. In the future version, will one of them be retired?</div><div><br></div><div><br></div><div>3. Stable IDs with different chromosomal positions:</div><div>- For example: ENSG00000240356 (chr2: 113610502 - 113627090 - HGNC referenced) and ENSG00000291064 (chr22: 50756948 - 50801309 - NCBI referenced<span style="color:rgb(102,102,102);font-family:"Luxi Sans",Helvetica,Arial,Geneva,sans-serif;font-size:12.8px">:</span><a href="http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=Graphics&list_uids=118433" rel="external" target="_blank" style="color:rgb(204,54,0);background-position:100% 50%;background-repeat:no-repeat;padding-right:12px;font-family:"Luxi Sans",Helvetica,Arial,Geneva,sans-serif;font-size:12.8px">118433</a>). They are both assigned to RPL23AP7. The former is currently in the HGNC database. When I go to the NCBI website, the current position is chr2: <span style="color:rgb(0,0,0);font-family:arial,helvetica,clean,sans-serif;font-size:13px">113611239-113627138, which is more similar to </span>ENSG00000240356. </div><div><br></div><div>- Will these NCBI-referenced genes be fixed in future releases?</div><div><br></div><div>I have attached the duplicated stable IDs for case 2 and case 3 that I retrieved from BioMart release 109.</div><div>Thank you and I look forward to your response.</div><div><br></div><div>Best, </div><font color="#888888"><div>Hiep</div></font></div>