<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Here are some counts of occurrences of hyphenated entrez genes in the xref table per species db where I've found these so far:<div><br></div><div>Bt - 287</div><div>Gg - 1138</div><div>Rn - 716</div><div>Xt - 731</div><div><br><div>
 - Alex

</div>
<br><div><div>On Dec 13, 2013, at 1:46 PM, Alexander Pico <<a href="mailto:apico@gladstone.ucsf.edu">apico@gladstone.ucsf.edu</a>> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><meta http-equiv="Content-Type" content="text/html charset=us-ascii"><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Dear Ensembl,<div><br></div><div>I've run across a number of examples of hyphenated entrez gene identifiers in xref tables, starting back in release 72, for example:<div><br></div><div>rattus_norvegicus_core_72_5</div><div><br></div><div><div>+---------+----------------+---------------+---------------+---------+-----------------------------------------------+-----------+-----------+</div><div>| xref_id | external_db_id | dbprimary_acc | display_label | version | description                                   | info_type | info_text |</div><div>+---------+----------------+---------------+---------------+---------+-----------------------------------------------+-----------+-----------+</div><div>|  576085 |           1300 | 288264        | Ifnar1        | 0       | interferon (alpha, beta and omega) receptor 1 | DEPENDENT |           |</div><div>+---------+----------------+---------------+---------------+---------+-----------------------------------------------+-----------+-----------+</div><div><div>| 1143738 |           1300 | 288264-201    | Ifnar1-201    | 0       | interferon (alpha, beta and omega) receptor 1 | MISC      | via gene name |</div><div>+---------+----------------+---------------+---------------+---------+-----------------------------------------------+-----------+---------------+</div></div><div><br></div><div>The first result is accurate, but the second one is apparently manufactored. This entry breaks a number of downstream uses for xrefs, since the "-201" is not part of the official ID format for Entrez gene, for example.</div><div><br></div><div>What are these? Are you planning on keeping these around in future xref tables?</div><div><br></div><div>And how would you recommend avoiding these in xref queries using the Perl API? Here's my current Perl psuedocode:</div><div><br></div><div>$gene->get_all_DBLinks();</div><div>foreach my $dbe (@$db_entries) {</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>if ($dbe->dbname() =~ /^\'EntrezGene\'$/){</div><div><span class="Apple-tab-span" style="white-space:pre">                </span>//Collect xref associated with $gene</div><div><span class="Apple-tab-span" style="white-space:pre"> </span>}</div><div>}</div> </div><div>What other filters or checks should I do to exclude the manufactored identifiers associated with your Entrez Gene records?<br><div><br></div><div>Thanks!</div><div>- Alex</div><div><br></div><div apple-content-edited="true">
<div style="font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">----------------------------------------<br>Alexander Pico, PhD<br>NRNB Executive Director<br>Bioinformatics Assoc. Director<br>Gladstone Institutes</div><div style="font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><a href="http://nrnb.org/">http://nrnb.org</a></div><div style="orphans: 2; text-align: -webkit-auto; text-indent: 0px; widows: 2; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><a href="http://gladstoneinstitutes.org/">http://gladstoneinstitutes.org</a><br>----------------------------------------</div>
</div>

<br></div></div></div>_______________________________________________<br>Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev">http://lists.ensembl.org/mailman/listinfo/dev</a><br>Ensembl Blog: <a href="http://www.ensembl.info/">http://www.ensembl.info/</a><br></blockquote></div><br></div></body></html>