<br><br><div class="gmail_quote">On Tue, May 24, 2011 at 12:46 PM, Reece Hart <span dir="ltr"><<a href="mailto:reece@harts.net">reece@harts.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div class="gmail_quote"><div>Because it's so convenient to code for Ensembl, I'd still like to see if there's a way to accomplish what I want with Ensembl. The goal is convert HGVS variants specified using NCBI accessions between genomic, raw transcript (i.e., 'r.' variants), CDS, and protein coordinate systems. To achieve accurate conversion in the general case, it is necessary to have a single, shared understanding of the exon structure, accurate to nucleotide level, as implied by the named transcript. Exon-level similarity, even when the CDS is unchanged, doesn't cut it in this case.</div>

<div><br></div><div>Does anyone know whether it would work to load NCBI exons directly into Ensembl? I'm hoping that populating the transcript, transcript_stable_id, exon, and exon_transcript tables with original NCBI data would suffice. Is that too naive?</div>

<div><br></div></div></blockquote><div> </div><div>In order to map genomic to transcript coordinates using the Ensembl API, one requirement is that the transcript be derived from the reference genome. Unfortunately, this is not true for a small percentage of RefSeqs. RefSeq UTRs especially do not match the reference genome well.<br>
<br>What that means is that if you load NCBI exons directly into Ensembl, since the API constructs the transcript sequence from the genome, the reference genome derived transcript will not match the RefSeq sequence and so you will not be able to accurately convert genomic to RefSeq coordinates.<br>
<br>This theoretically should not happen with the CCDS genes but I haven't tested it. By the way, Ensembl does import RefSeq and CCDS genes into the otherfeatures database.<br><br>-Kiran<br><br><br></div></div>