<p dir="ltr">Hi, hope this is still relevant to this thread - what is the rationale for choosing 5kb? Is there no evidence for promoter regions beyond that? Is it the same limit at the 3' end?</p>
<p dir="ltr">~C</p>
<div class="gmail_extra"><br><div class="gmail_quote">On Jul 29, 2016 4:24 AM, "Will McLaren" <<a href="mailto:wm2@ebi.ac.uk">wm2@ebi.ac.uk</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Lin,<br>
<br>
This is actually not a case of Ensembl not providing a canonical transcript. It actually shows your input variant overlapping only one transcript of a gene, and that transcript is not the canonical one.<br>
<br>
If you look at the transcript diagram [1] you can see ENST00000497517 extends many kb 5' of the other transcripts' start sites (beyond the 5kb range within which VEP will call an overlap), so only that transcript is annotated.<br>
<br>
Regards<br>
<br>
Will McLaren<br>
Ensembl Variation<br>
<br>
[1] : <a href="http://www.ensembl.org/Homo_sapiens/Gene/Summary?g=ENSG00000115705" rel="noreferrer" target="_blank">http://www.ensembl.org/Homo_sapiens/Gene/Summary?g=ENSG00000115705</a><br>
<br>
On 29 July 2016 at 07:32, 林琼芬 <<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a><mailto:<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a>>> wrote:<br>
yes, just like the one below<br>
1       25372580        rs12731221      G       A<br>
1       28733759        rs78873359      CA      C<br>
2       1397282 rs9326165       G       A<br>
2       1405785 rs74412499      G       A<br>
2       88285154        rs149707353     C       T<br>
3       85008865        .       C       A<br>
3       180575632       rs58197854      AT      A<br>
3       180575641       rs114361217     A       T<br>
5       42842763        rs9686343       C       A<br>
6       5109555 rs149371287     G       A<br>
6       143929729       rs6899521       T       C<br>
7       72024054        rs193119573     G       A<br>
7       72024079        rs376943542     G       A<br>
7       89571465        rs10226999      C       G<br>
10      11639703        rs77896587      G       A<br>
<br>
the VEP result would like this, do not have the canonical transcript. Thanks a lot !<br>
[内嵌图片 1]<br>
<br>
<br>
Best regard!<br>
Lin<br>
<br>
2016-07-27 20:50 GMT+08:00 Will McLaren <<a href="mailto:wm2@ebi.ac.uk">wm2@ebi.ac.uk</a><mailto:<a href="mailto:wm2@ebi.ac.uk">wm2@ebi.ac.uk</a>>>:<br>
Hi Lin,<br>
<br>
Can you provide an example of some input for which VEP does not provide a canonical transcript?<br>
<br>
Regards<br>
<br>
Will McLaren<br>
Ensembl Variation<br>
<br>
On 27 July 2016 at 08:02, 林琼芬 <<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a><mailto:<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a>>> wrote:<br>
Hi Magali,<br>
As you mean, a canonical transcript is usually the transcript with the longest translation for a given gene, than, maybe all gene has a canonical transcript. However, when I use VEP-release-77, some variants has no canonical transcript result after annotation, would you know what happen to it?<br>
Hope to hear form you.<br>
<br>
Best regard!<br>
Lin<br>
<br>
2016-07-26 23:06 GMT+08:00 mag <<a href="mailto:mr6@ebi.ac.uk">mr6@ebi.ac.uk</a><mailto:<a href="mailto:mr6@ebi.ac.uk">mr6@ebi.ac.uk</a>>>:<br>
Hi Duarte,<br>
<br>
A canonical transcript is usually the transcript with the longest translation for a given gene<br>
<a href="http://www.ensembl.org/Help/Glossary?id=346" rel="noreferrer" target="_blank">http://www.ensembl.org/Help/Glossary?id=346</a><br>
<br>
In your example, XP_005244832.1 has a translation of 730 aa while NP_003027.1 only has 728.<br>
Hence, it is chosen as the canonical transcript.<br>
<br>
As Kieron mentioned, if you want specifically curated RefSeq annotation, it might be better to fetch all external annotations then filter out the ones you are interested in.<br>
<br>
<br>
Regards,<br>
Magali<br>
<br>
<br>
On 25/07/2016 17:07, Duarte Molha wrote:<br>
I will try and produce here the relevant parts of the script.<br>
<br>
But I still am at loss why  XP_005244832.1<<a href="http://www.ncbi.nlm.nih.gov/protein/XP_005244832.1" rel="noreferrer" target="_blank">http://www.ncbi.nlm.nih.gov/protein/XP_005244832.1</a>> has been tagged as canonical<br>
<br>
For what you are saying is that I simply might not have cycled trough all of the refseq transcripts... but is there going to be more than one refseq transcript tagged as canonical for each gene?<br>
<br>
Not sure I follow!<br>
<br>
Thanks<br>
<br>
Duarte<br>
<br>
<br>
<br>
<br>
<br>
<<a href="https://about.me/duarte?promo=email_sig" rel="noreferrer" target="_blank">https://about.me/duarte?promo=email_sig</a>><br>
<br>
Duarte Molha<br>
<a href="http://about.me/duarte" rel="noreferrer" target="_blank">about.me/duarte</a><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
On 25 July 2016 at 11:58, Kieron Taylor <<a href="mailto:ktaylor@ebi.ac.uk">ktaylor@ebi.ac.uk</a><mailto:<a href="mailto:ktaylor@ebi.ac.uk">ktaylor@ebi.ac.uk</a>>> wrote:<br>
Hi Duarte,<br>
<br>
Can you send us a snippet of code that accesses the external database adaptor (DBEntryAdaptor?). It sounds like you may not be reading enough of your results to get the RefSeq ID you expect. We have all of the RefSeq IDs you mention associated at some level to the transcript, but some are from "RefSeq peptide predicted" for example.<br>
<br>
Kieron<br>
<br>
<br>
<br>
Kieron Taylor PhD.<br>
Ensembl Developer<br>
<br>
EMBL, European Bioinformatics Institute<br>
<br>
<br>
<br>
<br>
<br>
<br>
> On 22 Jul 2016, at 10:47, Duarte Molha <<a href="mailto:duartemolha@gmail.com">duartemolha@gmail.com</a><mailto:<a href="mailto:duartemolha@gmail.com">duartemolha@gmail.com</a>>> wrote:<br>
><br>
> Hi Guys<br>
><br>
> I have a script that based on a gene symbol connects to ensembl and retrieves the canonical transcript and then does the same using the external database adaptor to get the canonical refseq transcript.<br>
><br>
> However this does not seem to give me the correct result<br>
><br>
> Take for example the gene SKI ( I am using GRCh37 assembly btw)<br>
><br>
> If you open this gene on the Ensembl browser:<br>
><br>
> <a href="http://grch37.ensembl.org/Homo_sapiens/Location/View?db=core;g=ENSG00000157933;r=1:2159997-2161343" rel="noreferrer" target="_blank">http://grch37.ensembl.org/Homo_sapiens/Location/View?db=core;g=ENSG00000157933;r=1:2159997-2161343</a><br>
><br>
><br>
> On SKI, Ensembl annotates as the canonical transcript: ENST00000378536<br>
><br>
> However, using by script, the external database adaptor returns the refseq XP_005244832.1 as the refseq canonical transcript, even though the correct canonical transcripts is NM_003036.3<br>
><br>
> <a href="http://www.ncbi.nlm.nih.gov/gene/6497" rel="noreferrer" target="_blank">http://www.ncbi.nlm.nih.gov/gene/6497</a><br>
><br>
> Unless I am understanding this incorrectly if the coding regions is the same length in 2 transcripts the longest should be the canonical<br>
><br>
> The longer Refseq is NM_003036.3  (has a longer 5prime UTR)<br>
><br>
> Can you help me understand this?<br>
><br>
> Many thanks<br>
><br>
> Duarte<br>
> _______________________________________________<br>
> Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
> Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
> Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
<br>
<br>
--<br>
<br>
Arron Lin<br>
<br>
BGI Research Institute<br>
<br>
Email: <a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a><mailto:<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a>><br>
<br>
Beishan Industrial Zone| Yantian  District| Shenzhen 518083<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
<br>
<br>
--<br>
<br>
Arron Lin<br>
<br>
BGI Research Institute<br>
<br>
Email: <a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a><mailto:<a href="mailto:qiongfen0@gmail.com">qiongfen0@gmail.com</a>><br>
<br>
Beishan Industrial Zone| Yantian  District| Shenzhen 518083<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><mailto:<a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a>><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
<br>
<br>
</blockquote></div></div>