<div dir="ltr">Hi João,<br><div><br></div><div>RefSeq transcripts sequences can differ from the underlying reference genome sequence. Ensembl, Ensembl transcripts and therefore the VEP always use the reference genome.</div><div><br></div><div>When we import RefSeq transcripts we are given coordinate mappings for the exons that are a best match to the reference - if there are any substitutions or indels relative to the reference sequence these can go unaccounted for. Then when our API constructs the the transcript from the reference genome and these coordinates, such differences can give rise to erroneous translations such as the one you've found.</div><div><br></div><div>There's a note to this effect in our documentation: <a href="http://www.ensembl.org/info/docs/tools/vep/script/vep_other.html#refseq">http://www.ensembl.org/info/docs/tools/vep/script/vep_other.html#refseq</a></div><div><br></div><div>For our human database we also produce some flags indicating when a RefSeq transcript differs from the reference and/or the matched Ensembl transcript: <a href="http://www.ensembl.org/info/docs/tools/vep/vep_formats.html#refseq_match">http://www.ensembl.org/info/docs/tools/vep/vep_formats.html#refseq_match</a></div><div><br></div><div>Hope that helps</div><div><br></div><div>Will McLaren</div><div>Ensembl Variation</div></div><div class="gmail_extra"><br><div class="gmail_quote">On 27 September 2016 at 03:48, João Eiras <span dir="ltr"><<a href="mailto:joao.eiras@gmail.com" target="_blank">joao.eiras@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi.<br>
<br>
I did a small VEP plugin that outputs the wild type protein sequence<br>
from the database together with its annotations, so then I get extract<br>
some k-mers around annotations.<br>
<br>
I got a bit confused to see the amino-acid sequence for some refseq<br>
transcripts containing many stop codons. One such example are the<br>
transcripts ENSMUST00000114099 and NM_172709.3 affected by variant<br>
rs223913170.<br>
<br>
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT<br>
chr5 38300289 rs223913170 TG T 5755.73 . . .<br>
<br>
The correct sequence is:<br>
MPGGPGAPSSPAASSGSSRAAPSGIAACPL<wbr>SPPPLARGSPQASGPRRGASVPQKLAETLS<wbr>SQYGLNVFVA<br>
GLLFLLAWAVHATGVGKSDLLCVLTALMLL<wbr>QLLWMLWYVGRSYMQRRLIRPKDTHAGARW<wbr>LRGSITLFAF<br>
ITVVLGCLKVAYFIGFSECLSATEGVFPVT<wbr>HAVHTLLQVYFLWGHAKDIIMSFKTLERFG<wbr>VIHSVFTNLL<br>
LWANSVLNESKHQLNEHKERLITLGFGNIT<wbr>IVLDDHTPQCNCTPPALCSALSHGIYYLYP<wbr>FNIEYQILAS<br>
TMLYVLWKNIGRRVDSSQHQKMQCRFDGVL<wbr>VGSVLGLTVLAATIAVVVVYMIHIGRSKSK<wbr>SESALIMFYL<br>
YAITVLLLMGAAGLVGSWIYRVDEKSLDES<wbr>KNPARKLDVDLLVATGSGSWLLSWGSILAI<wbr>ACAETRPPYT<br>
WYNLPYSVLVIVEKYVQNIFIIESVHLEPE<wbr>GVPEDVRTLRVVTVCSSEAAALAASTLGSQ<wbr>GMAQDGSPAV<br>
NGNLCLQQRCGKEDQESGWEGATGTTRCLD<wbr>FLQGGMKRRLLRNITAFLFLCNISLWIPPA<wbr>FGCRPEYDNG<br>
LEEIVFGFEPWIIVVNLAMPFSIFYRMHAA<wbr>AALFEVYCKI<br>
<br>
while VEP returns (difference in lower case).<br>
MPGGPGAPSSPAASSGSSRAAPSGIAACPL<wbr>SPPPLARGSPQASGPRRGASVPQKLAETLS<wbr>SQYGLNVFVA<br>
GLLFLLAWAVHATGVGKSDLLCVLTALMLL<wbr>QLLWMLWYVGRSYMQRRLIRPKDTHAGARW<wbr>LRGSITLFAF<br>
ITVVLGCLKVAYFIGFSECLSATEGVFPVT<wbr>HAVHTLLQVYFLWGHAKDIIMSFKTLERFG<wbr>VIHSVFTNLL<br>
LWANSVLNESKHQLNEHKERLITLGFGNIT<wbr>IVLDDHTPQCNCTPPALCSALSHGIYYLYP<wbr>FNIEYQILAS<br>
TMLYVLWKNIGRRVDSSQHQKMQCRFDGVL<wbr>VGSVLGLTVLAATIAVVVVYMIHIGRSKSK<wbr>SESALIMFYL<br>
YAITVLLLMGAAGLVGSWIYRVDEKSLDES<wbr>KNPARKLDVDLLVATGSGSWLLSWGSILAI<wbr>ACAETRPPYT<br>
WYNLPYSVLVIVEKYVQNIFIIESVHLEPE<wbr>GVPEDVRTLRVVTV lqqrgcrtgcihsrepgdgpgwvtcc<br>
qwksvsaaevwergpgvwlgrsygdnpmsg<wbr>lpsgrheeeasqkhhglsvslqhlaldspc<wbr>lwlpsrv*qr<br>
iggnclwl*<wbr>tldncgqpghalfhflpdarsccpl*gll*<wbr>dl<br>
<br>
This was not the only case I saw, but didn't gather any other<br>
examples. Shouldn't be too hard to make a script find refseq<br>
transcripts that start at the same index as some ensembl tramscripts<br>
and compare the AA sequences, but my perl-fu is weak.<br>
<br>
What's up with this ?<br>
<br>
Thank you.<br>
<br>
______________________________<wbr>_________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" rel="noreferrer" target="_blank">http://lists.ensembl.org/<wbr>mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" rel="noreferrer" target="_blank">http://www.ensembl.info/</a><br>
</blockquote></div><br></div>