<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Title" content="">
<meta name="Keywords" content="">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:DengXian;
        panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
p.airmailon, li.airmailon, div.airmailon
        {mso-style-name:airmail_on;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
p.airmailon0, li.airmailon0, div.airmailon0
        {mso-style-name:airmailon;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
p.airmailon00, li.airmailon00, div.airmailon00
        {mso-style-name:airmailon0;
        mso-margin-top-alt:auto;
        margin-right:0in;
        mso-margin-bottom-alt:auto;
        margin-left:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.EmailStyle20
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
span.msoIns
        {mso-style-type:export-only;
        mso-style-name:"";
        text-decoration:underline;
        color:teal;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:595.0pt 842.0pt;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body bgcolor="white" lang="EN-GB" link="blue" vlink="purple">
<div class="WordSection1">
<p class="MsoNormal">Hi Will,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">I understand why the output sequence might differ, but it’s currently giving nonsensical output such as:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">>NP_002417.2<o:p></o:p></p>
<p class="MsoNormal">MKFLLILLLQATASGALPLNSSTSLEKNNVLFGERYLEKFYGLEINKLPVTKMKYSGNLMKEKIQEMQHFLGLKVTGQLDTSTLEMMHAPRCGVPDVHHFREMPGGPVWRKHYITYRINNYTPDMNREDVDYAIRKAFQVWSNVTPLKFSKINTGMADILVVFARGAHGDFHAFDGKGGILAHAFGPGSGIGGDAHFDEDEFWTTHSGGTTCSSLLFTRLAIP<span style="color:red">*</span>VLAILVIQRP<span style="color:red">*</span>CSPPTNMLTSTHFASLLMTYVAFSPCMETQKRTNACQILTIQNQLSVTPI<span style="color:red">*</span>VLMLSLPWEIRSFSSKTGSSG<span style="color:red">*</span>RFLRDQRPVLI<span style="color:red">*</span>FLPYGQPCHLALKLLMKLKPEIKFFFLKMTNTG<span style="color:red">*</span>LAI<span style="color:red">*</span>DQSQIIPRAYILLVFLTL<span style="color:red">*</span>KKLMQLFLTHVFIGPTSL<span style="color:red">*</span>ITSIGGMMKGDR<span style="color:red">*</span>WTLVIPN<span style="color:red">*</span>LPRTSKESGLKLMQSSTLKTNTTISSKDLTNLNMTSYSNVSPKH<span style="color:red">*</span>KAIAGLVV<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">I didn’t realise there was a problem until some time later when downstream tools complained about asterisks in the protein sequences. As a user of the API, I expected to get the RefSeq sequence, though I now understand that is more complex.
 Instead, a warning that I was retrieving a sequence that was dubious, or at the very least that I have stop codons in my sequence would have been very helpful. In hindsight I should have checked that the sequence only consisted of expected one letter code
 characters, but it’d be prudent to warn users in cases like this.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thank you to you and Alessandro for your help. I don’t mean to sound ungrateful; these are just some suggestions for how the API could be made more useful and/or less prone to misuse.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<p class="MsoNormal"><span style="color:black">Kind regards,<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><span style="color:black">Luke</span><o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b><span style="font-size:12.0pt;color:black">From: </span></b><span style="font-size:12.0pt;color:black">William McLaren <wm2@ebi.ac.uk><br>
<b>Date: </b>Tuesday, 5 December 2017 at 14:09<br>
<b>To: </b>Ensembl developers list <dev@ensembl.org>, Alessandro Vullo <avullo@ebi.ac.uk>, Luke Goodsell <l.goodsell@achillestx.com><br>
<b>Subject: </b>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">The otherfeatures DB contains a direct import of the GFF gene model files distributed by NCBI, i.e. the coordinates only.<o:p></o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">When you request a RefSeq transcript object from the otherfeatures DB as you did in your API code, the API uses sequence from the mapped region of the reference genome to
 construct the transcript model. This is then translated to produce the protein sequence.<o:p></o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">If there are differences between the RefSeq model and the genome, then this translation process may give rise to invalid sequences.<o:p></o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">VEP accounts for this by modifying those extracted regions of reference sequence so that they match the original RefSeq model; this accounts for both equal length substitutions
 and insertions and deletions that might introduce frameshift changes.<o:p></o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"><o:p> </o:p></span></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Will<o:p></o:p></span></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="airmailon">On 5 December 2017 at 1:13:25 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com">l.goodsell@achillestx.com</a>) wrote:<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Thanks, Will, those look like very useful tools.<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">I still think it’d be good to make sure the otherfeatures DB is accurate, but those tools address our immediate needs.<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="color:black">Kind regards,</span><o:p></o:p></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="color:black">Luke</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">William McLaren <wm2@ebi.ac.uk><br>
<b>Date: </b>Tuesday, 5 December 2017 at 12:23<br>
<b>To: </b>Alessandro Vullo <avullo@ebi.ac.uk>, Ensembl developers list <dev@ensembl.org>, Luke Goodsell <l.goodsell@achillestx.com><br>
<b>Subject: </b>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">VEP can do this for you with the ProteinSeqs plugin [1]. I did not recommend it initially as I supposed you might
 be extracting sequences genome-wide.</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">The plugin generates two files, reference.fa and mutated.fa, containing one mutated sequence *per variant*. The
 sequences should be accurate WRT to the modifications made via the BAM files. I can’t say from experience how well this plugin will perform on a genome-wide analysis; you could expect that the resultant FASTA files would be very large at least.</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">The plugin does not currently support outputting cDNAs or CDS, but it would be fairly straightforward to add this
 functionality to the plugin.</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Note that if you wish to incorporate the effects of multiple variants together, you can look into using VEP’s sister
 tool Haplosaurus [2]; this can output CDS and protein sequences in its JSON format output.</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Cheers
<o:p></o:p></p>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Will<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">[1] https://github.com/Ensembl/VEP_plugins/blob/release/90/ProteinSeqs.pm<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">[2] https://github.com/Ensembl/ensembl-vep#haplo<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="airmailon0">On 5 December 2017 at 12:05:41 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com">l.goodsell@achillestx.com</a>) wrote:<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Thanks, Will,<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Unfortunately, I cannot find cDNA from RefSeq – their sequences contain UTRs. Is there an easy way to identify the start and stop codons? The longest ORF is not always the correct
 one, unfortunately.<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">Incidentally, being able to get the sequences used by VEP is very important for us; we’re trying to construct the new protein sequences that result from variants using consequence
 information annotated by VEP. We’d very much appreciate the corrected sequences being incorporated into the otherfeatures database as soon as possible.
<o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="color:black">Kind regards,</span><o:p></o:p></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="color:black">Luke</span><o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<div style="border:none;border-top:solid #B5C4DF 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><b><span style="font-size:12.0pt;color:black">From:
</span></b><span style="font-size:12.0pt;color:black">William McLaren <wm2@ebi.ac.uk><br>
<b>Date: </b>Tuesday, 5 December 2017 at 09:15<br>
<b>To: </b>Luke Goodsell <l.goodsell@achillestx.com>, Ensembl developers list <dev@ensembl.org>, Alessandro Vullo <avullo@ebi.ac.uk><br>
<b>Subject: </b>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Hi Luke,</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">There is no straightforward way to do this via Ensembl at the moment; I’d suggest you download the relevant files
 from NCBI.</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">The BAM files we use are obtained from
<a href="ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens/GRCh37.p13_interim_annotation/">
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens/GRCh37.p13_interim_annotation/</a>; it seems there’s a protein and rna FASTA file in there which may have what you need.</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Otherwise you may find what you need in the parent directory <a href="ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens">ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens</a>.
 I’m not familiar with NCBI’s FASTA layout so you’d have to investigate yourself!</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Regards</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif"> </span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Will McLaren</span><o:p></o:p></p>
</div>
<div id="bloop_customfont">
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-size:10.0pt;font-family:"Helvetica",sans-serif">Ensembl Variation</span><o:p></o:p></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"> <o:p></o:p></p>
<p class="airmailon00">On 4 December 2017 at 5:55:38 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com">l.goodsell@achillestx.com</a>) wrote:<o:p></o:p></p>
<blockquote style="margin-top:5.0pt;margin-bottom:5.0pt">
<div>
<div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black">Hi Allessandro,</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black">Is there a way to extract the BAM-edited sequences? I'd simply like to get FASTA files of the RefSeq cDNA and proteins as
 used by VEP.</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-family:"Helvetica",sans-serif;color:black">Kind regards,</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black">Luke</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black"><br>
<br>
<br>
<br>
</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-family:"Helvetica",sans-serif;color:black">From: Alessandro Vullo</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-family:"Helvetica",sans-serif;color:black">Sent: Monday, 4 December, 17:44</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto"><span style="font-family:"Helvetica",sans-serif;color:black">Subject: Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black">To: Ensembl developers list, Luke Goodsell<br>
<br>
<br>
<br>
</span><o:p></o:p></p>
</div>
<div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;margin-bottom:12.0pt"><span style="font-family:"Helvetica",sans-serif;color:black">Hi Luke, The problem is likely to depend on RefSeq differing from the reference. Are you using VEP and then retrieving the
 sequence as annotated by it? Quoting the relevant people (VEP): "VEP uses BAMs to correct RefSeqs that differ from the reference, and without those the API can give incorrect translations. This will hopefully be fixed in future when the SeqEdit objects that
 VEP creates from the BAMs are incorporated directly into the otherfeatures DB." Hope that helps, Alessandro</span><o:p></o:p></p>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please
 do not disseminate, distribute or copy this communication, by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and
 any attachments for viruses, but we cannot accept any liability for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215
 Euston Road, London, NW1 2BE, UK. _______________________________________________
<br>
Dev mailing list Dev@ensembl.org <br>
Posting guidelines and subscribe/unsubscribe info: http://lists.ensembl.org/mailman/listinfo/dev
<br>
Ensembl Blog: http://www.ensembl.info/ <o:p></o:p></p>
</div>
</div>
</blockquote>
</div>
<p class="MsoNormal" style="mso-margin-top-alt:auto;mso-margin-bottom-alt:auto">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please
 do not disseminate, distribute or copy this communication, by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and
 any attachments for viruses, but we cannot accept any liability for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215
 Euston Road, London, NW1 2BE, UK. <o:p></o:p></p>
</div>
</div>
</blockquote>
</div>
</div>
<p class="MsoNormal">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please do not disseminate, distribute or copy this communication,
 by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and any attachments for viruses, but we cannot accept any liability
 for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215 Euston Road, London, NW1 2BE, UK.
<o:p></o:p></p>
</div>
</div>
</blockquote>
</div>
This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please do not disseminate, distribute or copy this communication, by e-mail or otherwise.
 Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and any attachments for viruses, but we cannot accept any liability for any damage sustained
 as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215 Euston Road, London, NW1 2BE, UK.
</body>
</html>