<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Hi Chuck,<div class="">There is a URL at the bottom of each email of the mailing list which explains how to subscribe or unsubscribe from the mailing list</div><div class=""><br class=""></div><div class="">Regards</div><div class="">Thibaut<br class=""><div><br class=""><blockquote type="cite" class=""><div class="">On 5 Dec 2017, at 14:12, Chuck Lynch <<a href="mailto:chuck.lynch@oracle.com" class="">chuck.lynch@oracle.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="WordSection1" style="page: WordSection1; font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px;"><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125);" class="">How do I unsubscribe to this list?<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125);" class=""><o:p class=""> </o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125);" class="">Thank you.<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><a name="_MailEndCompose" class=""><span style="font-size: 11pt; font-family: Calibri, sans-serif; color: rgb(31, 73, 125);" class=""><o:p class=""> </o:p></span></a></div><div class=""><div style="border-style: solid none none; border-top-width: 1pt; border-top-color: rgb(181, 196, 223); padding: 3pt 0in 0in;" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><b class=""><span style="font-size: 10pt; font-family: Tahoma, sans-serif;" class="">From:</span></b><span style="font-size: 10pt; font-family: Tahoma, sans-serif;" class=""><span class="Apple-converted-space"> </span>William McLaren [<a href="mailto:wm2@ebi.ac.uk" style="color: purple; text-decoration: underline;" class="">mailto:wm2@ebi.ac.uk</a>]<span class="Apple-converted-space"> </span><br class=""><b class="">Sent:</b><span class="Apple-converted-space"> </span>Tuesday, December 5, 2017 9:09 AM<br class=""><b class="">To:</b><span class="Apple-converted-space"> </span>Ensembl developers list; Alessandro Vullo; Luke Goodsell<br class=""><b class="">Subject:</b><span class="Apple-converted-space"> </span>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks<o:p class=""></o:p></span></div></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><o:p class=""> </o:p></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">The otherfeatures DB contains a direct import of the GFF gene model files distributed by NCBI, i.e. the coordinates only.<o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">When you request a RefSeq transcript object from the otherfeatures DB as you did in your API code, the API uses sequence from the mapped region of the reference genome to construct the transcript model. This is then translated to produce the protein sequence.<o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">If there are differences between the RefSeq model and the genome, then this translation process may give rise to invalid sequences.<o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">VEP accounts for this by modifying those extracted regions of reference sequence so that they match the original RefSeq model; this accounts for both equal length substitutions and insertions and deletions that might introduce frameshift changes.<o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Will<o:p class=""></o:p></span></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""><o:p class=""> </o:p></span></div><p class="airmailon" style="margin-right: 0in; margin-left: 0in; font-size: 12pt; font-family: "Times New Roman", serif;"><span style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">On 5 December 2017 at 1:13:25 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com" style="color: purple; text-decoration: underline;" class="">l.goodsell@achillestx.com</a>) wrote:<o:p class=""></o:p></span></p><blockquote style="margin-top: 5pt; margin-bottom: 5pt;" class=""><div class=""><div class=""><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Thanks, Will, those look like very useful tools.<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">I still think it’d be good to make sure the otherfeatures DB is accurate, but those tools address our immediate needs.<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="" class="">Kind regards,</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="" class="">Luke</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="border-style: solid none none; border-top-width: 1pt; border-top-color: rgb(181, 196, 223); padding: 3pt 0in 0in;" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><b class=""><span lang="EN-GB" style="" class="">From:<span class="Apple-converted-space"> </span></span></b><span lang="EN-GB" style="" class="">William McLaren <<a href="mailto:wm2@ebi.ac.uk" style="color: purple; text-decoration: underline;" class="">wm2@ebi.ac.uk</a>><br class=""><b class="">Date:<span class="Apple-converted-space"> </span></b>Tuesday, 5 December 2017 at 12:23<br class=""><b class="">To:<span class="Apple-converted-space"> </span></b>Alessandro Vullo <<a href="mailto:avullo@ebi.ac.uk" style="color: purple; text-decoration: underline;" class="">avullo@ebi.ac.uk</a>>, Ensembl developers list <<a href="mailto:dev@ensembl.org" style="color: purple; text-decoration: underline;" class="">dev@ensembl.org</a>>, Luke Goodsell <<a href="mailto:l.goodsell@achillestx.com" style="color: purple; text-decoration: underline;" class="">l.goodsell@achillestx.com</a>><br class=""><b class="">Subject:<span class="Apple-converted-space"> </span></b>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">VEP can do this for you with the ProteinSeqs plugin [1]. I did not recommend it initially as I supposed you might be extracting sequences genome-wide.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">The plugin generates two files, reference.fa and mutated.fa, containing one mutated sequence *per variant*. The sequences should be accurate WRT to the modifications made via the BAM files. I can’t say from experience how well this plugin will perform on a genome-wide analysis; you could expect that the resultant FASTA files would be very large at least.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">The plugin does not currently support outputting cDNAs or CDS, but it would be fairly straightforward to add this functionality to the plugin.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Note that if you wish to incorporate the effects of multiple variants together, you can look into using VEP’s sister tool Haplosaurus [2]; this can output CDS and protein sequences in its JSON format output.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Cheers<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Will<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">[1] <a href="https://github.com/Ensembl/VEP_plugins/blob/release/90/ProteinSeqs.pm" style="color: purple; text-decoration: underline;" class="">https://github.com/Ensembl/VEP_plugins/blob/release/90/ProteinSeqs.pm</a><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">[2] <a href="https://github.com/Ensembl/ensembl-vep#haplo" style="color: purple; text-decoration: underline;" class="">https://github.com/Ensembl/ensembl-vep#haplo</a><o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><p class="airmailon0" style="margin-right: 0in; margin-left: 0in; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">On 5 December 2017 at 12:05:41 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com" style="color: purple; text-decoration: underline;" class="">l.goodsell@achillestx.com</a>) wrote:<o:p class=""></o:p></span></p><blockquote style="margin-top: 5pt; margin-bottom: 5pt;" class=""><div class=""><div class=""><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Thanks, Will,<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Unfortunately, I cannot find cDNA from RefSeq – their sequences contain UTRs. Is there an easy way to identify the start and stop codons? The longest ORF is not always the correct one, unfortunately.<o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">Incidentally, being able to get the sequences used by VEP is very important for us; we’re trying to construct the new protein sequences that result from variants using consequence information annotated by VEP. We’d very much appreciate the corrected sequences being incorporated into the otherfeatures database as soon as possible.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="" class="">Kind regards,</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="" class="">Luke</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="border-style: solid none none; border-top-width: 1pt; border-top-color: rgb(181, 196, 223); padding: 3pt 0in 0in;" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><b class=""><span lang="EN-GB" style="" class="">From:<span class="Apple-converted-space"> </span></span></b><span lang="EN-GB" style="" class="">William McLaren <<a href="mailto:wm2@ebi.ac.uk" style="color: purple; text-decoration: underline;" class="">wm2@ebi.ac.uk</a>><br class=""><b class="">Date:<span class="Apple-converted-space"> </span></b>Tuesday, 5 December 2017 at 09:15<br class=""><b class="">To:<span class="Apple-converted-space"> </span></b>Luke Goodsell <<a href="mailto:l.goodsell@achillestx.com" style="color: purple; text-decoration: underline;" class="">l.goodsell@achillestx.com</a>>, Ensembl developers list <<a href="mailto:dev@ensembl.org" style="color: purple; text-decoration: underline;" class="">dev@ensembl.org</a>>, Alessandro Vullo <<a href="mailto:avullo@ebi.ac.uk" style="color: purple; text-decoration: underline;" class="">avullo@ebi.ac.uk</a>><br class=""><b class="">Subject:<span class="Apple-converted-space"> </span></b>Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Hi Luke,</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">There is no straightforward way to do this via Ensembl at the moment; I’d suggest you download the relevant files from NCBI.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">The BAM files we use are obtained from<span class="Apple-converted-space"> </span><a href="https://urldefense.proofpoint.com/v2/url?u=ftp-3A__ftp.ncbi.nlm.nih.gov_refseq_H-5Fsapiens_H-5Fsapiens_GRCh37.p13-5Finterim-5Fannotation_&d=DwMFaQ&c=RoP1YumCXCgaWHvlZYR8PZh8Bv7qIrMUB65eapI_JnE&r=YX0kAMk2drCjzCtidXbkoTthZX500NGH8FGbKdexXA4&m=_zoXa85lN4WTyqxrhgp6zhWPKRBO3jGJhvVJoRcdm4E&s=bB7CosJxtG5ZrBxm7LoHIYZuJJ1LeeFqWSpLqVoQoZI&e=" style="color: purple; text-decoration: underline;" class="">ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens/GRCh37.p13_interim_annotation/</a>; it seems there’s a protein and rna FASTA file in there which may have what you need.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Otherwise you may find what you need in the parent directory <a href="https://urldefense.proofpoint.com/v2/url?u=ftp-3A__ftp.ncbi.nlm.nih.gov_refseq_H-5Fsapiens_H-5Fsapiens&d=DwMFaQ&c=RoP1YumCXCgaWHvlZYR8PZh8Bv7qIrMUB65eapI_JnE&r=YX0kAMk2drCjzCtidXbkoTthZX500NGH8FGbKdexXA4&m=_zoXa85lN4WTyqxrhgp6zhWPKRBO3jGJhvVJoRcdm4E&s=gLXd0xynfoUvDALiF9K0WSs_LhgxOvLxSLF5ymyP6MM&e=" style="color: purple; text-decoration: underline;" class="">ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/H_sapiens</a>. I’m not familiar with NCBI’s FASTA layout so you’d have to investigate yourself!</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Regards</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class=""> </span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Will McLaren</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div id="bloop_customfont" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">Ensembl Variation</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class=""> <o:p class=""></o:p></span></div><p class="airmailon00" style="margin-right: 0in; margin-left: 0in; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">On 4 December 2017 at 5:55:38 pm, Luke Goodsell (<a href="mailto:l.goodsell@achillestx.com" style="color: purple; text-decoration: underline;" class="">l.goodsell@achillestx.com</a>) wrote:<o:p class=""></o:p></span></p><blockquote style="margin-top: 5pt; margin-bottom: 5pt;" class=""><div class=""><div class=""><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Hi Allessandro,</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Is there a way to extract the BAM-edited sequences? I'd simply like to get FASTA files of the RefSeq cDNA and proteins as used by VEP.</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Kind regards,</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Luke</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class=""><br class=""><br class=""><br class=""><br class=""></span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">From: Alessandro Vullo</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Sent: Monday, 4 December, 17:44</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Subject: Re: [ensembl-dev] GRCh37 Protein sequence has asterisks</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></div></div><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">To: Ensembl developers list, Luke Goodsell<br class=""><br class=""><br class=""><br class=""></span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div class=""><p class="MsoNormal" style="margin: 0in 0in 12pt; font-size: 12pt; font-family: "Times New Roman", serif;"><span lang="EN-GB" style="font-family: Helvetica, sans-serif;" class="">Hi Luke, The problem is likely to depend on RefSeq differing from the reference. Are you using VEP and then retrieving the sequence as annotated by it? Quoting the relevant people (VEP): "VEP uses BAMs to correct RefSeqs that differ from the reference, and without those the API can give incorrect translations. This will hopefully be fixed in future when the SeqEdit objects that VEP creates from the BAMs are incorporated directly into the otherfeatures DB." Hope that helps, Alessandro</span><span lang="EN-GB" class=""><o:p class=""></o:p></span></p></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please do not disseminate, distribute or copy this communication, by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and any attachments for viruses, but we cannot accept any liability for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215 Euston Road, London, NW1 2BE, UK. _______________________________________________<span class="Apple-converted-space"> </span><br class="">Dev mailing list<span class="Apple-converted-space"> </span><a href="mailto:Dev@ensembl.org" style="color: purple; text-decoration: underline;" class="">Dev@ensembl.org</a><span class="Apple-converted-space"> </span><br class="">Posting guidelines and subscribe/unsubscribe info:<span class="Apple-converted-space"> </span><a href="http://lists.ensembl.org/mailman/listinfo/dev" style="color: purple; text-decoration: underline;" class="">http://lists.ensembl.org/mailman/listinfo/dev</a><span class="Apple-converted-space"> </span><br class="">Ensembl Blog:<span class="Apple-converted-space"> </span><a href="http://www.ensembl.info/" style="color: purple; text-decoration: underline;" class="">http://www.ensembl.info/</a><o:p class=""></o:p></span></div></div></div></blockquote></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" class="">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please do not disseminate, distribute or copy this communication, by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and any attachments for viruses, but we cannot accept any liability for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215 Euston Road, London, NW1 2BE, UK.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></div></div></div></blockquote></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 12pt; font-family: "Times New Roman", serif;" class=""><span lang="EN-GB" style="font-size: 10pt; font-family: Helvetica, sans-serif;" class="">This e-mail message contains confidential information intended only for the use of the individual or entity to which it is addressed. If you are not the intended recipient, please do not disseminate, distribute or copy this communication, by e-mail or otherwise. Instead, please notify us immediately by return e-mail and then delete and discard all copies of the e-mail. We have taken all reasonable precautions to check this e-mail and any attachments for viruses, but we cannot accept any liability for any damage sustained as a result of any virus, worm or other malicious software. Achilles Therapeutics Limited (10167668) is registered in England and Wales. The registered office is at 215 Euston Road, London, NW1 2BE, UK.<span class="Apple-converted-space"> </span><o:p class=""></o:p></span></div></div></div></blockquote></div><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; float: none; display: inline !important;" class="">_______________________________________________</span><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px;" class=""><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; float: none; display: inline !important;" class="">Dev mailing list    </span><a href="mailto:Dev@ensembl.org" style="color: purple; text-decoration: underline; font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px;" class="">Dev@ensembl.org</a><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px;" class=""><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; float: none; display: inline !important;" class="">Posting guidelines and subscribe/unsubscribe info:<span class="Apple-converted-space"> </span></span><a href="http://lists.ensembl.org/mailman/listinfo/dev" style="color: purple; text-decoration: underline; font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px;" class="">http://lists.ensembl.org/mailman/listinfo/dev</a><br style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px;" class=""><span style="font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; float: none; display: inline !important;" class="">Ensembl Blog:<span class="Apple-converted-space"> </span></span><a href="http://www.ensembl.info/" style="color: purple; text-decoration: underline; font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; orphans: auto; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; widows: auto; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px;" class="">http://www.ensembl.info/</a></div></blockquote></div><br class=""></div></body></html>