<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle21
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style>
</head>
<body lang="EN-US" link="blue" vlink="purple" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoNormal">Hello Allan,<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">The recommended methods for accessing genome wide feature annotations and  sequences are through either the Ensembl BioMart or by creating a local MySQL database and using the Perl API.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">BioMart (<a href="https://useast.ensembl.org/biomart/martview">https://useast.ensembl.org/biomart/martview</a>) provides the easier query method and does not require scripting. You will want to select the “Ensembl Genes 112” database and
 the “Mouse Genes (GRCm39)” dataset and then select the attributes from “Features” and “Sequences” that meet your requirements.<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Cheers!<o:p></o:p></p>
<p class="MsoNormal">Eric<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<br>
<p style="font-family:Calibri;font-size:12pt;color:#898989;margin:5pt;font-style:normal;font-weight:normal;text-decoration:none;" align="Center">
Regeneron - Internal<br>
</p>
<div style="border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in">
<p class="MsoNormal"><b>From:</b> Dev <dev-bounces@ensembl.org> <b>On Behalf Of </b>
Allan Kamau<br>
<b>Sent:</b> Wednesday, September 11, 2024 7:17 AM<br>
<b>To:</b> dev <dev@ensembl.org><br>
<b>Subject:</b> [External] Re: [ensembl-dev] Obtaining the genomic sequences for all the 5'UTR and CDS for mouse genome<o:p></o:p></p>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<p class="MsoNormal" style="mso-line-height-alt:.75pt"><span style="font-size:1.0pt;color:white">In short, is there a way to download the 5' UTR and the CDS sequences of the mouse genome? Any update will be appreciated. -Allan. On Tue, Sep 10, 2024 at 4: 03
 PM Allan Kamau <kamauallan@ gmail. com> wrote: I would like to obtain the<o:p></o:p></span></p>
</div>
<div>
<p class="MsoNormal" style="mso-line-height-alt:.75pt"><span style="font-size:1.0pt;color:white"><o:p></o:p></span></p>
</div>
<div>
<div>
<p class="MsoNormal">In short, is there a way to download the 5' UTR and the CDS sequences of the mouse genome?<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<p class="MsoNormal">Any update will be appreciated.<o:p></o:p></p>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div>
<p class="MsoNormal">-Allan.<o:p></o:p></p>
</div>
</div>
<p class="MsoNormal"><o:p> </o:p></p>
<div>
<div>
<p class="MsoNormal">On Tue, Sep 10, 2024 at 4:03 PM Allan Kamau <<a href="mailto:kamauallan@gmail.com">kamauallan@gmail.com</a>> wrote:<o:p></o:p></p>
</div>
<blockquote style="border:none;border-left:solid #CCCCCC 1.0pt;padding:0in 0in 0in 6.0pt;margin-left:4.8pt;margin-right:0in">
<div>
<p class="MsoNormal">I would like to obtain the sequences for the 5' UTR and CDS for the mouse genome.<o:p></o:p></p>
<div>
<p class="MsoNormal">I began by filtering all the records having "five_prime_UTR" from the chromosome.<chromosome_name>.gff3.gz files from "<a href="https://urldefense.com/v3/__https:/ftp.ensembl.org/pub/release-112/gff3/mus_musculus/__;!!ODpDvJZr5w!A6FsD3BVS3WGT6ZFBpdbTtPlpVguweDG6V3d61yHHrFf8S0p4KRvTa6jt4dmfY7IV6hWw_RVScMolk9envpjnnE0$" target="_blank">https://ftp.ensembl.org/pub/release-112/gff3/mus_musculus/</a>",
 I obtain some 95358 records, it seems this number is too high as mouse genome has approximately 25,000 genes.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div>
<p class="MsoNormal">I did the similar filtering for records having the value "CDS" as their third field and obtained some 522159 entries, which is a large number considered there are only 25,000 genes for the GRCm39 genome.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div>
<p class="MsoNormal">What would be preferred way to obtain the 5' UTR and CDS for the entire mouse genome?<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div>
<p class="MsoNormal">Regards,<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal">-Allan.<o:p></o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
<div>
<p class="MsoNormal"><o:p> </o:p></p>
</div>
</div>
</blockquote>
</div>
</div>

<DIV>
******************************************************************** <BR>
This e-mail and any attachment hereto, is intended only for use by the addressee(s) named above and may contain legally privileged and/or confidential information. If you are not the intended recipient of this e-mail, any dissemination, distribution or copying of this email, or any attachment hereto, is strictly prohibited. If you receive this email in error please immediately notify me by return electronic mail and permanently delete this email and any attachment hereto, any copy of this e-mail and of any such attachment, and any printout thereof. Finally, please note that only authorized representatives of Regeneron Pharmaceuticals, Inc. have the power and authority to enter into business dealings with any third party. <BR>
********************************************************************<BR>
</DIV></body>
</html>