<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>Hello Ensembl Dev team,<div><br></div><div>I am currently working with two files from Ensembl release 75; Homo_sapiens.GRCh37.75.cds.all.fa, with all the CDS from the human release, and Homo_sapiens.GRCh37.75.cdna.all.fa with all the cDNA.</div><div><br></div><div>As part of one of my scripts I was checking that the CDS matches into the cDNA and it does so routinely except for some genes for which the CDS begins with one or two N (see example below).</div><div><br></div><div>Once these N's are removed the CDS matches the cDNA.</div><div><br></div><div>All of the CDS that I have checked lack a proper ATG as start codon.</div><div><br></div><div>I don īt know if these N's are a code to denote transcripts with no canonical start codon, I have checked the accompanying README files and they don't mention them. Best,</div><div><br></div><div>Manuel Tardaguila</div><div><br></div><div><div><div>>ENST00000426203 <b>cdna:</b>putative chromosome:GRCh37:X:153533396:153539497:1 gene:ENSG00000007350 gene_biotype:protein_coding transcript_biotype:protein_coding</div><div><br></div><div>AGAGGCACAAAGGAAACTTGCCCCGAGTCCACGGTGCTCTGCGGTTAGGAGCTGGCCTCA</div><div>CTGTGCACAGGGGGAGGGGTGCCACCCTACATCATGTAGCAGTTCTTCTGAGATCATGTC</div><div>TGTGCTGTTCTTCTACATCATGAGGTACAAGCAGTCAGATCCAGAGAATCCGGACAACGA</div><div>CCGATTTGTCCTCGCAAAGAGACTGTCGTTTGTGGATGTGGCAACAGGATGGCTCGGACA</div><div>AGGACTGGGAGTTGCATGTGGAATGGCATATACTGGCAAGTACTTCGACAGGGCCAGCTA</div><div>CCGGGTGTTCTGCCTCATGAGTGATGGCGAGTCCTCAGAAGGCTCTGTCTGGGAGGCAAT</div><div>GGCCTTTGCTTCCTACTACAGTCTGGACAATCTTGTGGCAATCTTTGATGTGAACCGCCT</div><div>GGGACACAGTGGTGCATTGCCCGCCGAGCACTGCATAAACATCTATCAGAGGCGCTGCGA</div><div>AGCCTTTGGGTGGAACACTTATGTGGTGGACGGCCGGGACGTGGA</div></div><div><br></div><div><div>>ENST00000426203 <b>cds</b>:putative chromosome:GRCh37:X:153533396:153539497:1 gene:ENSG00000007350 gene_biotype:protein_coding transcript_biotype:protein_coding</div><div><b>NN</b>AGAGGCACAAAGGAAACTTGCCCCGAGTCCACGGTGCTCTGCGGTTAGGAGCTGGCCT</div><div>CACTGTGCACAGGGGGAGGGGTGCCACCCTACATCATGTAGCAGTTCTTCTGAGATCATG</div><div>TCTGTGCTGTTCTTCTACATCATGAGGTACAAGCAGTCAGATCCAGAGAATCCGGACAAC</div><div>GACCGATTTGTCCTCGCAAAGAGACTGTCGTTTGTGGATGTGGCAACAGGATGGCTCGGA</div><div>CAAGGACTGGGAGTTGCATGTGGAATGGCATATACTGGCAAGTACTTCGACAGGGCCAGC</div><div>TACCGGGTGTTCTGCCTCATGAGTGATGGCGAGTCCTCAGAAGGCTCTGTCTGGGAGGCA</div><div>ATGGCCTTTGCTTCCTACTACAGTCTGGACAATCTTGTGGCAATCTTTGATGTGAACCGC</div><div>CTGGGACACAGTGGTGCATTGCCCGCCGAGCACTGCATAAACATCTATCAGAGGCGCTGC</div><div>GAAGCCTTTGGGTGGAACACTTATGTGGTGGACGGCCGGGACGTGGA</div></div></div><div><br></div><div><br></div>                                    </div></body>
</html>