<html>
<head>
<style><!--
.hmmessage P
{
margin:0px;
padding:0px
}
body.hmmessage
{
font-size: 12pt;
font-family:Calibri
}
--></style></head>
<body class='hmmessage'><div dir='ltr'>Thanks Kieron, <div><br></div><div>I have solved the problem, I just wanted to know the extension of upstream and downstream UTRs for which I confronted CDS to cDNA. Perhaps that convention of N's should be reflected in the readme file as the heather characteristics do. Best,</div><div><br></div><div>Manuel</div><div><br></div><div> <br><br><div>> Date: Tue, 16 Dec 2014 16:18:58 +0000<br>> From: ktaylor@ebi.ac.uk<br>> To: dev@ensembl.org<br>> Subject: Re: [ensembl-dev] cDNA and CDS lack of total matching for some genes<br>> <br>> Dear Manuel,<br>> <br>> The N's present in the CDS are standard procedure for Ensembl. They <br>> exist to ensure that translation is in the correct phase when there is <br>> ambiguity. The transcript you highlight begins with a phase of 2, hence <br>> two N's are required to keep the protein codons correct. It has also <br>> been manually annotated as having incomplete CDS up and downstream, <br>> which more or less tells us the same thing.<br>> <br>> http://www.ensembl.org/Homo_sapiens/Transcript/Summary?db=core;g=ENSG00000007350;r=X:154295671-154330350;t=ENST00000426203<br>> <br>> It might be useful for you to tell us what you're aiming for, as we <br>> might have better tools for your task.<br>> <br>> <br>> Regards,<br>> <br>> <br>> Kieron Taylor<br>> Ensembl Core<br>> <br>> <br>> On 16/12/2014 13:20, Manuel Tardáguila Sancho wrote:<br>> > Hello Ensembl Dev team,<br>> ><br>> > I am currently working with two files from Ensembl release<br>> > 75; Homo_sapiens.GRCh37.75.cds.all.fa, with all the CDS from the human<br>> > release, and Homo_sapiens.GRCh37.75.cdna.all.fa with all the cDNA.<br>> ><br>> > As part of one of my scripts I was checking that the CDS matches into<br>> > the cDNA and it does so routinely except for some genes for which the<br>> > CDS begins with one or two N (see example below).<br>> ><br>> > Once these N's are removed the CDS matches the cDNA.<br>> ><br>> > All of the CDS that I have checked lack a proper ATG as start codon.<br>> ><br>> > I don ´t know if these N's are a code to denote transcripts with no<br>> > canonical start codon, I have checked the accompanying README files and<br>> > they don't mention them. Best,<br>> ><br>> > Manuel Tardaguila<br>> ><br>> >  >ENST00000426203 *cdna:*putative<br>> > chromosome:GRCh37:X:153533396:153539497:1 gene:ENSG00000007350<br>> > gene_biotype:protein_coding transcript_biotype:protein_coding<br>> ><br>> > AGAGGCACAAAGGAAACTTGCCCCGAGTCCACGGTGCTCTGCGGTTAGGAGCTGGCCTCA<br>> > CTGTGCACAGGGGGAGGGGTGCCACCCTACATCATGTAGCAGTTCTTCTGAGATCATGTC<br>> > TGTGCTGTTCTTCTACATCATGAGGTACAAGCAGTCAGATCCAGAGAATCCGGACAACGA<br>> > CCGATTTGTCCTCGCAAAGAGACTGTCGTTTGTGGATGTGGCAACAGGATGGCTCGGACA<br>> > AGGACTGGGAGTTGCATGTGGAATGGCATATACTGGCAAGTACTTCGACAGGGCCAGCTA<br>> > CCGGGTGTTCTGCCTCATGAGTGATGGCGAGTCCTCAGAAGGCTCTGTCTGGGAGGCAAT<br>> > GGCCTTTGCTTCCTACTACAGTCTGGACAATCTTGTGGCAATCTTTGATGTGAACCGCCT<br>> > GGGACACAGTGGTGCATTGCCCGCCGAGCACTGCATAAACATCTATCAGAGGCGCTGCGA<br>> > AGCCTTTGGGTGGAACACTTATGTGGTGGACGGCCGGGACGTGGA<br>> ><br>> >  >ENST00000426203 *cds*:putative<br>> > chromosome:GRCh37:X:153533396:153539497:1 gene:ENSG00000007350<br>> > gene_biotype:protein_coding transcript_biotype:protein_coding<br>> > *NN*AGAGGCACAAAGGAAACTTGCCCCGAGTCCACGGTGCTCTGCGGTTAGGAGCTGGCCT<br>> > CACTGTGCACAGGGGGAGGGGTGCCACCCTACATCATGTAGCAGTTCTTCTGAGATCATG<br>> > TCTGTGCTGTTCTTCTACATCATGAGGTACAAGCAGTCAGATCCAGAGAATCCGGACAAC<br>> > GACCGATTTGTCCTCGCAAAGAGACTGTCGTTTGTGGATGTGGCAACAGGATGGCTCGGA<br>> > CAAGGACTGGGAGTTGCATGTGGAATGGCATATACTGGCAAGTACTTCGACAGGGCCAGC<br>> > TACCGGGTGTTCTGCCTCATGAGTGATGGCGAGTCCTCAGAAGGCTCTGTCTGGGAGGCA<br>> > ATGGCCTTTGCTTCCTACTACAGTCTGGACAATCTTGTGGCAATCTTTGATGTGAACCGC<br>> > CTGGGACACAGTGGTGCATTGCCCGCCGAGCACTGCATAAACATCTATCAGAGGCGCTGC<br>> > GAAGCCTTTGGGTGGAACACTTATGTGGTGGACGGCCGGGACGTGGA<br>> ><br>> ><br>> ><br>> ><br>> > _______________________________________________<br>> > Dev mailing list    Dev@ensembl.org<br>> > Posting guidelines and subscribe/unsubscribe info: http://lists.ensembl.org/mailman/listinfo/dev<br>> > Ensembl Blog: http://www.ensembl.info/<br>> ><br>> <br>> <br>> _______________________________________________<br>> Dev mailing list    Dev@ensembl.org<br>> Posting guidelines and subscribe/unsubscribe info: http://lists.ensembl.org/mailman/listinfo/dev<br>> Ensembl Blog: http://www.ensembl.info/<br></div></div>                                       </div></body>
</html>