<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Hi Andrea,<div><br></div><div>The assembly data for human and all other species are generated by groups external to Ensembl. We import the data as it is provided to us.</div><div><br></div><div>In the case of human, the assembly is maintained by the Genome Reference Consortium:</div><div><a href="http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/index.shtml">http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/index.shtml</a></div><div><br></div><div>If you go to their FTP site, you can find that the synonym for HSCHR13_CTG1 is <span class="Apple-style-span" style="font-family: monospace; white-space: pre; ">GL000111.1.</span></div><div><a href="ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/localID2acc">ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/localID2acc</a></div><div><br></div><div>Now, to find how this scaffold is assembled from the contigs, go to the relevant AGP file and search for AL445212.9 or <span class="Apple-style-span" style="font-family: monospace; white-space: pre; ">GL000111.1</span>:</div><div><a href="ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/placed_scaffolds/AGP/chr13.placed.scaf.agp.gz">ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh37/Primary_Assembly/placed_scaffolds/AGP/chr13.placed.scaf.agp.gz</a></div><div><br></div><div>You will find the following lines :</div><pre>GL000111.1 13670584        13786049        122     F       AL138692.26     101     115566  +
</pre><div><br></div><div><span class="Apple-style-span" style="font-family: monospace; white-space: pre; ">GL000111.1  13786050        13952606        123     F       AL445212.9      101     166657  +</span></div><div><br></div><div>Many contigs start from 101 in the AGP file. In your example, it is just going to mean that contig AL445212.9 overlaps with the previous contig <span class="Apple-style-span" style="font-family: monospace; white-space: pre; ">AL138692.26 </span>by 100 bases, and that they have chosen to use the sequence from <span class="Apple-style-span" style="font-family: monospace; white-space: pre; ">AL138692.26 </span>instead of AL445212.9 to contribute toward the scaffold HSCHR13_CTG1 sequence.</div><div><br></div><div><pre><span class="Apple-style-span" style="font-family: Helvetica; white-space: normal; ">Cheers,</span></pre><pre><span class="Apple-style-span" style="font-family: Helvetica; white-space: normal; "></span>Bronwen</pre></div><div><br></div><div><br><div><div>On 11 Mar 2011, at 19:36, Andrea Edwards wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div>Hello<br><br>Please could you tell me why, for example, the clone AL445212.9 (seq region id = 22114) only has overlap from base 101 with chromosome 13 (seq region id = 27513) in the assembly table rather than from its first base. There is nothing in this table either about its overlap with its neighbouring clones or its supercontig HSCGR13_CTG1. If you look at the clone the annotated region of the clone is from base 101 onwards. I don't understand the significance of base 101<br><br>thanks<br><br>_______________________________________________<br>Dev mailing list<br><a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>http://lists.ensembl.org/mailman/listinfo/dev<br></div></blockquote></div><br></div></body></html>