<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Hi</div><div><br></div><div>Just downloaded Ensembl v67 peptide fasta files, run the NCBI formatdb, all expect four species failed... see the formatdb logs below ...</div><div><br></div><div>###################</div><div><div>========================[ May 22, 2012  8:51 PM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Homo_sapiens.GRCh37.67.pep.all.fa"</div><div>WARNING: [000.000] Cannot add sequence number 4365 (lcl|4365_Homo_sapiens.GRCh37.67.pep.all.f) because it has zero-length.</div><div><br></div><div>Removed single-volume database Homo_sapiens.GRCh37.67.pep.all.fa</div><div>FATAL ERROR: [001.000] Fatal error when adding sequence to BLAST database.</div></div><div><br></div><div><div>========================[ May 22, 2012  8:52 PM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Mus_musculus.NCBIM37.67.pep.all.fa"</div><div>WARNING: [000.000] Cannot add sequence number 19278 (lcl|19278_Mus_musculus.NCBIM37.67.pep.all.) because it has zero-length.</div><div><br></div><div>Removed single-volume database Mus_musculus.NCBIM37.67.pep.all.fa</div><div>FATAL ERROR: [001.000] Fatal error when adding sequence to BLAST database.</div></div><div><br></div><div><div>========================[ May 22, 2012  8:51 PM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Callithrix_jacchus.C_jacchus3.2.1.67.pep.all.fa"</div><div>WARNING: [000.000] Cannot add sequence number 14764 (lcl|14764_Callithrix_jacchus.C_jacchus3.2.) because it has zero-length.</div><div><br></div><div>Removed single-volume database Callithrix_jacchus.C_jacchus3.2.1.67.pep.all.fa</div><div>FATAL ERROR: [001.000] Fatal error when adding sequence to BLAST database.</div><div><br></div></div><div><div>========================[ May 22, 2012  8:51 PM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Danio_rerio.Zv9.67.pep.all.fa"</div><div>WARNING: [000.000] Cannot add sequence number 18274 (lcl|18274_Danio_rerio.Zv9.67.pep.all.fa) because it has zero-length.</div><div><br></div><div>Removed single-volume database Danio_rerio.Zv9.67.pep.all.fa</div><div>FATAL ERROR: [001.000] Fatal error when adding sequence to BLAST database.</div><div><br></div><div>###################</div></div><div><br></div><div>Then looked into bit deeper, why only these four fasta files failing, then found that for some entries sequences were missing,  corresponding list of Ensembl protein ids given below</div><div><br></div><div><u>1. Danio_rerio.Zv9.67.pep.all.fa</u></div><div>ENSDARP00000124078</div><div><br></div><div><u>2. Callithrix_jacchus.C_jacchus3.2.1.67.pep.all.fa</u></div>ENSCJAP00000015257<div><br></div><div><u>3. Mus_musculus.NCBIM37.67.pep.all.fa</u></div><div><div>ENSMUSP00000118372</div><div>ENSMUSP00000120375</div><div>ENSMUSP00000124076</div><div>ENSMUSP00000134515</div><div>ENSMUSP00000133928</div><div><br></div><div><u>4. Homo_sapiens.GRCh37.67.pep.all.fa</u></div><div><div>ENSP00000433535</div><div>ENSP00000454527</div><div>ENSP00000426696</div><div>ENSP00000427330</div><div>ENSP00000398318</div><div>ENSP00000427025</div><div>ENSP00000414758</div><div>ENSP00000405652</div><div>ENSP00000432174</div><div>ENSP00000453420</div><div>ENSP00000428295</div><div>ENSP00000436303</div><div>ENSP00000432344</div></div><div><br></div><div>After removing these entries from the fasta files, the formatdb is through ...</div><div><br></div><div><div>bash-3.2$ more formatdb.log </div><div><br></div><div>========================[ May 23, 2012 11:08 AM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Danio_rerio.Zv9.67.pep.all.fa"</div><div>Formatted 42170 sequences in volume 0</div><div>SUCCESS: formatted database Danio_rerio.Zv9.67.pep.all.fa</div><div><br></div><div>========================[ May 23, 2012 11:18 AM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Homo_sapiens.GRCh37.67.pep.all.fa"</div><div>Formatted 100341 sequences in volume 0</div><div>SUCCESS: formatted database Homo_sapiens.GRCh37.67.pep.all.fa</div><div><br></div><div>========================[ May 23, 2012 11:23 AM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Mus_musculus.NCBIM37.67.pep.all.fa"</div><div>Formatted 56785 sequences in volume 0</div><div>SUCCESS: formatted database Mus_musculus.NCBIM37.67.pep.all.fa</div><div><br></div><div>========================[ May 23, 2012 11:27 AM ]========================</div><div>Version 2.2.24 [Aug-08-2010]</div><div>Started database file "Callithrix_jacchus.C_jacchus3.2.1.67.pep.all.fa"</div><div>Formatted 43791 sequences in volume 0</div><div>SUCCESS: formatted database Callithrix_jacchus.C_jacchus3.2.1.67.pep.all.fa</div><div>bash-3.2$</div></div><div><br></div><div><br></div><div>When I looked into the Ensembl web interface for more details about these proteins with missing sequences, for example ENSP00000433535</div><div><br></div><div><a href="http://www.ensembl.org/Homo_sapiens/Transcript/ProteinSummary?db=core;g=ENSG00000116337;r=1:110158726-110174673;t=ENST00000474459">http://www.ensembl.org/Homo_sapiens/Transcript/ProteinSummary?db=core;g=ENSG00000116337;r=1:110158726-110174673;t=ENST00000474459</a></div><div><br></div><div>or another example ENSDARP00000124078</div><div><br></div><div><a href="http://www.ensembl.org/Danio_rerio/Transcript/ProteinSummary?db=core;g=ENSDARG00000041217;r=3:14689988-14736032;t=ENSDART00000131720">http://www.ensembl.org/Danio_rerio/Transcript/ProteinSummary?db=core;g=ENSDARG00000041217;r=3:14689988-14736032;t=ENSDART00000131720</a></div><div><br></div><div>Both these web pages saying amino acid (aa) length is 1 for these two manually checked entries. I haven't checked other proteins with missing sequences. </div><div><br></div><div>I guess other people might also having problem to run the blast with these sequences, it may be worth fixing fasta files on ftp site.</div><div><br></div><div>Best Regards</div><div>Venkata</div><div><br></div><div><br></div><div>
<div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div></div><div><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">Venkata P. Satagopam</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">Schneider Group</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">Structural and Computational Biology</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">EMBL</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">Meyerhofstr. 1</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">69117 Heidelberg</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">phone: +49-(0)-6221-387-140</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; ">fax:  +49-(0)-6221-387-517</span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><a href="mailto:venkata.satagopam@embl.de" ymailto="mailto:venkata.satagopam@embl.de">venkata.satagopam@embl.de</a></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><br></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "><a href="http://www.embl-heidelberg.de/~satagopa/" target="_blank">http://www.embl-heidelberg.de/~satagopa/</a></span><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; font-size: 13px; "> </span></div></div>
</div>
<br></div></body></html>