<html><head>

    
  </head>
  <body><div>Hi Rizwan, sorry to hear that,</div><div><br></div><div>Can you be more specifi and tell me which file is causing the duplicates? Are they all in the same file you download, or across multiple?</div><div><br></div><div>Thanks for your inputs. </div><div><br></div><div>Kind regards, </div><div><br></div><div>Marc </div><div><span></span></div><div><br></div><div>On Tue, 2022-11-01 at 11:47 +0000, Rizwan Ishtiaq wrote:</div><blockquote type="cite" style="margin:0 0 0 .8ex; border-left:2px #729fcf solid;padding-left:1ex"><p>Hi team,</p><p>It seems you have duplicate entries in ensembl vertebrates files which we are downloading from FTP location<a class="moz-txt-link-abbreviated" href="ftp://ftp.ensembl.org:/pub/rapid-release/species/">ftp.ensembl.org:/pub/rapid-release/species/</a>{{name}}/*/geneset/*/*genes.embl.gz<br></p><p>There are total 61,891 duplicate accessions. Some problematic protein_id examples are following<br></p><div> </div><ul> <li>ENSCCRP00000037442</li> <li>ENSCCRP00000031589</li> <li>ENSCCRP00000015336</li> <li>ENSCCRP00000036697</li> <li>ENSCCRP00000080301</li> <li>ENSCCRP00000039261</li> <li>ENSCCRP00000020308</li> <li>ENSCCRP00000014142</li> <li>ENSCCRP00000025673</li> <li>ENSCCRP00000005781<br></li></ul><p>Kindly can you fix it and let me know, as we are unable to load data into uniparc.</p><p>Regards,<br> Rizwan Ishtiaq<br> uniprot team<br></p><div>_______________________________________________<br></div><div>Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br></div><div>Posting guidelines and subscribe/unsubscribe info: <a href="https://lists.ensembl.org/mailman/listinfo/dev_ensembl.org">https://lists.ensembl.org/mailman/listinfo/dev_ensembl.org</a><br></div><div>Ensembl Blog: <a href="http://www.ensembl.info/">http://www.ensembl.info/</a><br></div></blockquote></body></html>