<div dir="ltr">Hi Tjaart,<div><br></div><div>Firstly, thanks for finding this, there was an odd bug with patched chromosome regions that was causing this error. I've fixed it on the CVS branch for 73 - if you update your ensembl-variation checkout, or rerun the installer if you used that, you should pick up the fixed code.</div>
<div><br></div><div>Secondly, while it is possible to use rsIDs as input, I wouldn't recommend doing this on such a large scale. Each rsID has to be looked up in the database to find its genomic location and alleles. So even though you are using the cache, the VEP will be querying the public Ensembl database for each rsID, and then using the cache for it's consequence predictions.</div>
<div><br></div><div>If you do need to query in this way, I'd suggest setting up a local mirror of the Ensembl variation database, see <a href="http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#local">http://www.ensembl.org/info/docs/tools/vep/script/vep_cache.html#local</a></div>
<div><br></div><div>Another alternative would be to extract the corresponding VCF entries for your rsIDs from our VCF dumps (<a href="ftp://ftp.ensembl.org/pub/release-73/variation/vcf/homo_sapiens/">ftp://ftp.ensembl.org/pub/release-73/variation/vcf/homo_sapiens/</a>), using something like vcftools (and the --snps flag). You can either get the version of the VCF with consequences, which may save you running the VEP at all, or get the version without consequences and run this through the VEP if you need more than the basic consequence information.</div>
<div><br></div><div>Hope that helps</div><div><br></div><div>Will McLaren</div><div>Ensembl Variation</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 8 October 2013 16:55, Tjaart de Beer <span dir="ltr"><<a href="mailto:tjaart@ebi.ac.uk" target="_blank">tjaart@ebi.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi all,<br>
<br>
I just installed VEP to have a look at some human variant data. I have<br>
about 550,000 rsids. As far as I understand from the documentation an rsid<br>
on its own should be enough. When I run my rsids I get the following<br>
error:<br>
<br>
-------------------- EXCEPTION --------------------<br>
MSG: SEQ_REGION_NAME argument is required<br>
STACK Bio::EnsEMBL::Slice::new<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Slice.pm:149<br>
STACK Bio::EnsEMBL::Variation::Utils::VEP::get_slice<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm:3306<br>
STACK Bio::EnsEMBL::Variation::Utils::VEP::cache_transcripts<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm:3596<br>
STACK Bio::EnsEMBL::Variation::Utils::VEP::fetch_transcripts<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm:2837<br>
STACK Bio::EnsEMBL::Variation::Utils::VEP::vf_list_to_cons<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm:1180<br>
STACK Bio::EnsEMBL::Variation::Utils::VEP::get_all_consequences<br>
/home/tjaart/my_genes/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm:1125<br>
STACK main::main <a href="http://variant_effect_predictor.pl:360" target="_blank">variant_effect_predictor.pl:360</a><br>
STACK toplevel <a href="http://variant_effect_predictor.pl:198" target="_blank">variant_effect_predictor.pl:198</a><br>
Date (localtime)    = Tue Oct  8 16:43:28 2013<br>
Ensembl API version = 73<br>
<br>
As far as I could make out this means that the variant is not in Ensembl.<br>
In my test set I have traced it to rs7289804 which does not occur in<br>
Ensembl (doing a web search).<br>
<br>
I was wondering if there is a way around this with some kind of flag to<br>
ignore rsids for which there is not enough data or it not being present? I<br>
couldn't find such a flag in the documentation.<br>
<br>
My command is:<br>
<br>
perl <a href="http://variant_effect_predictor.pl" target="_blank">variant_effect_predictor.pl</a> -i ../test.dat --cache --coding_only<br>
--filter coding_change --force_overwrite<br>
<br>
My input file contains no extra line breaks or any strange characters.<br>
<br>
Any help would be appreciated. Thanks!<br>
<br>
<br>
--<br>
Dr. Tjaart de Beer<br>
Thornton group<br>
European Bioinformatics Institute (EMBL-EBI)<br>
European Molecular Biology Laboratory<br>
Wellcome Trust Genome Campus<br>
Hinxton<br>
Cambridge CB10 1SD<br>
United Kingdom<br>
<br>
<br>
<br>
_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
</blockquote></div><br></div>