<div dir="ltr">Hi Chris,<div><br></div><div>Thanks for your mail - answers in line below.</div><div class="gmail_extra"><br><div class="gmail_quote">On 7 November 2013 16:47, Chris Boustred <span dir="ltr"><<a href="mailto:cboustred@gmail.com" target="_blank">cboustred@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  

    
  
  <div text="#000000" bgcolor="#FFFFFF">
    Hi, <br>
    <br>
    I am using the VEP installer script to download and unpack caches to
    use with the VEP script.<br>
    <br>
    I would like to use the human refseq cache, to get NM_ transcript
    IDs, as this is what my colleagues would like reported in their
    output.<br>
    <br>
    When prompted which cache to download, if I choose '25 :
    homo_sapiens_refseq_vep_73.tar.gz' it is downloaded - put into a tmp
    folder within ~/.vep, however it looks as if it fails to unpack as
    the resulting cache folder (homo_sapiens) is empty? <br></div></blockquote><div><br></div><div>There's a bug with the installer when you select the refseq cache - I'm working on fixing it for the next VEP release.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div text="#000000" bgcolor="#FFFFFF">
    <br>
    If I choose '26 : homo_sapiens_vep_73.tar.gz' the unpacked
    'homo_sapiens' folder contains all the cache information.<br>
    <br>
    I therefore downloaded the cache files directly from
    
    <a href="ftp://ftp.ensembl.org/pub/release-73/variation/VEP/" target="_blank">ftp://ftp.ensembl.org/pub/release-73/variation/VEP/</a>
    however when I unpack them both they are both named 'homo_sapiens'.
    I believe in the past the refseq cache had a different name e.g.
    homo_sapiens_refseq ? I am using --dir_cache to get around this.<br></div></blockquote><div><br></div><div>Both have always been called just homo_sapiens; it's not ideal. The original intention was that users would choose one or the other, so there wouldn't be conflict. However, there are several users who use both. I'll try and come up with a better solution.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div text="#000000" bgcolor="#FFFFFF">
    <br>
    Finally, when running the VEP script with the refseq cache and using
    the --symbol flag I was getting the error:<br>
    <br>
    Can't call method "display_xref" on an undefined value at
    /home/chris/VEP/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm
    line 1997.<br></div></blockquote><div><br></div><div>The refseq cache does not contain gene symbols unfortunately. I will update the script to indicate as such.</div><div><br></div><div>Cheers</div><div><br></div><div>
Will McLaren</div><div>Ensembl Variation</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div text="#000000" bgcolor="#FFFFFF">
    <br>
    And the process hangs.<br>
    <br>
    If I run with the --refseq flag I no longer get the error but the
    output of --symbol is not populated i.e. the gene HGNC symbol.<br>
    <br>
    I don't any get errors if I use the ensembl vep cache...<br>
    <br>
    Here are the three commands I am running:<br>
    <br>
    1. Using ref seq cache without --refseq flag (throws the
    "/VEP/variant_effect_predictor/Bio/EnsEMBL/Variation/Utils/VEP.pm
    line 1997" error<br>
    <br>
    perl $VEP/<a href="http://variant_effect_predictor.pl" target="_blank">variant_effect_predictor.pl</a> \<br>
    -fork 4 \<br>
    --buffer_size 10000 \<br>
    --cache \<br>
    --dir_cache /home/chris/.vep/Refseq \<br>
    --dir_plugins /home/chris/.vep/Plugins \<br>
    --fasta
    /home/chris/.vep/EnsemblRef/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa
    \<br>
    --input_file $inputVCF \<br>
    --output_file $outputVCF \<br>
    --sift b  \<br>
    --polyphen b  \<br>
    --allele_number \<br>
    --numbers \<br>
    --domains \<br>
    --HGVS \<br>
    --protein \<br>
    --symbol \<br>
    --ccds \<br>
    --canonical \<br>
    --biotype \<br>
    --check_alleles \<br>
    --gmaf \<br>
    --maf_1kg \<br>
    --maf_esp \<br>
    --pubmed \<br>
    --vcf \<br>
    --force_overwrite \<br>
    --plugin FATHMM,"python
    ~/Reference_sequences/Variants/FATHMM/fathmm.py"<br>
    <br>
    <br>
    2. As above but with --refseq flag - works without an error but HGNC
    (--symbol) is not populated?<br>
    <br>
    perl $VEP/<a href="http://variant_effect_predictor.pl" target="_blank">variant_effect_predictor.pl</a> \<br>
    -fork 4 \<br>
    --buffer_size 10000 \<br>
    --cache \<br>
    --dir_cache /home/chris/.vep/Refseq \<br>
    --dir_plugins /home/chris/.vep/Plugins \<br>
    --fasta
    /home/chris/.vep/EnsemblRef/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa
    \<br>
    --input_file $inputVCF \<br>
    --output_file $outputVCF \<br>
    --sift b  \<br>
    --polyphen b  \<br>
    --allele_number \<br>
    --numbers \<br>
    --domains \<br>
    --HGVS \<br>
    --protein \<br>
    --symbol \<br>
    --ccds \<br>
    --canonical \<br>
    --biotype \<br>
    --check_alleles \<br>
    --gmaf \<br>
    --maf_1kg \<br>
    --maf_esp \<br>
    --pubmed \<br>
    --vcf \<br>
    --refseq \<br>
    --force_overwrite \<br>
    --plugin FATHMM,"python
    ~/Reference_sequences/Variants/FATHMM/fathmm.py"<br>
    <br>
    3. Using ensembl cache - works but no ref seq trasncript IDs!<br>
    <br>
    perl $VEP/<a href="http://variant_effect_predictor.pl" target="_blank">variant_effect_predictor.pl</a> \<br>
    -fork 4 \<br>
    --buffer_size 10000 \<br>
    --cache \<br>
    --dir_cache /home/chris/.vep/ \<br>
    --dir_plugins /home/chris/.vep/Plugins \<br>
    --fasta
    /home/chris/.vep/EnsemblRef/Homo_sapiens.GRCh37.73.dna.primary_assembly.fa
    \<br>
    --input_file $inputVCF \<br>
    --output_file $outputVCF \<br>
    --sift b  \<br>
    --polyphen b  \<br>
    --allele_number \<br>
    --numbers \<br>
    --domains \<br>
    --HGVS \<br>
    --protein \<br>
    --symbol \<br>
    --ccds \<br>
    --canonical \<br>
    --biotype \<br>
    --check_alleles \<br>
    --gmaf \<br>
    --maf_1kg \<br>
    --maf_esp \<br>
    --pubmed \<br>
    --vcf \<br>
    --refseq \<br>
    --force_overwrite \<br>
    --plugin FATHMM,"python
    ~/Reference_sequences/Variants/FATHMM/fathmm.py"<br>
    <br>
    Any help with the above would be much appreciated!<br>
    <br>
    Thanks<br>
    <br>
    Chris<br>
    <br>
      <br>
    <br>
    <div>-- <br>
      <p><b>Chris Boustred</b><br>
        Laboratory Bioinformatician<br>
        Regional Molecular Genetics<br>
        Great Ormond Street for Children NHS Foundation Trust<br>
        Level 6, York House<br>
        37 Queen Square<br>
        London<br>
        WC1N 3BH<br>
        <a href="mailto:christopher.boustred@gosh.nhs.uk" target="_blank">christopher.boustred@gosh.nhs.uk</a><br>
        <a href="mailto:cboustred@gmail.com" target="_blank">cboustred@gmail.com</a><br>
        Phone: 020 7762 6874<br>
        Fax: 020 7813 8196<br>
      </p>
    </div>
  </div>

<br>_______________________________________________<br>
Dev mailing list    <a href="mailto:Dev@ensembl.org">Dev@ensembl.org</a><br>
Posting guidelines and subscribe/unsubscribe info: <a href="http://lists.ensembl.org/mailman/listinfo/dev" target="_blank">http://lists.ensembl.org/mailman/listinfo/dev</a><br>
Ensembl Blog: <a href="http://www.ensembl.info/" target="_blank">http://www.ensembl.info/</a><br>
<br></blockquote></div><br></div></div>