<div dir="ltr">Hi list,<div><br></div><div>VEP reports clinical significance states for known variants in the CLIN_SIG field. There is potential for these to be mis-assigned to input variants due to the way the data are mapped and stored in Ensembl's database. This is best illustrated by example:</div><div><br></div><div>rs2228671 (<a href="http://www.ensembl.org/Homo_sapiens/Variation/Explore?r=19:11099736-11100736;v=rs2228671;vdb=variation;vf=142322991">http://www.ensembl.org/Homo_sapiens/Variation/Explore?v=rs2228671</a>) is a SNV listed with four alleles (C/A/G/T). It has five ClinVar annotations mapped to it (<a href="http://www.ensembl.org/Homo_sapiens/Variation/Explore?r=19:11099736-11100736;v=rs2228671;vdb=variation;vf=142322991">http://www.ensembl.org/Homo_sapiens/Variation/Phenotype?v=rs2228671</a>), with varying significance states. If your input to VEP matches any of the three ALT alleles (A, G, or T) at this position, then the returned CLIN_SIG field is a list of all of those states, since the ClinVar entries are assigned at the variant level (rsID), rather than more precisely at the allele level. Post-filtering your VEP results for pathogenic variants will then match, regardless of whether your input ALT was a pathogenic (T) or benign (A) allele at this position.</div><div><br></div><div>A good solution is to use VEP's custom annotation function along with the VCF files made available by ClinVar (<a href="https://www.ncbi.nlm.nih.gov/variation/docs/ClinVar_vcf_files/">https://www.ncbi.nlm.nih.gov/variation/docs/ClinVar_vcf_files/</a>), something like:</div><div><br></div><div>vep [options] -custom clinvar_20190609.vcf.gz,clinvar,vcf,exact,,CLNSIG</div><div><br></div><div>which will give correct allele-specific clinical significance states in the clinvar_CLNSIG field of the VEP output.</div><div><br></div><div>I haven't reported this as a bug for VEP as really it's a bug in the way Ensembl stores the data.</div><div><br></div><div>Cheers</div><div><br></div><div>Will</div><div><br></div><div>## commands to reproduce:</div><div><br></div><div># the A allele is pathogenic</div><div>$ vep -id "19 11100236 test1 C A" -cache -o stdout -no_head -pick -tab -check_ex -fields CLIN_SIG,clinvar_CLNSIG -custom clinvar_20190609.vcf.gz,clinvar,vcf,exact,,CLNSIG</div><div>benign,pathogenic       Pathogenic</div><div><br></div><div># the T allele is benign</div><div>$ vep -id "19 11100236 test1 C T" -cache -o stdout -no_head -pick -tab -check_ex -fields CLIN_SIG,clinvar_CLNSIG -custom clinvar_20190609.vcf.gz,clinvar,vcf,exact,,CLNSIG</div><div>benign,pathogenic       Benign/Likely_benign<br></div><div><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr">-- <br><span style="font-size:12.8px"><b>William McLaren</b></span><br style="font-size:12.8px"><span style="font-size:12.8px">Senior Bioinformatics Scientist</span><br style="font-size:12.8px"><span style="font-size:12.8px">Global Gene Corp</span><br style="font-size:12.8px"><a href="mailto:will.mclaren@globalgenecorp.com" style="color:rgb(17,85,204);font-size:12.8px" target="_blank">will.mclaren@globalgenecorp.com</a><br style="font-size:12.8px"><a href="https://www.globalgenecorp.com/" style="color:rgb(17,85,204);font-size:12.8px" target="_blank">www.globalgenecorp.com</a><br style="font-size:12.8px"><span style="font-size:12.8px">The BIC, Wellcome Genome Campus, Hinxton, Cambridge CB10 1DR</span></div></div></div></div></div></div>

<br>
<span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)">******************************</span><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)"><wbr>******************************</span><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)"><wbr>******** </span><div><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)">This e-mail and any attachment hereto, is intended only for use by the addressee(s) named above and may contain legally privileged and/or confidential information. If you are not the intended recipient of this e-mail, any dissemination, distribution or copying of this email, or any attachment hereto, is strictly prohibited. If you receive this email in error please immediately notify me by return electronic mail and permanently delete this email and any attachment hereto, any copy of this e-mail and of any such attachment, and any printout thereof. Finally, please note that only authorized representatives of Global Gene Corporation PTE ltd have the power and authority to enter into business dealings with any third party. </span></div><div><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)">******************************</span><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)"><wbr>******************************</span><span style="font-family:arial,sans-serif;font-size:12.8px;color:rgb(49,49,49);word-spacing:1px;background-color:rgb(255,255,255)"><wbr>********</span></div>