<div dir="ltr">Hi Devs,<div><br></div><div>In Dec 2014, a string of papers showed a prevalence of subclonal somatic mutations in the blood cells of older healthy individuals. You can find a preliminary subset of such mutations here:</div><div><a href="http://www.nature.com/nm/journal/v20/n12/fig_tab/nm.3733_T1.html">http://www.nature.com/nm/journal/v20/n12/fig_tab/nm.3733_T1.html</a><br></div><div><br></div><div>Many of these recurrent somatic mutations are reported in the official ExAC VCF with FILTER=PASS, incorrectly indicating that they are recurrent germline variants. Some of these have fairly high allele counts, and are known recurrent hotspots in blood cancers. Such variants are also seen in cohorts like ESP6500, but in much less frequency than across TCGA normals. Here's two examples:</div><div><a href="https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs77375493">https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs77375493</a> - tagged as Pathogenic in ClinVar<br></div><div><a href="https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs147001633">https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs147001633</a> - *not* tagged as Pathogenic in ClinVar</div><div><br></div><div>The ExAC authors are aware of this, but there is no elegant way to identify and tag such variants uniformly across their cohort. I believe they are working on a related publication, but that will be a while. For now, they have made available a subset VCF, that excludes TCGA samples:</div><div><a href="ftp://ftp.broadinstitute.org/pub/ExAC_release/release0.3.1/subsets/ExAC_nonTCGA.r0.3.1.sites.vep.vcf.gz">ftp://ftp.broadinstitute.org/pub/ExAC_release/release0.3.1/subsets/ExAC_nonTCGA.r0.3.1.sites.vep.vcf.gz</a><br></div><div><br></div><div>This removes nearly all known somatic variant sites, and makes it a great false-positive filter in our (MSKCC) somatic variant calling pipelines. Instead of using ExAC AFs in VEP's cache, I use this nonTCGA VCF with VEP's ExAC plugin, after a few modifications documented here:</div><div><a href="https://gist.github.com/ckandoth/f265ea7c59a880e28b1e533a6e935697">https://gist.github.com/ckandoth/f265ea7c59a880e28b1e533a6e935697</a><br></div><div><br></div><div>Would you consider reporting ExAC allele counts from this nonTCGA VCF as the default?</div><div><br></div><div>Thanks much!</div><div><br></div><div>~Cyriac<br></div></div>