首页 > 其他分享> 文章详细

GWAS基因芯片数据预处理：质量控制（quality control）

2019-03-20 11:52:01 阅读：552 来源： 互联网

标签：control GWAS file 位点样本质量 SNP quality bfile

一、数据为什么要做质量控制

比起表观学研究，GWAS研究很少有引起偏差的来源，一般来说，一个人的基因型终其一生几乎不会改变的，因此很少存在同时影响表型又影响基因型的变异。但即便这样，我们在做GWAS时也要去除一些可能引起偏差的因素。

这种因素主要有：群体结构、个体间存在血缘关系、技术性操作。

二、怎么看数据是否需要进行质量控制

下面分别为样本和SNP位点在数据中的直方图，当数据不在绝大多数的分布当中时，我们会倾向于认为那是测序、人工操作等其他方面造成的误差，而非该个体的真实情况，因此是需要将这些样本和位点过滤掉的。

这个阈值的设定并没有一个金标准，可参考往年发表的文献的常用阈值。

1、样本过滤阈值的设定

2、SNP过滤阈值的设定

三、怎么进行质量控制

质量控制包括两个方向，一个是样本的质量控制，一个是SNP的质量控制

1、样本的质量控制

样本的质量控制包括：缺失率、杂合性、基因型性别和记录的性别是否一致。

1）检测缺失率，通常情况下，将样本缺失率大于5%的个体去除

plink --bfile file --mind 0.05 --make-bed --out file_mind

2）检测杂合性

plink --bfile file --het --make-bed --out file_het

3) 检测性别不一致的个体

plink --bfile file --check-sex --make-bed --out file_checksex

4）去除不符合的样本

将1-3）获得不符合的样本去除

plink --bfile removesample.txt --remove removesample.txt --make-bed --out file_qcsample

removesample.txt的格式如下：

FID IID

ASN ind1

ASN ind2

2、SNP位点的质量控制

SNP位点的质量控制包括：MAF值、call出率、Hardy-Weinberg Equilibrium

其命令见如下：

plink --bfile file_mind_file_qcsample --hwe 0.00001 --geno 0.02 --maf 0.01 --make-bed --out file_qcsample_snp

--hwe指的是不符合哈温伯格平衡的SNP位点，P值小于0.00001；

--geno指的是基因型缺失率大于2%的样本；

--maf指的是次等位基因频率低于1%的SNP位点；

最后，会得出干净的SNP和样本。

文中图片出处：

https://jvanderw.une.edu.au/Mod2Lecture_PLINK.pdf

标签：control,GWAS,file,位点,样本,质量,SNP,quality,bfile
来源： https://www.cnblogs.com/chenwenyan/p/10563835.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

GWAS基因芯片数据预处理：质量控制（quality control）