晶诚所至 生命所能

Engage to Life Energy

 
GWAS研究中的样本量估算与统计功效
发布日期:2023-03-06浏览:

GAS Power Calculator

方法简介

全基因组关联分析(Genome Wide Association Study,GWAS)是已广泛用于寻找与复杂遗传疾病或者性状关联的SNPs。此研究计划的第一步是估算需多少个样本才能以足够的功效(Power)来检测已知SNP对性状的效应值。其中功效是指能够成功检测到SNP效应值的概率,也就是1-β(β为常见的假设检验中的第二类错误),一般需在80%以上,它主要由以下三个因素决定,包括SNP效应值、样本量和设定的第一类错误(α)。我们介绍一个网页界面的在线分析工具GAS Power Calculator,它的初始版本CaTS截至2017年已在1000个GWAS研究中被使用(http://csg.sph.umich.edu/abecasis/gas_power_calculator/index.html)【1】。

 

 

 

术语解释

为了使用GAS Power Calculator,我们需要先了解以下若干个基本概念。

 

1) OR (Odd Ratio) 值是度量SNP效应值或者也叫做关联强度,当基因型为AA时总人群的患病人数比例(PAA),健康人数比例则为(1 - PAA),那么OddAA为PAA /(1 - PAA),当基因型AG时如上同理得到OddAG,那么OR值表示OddAG / OddAA ,同理以是否携带等位基因A与G时,可表示为OddG / OddA

2) GRR(Genotype Relative Risk)值是指相对风险,比如相对于基因型AA时基因型AG的相对风险是PAG / PAA,基因型GG则是PGG / PAA

3) α(第一类错误)是指假设检验中的原假设为真的时候,拒绝原假设的概率为α。

4) β(第二类错误)是指假设检验中的原假设为假的时候,接受原假设的概率为β。

5) Power(功效)指1 –β,表示能得到指定OR值或者RR值的可能性,一般GWAS研究估算的样本量需要达到80%的统计功效。

6) Disease Allele Frequency(DAF,致病等位基因频率)是指总人群中致病等位基因(碱基)中的频率。

7) Prevalence(患病率)是指总人群中患病人数比例。

 

 

 

在线操作与结果展示

GAS Power Calculator在线工具需要输入信息包括已知Prevalence、DAF、各个基因型下的GRRs、α显著性水平(以基因芯片为例,一般为5╳10-8)和抽样的健康人数和患病人数,输出信息包括期望功效、患病组与健康组的期望DAF 和 各个基因型下的总人群内患病人数比例,我们以2009年和2017年发表的两篇关于脑胶质瘤的GWAS研究为案例【2,3】进行在线操作与结果展示。

首先简略介绍下一个风险位点rs10069690(rs编号),它位于第5号染色体的5p15.33区域、物理位置为第1,279,790个碱基以及注释基因TERT,这个位点的GRR为1.45,脑胶质瘤患病率小于0.0001,DAF来自于GnomAD数据库。

我们访问网址(见上),依次输入信息包括Prevalence(0.0001)、GRR(1.45)、Disease Model(Additive)、Significance Level(5╳10-8)、Statistical Power vs.(Cases + Controls)、DAF(0.3584), 基于以上输入信息,GAS Power Calculator给出估算总样本数(健康人数和患病人数)与功效的函数曲线(如图1的右图)。通过此图可以看到当功效为80%时,红线所示其估算的样本数大约为5000例。而2009年发表的文章实际采用患病人数为1,878例、健康人数3,670例和总人数为5,548例,因此与GAS Power Calculator估算的样本数基本吻合。我们修改输入信息Cases(1,878)和Controls(3,670),计算功效达到99.4%(如图2),说明当总人数为5,548时有99.4%的可能性检测到此SNP位点的效应值。

图片

图1,输入信息、估算样本量与功效的函数曲线

 

图片

图2,期望功效、健康组与患病组的DAF

 

再简略介绍下另一个风险位点rs3751667,它位于第16号染色体的16p13.3区域、物理位置为1,004,554个碱基以及注释基因LMF1,这个位点的GRR为1.14。

访问网址,依次输入信息包括Prevalence(0.0001)、GRR(1.14)、Disease Model(Additive)、Significance Level(5╳10-8)、Statistical Power vs.(Cases + Controls)、DAF(0.2844),基于以上输入信息,GAS Power Calculator给出估算总样本数(健康人数和患病人数)与功效的函数曲线(如图3的右图)。通过此图可以看到当功效为80%时,红线所示其估算的样本数大约为30,000例。如按照之前5000例的数据是无法筛选到此SNP的(阈值设定为5╳10-8),确实2009年发表的文章也没有报道此SNP。但2017年发表的文章报道了这个新风险位点,研究人员实际采用的样本量扩大到患病人数为12,496例、健康人数18,190例和总人数为30,686例。我们修改输入信息Cases(12,496)和Controls(18,190),计算功效达到94.1%(如图4),说明当总人数为30,686时有94.1%的可能性能检测到此SNP位点的效应值。

图片

图3,输入信息、估算样本量与功效的函数曲线

 

图片

图4,期望功效、健康组与患病组的DAF

 

 

 

总结

通过以上的在线分析,我们可以了解到当效应值越小,想达到相同功效则需要更多样本量。另外读者也可以自己尝试和观察不同的输入和返回的结果,可以发现当DAF越接近0.5,想达到相同功效需要更少的样本量,健康组与患病组的样本量之比越接近1,功效越高,如图5【4】。

 

图片

图5,当患病率为5%下、健康组与患病组的样本量之比为1、α显著性水平为5%、不同DAF(或MAF)和OR效应值下,患病数与功效的函数曲线

 

参考文献

[1] Jennifer Li Johnson, Goncalo R. Abecasis. GAS Power Calculator: web-based power calculator for genetic association studies. Biorxiv. 2017. doi: https://doi.org/10.1101/164343.

[2] Sanjay Shete et al., Genome-wide association study identifies five susceptibility loci for glioma. Nat Genet. 2009 Aug;41(8):899-904. doi: 10.1038/ng.407.

[3] Beatrice S Melin et al., Genome-wide association study of glioma subtypes identifies specific differences in genetic susceptibility to glioblastoma and non-glioblastoma tumors. Nat Genet. 2017 May;49(5):789-794. doi: 10.1038/ng.3823.

[4] Eun Pyo Hong, Ji Wan Park. Sample size and statistical power calculation in genetic association studies. Genomics Inform. 2012 Jun;10(2):117-22. doi: 10.5808/GI.2012.10.2.117.

上一条:技术分享丨ECharts绘制火山图
下一条:高分文章|近期全外显子测序相关研究进展
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

晶能生物技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: