PSYCH OpenIR  > 健康与遗传心理学研究室
全基因组关联研究数据的深入挖掘策略开发
其他题名The development of data analysis strategy in genome-wide association study
崔思佳
2014-05
摘要       全基因组关联研究(Genome-wide association study,GWAS)已经越来越广泛的被研究人员应用于检测复杂疾病关联位点的研究中。GWAS 通过检测在病人和对照组之间单核苷酸多态性(single nucleotide polymorphism,SNP)的差异发现SNP 与疾病的关系。但是由于复杂疾病的多基因效应,传统的GWAS 研究中鉴定出的SNP 个体只能对复杂疾病的风险贡献很小的一部分,而某些与疾病相关的遗传位点由于低显著性而被丢掉。所以为了尽可能的检测到GWAS 中的疾病关联信号进而帮助我们理解复杂疾病的生物学致病机制,在本文中,我们将以全基因组关联研究为核心,以GWAS 数据深入挖掘策略开发为出发点,针对复杂疾病开展了基于通路分析和基因交互作用分析两个方向的研究。
       首先,基于通路的分析领域中的基因集富集分析(GSEA)方法能够确定通路/基因集与性状的关联,但是基因集富集分析面临两个挑战,第一个挑战是基因集富集分析主要依赖于基因型数据,但是该数据在大多数发表的GWAS 研究中不易获取。第二个挑战是基因集富集分析对疾病通路的检测敏感性不强。所以针对这两个挑战,我们提出了i-GSEA 算法,该算法基于GWAS 的SNP-P 值列表数据,通过使用SNP 标签随机置换的方法构建统计模型实现了基因集富集分析算法,然后进一步对基因集富集分析算法进行了优化,大大提高了对疾病相关通路的检测敏感性。为了给研究人员提供一个开放的工具进行基于通路的i-GSEA 研究,我们开发了i-GSEA4GWAS(improved GSEA for GWAS)网络分析平台。目前,该网络分析平台已经成为世界全基因组关联研究重要的通路/基因集研究工具。
       其次,全基因组关联研究数据解释的另一个疑问是确定致病SNPs 并且提供它们如何影响性状的依据。基于这种原因,我们在实现了基于通路分析的i-GSEA算法的基础上,开发了ICSNPathway 网络分析平台来进行GWAS 数据中候选致病SNP 的鉴定以及基于i-GSEA 算法对这些SNP 对应的候选致病通路的搜索。该平台整合了连锁不平衡分析,功能SNP 注释和基于通路的分析的功能。通过该网络分析平台,我们可以将候选致病SNP 和对应的候选致病通路联系起来,为研究人员在GWAS 研究和复杂疾病致病机制研究架设一座桥梁。
      基于通路的GWAS 分析,使我们能够考虑某一生物学通路中的一组位点或基因与疾病之间的累积关系,有效弥补单位点分析仅能发现最明显关联的缺陷。但是,基于通路的分析依赖于已知通路范围,无法全面的了解全基因组中基因的交互作用。所以在第三部分,本文提出了一种基于基因交互分析的候选SNP组合的搜索策略。并且我们使用该策略在双相情感障碍的全基因组关联研究数据中进行了应用,搜索到117 个候选致病SNP 并获得了4.3%的预测错误率。通过对该候选致病SNP 组合进行已知双相情感障碍的相关基因的检测和显著性通路的分析可以证明双相情感障碍与该候选SNP 组合之间的关系。基于上述结论说明了该策略能够帮助我们揭示复杂疾病的遗传学基础进而为复杂疾病的研究带来了新的研究手段和研究视角。
       综上所述,基于复杂疾病的致病的特点,本文对全基因组关联研究进行了深入数据挖掘,主要开展了基于通路分析和基因交互作用分析两个方向的研究。在探索基于通路分析的研究中,我们开发的i-GSEA4GWAS 网络分析平台为研究人员们提供了一个开放的基于通路的分析工具,帮助研究人员基于GWAS 的SNP-P值列表进一步分析GWAS 数据。然后在实现i-GSEA 算法的基础上,我们进一步开发了针对鉴定候选致病SNP 和相应的候选致病通路的网络分析平台ICSNPathway。该平台将复杂疾病的GWAS 研究和生物学机制研究紧密的联系在一起。而在探索基因-基因交互作用的研究中,我们提出了一种基于随机森林的候选致病SNP 组合的搜索策略,并且通过使用该策略对双相情感障碍进行应用获得的候选致病SNP 组合进行生物学机制的探索证明该方法能够帮助我们发现复杂疾病的致病机制。本文中的成果不仅提供了可靠有效的复杂疾病的研究手段,而且给多种复杂疾病提供了病理机制的研究线索(双相情感障碍,类风湿关节炎等)。同时,本文中提出的策略有良好的泛化性,能够很容易的被应用到其他复杂疾病的GWAS 研究中。
其他摘要Genome-wide association study(GWAS) is nowadays widely used to identify markers involved in complex disease.GWAS detects the different frequencies of SNPs in case and control to find the relationship between SNPs and disease.But because of the multiple gene effects of complex disease,the variants identified by traditional GWAS account for only a small proportion of the inherited component of disease risk.The real but low significance SNPs are likely to be missed.In order to find the disease association marker and help us understand the biological machanism,in this paper,we will focus on GWAS,take the development of GWAS data analysis strategies as original idea,conduct the pathway-based analysis and gene-gene interaction studies for the GWAS.
First,in the pathway based analysis area,gene set enrichment analysis(GSEA) can identify the correlation between pathways/gene sets and traits,but one key challenge is the genotype data ,which GSEA heavily relies on, is not easily available for most published GWAS investigations.Another challenge is the susceptibility of pathway detection is not strong.So based on the two challenges,we introduce i-GSEA algorithm,this algorithm is based on GWAS SNP-P values data,and optimize the GSEA,increase the susceptibility of disease detection.To provide researchers an open platform to analyze GWAS data,we further developed the i-GSEA4GWAS (improved GSEA for GWAS) web server.This platform has already been worldwide GWAS researcher's important pathway/gene set tool.
Another key challenge for GWAS data interpretation is to identify causal SNPsand provide profound evidence on how they affect the trait.So based on the implementation of i-GSEA,we next develop ICSNPathway platform to identify candidate causal SNPs and their corresponding candidate causal pathways from GWAS by integrating linkage disequilibrium(LD) analysis,functional SNP annotation and PBA.ICSNPathway provides a feasible solution to bridge the gap between GWAS and disease mechanism study by generating hypothesis of SNP->gene->pathways(s).
Pathway-based analysis relies on the known pathway,we can’t comprehensively understand the genome-wide gene-gene interaction.So we propose a new candidate SNP combination detection strategy based on random forest to analyze the bipolar disorder(BD) gene-gene interaction.We get 117 candidate SNP combination and the combination achieves 4.3% prediction error rate.Matching 117 SNPs with known BD genes and functional modules reveals the relationships between BD and candidate causal SNP combinations.Upon the result,the strategy can help us unveil the genetic of complex disease and introduce new insight in complex disease.
To sum up,based on the characteristic of complex disease,in this paper we conduct in-depth data mining in the GWAS.And the studies are mainly in the pathway based analysis and gene-gene interaction.In the exploration of the pathway-based analysis, i-GSEA4GWAS platform shows researchers an efficient open webserver for GWAS analysis,which helps further interpret the SNP P-values from current thousands of available GWAS datasets and future GWASs to provide new insights into disease study.ICSNPathway represents a feasible solution for identifying both candidate causal SNPs and their corresponding candidate causal pathways to bridge the gap between GWAS and biological mechanism study of complex disease.Next we use the random forest to explore the candidate SNPs combination in BD.And mapping the biological meaning of candidate SNP combinations can help uncover complex disease mechanisms.The results in this paper will not only provide reliable and efficient GWAS data research tool,but also new hypothese and clues for the etiology mechanism research of multiple complex disease(Bipolar disorder, rheumatoid arthritis).Meanwhile,these strategy can be easily applied to the genetic research of other complex disease.
学科领域行为遗传学
关键词全基因组关联研究 基于通路的分析 基因交互作用分析 网络分 析 随机森林
学位类型博士
语种中文
学位专业心理学
学位授予单位中国科学院研究生院
学位授予地点北京
文献类型学位论文
条目标识符http://ir.psych.ac.cn/handle/311026/19498
专题健康与遗传心理学研究室
作者单位中国科学院心理研究所
推荐引用方式
GB/T 7714
崔思佳. 全基因组关联研究数据的深入挖掘策略开发[D]. 北京. 中国科学院研究生院,2014.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
崔思佳-博士学位论文.pdf(2534KB)学位论文 限制开放CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[崔思佳]的文章
百度学术
百度学术中相似的文章
[崔思佳]的文章
必应学术
必应学术中相似的文章
[崔思佳]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。