ChinaMAP发布最大规模中国人群全基因组测序和表型研究

2020年06月28日 8411人阅读

2020年4月30日,由国家代谢病临床医学研究中心(上海),上海交通大学医学院附属瑞金医院启动的ChinaMAP(中国代谢解析计划)联盟携全国29家研究机构和医院,在中科院上海生命科学研究院主办的《Cell Research》杂志首次报道了最大规模中国人群全基因组测序和表型研究。



本次研究的基础数据产出自华大智造DNBSEQ测序平台,覆盖了全国27个省份和直辖市,8个民族,1万例以上样本。这一研究通过国内自主开发的仪器、平台、分析方法,对中国人的基因组特征进行深入、广泛的研究,具有前所未有的重要意义。上海交通大学医学院附属瑞金医院、国家代谢性疾病临床医学研究中心的宁光院士,王卫庆教授和毕宇芳教授是论文的共同通讯作者,曹亚南研究员、李林研究员和徐敏研究员等为共同第一作者。

 

2020年6月26日,由基云惠康、中国生物医学工程学会医学检验工程分会、人民网和钱塘江区管委会主办的第七届N·GS创新开发者大会在杭州市钱塘新区举行,曹亚南研究员出席并发表题为主题演讲。曹亚南研究员指出,目前全球各国已经有多项超大规模的前瞻性流行病学队列研究正在进行中,为一系列应用研究提供了系统的数据支撑。


他表示,对人群样本的无偏选择能够更好地估计遗传效应与疾病或疾病标记之间的关联,健康记录的长期追踪是评估疾病与环境因素关联不可或缺的,不同规模的队列可观察到的新发病例数,有利于发病率低的疾病的病因研究。此外,曹研究员强调,发病机制的检测和常见病诊断的建立是进行准确风险评估的前提。


那么,这项以无差别的中国人群为样本的研究揭示了中国人群哪些基因组特征?中国人群不同民族以及与其他人群存在怎样的差异?这项研究成果对精准医疗、临床指南等具有哪些应用指导意义?演讲结束后,动脉网第一时间对曹亚南研究员进行了专访,就以上问题进行深入对话,并整理如下。


 

大规模人群队列研究的中国进程

 


动脉网:首先,请您分享下ChinaMAP的由来。这项面向中国人群的大规模研究是在怎样背景下开展起来的?


曹亚南研究员:大规模人群队列的基因组学和多组学大数据正在重大慢病、肿瘤和遗传病的预防、诊断和新药研发中发挥引领作用,推动个体化精准健康管理和疾病诊疗的变革。美国和欧洲已实施多项以大规模队列的基因分型、基因组测序数据为基础的医学研究计划,包括著名的英国生物样本库(UK Biobank),肿瘤基因组图谱(TCGA)计划和多组学精准医学研究计划(TOPMed)等,产生了一系列具有深远影响的里程碑式成果。


长期以来,中国人的很多遗传疾病研究,都直接应用外国人的数据和结论。但由于不同地域人群和种族之间的历史渊源和遗传背景存在着巨大差异,如果把具有其他人群偏向性的知识和结论直接拿来做为中国人的疾病风险评估、遗传咨询或诊断治疗依据,是不完善和不可靠的。因此,国家代谢性疾病临床医学研究中心(上海)基于上海交通大学医学院附属瑞金医院牵头开展了多项覆盖全国的队列研究,依托转化医学国家重大科技基础设施(上海)和医学基因组学国家重点实验室,实施了中国代谢解析计划ChinaMAP (China Metabolic Analytics Project),旨在用中国人的数据建立针对中国人群的精准医疗体系。

 

动脉网:开展这样大规模人群的研究,您和您的团队采用了什么样的研究方法和策略?


曹亚南研究员:我们对队列中代表中国不同地区和民族的10588例人DNA样本进行了40X深度全基因组测序。由于样本量巨大,对测序成本、通量有很高的要求,并且需要兼顾测序准确性,于是选择了华大智造的国产自主高通量测序平台DNBSEQ。


在获得测序数据之后,我们完成了高质量的中国人群遗传变异数据构建、中国人群体结构分析、基因组特征比较以及变异频谱和致病性变异解析。


目前,在ChinaMAP一期数据库中,包含1.36亿个基因多态性位点(SNP)和1千万个插入或缺失位点(INDEL),其中一半是在国际通用的dbSNP、千人基因组、gnomAD和TOPMed数据库中均没有的新位点。

 

动脉网:ChinaMAP这项研究的数据库是如何开放和使用的?


曹亚南研究员:关于数据开放的问题,在ChinaMAP数据库中所有变异的位置、注释、频率和数据质量等信息,可在国家代谢性疾病临床医学研究中心的www.mBiobank.com网站搜索,为我国的医学和生命科学研究提供服务。

 


大规模人群队列研究的中国特点

 


动脉网:从这项研究结果看,我国不同地域和民族的遗传特征是否存差异?


曹亚南研究员:我国地缘辽阔且民族众多,ChinaMAP一期研究覆盖中国七大地理区域,包括了人口排名前十的汉族、壮族、回族、满族、苗族、彝族、藏族和蒙古族,显示了中华民族跨地理区域人群遗传背景的多样性和复杂性。


研究团队首次揭示了汉族人群可显著分成七个亚群:北方汉族(北京、天津、河南、河北、山东、辽宁、吉林、黑龙江、山西),西北汉族(甘肃、陕西),东部汉族(江苏、浙江、上海、安徽),中部汉族(湖北),南方汉族(贵州、四川、重庆、湖南、云南、江西),东南汉族(福建)和岭南汉族(广东、广西)。


此外,在少数民族中,藏族、彝族、蒙古族、苗族和壮族都有着独特的人群聚类,而满族和北方汉族相近,回族和西北、北方汉族相近。不同地域人群的变异特征也与中国历史上的人口迁徙和变迁相关,例如河西走廊是丝绸之路中不同民族迁徙的交通要道,历史上包括粟特人等许多民族曾在此经商生活。ChinaMAP研究揭示,现代河西走廊地区的人们具有的基因多态性位点数量更多更复杂。

 

动脉网:通过这项研究可以看出中国人群较欧美人群,更容易患哪些疾病?


曹亚南研究员:ChinaMAP对中国人群的遗传性疾病相关变异位点进行了全面分析。研究团队发现,中国人群中先天性甲状腺功能减低症、慢性胰腺炎、遗传性掌跖角化症等疾病的致病基因变异携带者较欧美人群显著更多,且具有地域分布特征,这些结果对我国重点遗传性疾病的筛查和防控具有参考价值。例如,中国人和日本人高发的长岛型掌跖角化症相关SERPINB7基因致病位点rs142859678的等位基因频率是欧美人群的约20倍。与甲状腺功能减退发生相关的一些致病变异频率在中国人群中比欧美人群高10倍以上。


疾病相关变异位点在中国人群与欧美人群中的频率差异,说明我国的遗传咨询和解读,对重要性不确定的基因变异(VUS)的研究,以及相关临床指南和路径制定,需要依据中国人自己的大样本和高质量数据。

 

动脉网:针对2型糖尿病和肥胖等发病率高的重大慢病,中国人群与欧美人群有哪些不同?


曹亚南研究员:在复杂疾病的遗传因素中,很多效应较强的基因变异大多存在于在特定的地理区域和种族群体中,只有基于特定人群完善的数据分析才有可能对这个人群的疾病的遗传风险进行精准评估。例如,欧洲人群中最显著的Ⅱ型糖尿病遗传风险TCF7L2基因变异(如rs7903146)在中国人中的频率却很低,可见在代谢特征和疾病研究中仅参考和验证欧美人群的结果是不行的。


另外,一个人携带的某个基因变异产生的疾病风险可能并不大,但综合多个基因变异的作用后对个体特征有重大影响。因此,基于特定人群的大规模基因型和表型数据库,通过多基因风险评分(PRS)评估个体的疾病风险是一种比较准确的方法。在ChinaMAP研究中,研究者对Ⅱ型糖尿病遗传风险进行了多基因风险评分,以量化评分、年龄和血糖值的排序三维显示了每个人在整个群体中的精确位置。多基因风险评分排名显示了Ⅱ型糖尿病高风险和低风险的个体之间存在非常显著的血糖差异,高风险个体随着年龄的增加,空腹和餐后2小时血糖都显著高于中风险和低风险者。


此外,对比证实,基于东亚人群的基础数据比基于欧洲人群的数据结果更加准确。这些结果提示基于中国人群基础数据对Ⅱ型糖尿病及其他代谢性疾病进行精确风险评估的重要性,对重大慢病的预防、个体化健康管理和公共卫生决策具有价值。


在体重指数BMI相关分析中,研究团队发现了新的东亚人群特异性CADM2基因位点,CADM2在动物研究中已证实参与调节体重和能量稳态。FTO等在欧美人群中发现的重要肥胖相关基因位点,在ChinaMAP研究结果中并不显著。这些发现提示,对大规模中国人群特异性的基因组学的研究,对分子机制和个体化诊治的精准医学体系建立很重要。


中国人群精准医疗体系是世界精准医疗体系不可或缺的一部分


 

动脉网:ChinaMAP在现阶段以及未来可以预见的一段时期内,带来了哪些方面的启示?


曹亚南研究员:首先, ChinaMAP揭示了中国人群中很多疾病相关的致病基因变异频率与欧美人群存在差异,为我国的遗传咨询和解读,遗传病的筛查和防控,提供了参考。


其次,ChinaMAP对中国人的药物代谢相关遗传特征也进行了分析比较。研究团队对抗凝药华法林的减量使用、抗血小板药物氯吡格雷的适用人群分类、他汀类降脂药副作用风险人群进行了分析。例如,对于高脂血症常用的降脂药辛伐他汀,中国人中有超过20%的个体存在横纹肌溶解这一不良反应的风险,提示一些药物需要谨慎使用。


再次,ChinaMAP对中国人的营养代谢相关遗传特征也进行了分析比较。证实导致喝酒脸红和酒精代谢能力差的乙醛脱氢酶2 基因rs671变异是东亚人特异性的,在中国人群中的携带者(纯合子比例4.50%,杂合子比例34.27%)远高于全球其他人群。rs671变异也是诱发食管癌发生的重要风险因素,所以喝酒脸红应少喝酒。


此外,ChinaMAP也将对药物开发、疾病机制研究和精准治疗等方向产生深远影响。

 

同时,动脉网读者如需了解更多信息,还可以报名关注曹亚南研究员在线宣讲视频《ChinaMAP:中国代谢解析计划全基因组和表型研究》

0