西安交通大学研究生院,西安交通大学研究生院官网

人类基因组学正在见证从单一参考序列到泛基因组形式的持续范式转变,但亚洲血统的人群代表性不足。

2023年6月14日,复旦大学徐书华、陆艳、中国医学科学院褚嘉祐及西安交通大学叶凯共同通讯在Nature在线发表题为“A pangenome reference of 36 Chinese populations”的研究论文,该研究报道了来自中国人泛基因组联盟(CPC)第一阶段的数据,包括基于代表36个中国少数民族的58个核心样本的116个高质量和单倍型阶段的从头组装。

通过研究这些中国人群泛基因组特异结构变异在基因组上的分布,发现了与807个蛋白编码基因相关的223个变异热点区域,并且这些变异与东亚人群常见性状紧密相关,如尿石症,肾结石和甲状腺肿大等。此外,CPC还检测出了较高比例的古人来源的新序列(每个个体新增9.5 Mb),为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的线索。

在过去的二十年中,参考人类基因组序列已成为遗传和生物医学研究和应用的基础;然而,人们普遍认为,没有一个单一的参考序列可以代表全球种群的基因组多样性。一方面,高质量的群体特异性和单倍型解析基因组参考对于遗传和医学分析是必要的。另一方面,显然有必要从单一参考转向更好地代表人类种群内部和种群之间的基因组多样性或等位基因变异的泛基因组形式。随着长读测序技术和计算方法的进步,从大量不同基因组中捕获缺失变异的泛基因组构建已经成为可能。人类泛基因组参考联盟(HPRC)最近基于全球47个人群样本构建了人类泛基因组参考草案,但东亚人群样本代表性不足(n = 4)。特别是,HPRC参考中仅包括三个南汉人(CHS)样本,太少,无法代表中国等人口为1.44亿人口的地区的种族基因组多样性。

之前的研究表明,亚洲的遗传多样性并没有被大型国际合作项目(如1000基因组计划)很好地覆盖。虽然在基因组研究中需要提高不同祖先背景的代表性是众所周知的,但与欧洲血统的人群相比,亚洲血统的基因组研究要少得多。中国拥有丰富的遗传多样性,除汉族外,还有55个官方承认的少数民族和相当数量的未被承认的少数民族。尽管测序技术的进步导致端粒到端粒的单倍体组装T2T-CHM13,但使用长读DNA测序技术,只有有限数量的中国基因组重新组装成高质量的单倍型序列。仅有的两项关于中国人泛基因组的研究,且仅限于汉族样本的短读测序数据。迫切需要建立一个高质量的泛基因组参考,以更好地代表中国人群的巨大基因组多样性。

CPC泛基因组图和CPC特异性变异与HPRC组合的比较(图源自Nature)

中国人泛基因组联盟(CPC)的目标是利用第三代测序技术对至少500个个体进行从头测序,以便更好地检测和编目中国人群的序列变异。在此,研究人员提出了基于CPC第一次测序工作(第一阶段)的中国泛基因组参考草案。CPC核心序列的平均高保真长读序列覆盖率为30.65倍,平均连续N50超过35.63兆碱基,平均总大小为3.01兆碱基,为GRCh38增加了1.89亿碱基对的常染色质多态性序列和1367个蛋白质编码基因重复。

该研究确定了1590万个小变异和78072个结构变异,其中590万个小变异和34223个结构变异最近未报道。中国泛基因组联盟的数据表明,当个体来自代表性不足的少数民族群体时,发现的新序列和缺失序列显著增加。缺失的参考序列富含源自古代的等位基因和基因,这些等位基因和基因赋予与角化、紫外线辐射反应、DNA修复、免疫反应和寿命相关的基本功能,这意味着在复杂疾病制图中揭示人类进化的新线索和恢复缺失的遗传能力的巨大潜力。

西安交通大学叶凯教授、复旦大学徐书华教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为该文的共同通讯作者,西安交通大学杨晓飞副教授、复旦大学博士后高扬、中国科学院上海营养与健康研究所博士生陈豪、谭昕江、中国医学科学院杨昭庆研究员、复旦大学邓恋青年研究员为论文的并列第一作者。研究工作得到了国家自然科学基金、科技部重点研发计划等项目的资助。

https://www.nature.com/articles/s41586-023-06173-7

西安交通大学研究生院(西安交通大学研究生院官网)

类似文章