Genome sequencing lab at UW Medicine

图片:在华盛顿大学医学院基因组科学系Evan Eichler的基因组测序实验室。埃奇勒在左边,博士后学生Mitchell Vollger站着,博士后学生Glennis Logsdon坐在电脑前。

美国国家人类基因组研究所(National human genome Research Institute)本周公布了首个完整的、无间隙的人类基因组序列,华盛顿大学医学院(UW Medicine)的基因组科学家是该研究的主要贡献者之一。

华盛顿大学西雅图分校(University of Washington in Seattle)基因组科学教授埃文·埃奇勒(Evan Eichler)的实验室是发表在4月1日《科学》(Science)杂志上的主要论文《人类基因组的完整序列》(The complete sequence of The human genome)的主要贡献者之一。这一成果是一个名为端粒到端粒(T2T)的大型组织的成果,该组织旨在获得所有23条人类染色体的端到端完整序列。

埃奇勒的团队和来自其他机构的合作者还发表了一篇配套论文,首次全面阐述了高度相同的大重复区域(称为分段复制)及其在人类基因组中的变异。

人类基因组的这些区域对于理解人类进化和遗传多样性以及对许多疾病的抵抗力或易感性至关重要。在人类基因组的2万个基因中,大约950个基因起源于段复制。

然而,由于其复杂性,分段复制是人类基因组组装中最后被完全测序的区域之一。

解决这些区域的愿望是推动测序技术进步的部分原因,比如读取长段DNA的能力。这些技术,连同许多实验室工具、计算生物学方法和其他重要的研究资源,在20多年前人类基因组的第一次起草中是不存在的。

由埃奇勒实验室领导的研究小组在本周发表的《科学》杂志(Science)杂志的一篇论文中报告了他们的研究结果和分析,论文的标题是《完整人类基因组中的分段复制及其变异》(Segmental duplicate and their variation in a complete human genome)。这篇论文的主要作者是华盛顿大学医学院基因组科学博士后米切尔·r·沃尔杰(Mitchell R. Vollger)。他运用计算机科学、数据可视化和数学方面的技能来分析新的基因组重复,以进一步理解人类在片段重复中的变异。他们与埃奇勒实验室的研究生菲尔·迪施克(phil Dishuck)合作,发现人类基因组的完成增加了大约180个“新的”蛋白质编码基因,几乎所有的基因都映射到段复制上。

“2001年,当我还是个孩子的时候,我看到了一本关于完整人类基因组的杂志封面,”沃尔杰回忆说。“我记得我认为这是最酷的项目,我很失望,因为我永远无法做这么酷的事情。在这个项目中,我想了很多,我可以为人类基因组贡献序列,这让我非常兴奋,我有机会做这件事。”

最近在对这些区域进行排序的研究中,出现了几个有趣的发现。

除了完成组装的医学研究意义之外,它还有助于回答:我们的基因组中包含了什么,使我们与众不同?一些原始基因组中的基因缺口现在被认为是至关重要的,有助于使人类的大脑比其他类人猿更大。

埃奇勒的实验室还从其他非人灵长类动物的基因组中生成了长时间阅读的组合,并将其与新的无间隙人类基因组组合进行了比较。他们系统地重建了一些生物医学相关基因的进化过程,以及某些人类特有的复制基因。

这些人类特有的片段复制是新基因的水库,这些新基因驱动发育中的大脑中更多神经元的形成,并增加额叶皮层突触的连通性。额叶皮层是大脑的解剖学部分,在这里,一些高层次的思考、推理、逻辑,语言功能似乎是人类特有的。

在TBC1D3基因家族中,一个与人类前额叶皮层扩张相关的基因家族,埃奇勒实验室的研究生哈维·吉特(Xavi Guitart)分析表明,周期性和独立的扩张发生在灵长类进化的不同阶段。最近的一次是在200万到260万年前,大约是人属出现的时候。令人惊讶的是,人类TBC1D3基因家族在一个样本子集中显示出显著的、大规模的结构变异。

“不同的人携带着完全不同的TBC1D3基因家族的补体和排列,”研究人员在他们的论文中解释道,这对于一个被认为对大脑功能如此重要的基因来说是出乎意料的。科学家们还发现了LpA基因复杂结构的多样性,这种脂蛋白基因的部分变异构成了由血液中异常的脂质水平引起心血管疾病的最重要的遗传风险因素。

研究人员还观察了SMN(一种运动神经元基因),该基因的突变与某些神经肌肉疾病有关。有更好的顺序解决地区脊髓性肌萎缩症——最困难的地区之一完成5 -可能是染色体上的实际优势在治疗疾病风险决定和SMN2基因复制的目标是一个最有效的基因疗法。

基于这些发现和其他发现,科学家们注意到,新的参考基因组“揭示了对神经发育和人类疾病至关重要的基因中,人类遗传变异的水平是前所未有的。”

除了成为人类生物学新知识的来源外,最近完成的人类基因组也可能回答细胞生物学的一些基本问题。例如,这种组合将有助于更好地理解存在于每个人类染色体上的着丝粒的差异。着丝粒的问题会在细胞分裂过程中引起困难。

研究着丝粒的序列可以找到导致细胞分裂和细胞间遗传物质分配出错的根本原因。这包括癌症以及影响产前发育的异常,如唐氏综合症或罗伯逊易位。

威斯康辛大学医学院(UW School of Medicine)基因组科学博士后格伦尼斯·a·洛格斯登(Glennis a . Logsdon)在着丝粒测序方面取得了几项发现。

她解释说:“我们必须开发新的方法来瞄准这些地区。”“为了跨越这些区域,我们利用了已经出现的新技术,比如超长测序。我们还努力打磨基因组序列,以确保其高度精确。”

埃奇勒评论了早期职业生涯的人类基因组研究人员在T2T项目中获得的培训和经验。

他说:“我认为能够帮助培养下一代科学家是一种荣幸。”“看着他们从学生的身份开始,参与一个大项目,然后把它提升到下一个水平,这很有趣。”

早在2001年,埃奇勒就参与了最初的人类基因组计划。他对基因组的一些区域着迷,这些区域从高度重复的角度来看是复杂的,但也可以编码基因。

当人类基因组序列计划宣告结束时,很多区域还没有完成。

埃奇勒补充说,从那时起,他就有了完成这些作品的强烈愿望。

“我总是回到这一点,为了全面理解基因变异,我们需要一个完整的参考。否则,我们就失去了拼图的一部分。对于某些人来说,解决了95%的谜题就足够了。但我想,对我来说,得到最后的5%是非常重要的,因为我相信,我们对疾病或进化所不了解的东西,在我们一开始没有排序的那5%的基因组中,有太多不成比例的代表。”

这不是结束,他说。“尽管人们会说,‘好吧,我们已经完成了基因组的研究。“我们完成了一个基因组。在接下来的几年里,将会有成百上千个基因组。我认为,我们对人类差异的看法将会发生转变,更复杂的基因变异不仅对我们人类的形成很重要,而且对我们的不同也很重要。”

文章标题

Segmental duplications and their variation in a complete human genome