上个月,一个国际研究团队发表了一项全基因组测序的成果,将数千名COVID-19重症患者与对照进行比较,发现并重复了23个独立的变异,它们使得个体更容易患上重症肺炎1。
该联盟数据来自GenOMICC、23andMe以及COVID-19人类遗传学计划,而其他验证数据则来自英国生物样本库(UK Biobank)、AncestryDNA、宾州生物样本库(penn Medicine Biobank)和Geisinger Health Systems。
论文一作、Genomics England公司的首席基因组学数据科学家Athanasios Kousathanas称:“Genomics England完成了全基因组测序和全基因组关联研究的工作,我们试图通过几年前的另一个项目(十万人基因组计划),将基因组中的特定变异与疾病严重程度关联起来。”
这项研究揭示了23个基因组变异,它们使得个体更易患上COVID-19重症。五个相关变异在干扰素信号传导中起直接作用,而一个风险变异破坏了重要的核定位信号。数据还表明粘蛋白的表达也与重症相关,具有潜在的治疗作用。
Kousathanas表示,自9月以来,他们已将这些结果分享给制药公司,以推动相关药物的临床试验工作。他认为这个非常紧迫。“我们不希望在十年后才获得结果,我们现在就需要治疗靶点。”
对于Genomics England团队来说,这是他们利用COVID-19数据集发表的第二篇论文。第一篇论文于2020年底发表,报告了2,244例危重患者的全基因组关联分析结果2,此次分析对此进行了扩展。据产品经理Francis Carpenter介绍,预计还会有第三篇,对大约30,000例患者进行分析,其中一半是重症,一半是轻症,外加对照组。目前正在分析这些数据。
总的来说,这篇论文代表了超过55,000人的全基因组序列:7,491名重症患者,来自英国卫生系统内的224个重症监护病房;48,400名对照,包括十万人基因组计划的参与者和COVID-19轻症患者。
如此大型的数据集,无论是在规模上,还是在紧迫性上,都对研究人员提出了新挑战。据介绍,其他大型队列往往需要几个月甚至几年的时间来完成数据聚合。而在这项研究中,他们一个月就完成了。由于该疾病的新颖性,数据分析一次又一次重复开展。
Kousathanas表示:“我们想尽快开展这项分析并迅速得到结果,以便在大流行中有所作为,因此我们必须加快进度,过去一年的工作,我们在一个月内完成了。而且我们做了很多次!”
大规模分析的经验
Carpenter认为,尽管分析团队夜以继日地工作才能完成,但这些也为将来如何加快此类项目带来了经验。“从基础架构的角度来看,我们正在学习如何让这些流程具备高性能和可扩展性,”他说。
“目前,我们的一些转变是从带有固定内存和处理器的本地高性能计算集群(你当然可以购买更多,但最终是有限的)转到可扩展的云计算平台。”对于Genomics England来说,这意味着与Amazon Web Services合作。
“当我们想在短时间内运行大规模分析时,我们可以使用数千个CpU,然后停下来,而不是无限期地为它们付费。根据分析所需的内容按需使用并自动扩展计算能力,这也是多项分析迁移到云端的原因。”
测序和处理本身也带来了一些挑战。他们的测序是在Illumina的HiSeq和NovaSeq平台上完成的。早期的十万人基因组样本是用旧的分析流程比对的,而现在的COVID-19样本是用新的流程比对的。Kousathanas解释说,这产生了批次效应,需要加以解决。
“我们采用的方式是同时使用两个流程来处理某些个体的样本,这样我们基本上就能找到出现批次效应的基因组位置,”他说。“最终,我们检测了800万至1500万个变异。”
Kousathanas表示,Illumina也直接与Genomics England合作来解决一些问题,甚至更改软件源代码,让数据处理的扩展性更好。“我们得到了很多帮助!”
全基因组测序的未来
Kousathanas和Carpenter认为,这项研究是一个重要的例子,说明全基因组测序不仅可用于研究,还有助于医疗保健决策的制定。
“有一种观点认为,遗传研究需要很长时间才能找到致病机制。使用这些知识需要时间,也很难用这些知识来建立治疗方法。对于这种特殊方法的实用性以及为此花费的成本,许多人还心存质疑,”Kousathanas承认。“我希望这项研究能够证明此类分析的价值。”
Carpenter同意他的观点。“对我来说,这项成果最重要的事情之一就是价值证明。Genomics England不仅在现有数据集上开展了大规模的内部研究,还发表了一系列重要的成果,我相信这些将会改变治疗。”
参考文献
1. Kousathanas, A., pairo-Castineira, E., Rawlik, K. et al. Whole genome sequencing reveals host factors underlying critical Covid-19. Nature (2022). https://doi.org/10.1038/s41586-022-04576-6
2. pairo-Castineira, E., Clohisey, S., Klaric, L. et al. Genetic mechanisms of critical illness in COVID-19. Nature 591, 92–98 (2021). https://doi.org/10.1038/s41586-020-03065-y