普林斯顿大学的研究人员发现了四种导致婴儿癌症的特定基因,机器学习被用于深入了解数百种疾病的原因。

在一个揭示疾病之间分子差异的工具的演示中,研究人员发现了四种与罕见的儿科癌症相关的基因。左边的图像显示正常细胞,而右边的图像突出显示神经母细胞瘤中发现的一个基因,这些基因折磨着婴儿和幼儿。普林斯顿大学的计算机科学家和生物学家团队与密歇根州立大学和奥斯陆大学合作,在2019年2月的Cell Systems杂志上展示了他们的新系统Unveilling RNA Sample Annotation for Human Diseases(URSA HD)的能力。。

该系统利用机器学习通过同时分析300多种不同疾病来识别基因活动模式。所分析的疾病包括癌症,心脏病和代谢紊乱,以及其他各种疾病。

URSA HD不是检测DNA,而是使用RNA,这是一种由细胞产生的核酸,可促进遗传信息从DNA流向细胞的蛋白质。这种焦点使得系统不会集中于基因突变,而是集中在可能导致下游问题的信息流产生的产品上,即使产品最初来自的原始基因是健康且正常运作的。“真正的创新是将所有样品与其他样品进行比较,”负责该项目的主要研究人员之一Chandra Theesfeld说。

URSA HD能够突出疾病和组织类型之间的差异,甚至能够找出相关疾病之间的微调差异,到目前为止,这些差异很难或不可能通过其他分析方法找到。

该系统使用大约8,000个活组织检查中的基因活动的公共记录,包括健康和患病组织样本。

谈到分析大量样本的好处,Theesfeld是Olga Troyanskaya实验室的研究科学家,普林斯顿大学教授和西蒙斯基金会基因组学副主任,他解释说:“Studying them together provides a way to distinguish unique aspects.” She goes on to say that this method enables the team to “learn new things about disease that aren’t possible to find with the one-disease-at-a-time approach,” and that they can “potentially identify new targets for therapies or even discover new aspects of disease that weren’t appreciated.”

关于URSA HD的Cell Systems论文指出,“诊断和治疗复杂人类疾病的关键挑战是确定其分子基础”,并解释说新系统可以区分相关疾病,其准确度高于“文献 -经验证的基因或传统的基于差异表达的计算方法“。该团队还声称URSA HD可以应用于“任何疾病,包括罕见和未研究的疾病”。Theesfeld指出,90%的基因研究只看到10%的人类基因,而URSA HD则考虑整个人类基因组为每种疾病设计全基因组模型或特征。

该系统的算法突出了不同疾病和组织所特有的基因活性差异,这有利于研究罕见疾病,这些疾病可能只有少数样本可用于构建基因组模型。

正如细胞系统论文中所解释的那样,URSA HD提供了“研究人员数据集的疾病信号估计以及可解释疾病模型的链接,包括生物过程,相关组织和解剖信息,以及可直接使用的加权基因列表。生物医学研究社区。“

“我们的方法是由患者样本中的疾病信息驱动的,因此它不会偏向于常常被研究的流行疾病基因,”Theesfeld说。“我们可以跟踪数据变化的模式,而无需确切知道每个变化的含义。”关于URSA HD的必要性,Troyanskaya说“将复杂的数据科学与深入的生物学知识相结合的跨学科方法是解读实现精准医学承诺所必需的生物医学难题的关键。”

Troyanskaya的实验室长期致力于整合大量不同的数据集,以获取信息,使科学家能够做出准确的生物预测,从而推动研究,实验和发现的整体发展。普林斯顿经常将计算与生物学结合起来,创造出可能对健康产生重要潜在影响的工具。普林斯顿研究小组希望URSA HD能帮助临床医生诊断疾病,帮助他们设计更准确的治疗计划,追踪疗效,并发现新的治疗方案。