利用人工智能技术,研究人员已经证明所谓的“垃圾” DNA突变会导致自闭症。该研究发表在《自然遗传学》(Nature Genetics)上,是第一个将此类突变与神经发育状况进行功能关联的研究。

这项研究是由Olga Troyanskaya与Robert Darnell合作进行的。Troyanskaya是纽约熨斗研究所计算生物学中心(CCB)的基因组学副主任,也是普林斯顿大学计算机科学教授。Darnell是洛克菲勒大学的罗伯特和哈里特·海尔布伦癌症生物学教授,也是霍华德·休斯医学院的研究员。

他们的团队使用机器学习技术分析了1,790名自闭症患者及其未受影响的父母和兄弟姐妹的整个基因组。这些人没有自闭症家族史,这意味着其状况的遗传原因可能是自发突变,而不是遗传突变。

该分析预测了基因组部分不编码蛋白质的基因突变的后果,这些区域经常被误称为“垃圾” DNA。与非编码突变相关的自闭症病例数量与与禁用基因功能的蛋白质编码突变相关的病例数量相当。

Troyanskaya说,这项工作的意义不仅仅限于自闭症。“这是导致任何复杂的人类疾病或病症的非遗传,非编码突变的第一个明确证明。

该研究的合著者,中国建设银行和普林斯顿大学的研究人员说,科学家们可以利用这项新研究中使用的相同技术来探索非编码突变在诸如癌症和心脏病等疾病中的作用。“这使人们不仅对自闭症的原因,而且对许多人类疾病的原因有了新的认识。”

人类基因组中只有1%到2%的基因由编码蛋白质制造蓝图的基因组成。这些蛋白质执行我们整个身体的任务,例如调节血糖水平,抵抗感染并在细胞之间传递通讯。不过,我们基因组的其他98%不是遗传死重。非编码区有助于调节基因何时何地产生蛋白质。

在没有自闭症家族史的个体中,蛋白质编码区的突变最多占自闭症病例的30%。有证据表明,导致自闭症的突变也必须发生在基因组的其他地方。

揭露哪些非编码突变可能导致自闭症很棘手。一个人可能有数十个非编码突变,其中大多数将是该人独有的。这使得确定受影响人群中常见突变的传统方法不可行。

Troyanskaya和她的同事采取了一种新方法。他们训练了机器学习模型来预测给定序列将如何影响基因表达。

普林斯顿大学Troyanskaya实验室的研究科学家钱德拉·塞斯菲尔德(Chandra Theesfeld)表示:“这是我们在分析中引入的关于遗传研究的思维方式的转变。”“除了科学家研究大批个体之间共享的基因突变外,我们还在这里应用了一套智能,复杂的工具,可以告诉我们任何特定的突变将要做什么,甚至是罕见的或从未见过的突变。”

研究人员通过将机器学习模型应用于称为Simons Simplex Collection的遗传数据宝库,研究了自闭症的遗传基础。熨斗研究所的母组织西蒙斯基金会(Simons Foundation)生产并维护了该存储库。Simons Simplex系列包含近2000个“四重奏”的全部基因组,这些四重奏由一个患有自闭症的孩子,一个未受影响的兄弟姐妹及其未受影响的父母组成。

这些四人家庭以前没有自闭症家族史,这意味着未遗传的突变可能是患病儿童的病因。(这种突变在精子和卵细胞以及胚胎中自发发生。)

研究人员使用他们的模型预测了每位自闭症儿童的非遗传非编码突变的影响。然后,他们将这些预测与孩子未受影响的同胞中相同的未突变链的影响进行了比较。

Zhou说:“ Simons Simplex Collection的设计使我们能够进行这项研究。”“不受影响的兄弟姐妹是内置控件。”

分析表明,许多自闭症儿童的非编码突变改变了基因调控。而且,结果表明,这些突变影响了大脑中的基因表达以及已经与自闭症相关的基因,例如负责神经元迁移和发育的基因。该研究的合著者,CCB研究科学家克里斯托弗·帕克(Christopher park)说:“这与自闭症最有可能在大脑中表现出来的现象是一致的。”“不仅发生突变的数量,而且发生什么样的突变。”