一种新的算法可以预测哪些基因会致癌,即使它们的DNA序列没有改变。柏林的一个研究小组综合了各种各样的数据,用“人工智能”对其进行了分析,并确定了许多癌症基因。这为个体化药物靶向治疗和生物标志物的开发开辟了新的前景。
在癌症中,细胞失控。它们增殖并进入组织,破坏器官,从而损害基本的生命功能。这种不受限制的生长通常是由癌症基因中DNA变化的积累引起的,也就是说,这些基因的突变控制着细胞的发育。但是有些癌症只有很少的突变基因,这意味着在这些情况下,其他原因会导致这种疾病。
柏林马克斯普朗克分子遗传学研究所(MpIMG)和赫尔姆霍兹-泽特鲁姆计算生物学研究所的一组研究人员利用机器学习技术开发了一种新的算法来识别165个以前未知的癌症基因。这些基因的序列不一定改变——显然,这些基因的失调已经可以导致癌症。所有新发现的基因都与已知的癌症基因密切相关,并且在细胞培养实验中被证明对肿瘤细胞的存活至关重要。
个性化药物的额外靶点
这种被称为“EMOGI”的算法用于解释多组学图形整合,也可以解释使基因成为癌症基因的细胞机制中的关系。正如由Annalisa Marsico领导的研究小组在《自然机器智能》杂志上描述的那样,该软件集成了从患者样本中生成的数万个数据集。这些信息包括DNA甲基化、单个基因的活性和细胞途径中蛋白质的相互作用以及突变的序列数据。在这些数据中,一种深度学习算法可以检测导致癌症发展的模式和分子原理。
“理想情况下,我们可以在某一点上获得所有癌症基因的完整图像,这可能对不同患者的癌症进展产生不同的影响,”Marsico说。“这是个性化癌症治疗的基础。”
为什么确定尽可能多的诱发癌症的机制是如此重要?
不同于传统的癌症治疗,如化疗,个性化治疗方法精确地治疗肿瘤的类型。为每个病人选择最好的治疗方法,最有效的治疗方法和最少的副作用。此外,我们还可以根据癌症的分子特征来鉴别早期癌症。“只有知道病因,我们才能有效地对抗或纠正癌症,”研究人员说。
“通过联合治疗可以取得更好的效果。“直到现在,大多数研究都集中在基因序列的致病性变化,”Roman Schulte Sasse说,他是Marsico团队的博士生,也是该论文第一作者。“同时,近年来,表观遗传干扰或失调的基因活性也会导致癌症,这是研究人员将反映基因蓝图中错误的序列数据与表示细胞内事件的信息相结合的原因。最初,科学家们证实了突变或基因组片段的增殖确实是癌症的主要驱动力。然后,在第二步中,他们确定了与实际癌症驱动基因不太直接的候选基因。
“例如,我们发现了在癌症中序列基本不变的基因,但对肿瘤来说是不可或缺的,因为它们调节能量供应,这些基因通过其他方式失去控制,例如,由于DNA上的化学变化,比如甲基化。这些修改保留了完整的序列信息,但控制着基因的活动。这类基因是很有希望的药物靶点,但由于它们是在后台运行的,我们只能通过使用复杂的算法来找到它们。”
为了寻找进一步研究的线索,研究人员的新计划在可疑癌基因列表中增加了大量新条目,近几年已经发展到700到1000个。只有通过生物信息学分析和最新的人工智能(AI)方法的结合,研究人员才能追踪到隐藏的基因。
“蛋白质和基因的相互作用可以被映射成一个数学网络,也就是一个图形,”Schulte Sasse说。“你可以把它想象成猜测一个铁路网;每个车站对应一种蛋白质或基因,它们之间的每一个相互作用就是火车的连接。”
借助于深度学习——近年来帮助人工智能取得突破的算法——研究者们甚至能够发现那些以前没有注意到的列车连接。Schulte Sasse让计算机分析了来自16种不同癌症类型的数万张不同的网络图,每一张图包含12000到19000个数据点。
适合其他类型的疾病也
隐藏在数据中的是许多更有趣的细节。“我们看到的模式依赖于特定的癌症和组织,”Marsico说。“我们认为这是肿瘤由不同器官的不同分子机制触发的证据。”研究人员强调,EMOGI程序并不局限于癌症。从理论上讲,它可以用来整合不同的生物数据集,并在那里找到模式,Marsico解释说:“将我们的算法应用于收集了多方面数据且基因起重要作用的类似复杂疾病可能是有用的。例如糖尿病等复杂的代谢性疾病。”
Journal Reference:
Roman Schulte-Sasse, Stefan Budach, Denes Hnisz, Annalisa Marsico. Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms. Nature Machine Intelligence, 2021; DOI: 10.1038/s42256-021-00325-y