癌细胞的DNA中可能有数千种突变。然而,其中只有少数真正推动了癌症的发展;其余的只是随波逐流。

区分这些有害的突变和中立的突变可以帮助研究人员找到更好的药物靶点。为了推动这些努力,麻省理工学院领导的一个团队建立了一个新的计算机模型,该模型可以快速扫描癌细胞的整个基因组,并识别出比预期发生得更频繁的突变,表明它们正在推动肿瘤的生长。这种类型的预测一直具有挑战性,因为一些基因组区域具有极高的乘客突变频率,淹没了实际司机的信号

麻省理工学院(MIT)研究生麦克斯韦·谢尔曼(Maxwell Sherman)说:“我们创造了一种概率性的、深度学习的方法,使我们能够得到一个真正准确的模型,了解应该存在于基因组任何地方的乘客突变的数量。”“然后我们可以在整个基因组中寻找突变意外积累的区域,这表明这些是驱动突变。”

在他们的新研究中,研究人员在基因组中发现了额外的突变,这些突变似乎有助于5%到10%的癌症患者的肿瘤生长。研究人员说,这一发现可以帮助医生找到更有可能成功治疗这些患者的药物。目前,至少有30%的癌症患者没有检测到可以用来指导治疗的驱动基因突变。

一个新工具

自从20年前人类基因组被测序以来,研究人员一直在搜索基因组,试图找到导致细胞不受控制地生长或逃避免疫系统而导致癌症的突变。这已经成功地产生了诸如表皮生长因子受体(EGFR)和BRAF(黑色素瘤的常见驱动因子)等靶点。EGFR在肺肿瘤中经常发生突变。这两种突变现在都可以被特定的药物靶向。

虽然这些目标已经被证明是有用的,但蛋白质编码基因只占基因组的2%左右。另外的98%也含有可以在癌细胞中发生的突变,但要弄清楚这些突变是否会导致癌症的发生就困难得多了。

Berger说:“我们确实缺乏计算工具来搜索蛋白质编码区域之外的这些驱动突变。”“这就是我们在这里试图做的:设计一种计算方法,让我们不仅看到编码蛋白质的2%的基因组,而且看到它的100%。”

为了做到这一点,研究人员训练了一种被称为深度神经网络的计算模型,以搜索癌症基因组中出现的比预期更频繁的突变。作为第一步,他们利用37种不同癌症的基因组数据训练模型,这使得模型能够确定每种癌症的背景突变率。

“我们的模型真正好的地方在于,你对它进行一次针对特定癌症类型的训练,它就能同时学习该特定癌症类型在基因组各处的突变率。”“然后你可以查询你在一个患者队列中看到的突变,对比你应该看到的突变数量。”

用于训练模型的数据来自“表观基因组学路线图项目”(Roadmap Epigenomics project)和一个名为“泛癌症全基因组分析”(pan-Cancer Analysis of Whole genome, pCAWG)的国际数据集合。该模型对这些数据的分析为研究人员提供了一幅整个基因组中预期乘客突变率的地图,这样,任何一组区域(到单个碱基对)的预期突变率都可以与整个基因组中任何地方观察到的突变率进行比较。

“隐性剪接突变”

利用这个模型,麻省理工学院的研究小组能够增加已知的导致癌症的突变情况。目前,当癌症患者的肿瘤被筛查出致癌突变时,大约三分之二的情况下会出现一个已知的驱动因子。麻省理工学院研究的新结果为另外5%到10%的患者提供了可能的驱动基因突变。

研究人员关注的一种非编码突变被称为“隐性剪接突变”。大多数基因由编码蛋白质构建指令的外显子序列和内含子序列组成,内含子序列是信使RNA在被翻译成蛋白质之前通常被修剪掉的间隔元件。隐性剪接突变存在于内含子中,它们可以扰乱剪接它们的细胞机制。这导致内含子在不应该被包含的时候被包含。

利用他们的模型,研究人员发现许多隐性剪接突变似乎会破坏肿瘤抑制基因。当这些突变出现时,肿瘤抑制子就会错误地拼接并停止工作,细胞就会失去对癌症的一种防御。研究人员在这项研究中发现的隐性剪接位点的数量约占肿瘤抑制基因中发现的驱动突变的5%。

研究人员说,针对这些突变可能提供一种治疗这些患者的新方法。一种可能的方法仍在开发中,它使用被称为反义寡核苷酸(ASOs)的RNA短链,以正确的序列修补突变的DNA片段。

“如果你能以某种方式让突变消失,那么你就解决了问题。这些肿瘤抑制基因可以继续工作,也许还能对抗癌症,”雅里说。“ASO技术正在积极开发中,这可能是它的一个很好的应用。”

研究人员发现的另一个非编码驱动突变高度集中的区域是在一些肿瘤抑制基因的非翻译区域。肿瘤抑制基因Tp53在许多类型的癌症中都有缺陷,人们已经知道它在这些被称为5 '非翻译区域的序列中积累了许多缺失。麻省理工学院的研究小组在一种名为ELF3的肿瘤抑制因子中发现了同样的模式。

研究人员还使用他们的模型来调查,已知的常见突变是否也可能导致不同类型的癌症。例如,研究人员发现,BRAF先前与黑色素瘤有关,现在也会导致其他类型癌症(包括胰腺癌、肝癌和食管癌)的较小比例的癌症进展。

“这表明,普通司机和稀有司机之间实际上有很多重叠。这为重新利用治疗提供了机会,”Sherman说。“这些结果可以帮助指导我们应该建立的临床试验,将这些药物从仅仅被批准用于一种癌症,扩展到被批准用于多种癌症,并能够帮助更多的患者。”

文章标题Genome-wide mapping of somatic mutation rates uncovers drivers of cancer