约翰霍普金斯大学Kimmel癌症中心的研究人员使用机器学习技术来检测癌症患者的突变特征。他们的算法优于当前的分析标准,并揭示了与肥胖相关的新的突变特征,癌症预防专家认为,肥胖正成为美国和大多数西方国家导致癌症的最重要的生活方式因素。
这项研究发表在1月25日的eLife杂志上。
“突变签名很重要在当前癌症研究,因为他们让你看到潜在因素留下的迹象,如老化、吸烟、饮酒、紫外线照射、和BRCA遗传突变导致癌症的发展,”研究负责人说,克里斯蒂安·Tomasetti,博士,肿瘤学副教授约翰霍普金斯Kimmel癌症中心,与生物统计学联合任命约翰霍普金斯大学彭博公共卫生学院的。
这项新技术使用了一种被称为机器学习的人工智能应用程序,通过计算机算法访问和分析数据来发现他们所谓的超分子,即揭示癌症潜在致病因素的基因效应的突变特征。他们的算法被归类为“受监督的”,因为这是一种分析,包括了在癌症基因分析算法训练过程中已知的暴露。用于评估基因组数据的最广泛使用的突变签名被归类为“无监督的”,因为它们不考虑已知的暴露。相反,它会注意到模式,然后将它们与暴露量联系起来。新方法还允许混合监督和非监督的方法,控制或阻断已知的致癌物质暴露的影响,以探索潜在未知因素的可能影响。
研究人员发现,新的监督技术在预测准确性方面优于无监督方法。有监督方法的曲线下中位数面积(AUC)为0.73的年龄和0.90的所有其他因素,而无监督方法的曲线下中位数面积为0.57的年龄和0.77的所有其他因素。
“AUC低于0.5意味着这种方法并不比纯粹的随机方法好。你可以得到的最高值是1,”第一作者Bahman Afsari博士说,他在发表前几个月一直是约翰霍普金斯大学Kimmel癌症研究中心的讲师。
他们还揭示了他们认为的与肥胖患者癌症相关的第一个突变特征,为肥胖和癌症起源相关的突变机制提供了证据。
“肥胖可以说是导致癌症的最重要的生活方式因素,但它导致癌症的机制还不清楚,”托马赛蒂说。“由于肥胖患者的癌症往往不会出现更多的突变,因此人们认为肥胖增加癌症风险的机制并非通过突变。”我们的研究结果表明,它至少有一部分是突变的。”
他们的方法还表明,一个病因或潜在因素并不总是对所有组织造成相同的突变影响,这一发现与无监督方法的假设相反。
“衰老会在不同的组织中产生不同的突变特征,吸烟和其他一些环境暴露也是如此,”共同第一作者、约翰霍普金斯大学彭博公共卫生学院的博士生阿尔伯特·郭说。“此外,在肺部,衰老的特征和吸烟的特征非常不同,但在其他组织中,吸烟的特征与衰老的特征相对相似,这表明炎症是主要机制。”
此外,该研究证实了随机突变(细胞DNA复制过程中发生的正常错误)在癌症发展过程中的关键作用。
“每次细胞分裂时,它都必须复制DNA。当复制和修复机制复制数十亿个字母(组成我们DNA的分子)时,错误就产生了。据估计,每次细胞分裂都会发生三到六个DNA突变,”托马赛蒂解释说。“导致癌症的突变的一个主要来源似乎是这些内源性过程,与遗传缺陷基因或有害暴露毫无关系。”
通过该算法,Tomasetti和他的团队确定,在所有肿瘤类型的癌症患者中发现的69%的突变可以归因于随机发生的突变,指出需要更多的精力和资源用于早期检测,他说。
“如果我们无法避免癌症的发生,那么接下来最好的事情就是在一切都太晚之前发现它。”如果我们能在早期发现癌症,那么一般来说,你就能挽救病人的生命。”