代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性和定量分析的一门学科,被广泛用于揭示小分子与生理病理效应间的关系。由于其具有最接近表型的独特优势,因而与新药研发领域科研工作者的目标高度契合。目前,代谢组学已经被应用于药物开发的各个阶段,包括药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等。基于代谢组学的高性价比特性,它被研究者给予了厚望,有望显著加速新药开发的进程。然而,代谢组学领域还面临着严重的信号处理与数据分析问题,对其应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,需要开发针对代谢组学信号处理开展系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。

近期,浙江大学药学院和智能创新药物研究院朱峰教授团队与阿里巴巴-浙江大学未来数字医疗联合研究中心合作在《Nature protocols》发表了题为“Optimization of metabolomic data processing using NOREVA”的研究论文。该论文报道了一套基于机器学习和并行计算的优化组学信号处理策略的方法。该方法通过大规模扫描现有的海量信号处理流程,针对用户给定的代谢组学原始数据,可以快速地优化出性能最佳的组学数据处理流程。这一方法实现了对新药开发领域常见的“时间序列”和“多分类”代谢组学问题的数据处理,对药物靶标发现、药物代谢、药物响应与疾病发生发展的病理学机制研究有着重要的价值。

为解决大规模扫描海量信号处理流程过程中所面临的计算资源瓶颈问题,本研究首次将并行计算架构引入代谢组学数据处理。该项工作中的测试显示,相比串行运算来说,该方法整合的并行计算仅在个人电脑上就将运行效率提高了10倍以上,目前正在推进在阿里云平台上部署运行和对外服务。

浙江大学药学院博士研究生傅建波和张滢为该文的共同第一作者,浙江大学药学院和智能创新药物研究院朱峰教授为通讯作者。本研究受到了浙江省自然科学基金杰出青年项目、国家级人才项目和阿里巴巴-浙江大学未来数字医疗联合基金项目的联合资助。

原文链接:https://www.nature.com/articles/s41596-021-00636-9