休斯顿-由德克萨斯大学MD安德森癌症中心的研究人员开发的一种新的数据分析工具,结合了用户友好的自然语言界面,使没有专门从事生物信息学或编程语言专业知识的生物医学研究人员可以对大型数据集进行直观分析。

创建开放式,人工智能(AI)驱动的程序DrBioRight的目的是降低所有研究人员充分利用现代研究方法中产生的越来越大量数据的障碍。该平台的报告今天在《癌细胞》中发表。

“我们认为,我们可以通过创建一种任何研究人员都可以使用的工具,来改进当前进行常规生物信息学分析的模型,并大大缩短周转时间,”生物信息学和计算生物学教授韩亮博士说。“我们对DrBioRight的长期目标是成为每个研究人员的明智合作者。”

现代生物医学研究中使用的高通量技术会生成大型,复杂的数据集,这些数据集可提供有关正在研究的患者,动物模型或细胞系的全面信息。这些可能包括,例如,研究整个遗传信息(基因组学),基因表达(转录组学)或蛋白质表达(蛋白质组学)。

梁解释说,由于这些“组学”数据集是如此复杂,因此在没有专门的分析方法的情况下回答特定的生物学问题可能具有挑战性。这些分析通常通过使用以多种编程语言编写的计算机脚本来完成,这需要对编程和生物信息学都有一定的了解。

生物信息学家可以帮助导航和处理这些复杂的数据集,但是工作可能很耗时。因此,研究团队开发了DrBioRight,使研究人员可以通过具有自然语言交互作用的用户友好的聊天界面,更轻松地对自己的数据进行常规分析。

Liang解释说,面向自然语言的程序允许用户像自然说话一样提问程序问题,而不是使用复杂的编程语言。

DrBioRight免费提供给学术研究人员。最初,该程序具有许多模块,可以处理最常见的生物信息学问题类型,并且包括一些最常用的公共癌症数据集,例如The Cancer Genome Atlas和Cancer Cell Line Encyclopedia。

作为对该方法的证实,研究人员使用DrBioRight复制了经典癌症基因组学论文的分析,发现该论文能够准确地再现以前发表的结果。

由于该程序是由AI驱动的,因此它还具有从每次查询中学习并改进分析的能力,随着时间的推移,它变得更加有用。展望未来,研究人员希望改进DrBioRight,以使用户能够分析自己的数据集并允许对新模块进行开放式开发。

“在努力改善程序的同时,我们还希望其他生物信息学家能够贡献他们的算法并教授DrBioRight,” Liang说。“整个研究界的参与将有助于创建一种工具,有助于更有效地回答复杂的研究问题。”