由格里芬佐治亚大学食品安全中心的研究人员领导的一个科学家小组开发了一种机器学习方法,可以更快地识别某些沙门氏菌爆发的动物来源。

在2019年1月出版的“新发传染病”杂志上发表的研究中,邓翔宇和他的同事使用了一千多个基因组来预测鼠伤寒沙门氏菌的动物来源,特别是牲畜。

该中心的食品微生物学助理教授邓和该中心的博士后张绍康领导了该项目,该项目还包括疾病预防控制中心,美国食品药品管理局,明尼苏达州的专家。卫生与转化基因组学研究所。

根据食源性疾病暴发监测系统,2009年至2015年美国报告了近3000起食源性疾病暴发。其中900%或30%是由不同血清型的沙门氏菌引起的,包括鼠伤寒,邓说。

“我们在2018年至少爆发过三次Typhimuirum或其近似变种。这些暴发与鸡肉,鸡肉沙拉和干椰子有关,”他说。“有超过2,600种血清型的沙门氏菌,而鼠伤寒只是其中之一,但自20世纪60年代以来,大约四分之一的沙门氏菌分离株与报告给美国国家监测的暴发有关,是Typhimurium。”

研究人员训练了“机器”,这是一种称为随机森林的算法,具有1,300多种具有已知来源的鼠伤寒沙门氏菌基因组。培训结束后,“机器”学会了如何预测鼠伤寒沙门氏菌基因组的某些动物来源。

在这项研究中,科学家们使用了来自三个主要监测和监测计划的鼠伤寒沙门氏菌基因组:CDC的pulseNet网络;FDA在美国,欧洲,南美洲,亚洲和非洲的GenomeTrakr数据库;和国家抗菌药物耐药监测系统的FDA部门的零售肉类分离物。

“有了这么多基因组,机器学习是处理所有这些数据的自然选择。

我们使用这一大量的鼠伤寒基因组作为训练集来构建分类器,“邓说,因为他在这一领域的工作,他于2017年获得了UGA创意研究奖章。”分类师通过询问成千上万来预测鼠伤寒分离株的来源。其基因组的遗传特征。“

总体而言,该系统预测了鼠伤寒沙门氏菌的动物来源,准确率为83%。该分类器在预测家禽和猪源方面表现最佳,其次是牛和野鸟源。机器还检测其预测是精确还是不精确。邓说,当预测准确时,机器准确率约为92%。

“我们回顾性分析了1998年至2013年美国发生的8起主要人畜共患病爆发事件,”他说。“分类器将其中七个归因于正确的牲畜来源。”

邓说这个工具有局限性;它不能预测海产品作为来源,并且难以预测沙门氏菌菌株“在不同的动物中跳跃”。

“我称这种方法是一种概念验证。随着来自不同来源的更多基因组变得可用,它会变得更好,”他说。

在关于这项研究的推文中,FDA的副主任Frank Yiannas称全机基因组序列的机器学习是“智能食品安全和流行病学的新时代”。

对于普通人来说,这个项目的成功意味着鼠伤寒沙门氏菌的菌株可以更快地追溯到源头。确定导致食源性疾病爆发的原因是阻止疾病和预防进一步疾病的关键。

“使用我们的方法,研究人员可以更好地将同一爆发的病例联系起来,更好地将食品或食品加工环境中的菌株与病人隔离开来,”他说。“这将使研究人员更有信心暗示爆发背后的特定来源。”