人类善于观察图像,寻找模式或进行比较。例如,看一组狗狗的照片,你可以根据颜色、耳朵大小、脸型等对它们进行分类。但你能定量比较吗?或许更有趣的是,机器能从图像中提取出人类无法提取的有意义的信息吗?
现在,陈·扎克伯格生物中心的一组科学家开发了一种机器学习方法,可以在没有任何先验知识的情况下定量分析和比较图像——在这种情况下是蛋白质的显微镜图像。据《自然方法》杂志报道,他们的算法被称为“cytoself”,提供了关于细胞内蛋白质位置和功能的丰富而详细的信息。这种能力可以加快细胞生物学家的研究时间,并最终用于加速药物发现和药物筛选的过程。
该研究的共同通讯作者Loic Royer说:“这非常令人兴奋——我们正在将人工智能应用于一种新的问题,并仍然恢复了人类知道的一切,以及更多。未来,我们可以对不同类型的图像进行这样的处理。它打开了很多可能性。”
cytoself不仅展示了机器学习算法的力量,它还让我们深入了解了构成生命的基本构件——细胞,以及构成细胞的分子构件——蛋白质。每个细胞包含大约10,000种不同类型的蛋白质——有些单独工作,许多共同工作,在细胞的不同部位做不同的工作,以保持细胞健康。“细胞的空间组织能力比我们之前想象的要强得多。这是关于人类细胞如何连接的一个重要生物学结果”。
和CZ生物中心开发的所有工具一样,cytoself是开源的,所有人都可以使用。“我们希望这将激励很多人使用类似的算法来解决他们自己的图像分析问题。”
cytoself是自我监督学习的一个例子,这意味着人类不像监督学习那样教给算法关于蛋白质图像的任何东西。“在监督学习中,你必须用例子逐个教机器;这项研究的主要作者小林博文(Hirofumi Kobayashi)说。如果机器被限制在人类教它的类别中,它就会给系统引入偏见。
“Manu [Leonetti]认为信息已经在图像中,我们想看看机器自己能搞清楚什么。”
事实上,包括CZ Biohub软件工程师Keith Cheveralls在内的团队,都对算法能够从图像中提取出的信息感到惊讶。
“蛋白质定位的细节程度比我们想象的要高得多,”Leonetti说,他的团队开发了理解细胞结构的工具和技术。机器将每一张蛋白质图像转换成一个数学向量。然后你就可以开始给看起来一样的图片排序了。我们意识到,通过这样做,我们可以通过比较它们的图像,以高特异性预测细胞中共同工作的蛋白质,这有点令人惊讶。”
机器学习和高速成像专家小林说,虽然之前已经有一些使用自我监督或无监督模型研究蛋白质图像的工作,但自我监督学习从未在如此大的数据集上得到如此成功的应用,该数据集包含100多万张图像,涵盖了从活的人类细胞中测量的1300多个蛋白质。
这些图片是CZ Biohub公司的OpenCell项目的产物,该项目由莱奥内蒂领导,旨在绘制人类细胞的完整地图,包括最终确定为我们的细胞提供能量的大约20000种蛋白质的特征。今年早些时候,他们在《科学》(Science)杂志上发表了首批1310种蛋白质的特征,包括每个蛋白质的图像(使用一种荧光标签产生)以及它们之间相互作用的映射。
cytoself是OpenCell成就的关键(所有图片均可在opencell.czbiohub.org获得),提供了非常细粒度和定量的蛋白质定位信息。
罗耶尔说:“一个蛋白质在细胞中定位的所有可能方式是什么,它可以定位的所有位置以及所有种类的位置组合,这个问题是最基本的。”“几十年来,生物学家试图确定它可能存在的所有地方,以及细胞内所有可能的结构。但这一直是由人类通过观察数据来完成的。问题是,人类的局限性和偏见在多大程度上使这个过程不完美?”
罗耶补充说:“正如我们所展示的,机器比人类做得更好。他们可以找到更精细的类别,并在极其精细的图像中看到差别。”
研究小组对细胞自身的下一个目标是追踪蛋白质定位的微小变化如何被用来识别不同的细胞状态,例如,一个正常细胞和一个癌细胞。这可能是更好地了解许多疾病和促进药物发现的关键。
“药物筛选基本上就是试错,但对于细胞自身来说,这是一个巨大的飞跃,因为你不需要用数千种蛋白质逐个做实验。这是一种低成本的方法,可以大大提高研究速度。”
文章标题Self-supervised deep learning encodes high-resolution features of protein subcellular localization