十多年来,分子生物学家Martin Beck和他的同事一直在努力拼凑世界上最难的拼图之一:人类细胞中最大的分子机器的详细模型。
这个庞然大物被称为核孔复合体,控制着分子进出细胞核的流动,而基因组就在细胞核中。每个细胞中都存在数百个这样的复合体。每一个复合体都由1000多个蛋白质组成,它们共同形成环状,围绕着穿过核膜的一个洞。
这1000块拼图来自于30多个蛋白质构件,它们以无数种方式交错排列。让这块拼图更难完成的是,实验确定的这些构件的三维形状是来自许多物种的结构的大杂烩,所以并不总是能很好地拼在一起。而且,拼图盒上的终极目标,即核孔复合体的三维视图,缺乏足够的细节,我们无法知道其中究竟有多少块拼图能精确地拼在一起。
2016年,位于德国法兰克福的马克斯•普朗克生物物理研究所(MpIB)的Beck团队报告了一个模型,该模型涵盖了核孔复合体的约30%,和30个功能模块的约一半,称为Nup蛋白。
自2021年7月发布AlphaFold2人工智能软件的源代码以来,引用该软件的研究论文和预印本的数量激增。
在2021年7月,总部位于伦敦的DeepMind公司(隶属于谷歌母公司Alphabet)公开了一个名为AlphaFold2的人工智能(AI)工具。该软件可以从蛋白质的基因序列中预测其三维结构,其结果在大多数情况下都是精确的。这一技术直接改变了Beck及其他成千上万的生物学家的研究。
Beck说:"AlphaFold改变了整个行业,就像一场地震,关于它的新闻简直无处不在。" 来自耶路撒冷希伯来大学的计算结构生物学家Ora Schueler-Furman说,他正在使用AlphaFold为蛋白质相互作用建模。"有七月之前和之后"。
通过使用AlphaFold,Beck和MpIB的其他科学家:分子生物学家Agnieszka Obarska-Kosinska和生物化学家Gerhard Hummer,以及欧洲分子生物学实验室(EMBL)的结构建模师Jan Kosinski领导的研究小组可以更准确地预测人类版本Nup蛋白的三维结构。他们在去年10月成功地发表了一个模型,该模型涵盖了该复合物的60%。揭示了复合物是如何稳定细胞核中的孔的,同时也阐释了复合物以何种方式控制物质的进入和离开。
在过去的半年里,AlphaFold的狂热已经笼罩了整个生命科学界。伦敦大学学院的计算生物学家Christine Orengo说:"我参加的每个会议,人们都在说"为什么不使用AlphaFold?"
在某些情况下,人工智能为科学家们节省了时间;在其他情况下,它使以前无法想象或极不现实的研究成为可能。尽管它有局限性,一些科学家发现它的预测对他们的工作来说太不可靠。但是,它的崛起和实验的进展已不可阻挡。
甚至那些开发该软件的人也在努力跟上它在从药物发现和蛋白质设计到复杂生命起源等领域的应用。DeepMind的AlphaFold团队负责人John Jumper说:"我一觉醒来就在Twitter上输入AlphaFold,当我看到扑面而来的那些溢美之词,这感觉太棒了!"
AlphaFold的惊人成功
AlphaFold在2020年12月引起了轰动,当时它在一个名为 "蛋白质结构预测关键评估"
(CASp)的竞赛中亮相,并占了上风。该竞赛每两年举行一次,内容为生物学最伟大的挑战之一:仅从氨基酸序列确定蛋白质的三维形状。这些参赛的计算机软件与X射线晶体学或冷冻电镜(cryo-EM)等实验方法同台竞技,对已确定的相同蛋白质结构进行预测,以建立其三维结构图。
2020年版本的AlphaFold是该软件的第二版。Jumper说,它还赢得了2018年的CASp,但其早期的表现大多不够好,其结果无法匹配实验所确定的结构。然而,AlphaFold2现在的预测结果已与大部分的实验数据持平。
目前还不清楚DeepMind何时会广泛提供该软件或其预测结果,因此研究人员利用Jumper公开演讲中的信息以及他们自己的见解,开发了自己的人工智能工具,称为RoseTTAFold。
在2021年7月15日,描述RoseTTAFold和AlphaFold2的论文出现了,并免费提供了开源代码和运行所需的其他信息。一周后,DeepMind宣布它已经用AlphaFold预测了人类的几乎所有蛋白质的结构,以及其他20种被广泛研究的生物体的整个 "蛋白质组",如小鼠和大肠杆菌。总共有超过365,000个结构。DeepMind还将这些数据公开发布到欧洲生物信息学研究所(EMBL-EBI)维护的数据库中。这个数据库后来已经扩展到了近一百万个结构。
AlphaFold的预测大大增加了人类蛋白质组,即所有人类蛋白质的集合中可靠的已知结构的比例。
该软件对其他物种甚至更加有用。
今年,DeepMind计划发布总数超过1亿的结构预测。这几乎是所有已知蛋白质的一半数量:比蛋白质数据库(pDB)结构库中实验确定的蛋白质数量多出数百倍。
AlphaFold部署了深度学习神经网络:计算架构的灵感来自于大脑的神经线路,以辨别数据的种类。它已经在pDB和其他数据库中的数十万个实验确定的蛋白质结构和序列上进行了训练。面对一个新的序列,它首先寻找数据库中的相关序列,这可以识别倾向于一起进化的氨基酸,表明它们在三维空间中很接近。现有数据库中相关蛋白质的结构提供了另一种方法来预测新序列中氨基酸对之间的距离。
AlphaFold在试图对氨基酸的三维结构进行建模时,从不同的计算渠道间来回迭代线索,以不断地更新优化其预测。专家们说,该软件对机器学习研究的良好应用似乎是AlphaFold如此出色的原因,特别是它使用了一种被称为 "Attention"的人工智能机制来确定哪些氨基酸是其工作的重点目标。
对相关蛋白质序列信息的严重依赖也意味着AlphaFold有一些缺陷。它无法预测突变所带来的影响,例如那些在蛋白质结构上导致疾病的突变。它也无法确定蛋白质在存在其他相互作用的蛋白质或分子(如药物)的情况下如何改变结构。但是它拥有一个模型打分机制,可以用来衡量在预测蛋白质的每个氨基酸单元时的可靠程度。同时,研究人员正在调整AlphaFold的代码以增强其能力。
据DeepMind称,到目前为止,已经有40多万人使用了EMBL-EBI的AlphaFold数据库。还有一些AlphaFold的 "超级用户":研究人员在自己的服务器上设置了该软件,或者转向基于云的AlphaFold版本,以预测EMBL-EBI数据库中没有的结构,或者为该工具设想新的用途。
AlphaFold如何解决结构问题
生物学家们已经对AlphaFold解决结构的能力留下了深刻印象。"丹麦奥胡斯大学的结构生物学家Thomas Boesen说:"根据我目前看到的情况,我非常信任AlphaFold。该软件已经成功地预测了我们小组已经确定但尚未公布的蛋白质结构。这对我来说是一个很大的验证。他和奥胡斯微生物生态学家Tina Šantl-Temkiv正在使用AlphaFold对一些促进冰的形成的细菌蛋白质的结构进行建模。目前,生物学家还不能通过实验完全确定这些结构。
斯德哥尔摩大学的蛋白质生物信息学家Arne Elofsson认为,AlphaFold非常清楚什么时候它将不起作用。在这种情况下,预测的结构可能类似于漂浮的意大利面条。这通常对应于蛋白质中缺乏确定形状的区域,至少在单一蛋白的情况下是如此。这种本质上无序的区域约占人类蛋白质组的三分之一,可能只有在另一个分子出现时才会变得很明确。
AlphaFold对折叠蛋白质结构的预测带有可信度打分。将每个模型叠加在实验确定的结构上
(如果有的话),可以显示预测的准确性。
伦敦癌症研究所的计算生物学家Norman Davey说,AlphaFold识别无序状态的能力对他关于某些区域的作用机制研究提供了大量帮助。Norman的预测质量立即有了巨大的提高,这简直轻而易举。
AlphaFold将蛋白质结构转储到EMBL-EBI数据库中的做法也立即被投入使用。Orengo的团队正在搜索它,以确定新的蛋白质种类(不需要通过实验验证),并且已经发现了数百个,甚至数千个潜在的新蛋白质家族,扩大了科学家对蛋白质外观和功能的了解。在另一项工作中,该团队正在搜索从海洋和废水中获取的DNA序列数据库,以尝试发现新的酶,用于塑料降解。研究人员利用AlphaFold快速估算出数千种蛋白质的结构,希望能更好地了解酶是如何进化到分解塑料的,并将在后续对这些酶进行改良。
哈佛大学的进化生物学家Sergey Ovchinnikov认为,对进化生物学的研究来说,将任何蛋白质编码基因序列转化为结构的能力是极为可贵的。研究人员通过比较基因序列来确定生物体及其基因在不同物种间的关系。对于远距离相关的基因,仅通过比较可能无法找到进化的亲属,因为序列已经发生了极大的变化。但是通过比较蛋白质结构,其变化往往没有基因序列那么快,我们也许能够发现被忽视的古老关系。这为研究蛋白质的进化和生命的起源提供了一个惊人的机遇。
为了测试这个想法,由首尔国立大学计算生物学家Martin Steinegger领导的一个团队和他的同事使用他们开发的一个工具,称为Foldseek,在EMBL-EBI的AlphaFold数据库中寻找SARS-CoV-2(即导致COVID-19的病毒)的RNA复制酶的亲属。这次搜索发现了以前未被发现的可能的古代亲属:包括粘菌在内的所有真核生物的蛋白质,这些蛋白质在其三维结构上类似于逆转录酶,艾滋病毒等病毒利用这些酶将RNA复制到DNA中,尽管在遗传序列的维度上它们几乎没有相似之处。
AlphaFold对实验的帮助
对于想要确定一个特定蛋白质的全长结构的科学家来说,AlphaFold预测不一定是一个直接的解决方案。相反,它提供了一个初步的近似值,并可以在之后通过实验来验证或完善,这个过程反过来也可以帮助科学家理解实验数据。例如,来自X射线晶体学的原始数据以X射线衍射图案的形式出现。通常情况下,科学家需要对蛋白质的结构有一个初步的猜测,以解释这些图案。英国剑桥大学的结构生物学家Randy Read说,以前,他们经常从pDB中的相关蛋白质中拼凑信息,或者使用X射线晶体学及冷冻电镜等实验方法。不过现在,AlphaFold的预测已经大幅降低了大多数X射线晶体学方法的必要性。Read的实验室正在努力在实验模型中更好地利用AlphaFold,并完全调整了研究重点。
Read和其他研究人员已经使用AlphaFold从数据中验证了大量此前无法解释的晶体结构。Read实验室的前博士后Claudia Millán Nebot认为,人们正在解决那些多年来没有被解决的结构。她预计会有大量的新蛋白质结构提交给pDB,这在很大程度上是AlphaFold的结果。
专门从事冷冻电镜的实验室也是如此,冷冻电镜可以捕捉到蛋白质在冷冻状态下的照片。北卡罗来纳大学的结构生物学家和药理学家Bryan Roth认为,在某些情况下,AlphaFold的模型准确地预测了G蛋白偶联受体(GpCRs)的独特特征,而其他的计算工具则搞错了。AlphaFold极为适合生成初始模型,并在后续的实验中获取数据,对模型进行完善,从而节省大量时间。
但是Roth又补充说,AlphaFold并不总是那么准确。在Roth的实验室已经解析但尚未发表的几十个GpCR结构中,AlphaFold能对其中约50%结构进行良好预测,而剩下预测结果则没有太多参考价值。在某些情况下,AlphaFold会对预测的结果给出极高的可信度分数,但实验数据会显示该结果是错误的。即使预测的结构正确,AlphaFold也不能模拟一个蛋白质与药物或其他小分子(配体)结合时的样子,而结合过程可能会导致结构的大幅改变。这一结论使Roth怀疑AlphaFold在药物发现的过程中不会起到很大作用。
在药物发现研究中,科学家们越来越多地使用计算对接(docking)软件来对数十亿个小分子进行筛选,以找到一些可能与蛋白质结合的小分子。Roth现在正与加州大学旧金山分校的药物化学家Brian Shoichet合作,已验证AlphaFold所预测的结构在药物发现中的准确性。
Shoichet说,他们的研究集中在那些AlphaFold预测数据与实验数据相吻合的蛋白质。但即使在这些情况下,对接软件也会对实验数据和AlphaFold的预测数据给出不同的药物结果,这表明微小的差异可能很重要。然而,这并不意味着我们不会找到新的配体,我们只是会找到不同的配体。我们的团队现在正在合成那些经过AlphaFold确定结构的潜在药物,并在实验室中测试其活性。
谨慎的乐观态度
制药公司和生物技术公司的研究人员对AlphaFold在推进药物发现方面的潜力感到兴奋,不过在抱有乐观态度的同时,谨慎一些是必要的。 2021年11月,DeepMind推出了自己的子公司IsoMorphic Labs,旨在将AlphaFold和其他AI工具应用于药物发现。但该公司并未披露其他计划。
Karen Akinsanya在总部位于纽约的药物发现公司Schrödinger领导药物的开发,该公司还发布了化学模拟软件,Karen和她的同事已经在使用包括GpCRs的AlphaFold结构进行虚拟筛选和候选药物的化合物设计,并取得了一些成功。她发现,就像实验数据一样,AlphaFold的预测数据需要额外的软件,用于了解氨基酸侧链的细节或单个氢原子可能所在的位置。一旦能做到这一点,AlphaFold所预测的结构足以在某些情况下对药物发现进行指导。
Karen认为,AlphaFold很难被称为是万能的,因为对一个结构的完全解析并不意味着结构数据能适用于所有结构。她和她的同事们发现,AlphaFold的准确预测并不能表明一个结构是否对以后的药物筛选有用。因此,AlphaFold的结构预测将永远不会完全取代药物发现中的实验数据。但它们可能会通过冷冻电镜等方式对AlphaFold预测的结果进行验证,以加速药物研发的过程。
对AlphaFold抱有兴趣的的药物开发者在2022年的1月份收到了好消息,即DeepMind解除了将AlphaFold用于商业应用的一个关键限制。当该公司在2021年7月发布AlphaFold的代码时,它曾规定,运行AlphaFold神经网络所需的参数或权重,也就是在数十万个蛋白质结构和序列上训练网络的最终结果,只能用于非商业用途。Karen认为,这一限制对工业界的一些人来说是一个瓶颈,当DeepMind改变立场时,引爆了整个工业界。(RoseTTAFold也有类似的限制,但其开发者表示,下一个版本将是完全开源的)。
人工智能不仅改变了科学家确定蛋白质结构的方式。一些研究人员正在使用它们来制造全新的蛋白质。西雅图华盛顿大学的生物化学家David Baker是设计蛋白质以及预测其结构领域的领导者。他的团队和计算化学家Minkyung Baek领导了开发RoseTTAFold的工作。深度学习正在完全地改变他的小组进行蛋白质设计的方式。
Baker的团队让AlphaFold和RoseTTAFold "想象"出新的蛋白质。研究人员已经改变了人工智能代码,以便在给定随机的氨基酸序列时,软件将对其进行优化,直到它们类似于神经网络所识别的蛋白质。
研究人员利用深度神经网络发明或 "想象 "出可以折叠成蛋白质的氨基酸序列;
在某些情况下,他们合成了这些蛋白质,以比较其实际结构和预测值
2021年12月,Baker和他的同事报告说,在细菌中表达了129个这些想象的蛋白质,并发现其中大约五分之一的蛋白质折叠成类似于其预测的形状。Baker认为,这证明了我们可以使用AlphaFold网络来设计蛋白质。他的团队现在正在使用这种方法来设计有实用价值的蛋白质,例如催化一个特定的化学反应,仅需指定负责所需功能的氨基酸,AI将设计其余部分。
蛋白质 "想象 "的四个例子。在每一个例子中,AlphaFold都会出现一个随机的氨基酸序列,预测结构,并改变序列,直到软件有把握地预测它将折叠成一个具有明确的三维形状的蛋白质。颜色表示预测的可信度(从红色表示非常低的可信度,通过黄色和浅蓝色到深蓝色表示非常高的可信度)。
刮骨疗毒,AlphaFold的训练方式
当DeepMind发布其AlphaFold代码时,开发者Ovchinnikov想更好地了解该工具是如何工作的。在几天之内,他和包括Steinegger在内的计算生物学同事建立了一个名为ColabFold的网站,允许任何人向AlphaFold或RoseTTAFold提交蛋白质序列并获得结构预测。Ovchinnikov想象他和其他科学家将使用ColabFold的假数据来攻击AlphaFold,例如,通过提供关于目标蛋白质序列进化亲属的虚假信息。这样做使得他能确定该软件是如何学会预测结构的。
到目前为止,最好的一次攻击是在由多条相互作用的肽链组成的蛋白质复合物上使用AlphaFold,这些交织在一起的肽链就像核孔复合体一样,细胞中的许多蛋白质在与多个蛋白质亚单元形成复合体时获得了它们的功能。
AlphaFold被设计用来预测单个肽链的形状,它的训练完全由这类蛋白质组成。但是AlphaFold的神经网络似乎已经学习了一些关于复合物如何折叠在一起的情况。在AlphaFold的代码发布几天后,东京大学的蛋白质生物信息学家Yoshitaka Moriwaki在推特上说,如果两个蛋白质序列用一个长的连接序列缝合起来,AlphaFold可以准确地预测它们之间的相互作用。Baek很快分享了另一个预测出的复合体,该数据是在RoseTTAFold的开发过程中收集到的。
最终,ColabFold成功学会了预测复合体的能力。而在2021年10月,DeepMind发布了一个名为AlphaFold-Multimer的更新,与之前的版本不同,它是专门针对蛋白质复合体进行训练的。Jumper的团队将其应用于pDB中的数千个复合物,并发现它预测了大约70%的已知蛋白质间的相互作用。
这些工具已经在帮助研究人员发现潜在的新蛋白质。Elofsson的团队使用AlphaFold预测了65000个人类蛋白质对的结构:根据实验数据,这些蛋白质对被怀疑有相互作用。Baker领导的一个团队使用AlphaFold和RoseTTAFold来模拟几乎每一对由酵母编码的蛋白质之间的相互作用,并发现了100多个以前未知的复合体。Elofsson认为,这样的筛选只是一个起点。它们在预测一些蛋白质配对方面做得很好,特别是那些稳定的蛋白质配对,但在识别更多的瞬时相互作用方面却很困难。看似正确的结果并不意味着它是正确的,一些基于冷冻电镜等验证方式的实验数据必不可少。"
Kosinski说,核孔复合体的工作是一个很好的例子,说明预测和实验数据可以一起工作。把所有的30个蛋白质扔进AlphaFold,然后得到结构出来是绝对不可取的。为了把预测的蛋白质结构放在一起,该团队通过冷冻断层扫描技术,确定了核孔复合体的冷冻电镜三维结构。随后,在一个能够确定蛋白质接近程度的实验中,研究小组发现了该复合体的两个组成部分之间存在令人惊讶的相互作用,AlphaFold的模型随后证实了这一点。
人类核孔复合体的两个视图显示了这个巨大的组件如何嵌入到核膜中(白色)
AlphaFold的局限性
科学家们说,尽管AlphaFold取得了所有的进展,但重要的是要清楚它的局限性,因为有很多不擅长预测蛋白质结构的研究人员在使用它。
一些将AlphaFold应用于破坏蛋白质自然结构的各种突变的尝试表明,该软件不具备预测蛋白质新突变后果的能力,因为没有与进化有关的序列可供研究。
AlphaFold团队现在正在考虑如何设计一个神经网络来处理新的突变。Jumper预计,这将需要更好地预测一个蛋白质如何从其未折叠状态转为折叠状态。纽约市哥伦比亚大学的计算生物学家Mohammed AlQuraishi认为,这一优化将基于蛋白质物理学知识,目前学界感兴趣的研究方向是如何在不使用进化信息的情况下从单一序列进行预测,这是一个关键的问题,而它确实仍未被解决。"
AlphaFold也被设计为预测单一结构,尽管目前它正在被训练,以预测复合型结构。许多蛋白质具有多种构象,这可能对它们的功能很重要。Schueler-Furman说:"AlphaFold无法处理那些可以在不同构象中采用不同结构的蛋白质。其给出的预测只能针对独立的结构,而许多蛋白质与配体如DNA、RNA、脂肪分子和矿物质一起发挥作用。"Elofsson说:"我们仍然无法预测配体,并缺少关于蛋白质的其他一切。"
AlQuraishi表示,开发下一代的神经网络将是一个巨大的挑战。AlphaFold依赖于几十年的研究,这些研究产生了蛋白质的实验数据,而神经网络可以从中学习。这种数据量目前还不能用来捕捉蛋白质的动态,或蛋白质可能与之相互作用的数万亿个小分子的形状。Jumper补充说,pDB中包括一些蛋白质如何与其他分子相互作用的结构,但这仅仅是浩瀚生物学一小部分。
研究人员认为,他们需要时间来确定如何最大化AlphaFold和相关的AI工具的产能。AlQuraishi认为这些软件与早期的电视有相似之处,当时一些节目是由电台广播员简单地阅读新闻。而我们很快就能开发出基于AI的其他节目。
AlphaFold革命的结局是什么,谁也说不准。Baker说:"事情变化得太快了,这些AI工具在不断产生重大突破。" EMBL-EBI的计算生物学家Janet Thornton认为AlphaFold最大的影响之一可能只是说服生物学家对来自计算和理论方法的见解更加开放。对她来说,革命即是思维方式的改变。
AlphaFold革命激发了Kosinski的梦想。他想象着AlphaFold启发的工具不仅可以用来为单个蛋白质和复合体建模,而且可以为整个细胞器甚至细胞建模,直至完整的蛋白质分子。这也许是我们在未来几十年里要追寻的梦想。
水木未来•视界丨iss. 14
转载自Nature
"What"s next for AlphaFold and the AI protein-folding revolution"
https://doi.org/10.1038/d41586-022-00997-5