当前位置：首页 > 资讯 > 正文

人工智能为蛋白质折叠预测提供动力

woniu
资讯
2021-11-30
12011

科学软件很少能引起如此轰动的头条新闻。BBC 宣称：「人工智能『在很大程度上解决了』生物学上最大的谜团之一」。福布斯称其为「人工智能领域最重要的成就——有史以来」。Google DeepMind 用于预测蛋白质 3D 结构的人工智能（AI）系统 AlphaFold2 于 2020 年 11 月首次亮相，而该工具于 2021 年 7 月免费开源以后，引起了巨大轰动。

这种兴奋与该软件解决最棘手生物学问题的潜力有关——从线性氨基酸序列预测蛋白质分子的功能性折叠结构，一直到 3D 空间中每个原子的位置。蛋白质如何形成 3D 结构的潜在物理化学规则对于人类来说仍然过于复杂，无法解析，因此这个「蛋白质折叠问题」几十年来一直没有解决。

研究人员已经解析出来自生命王国的大约 160,000 种蛋白质的结构。他们一直在使用实验技术，例如 X 射线晶体学和冷冻电子显微镜（cryo-EM），然后将他们的 3D 信息存储在蛋白质数据库中。计算生物学家在开发补充这些方法的软件方面取得了稳步进展，并正确预测了一些来自经过充分研究的蛋白质家族的分子的 3D 形状。

尽管取得了这些进展，但生命王国的蛋白质浩瀚如海，尤其研究人员仍然缺乏大约 4,800 种人类蛋白质的结构信息。但是 AlphaFold2 已经将结构预测策略提升到了一个新的水平。例如，西班牙研究人员的一项独立分析表明，该算法的预测将没有结构数据的人类蛋白质数量减少到只有 29 个。

AlphaFold2 于去年 11 月在 CASP14 上公布，这是第 14 届蛋白质结构预测关键评估（CASP），这是一项两年一度的竞赛，挑战计算生物学家针对已通过实验解决结构的蛋白质测试他们的算法，但未公开发布。DeepMind 的软件——它使用被称为深度学习的复杂机器学习技术——在竞争中脱颖而出。

「基于 CASP14 [结果]，他们可以获得大约三分之二的蛋白质，总体上具有实验准确性，即使对于硬目标，他们也可以以实验准确性折叠大约三分之一的蛋白质。」生物学家Zhang Yang（密歇根大学安娜堡分校的化学家，他的算法是 CASP14 的亚军之一）说，「这是一个非常惊人的结果。」随后的两篇 Nature 论文和数十篇预印本进一步证明了 AlphaFold2 的预测能力。

Zhang 认为 AlphaFold2 是对深度学习力量的惊人展示，但只是蛋白质折叠问题的部分解决方案。即使在没有结构信息的情况下，该算法也可以为许多蛋白质和一些多蛋白质复合物提供高度准确的结果。这可以大大加速实验结构生物学，并有助于指导蛋白质工程和药物发现的研究。

但是对于某些蛋白质来说，许多基本细节仍然遥不可及。马萨诸塞州波士顿 Dana-Farber 癌症研究所的计算生物学家 Chris Sander 指出，算法仍然在与具有多个功能域或高度动态结构的复杂蛋白质目标作斗争。「他们所做的一切都很棒！」Sander 说，「但是蛋白质的灵活性以及它们如何变化并没有受到影响，仅仅拥有一个快照并不能解决生物功能的问题。」

深度学习的进步——以及 AlphaFold2 用户群体的不断壮大——可能会带来一些挑战，但全面理解蛋白质生物学需要更广泛的计算和实验工具箱。

Higher education

深度学习结合了机器学习策略，其中训练计算神经网络来识别和解释数据中的模式。「这些模型并没有试图一次性预测结构。」西雅图华盛顿大学的计算生物学家 David Baker 说，「它们更像是一种物理模拟，模型正在学习如何做出良好的动作来改进结构。」通过使用大量带注释的实验数据训练这些算法，他们可以开始识别序列和结构之间的联系，从而为新蛋白质的预测提供信息。

在过去的五年中，多个团队在将深度学习应用于结构预测方面取得了进展。AlphaFold 的第一次迭代在 2018 年赢得了 CASP13，但它的表现远不及去年的出色表现。随后，几家学术实验室开发了基于深度学习的算法，其性能优于第一代 AlphaFold，包括 Zhang 实验室的 DI-TASSER、Baker 实验室的 trRosetta 和由芝加哥丰田技术研究所的 Jinbo Xu 团队开发的 RaptorX。

但这些算法通常作为更大软件管道的一部分应用，从而有产生错误和低效的可能性。纽约市哥伦比亚大学的系统生物学家 Mohammed AlQuraishi 说：「由于它们是零碎构建的，因此您经常会遇到不同的组件通信错误或无法以最佳方式相互通信。」这些限制激发了人们对管理从序列到结构的整个过程的端到端算法的兴趣。常驻伦敦的 DeepMind 高级研究科学家 John Jumper 表示，在 CASP13 之后，他的团队基本上放弃了第一代 AlphaFold，并开始开发这样的解决方案——AlphaFold2。

AlphaFold2 的几个方面建立在既定技术之上。例如，该算法首先生成多序列比对（MSA），其中将具有未知结构的新蛋白质与来自其他物种的相关序列进行比较。通过识别并行变化的共同进化氨基酸，算法可以定位那些最有可能在折叠蛋白质中相互关联的氨基酸——序列中的一个变化需要补偿性突变以保持整体结构的地方。

Sander 和他的合作者、马萨诸塞州剑桥市哈佛大学的计算生物学家 Debora Marks 以及他们的团队在 2011 年开发了这种基于共同进化的技术。正确的折叠和基本形状，」Sander 说，「现在机器学习让它变得更好。」

AlphaFold2 的开发人员利用了前所未有的大量信息来构建MSA，他们使用了来自韩国首尔国立大学计算生物学家 Martin Steinegger 和德国哥廷根马克斯·普朗克生物物理化学研究所（Max Planck Institute for Biophysical Chemistry）Johannes söding 汇编的数据集中的数十亿蛋白质序列。「他们想让我把它变成一个可搜索的数据库。」Steinegger说。

DeepMind 团队还为蛋白质折叠问题设计了创新的解决方案。一种是使用称为转换器的模式识别工具，它通常用于图像分析和自然语言处理。Transformer 旨在识别可能指导数据解释的局部模式——例如，单词串或相邻的视觉元素。DeepMind 使它们适应了更具挑战性的蛋白质结构领域，构建了识别并专注于可能在最终折叠形式中很重要的长程蛋白质相互作用的转换器。「在最终的蛋白质结构中，你会在很远的事物之间建立联系——比如残基 10 可能会与残基 350 对话。」Jumper 说。

AlphaFold2 过程同时从多个角度处理蛋白质折叠，并并行生成预测结构的多个表示。然后将它们进行比较，由此产生的见解有助于在后续迭代中改进建模过程。Jumper 和他的同事通过设计一种神经网络架构来实现这一点，该架构允许软件组件之间进行流畅和高效的信息交换。AlQuraishi 说：「我认为让这一切成为现实的最重要的因素是精心设计的通信系统。」

为人预测

由于 AlphaFold2 的首次亮相和论文发表之间存在滞后，而且学术界对是否可以提供完整细节的不确定性，Baker 和他的博士后 Minkyung Baek 使用有关软件架构的稀疏信息开发了他们自己的版本 RoseTTAFold。这使用了许多与 AlphaFold2 相同的策略，但有一些独特的曲折。

「在我们推出它的时候，它无疑是你可以使用的最好的结构预测方法——但不如 AlphaFold2，」贝克说。他指出，与大多数学术实验室相比，DeepMind 是一个私人实体，拥有庞大的资源和一支由多学科专家组成的长期团队。哥本哈根大学的计算生物学家 Amelie Stein 说，AlphaFold2 成功的最广泛解释「就是这是谷歌的钱」。「但它也汇集了软件工程师和了解蛋白质和蛋白质结构的人的专业知识。」

自 AlphaFold2 发布以来，实验室一直呼吁使用该软件及其结构预测，这些预测可通过欧洲生物信息学研究所托管的数据库获得。

用户通常发现该软件易于使用，尽管他们需要数 TB 的磁盘空间来下载数据库和多个图形处理单元 (GPU) 来处理分析。「单结构计算并没有那么糟糕——我们运行了几个小时。」斯德哥尔摩大学的生物信息学家 Arne Elofsson 说。但由于它们的规模和所需的资源，目前大多数学术实验室可能无法对生物体的蛋白质或蛋白质组的完整补充进行分析。

对于希望试用该软件的研究人员，Steinegger 和他的同事开发了 ColabFold，这是一个基于云的系统，使用远程数据库和 Google 提供的计算能力运行 AlphaFold2 和 RoseTTAFold。基于网络的界面相对简单：「你可以插入你的序列，然后只需按下一个按钮，它就会为你预测结构。」 Steinegger 说。但它也允许用户修改设置并优化他们的实验——例如通过改变结构预测的迭代次数。

寻找折叠

就连 DeepMind 团队也对 AlphaFold2 在 CASP14 上的表现感到吃惊。「我们显然有内部基准测试表明我们会做得很好，」Jumper 说。「但在一天结束的时候，我的脑海里仍然有一种感觉：这真的、真的吗？」

CASP14 缓解了这些担忧，在过去的几个月里，AlphaFold2 的能力和局限性已经得到了无数次展示。在与描述该算法的论文一起发表的一项研究中，DeepMind 团队将 AlphaFold2 应用于包含 98.5% 人类蛋白质组的数据集。该算法使用称为预测局部距离差异测试（pLDDT）的度量来表明其对特定氨基酸的位置和方向准确反映其真实世界结构的置信度。这样，蛋白质组中所有残基的 36% 可以以非常高的置信度得到解决。

今年 8 月，西班牙巴塞罗那超级计算中心的生物信息学家 Alfonso Valencia 领导的研究人员独立得出结论，AlphaFold2 将人类蛋白质中可准确定位的氨基酸比例从 31% 提高到 50%。

Zhang 预计该软件将缩短蛋白质组悬而未决的成果。「它们可能可以折叠所有单域蛋白质。」他说。但是许多蛋白质仍然是一个挑战，例如那些由多个独立的功能单元组成的蛋白质，这些单元由相对灵活的接头元件连接起来。在这些情况下，单个域可能会一致，但它们相对于彼此的方向可能不同。

更具挑战性的是在自然状态下本质上是无序的蛋白质片段，这可能代表人类蛋白质组中所有氨基酸的三分之一以上。目前没有算法可以预测这些片段如何折叠，但 Jumper 指出极低的 pLDDT 分数至少可以在结构中划分这些片段。「一个完全不自信的预测是一个非常强烈的障碍指标。」他说。

AlphaFold2 和 RoseTTAFold 的一个意想不到的特点是，它们能够从成对的蛋白质链预测准确的结构，这些蛋白质链形成称为同二聚体（如果由两种相同的蛋白质组成）或异二聚体（由两种不同的蛋白质组成）的复合物，而这是它们最初没有受过训练的。

Elofsson 和他的团队报告说，他们使用 AlphaFold2 成功模拟了多达 59% 的两种蛋白质复合物。当试图从头开始识别可能的复合物时，与建模已知的相互作用对相比，这个过程在计算上变得更具挑战性。但是 Baker 和他的团队表明，通过串联应用多种深度学习算法，他们能够从酵母酿酒酵母蛋白质组中数百万个可能的相互作用对中识别和建模数百个多蛋白质复合物。「RoseTTAFold [比 AlphaFold2] 快大约 100 倍，因此我们可以在所有对上运行它，然后用它过滤掉最有可能相互作用的那些。」Baker 说，「然后我们在那个小得多的子集上运行了 AlphaFold2。」

10 月，DeepMind 感受到了对该应用的热情，发布了 AlphaFold-Multimer，它经过专门训练，可以处理由多条链组装形成的蛋白质复合物。AlphaFold-Multimer 为 34% 的测试同源二聚体复合物和 23% 的异源二聚体复合物生成了相互作用的高精度预测。

功能边界

尽管如此，马克斯指出，仍有许多问题无法解决。「如果你的技术致力于真正学习很好地复制晶体学，那就太好了。」她说。但她指出，这种静态结构快照，不适合探索与特定蛋白质的操纵或固有动态行为相关的问题。

例如，AlphaFold2 通常为每个序列生成一个「正确」的答案。但是许多蛋白质具有多种与功能相关的构象状态——例如，确定酶是活跃的还是被抑制的。「你可以尝试调整 AlphaFold 以获得其中一个，但通常你无论做什么都只会生成一个 [构象]。」Elofsson 说。该算法根本不是为了模拟复杂的分子物理学而设计的，即使它在生成预测时捕获了这些力的影响。解决这些问题可能需要实验技术来显示多种状态下实际蛋白质的结构，例如冷冻电镜。

AlphaFold2 通常也不适合预测单个氨基酸的变化如何改变蛋白质结构——这是了解突变如何导致疾病的关键因素。这部分是因为该算法使用进化观点从许多略有不同的序列中收敛到正确的解决方案，Stein 说，他的工作重点是表征这些变体。「如果你在某处翻转一个残留物，你不能指望它突然说，『这是一场灾难』。」她说。然而，她和她的团队发现，他们可以将深度学习生成的野生型蛋白质结构与其他突变分析算法结合起来，以实现更准确的预测。

好消息是结构生物学家不会很快失业。事实上，他们现在可能能够把更多的时间花在该领域的其他紧迫问题上。例如，英国剑桥大学的结构生物学家 Randy Read 指出，AlphaFold2 的结构预测已经帮助晶体学家通过克服繁琐的「相位问题」大大加快了数据解释速度——这是一个与解释 X 射线衍射实验中产生的不完整数据相关的挑战。

蛋白质设计者也可以看到好处。从头开始——称为从头蛋白质设计——涉及通过计算生成但在实验室中测试的模型。「现在你可以立即使用 AlphaFold2 折叠它，」Zhang说。这些结果甚至可用于重新训练设计算法，以在未来的实验中产生更准确的结果。

对于 AlQuraishi 来说，这些可能性预示着结构生物学的新时代，强调蛋白质功能而不是形式。「在很长一段时间内，结构生物学都如此专注于单个部分，以至于将这些美丽的丝带图提升到几乎就像它们自身的终点。」他说，「现在我认为结构生物学将赢得其名称中的『生物学』成分。」