顶级AI学者邢波教授谈AlphaFold

  • 生物
  • AlphaFold
  • AI
  • 蛋白质

posted on 01 Oct 2021 under category 工程技术

邢波教授:在过去的三五年里面,让我印象比较深的工作之一是最近 DeepMind 用深度学习的方法对蛋白质结构做预测的工作。我觉得它里边有若干个思想上的创新,不是技术上创新。

通常我们在做这种结构的预测,或者是在做各种预测的时候,都是用 connecting dots forward 的思路,就是往前推演,线性逻辑。比如从因果来推,比如知道了原子成分和排序,蛋白序列,也知道每个原子蛋白序列的化学特性,能够用它来计算化学键,算最小能量,以此推算稳定结构,从一维序列,到二维结构,到三维结构,到四维结构组。我们知道物理里面实际上就是用第一性的原则,first principle。第一性,然后最小能量,然后算作稳定状态,然后蛋白结构,应该是这么一个东西。

据我了解,这份叫做 AlphaFold 的工作不是基于第一性原则弄出来的。它是用了间接的、有点舍近求远,是一个非常间接的 solution。它是先收集了所有的匹配,就是说每个原子和分子对之间的距离,这是可以通过 X 光,核磁共振,通过各种各样的物理化学实验做到的,它先就收集了这么一个数据库。

这实际上就提供了分子(本来是一维序列)的所有二度关联信息,即点到点之间的物理距离。它同时又收集了大量已知的蛋白质三维结构,然后用深度学习来做这两者的 input/output 的 blackbox mapping。

首先做了从一维序列到二维 pairwise distance matrix 的模型。Pairwise distance matrix 的好处是得到了对蛋白的二维全局观,因为把所有的 n×n 的 pairwise distance 展现在一张图上,就像我们通常的二维图像一样。然后它再通过 pairwise distance 对这个整个蛋白的结构做了黑匣子式的预测,也是通过监督式深度学习。

它的思路绕过了第一性原则——通过算最小能量值,或者是通过物理计算,通过模拟来产生最佳的解。AlphaFold 是直接通过全局的,通过由于结构而产生的 pairwise distance function 来做反推,反推什么样的结构才能够产生这样的 distance function。这个方法很有趣。有点像我们去旅游的时候,不知道自己的下一步目标,但是由于我知道到了下一步目标以后的再下一步目标,然后我来反推下一个目标在哪,是这么一个思路。

这里面充分应用了深度学习的长处,深度学习对大数据到大数据的 mapping 的学习能力很强,能够看到人看不到的一些 insights。从 a 到 b 这一步,机器虽然不善于学,但是从 a 到 c 反而是它能够学到的。人是不太容易学到 a 到 c 的,但是机器学习很容易学到这一部分。然后再从 c 回到 b,这也是机器学习能学的。所以它把 a 到 b 这一步整体 pass 过去了。

我觉得这个思路非常有意思,为什么?因为从 a 到 b 是第一性,是局部的计算,必须得通过紧邻的原子分子的相互作用一步步来 threading,就像一根线怎么慢慢地给它折叠起来,它是一步一步折叠的。但到了 c 的时候,它已经变成了 pairwise distance function,有全局的 information。在预测每一个三维结构的时候,它实际上是通过全体的二维 pairwise distance 来做预测。从全局到局部的预测,通过深度学习的方法来实现。

这个思维方法特别奇特,我甚至觉得有可能获得诺贝尔奖,通过机械的方法实现了对数据的全局观,然后通过全局再来预测局部这样一个结构。在人的计算过程中,我们很难做全局的预测,因为它的计算量太大了,做不到这一点。我不知道有没有讲清楚,但我觉得它的思路本身是有一定的突破性。

机器之心:可不可以类比 AlphaGo 下棋,论文里面说 AlphaGo 自己跟自己对弈,产生了一些新的定式。这些定式是人类此前没有想到的,而且其中一些比人类之前发明的还要好。可以这么类比吗?

邢波教授:这个不太一样。AlphaGo 也是一个创新,但是我觉得更多地利用了算力,大量的算力和不断的模拟。刚才蛋白质结构预测的研究其实并没有用太多的算力,它实际上是体现出来一种新的思维方式状态。

AlphaFold 是通过从局部一步跨到全局,然后再跨回局部的预测。这不是人的惯常思维方式。

机器之心:它确实知道了所有的结构,所有的距离,然后自己再倒回来推,这可以理解为一种大数据暴力吗?

邢波教授:我不这么理解,因为数据并不大。它实际上是数据的形式,数据的视角非常有趣。它利用深度学习模型给人提供了一个新的视角,来看后结构的结果,然后从后结构的结果来推测到结构,跳了一步棋,然后再往回看。这是我的理解,这个思路我原来没有想过。

机器之心:您认为这是模型的力量,还是设计模型的人的理解?

邢波教授:是人的理解。我觉得这里面有很大的人的设计因素,这个设计非常有趣。所以我认为它是一个突破,因为其中人做的工作很大,里面显然有相当原创性、聪明的一套思维方法,设计出这么一个 pipeline,而不只是暴力地去拼武器竞赛。

https://zhuanlan.zhihu.com/p/414536788