点击图片查看“引领未来移动 AI 的女性”视频(内容支持:高通)
“这可能是首个有望获得诺贝尔奖的人工智能成果。但它的突破肯定是在生物学领域”,谈及最近大火的 AlphaFold,阿德莱德大学计算机科学教授沈春华告诉 DeepTech。
他表示,AlphaFold 之所以会受到如此关注,是因此前很少有机器学习和生物相结合、且真正能解决重要实际问题的成果。从 DeepMind 发表在 Nature 上的第一版论文来看,其使用的机器学习算法都是已有技术,且主要涉及到卷积神经网络。
商汤研究院研究执行总监、智源青年科学家代季峰告诉 DeepTech,从深度学习领域来看,AlphaFold2 并不是理论上的原创性突破,它是把现在最好的深度学习算法,跟具体的领域知识结合起来,然后产生出较大的应用突破。它的应用前景主要是在结构生物学上,即提供测试蛋白质三三维结构的新方法。以前主要用冷冻电镜和 X 射线衍射,需要很多人工实验,现在 AlphaFold2 未必比前面两种方法准确,但会节省很多钱力和人力。
图 | AlphaFold 预测的新冠病毒 ORF8 蛋白结构,已获实验证实(来源:CASP14)
目前,AlphaFold 2 的能力已获李飞飞等权威人士点赞,在今年的国际蛋白质结构预测竞赛(CASP 14)中,AlphaFold 2 在 CASP 的系列测试中获得 92.4 分,在最具挑战的自由建模蛋白质测试中获得 87 分。
图 | AlphaFold 在最具挑战的自由建模蛋白质测试中获得 87 分
“算力的提升,使得 AlphaFold 可在短时间内测试大量不同的算法”,说到 AlphaFold 表现优异的原因之一,加州理工学院博士后研究员陈子博告诉 DeepTech。
成绩的确很厉害,但是 DeepMind 在博客中坦言,AlphaFold 预测的结果并非十分完美。对此,陈子博表示:“我觉得还有很多未解难题,比如如何从第一原理来预测蛋白质的结构,如何从蛋白质的结构预测其功能,以及如何设计蛋白质的构象改变甚至是变构等。”
图 | 蓝色为计算预测,绿色为实验结果(来源:deepmind.com)
预测蛋白质结构,到底有多难?
能否让老百姓买药更便宜?
谈及 AlphaFold 对普罗大众的意义,陈子博表示,现在很多药物都是将人体细胞内某些特定的蛋白作为靶点,如果将 AlphaFold 和制药结合起来,在预测蛋白和小分子相互作用方面有所突破,那么将会极大加速新药的研发进程,同时降低制药的成本。
王晨光也表示,本次突破在生物制药领域的重要意义显而易见。传统的靶向药物,靶点大多是蛋白质。以肺癌药物为例,以 EGFR 蛋白质为靶点的药物过去 20 几年一直是研发热点。有了 AlphaFold 之后,它必然会给制药领域带来帮助。
因为很多药物的靶点蛋白质,寻找在蛋白质结构上找到能够被药物攻击的地方。因此如果不知道蛋白质结构,制药往往是 “两眼一抹黑”,只有知道它的结构,才可以有目的地根据其结面设计一些化合物。还是以肺癌靶向药物的 EGFR 为例。肿瘤在药物的选择压力下,用一种药物一段时间后往往不反应了,后来发现是基因发生了突变。而基因突变的后果是其表达产物蛋白质的氨基酸序列发生了变化。因此,开发另外一种针对该突变蛋白质的药物变成了临床需求。
AlphaFold 应该可以很容易地对突变后的蛋白质结构做到预测,对下一代新药研发将有极大帮助。此外,王晨光对 AlphaFold 的应用很是期待,他说从事药物研发的人,即便没有晶体结构等专业知识,也能通过 AlphaFold 来输入蛋白质名称,然后就可直观观察蛋白质结构,这将缩减制药环节中药物发现的流程。
当药企可以有的放矢地设计药物,那么药物研发周期也就相应可以缩短,这样等于在药物成分和功效不变的情况下,制药速度更快,那么老百姓买到的药物或许就能更便宜。
有望提高研究人员工作效率
有人说,AlphaFold 让老师和同学们都解放了,从此不再受制于结构解析手段,并能很快拿到结构、去探讨结构生物学核心问题。对于该说法,陈子博表示,这得看具体想解决的问题,结构生物学研究需要的结构,一般需要很高的精度,需要精确到每个残基的精确位置,这是 AlphaFold 目前还不能提供的。
图 | 残基相连的方式预测(来源:DeepMind)
王晨光表示,从一定程度上来讲,有了 AlphaFold,以后破解静态蛋白质结构会比以前更省劲,但并不是说学生不再需要努力。因为,AlphaFold 毕竟还达不到 100% 的准确性,学生想要了解一个蛋白质结构,在使用 AlphaFold 预测之后,仍然需要再通过其他方式来验证。但无论如何,AlphaFold 预测的参数,都能在破解蛋白晶体结构方面,给予人类很大帮助。
图 | AlphaFold 对两个蛋白的结构预测和实验测定结构的对比
不过,王晨光认为,多数蛋白质的三维结构不是静态的,而是处于不断的动态变化之中。蛋白质作为机体内执行功能的分子,受到身体内外各种因素的影响,结构也在变化中。而这种变化带来的复杂性依然是蛋白质解构的挑战,无论是传统方法还是 AlphaFold。即便 AlphaFold 当前在应用上仍有局限性,但这次技术上量级的突破显示,这只不过是时间问题。
从计算机算法的角度来看,已发表的第一版 AlphaFold,并未用到太多新技术,A因此该技术即使不开源,找个博士生花一两个月,肯定也能把算法实现出来。不过,AlphaFold 的第一版深度学习的模型非常重要,因为它决定着能否把相关结构恢复出来。
事实上,AlphaFold 的第一版性能相对一般,虽然拿到 CASP 13 竞赛第一名,但并没有引起轰动。第二版就提升了非常多,其精度跟实验室做出来的三维结构的预测结果已经相差无几。
对于谷歌这样一家科技公司,做出如此厉害的生物类成果,其实并不意外。AlphaFold 背后公司 DeepMind 是由谷歌收购而来,直到今天仍在保持独立运营。DeepMind 从创立开始,就花费大量精力在深度学习,特别是强化学习上,目的是希望解决一些实际问题。
再就是,谷歌并非只做互联网,其也在做健康和药物创新,因为他要不停地去找下一个增长点,而且 AlphaFold 团队本身就是 AlphaGo 班底,再加上谷歌也愿意烧钱,因此可以做成。这种成果现在越来越难诞生于高校,因为一般高校很难有这样的大算力、大数据和大团队。
陈子博也表示,和大众普遍认知相反的是,大公司往往比科研院所有着更好的资源,因为他们可以集中各方力量。而学术圈很难会有哪一个实验室,能像 DeepMind 一样招来如此多的行业领先人物。
-End-