A close up view of detail from a computer render of a PI5P4Kγ protein diagram.

2024年5月25日Nature头条

标题: 谁将使AlphaFold3开源?科学家竞相破解人工智能模型

副标题: 研究人员的目标是为DeepMind的重磅蛋白质结构模型的最新版本创建完全可访问的版本

附图:与化学物质结合的激酶的AlphaFold3模型

主要内容:

 当谷歌DeepMind本月在《自然》杂志上发布其革命性的蛋白质结构预测人工智能的最新版本AlphaFold3时,它遇到了一个麻烦。与之前的版本不同,这篇论文没有附上描述进展的计算机代码。

 几天后,这家总部位于伦敦的公司改变了态度,承诺在年底前发布代码。但这一疏忽促使世界各地的研究人员竞相开发自己的开源版本AlphaFold3,这是一种可以预测包括潜在的新药在内的蛋白质的结构以及其他分子的结构的AI模型其他科学家正在尽最大努力破解DeepMind发布的AlphaFold3网络版本,以规避其局限性。

 纽约市哥伦比亚大学的计算生物学家Mohammed AlQuraishi说:如果如此基础的我们进行药物发现和其他与人类健康相关的事情的能力最终被封锁,那将是很糟糕的。他的OpenFold团队已经开始编写AlphaFold3的开源版本,他们希望在今年完成。

 ——科学家们失望

 DeepMind最初拒绝提供AlphaFold3的代码,以及5月9日在《自然》杂志上发表的文章,激怒了许多科学家(《自然》的新闻团队独立于其期刊团队)。《自然》杂志的政策说,与研究相关的代码通常应该是可用的,同时承认可能会有限制。

 5月11日,加州大学旧金山分校的计算结构生物学家Stephanie Wankowicz和其他9位科学家共同撰写了一封致《自然》的公开信,该公开信指出:“这与科学进步的原则不一致,科学进步依赖于社区评估、使用和建立现有工作的能力。”这封公开信后来得到了600多名研究人员的签名。

 《自然》在5月22日发表的一篇社论中说,它欢迎AlphaFold3出版物引发的讨论,并就如何鼓励科学的开放性征求读者的意见。它补充说,它的政策支持开放科学,但是承认私营部门资助了大多数全球研究,而且这类工作产生的许多发现仍然是专有的。

 我们《自然》认为,期刊与私营部门合作,与私营部门的科学家合作是很重要的,这样他们就可以把他们的研究提交给同行评审和发表,它说。该杂志表示,当DeepMind发布论文时,它将用代码更新论文。

 DeepMind创建了一个网站,研究人员可以访问该工具,而不是从训练AlphaFold3中获得的代码和参数(称为模型权重)。但这个AlphaFold3服务器是有限制的它只能用于非商业研究,而且不可能获得与可能的药物结合的蛋白质结构。描述AlphaFold3的论文还包含了详细的“伪代码”,概述了该模型的工作原理。

 ——重新训练AlphaFold3

 宾夕法尼亚州费城福克斯蔡斯癌症中心的计算结构生物学家Roland Dunbrack说,他对《自然》杂志上发表的AlphaFold3论文进行了同行评审。他说,他对DeepMind没有公布代码感到失望,既没有让他审查,也没有在论文中发表。AlphaFold2代码的可用性扩大了它的范围,使研究人员能够适应和改进该工具。我想要可下载的代码,因为如果我和其他人能够访问,科学就会发生,公开信的共同作者Dunbrack说。

 5月13日,也就是舆论风波开始的几天后,DeepMind改变了态度,宣布将在6个月内将AlphaFold3代码和模型权重提供给学术使用。

 但科学家们表示,这个版本的AlphaFold3是否具有全方位的功能,尤其是预测蛋白质与潜在药物分子或配体结合的结构的能力,仍然存在疑问。“我不认为他们会给我们做任何配体的能力,” Dunbrack说。他说,AlQuraishi团队正在开发的OpenFold3模型不会有这样的限制,也不会对商业用途有任何限制。

 科学家们追求AlphaFold3的开源版本还有其他原因。AlQuraishi说,其中之一将是重新训练模型的能力,以更好地模拟蛋白质和潜在药物之间的相互作用。他的团队使用与DeepMind使用的相同的公开数据集重新训练了他们的AlphaFold2版本。但AlQuraishi预计,许多可以获得大量实验确定的与可能的药物结合的蛋白质结构制药公司他们将热衷于拥有一个可以用自己的专有数据对其进行再训练版本的AlphaFold3

 AlQuraishi并不是唯一一个试图了解AlphaFold3秘密的科学家。David Baker是西雅图华盛顿大学的计算生物物理学家,他想看看什么可以应用到一个开源的蛋白质和化学预测模型上,这个模型被他的团队开发为RoseTTAFold-All-Atom,它的性能不如AlphaFold3。

 旧金山的独立软件工程师Phil Wang已经开始了一项众筹工作,以复制DeepMind的最新模型。同样拥有医学学位的Wang已经开发了数十种人工智能模型的开源版本,包括图像生成工具DALL-E。过去,Wang已经从公司那里获得了资金支持,但还没有收到开放AlphaFold3的邀请。

 ——破解版本

 Wang表示,他的三人团队预计将在一个月内完成描述AlphaFold3模型的代码。但是AlQuraishi说,最耗时的步骤将是在实验确定的蛋白质结构和其他数据集上训练模型。“代码是迄今为止最简单的部分。这只是5%的努力。”

 剑桥麻省理工学院的进化生物学家Sergey Ovchinnikov说,这也可能被证明是昂贵的。Ovchinnikov估计,以与DeepMind相同的方式训练AlphaFold3可能会花费超过100万美元的云计算资源,尽管有可能在不影响性能的情况下降低成本。

 AlphaFold3的完全开源版本将使研究人员能够更好地了解该模型的工作原理并扩展其功能。但一些科学家已经在尝试用AlphaFold3服务器做到这一点。Ovchinnikov说:“网上已经有一些黑客攻击”,例如,为了获得嵌入细胞膜的蛋白质更精确的模型,在那里它们与脂肪分子相互作用。另一个服务器黑客发现了一种蛋白质的另一种形状。

 AlQuraishi希望,开发AlphaFold3开源版本的努力将成为一个“警世故事”,提醒学术界,依赖DeepMind等科技公司开发和分发AlphaFold等工具的风险。“他们这么做很好,但我们不应该依赖它,”他说。“我们需要建立一个公共的基础设施,以便能够在学术界做到这一点。”

词汇表:

iteration n. 迭代

blockbuster n. 一鸣惊人的事物

kinase n. 激酶

unveil v. 公开

course n. 态度;大方向

omission n. 省略

skirt v. 规避

irked v. 恼怒了

editorial n. 社论

sector n. 部门

proprietary n. 专有权

lieu n. 替代

pseudocode n. 伪代码

outlining n. 概括

backlash n. (对政治或社会事件的)强烈反应

troves n. 宝藏

keen v. 渴求

crowdsourced adj. 众筹的

compromising adj. 折衷的

cautionary tale n.警世故事

peril v. 危险

infrastructure n. 基础设施

原文链接:https://doi.org/10.1038/d41586-024-01555-x