对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码

2022-01-10
来源:
编者按:
祝贺如DeepMind一样的深度势能科研团队又取得一项惊人的成果!一个有理想,有格局,有战斗力,有能力协同优势资源的团队正在脚踏实地地向我们走来……

1.jpg


今日,深势科技重磅推出蛋白质结构预测工具 Uni-Fold,成功复现曾引起生物学界轰动的 AlphaFold2 的全规模训练,并开源训练代码与推理代码。相应解决方案已成至深势科技自主研发的药物设计平台 Hermite,供广大用户测试使用。


Uni-Fold 克服了 AlphaFold2 未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了 NVIDIA GPU上的适配、性能优化及功能完善等工作,为更多人参与推动领域进一步发展提供了基础。

图片


3.jpg

Uni-Fold预测的蛋白结构


一、蛋白质结构预测

困扰生物学领域的难题


蛋白质是组成生命体的重要物质基础。不同的蛋白质通过折叠构成形态各异的三维结构,执行多种多样的生理功能。长期以来,从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一。在过去几十年的研究中,科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜。但实验方法成本高、周期长。目前人类已知有数十亿蛋白质序列,还原出结构的却只有十几万。生物学发展因此颇受掣肘。


近年来AI的发展为解决这一问题带来了新的可能。在2020年的国际蛋白质结构预测顶级竞赛CASP14 Critical Assessment of protein Structure Prediction 14)上,Google DeepMind推出的 AlphaFold2预测的大部分单体蛋白质结构准确度与实验足够接近,远超此前所有方法。这一结果也标志着蛋白质单体结构的问题在一定意义上得到了解决。


尽管 DeepMind 在半年后开源了AlphaFold2模型的推理代码,但其训练代码并未被公布,且模型不可商用。研究者难以通过训练或调整模型进一步提升 AlphaFold2 的表现,或迁移至更多应用场景,如蛋白质复合物结构预测、蛋白质与小分子相互作用、与电镜实验结合等。此外,该代码基于Google自研的可微分计算框架JAX及TPU硬件平台开发,高度依赖Google生态系统,造成了一定的使用限制。


二、Uni-Fold

蛋白质结构预测开源工具


深势科技推出的Uni-Fold是蛋白质结构研究领域首款完全开源成功复现大规模训练的工具。在过去一年里,深势科技团队克服了算法生态不佳、计算资源有限等难题,成功突破技术壁垒,复现了AlphaFold2的训练过程,并决定将训练代码全部开源,让这项高精度的蛋白质结构计算预测软件真正惠及结构生物学领域研究者。

5.jpg


开源地址:

https://github.com/deepmodeling/Uni-Fold



开源训练代码 使用渠道便捷

Uni-Fold为领域提供开源的深度蛋白质模型训练方案,并将训练所得模型在深势科技推出的药物设计平台Hermite中上线,提供用户友好的端到端使用体验,供使用者免费测试(方式见文末)。


运行环境友好 硬件适配广泛

Uni-Fold训练代码经过MPI并行、数据异步读取、混合精度训练等优化工作,支持在NVIDIA GPU上进行高效训练,无需 Google 提供的TPU Pod;基于优化后的训练代码,深势科技团队实现在128块NVIDIA GPU上进行AlphaFold2模型的全规模训练,并将持续优化所得模型。


在此感谢并行科技阿里云在计算资源的协调方面做出的重要贡献。


测结果精确 推断速度提升

在相同的测试条件下,Uni-Fold的预测精度超越了华盛顿大学蛋白设计研究所David Baker教授课题组研发的RoseTTAFold,与DeepMind官方发布的AlphaFold2模型接近。深势科技团队使用Uni-Fold对CASP14蛋白预测任务中的序列数据集进行了直接测试,平均Cα-lDDT达到82.6。此外,Uni-Fold的推理代码更加轻量、高效,在相同硬件环境下,能够获得与公布的AlphaFold2代码相比2-3倍的效率提升


三、应用前景

从算法突破到场景落地


中科院院士、北京大学教授、深势科技首席科学顾问鄂维南表示:“尽管DeepMind开源了推理代码,但模型的训练技术才是核心竞争力。在资源比较匮乏的情况下,深势科技团队在较短时间内实现模型训练、开源训练代码,这是很不容易的。深势科技在物理模型方面具备丰富的经验,Uni-Fold进一步弥补了团队在数据驱动方面的短板。下一步,物理模型和数据驱动结合的解决方案将为蛋白结构和药物设计行业提供更好的基础。”


作为领域内首个接近AlphaFold2精度且开源训练代码的项目,Uni-Fold的出现能够真正普及蛋白质结构预测大模型的训练。深势科技希望以此工具赋能结构生物学研究,让每一位研究者都能根据场景需求自主优化迭代训练模型,拥有定制化的蛋白质结构预测工具。


Uni-Fold能够实现蛋白质结构预测在效率与精度上的协调飞跃。作为药物设计的第一环节,Uni-Fold将与深势科技AI辅助计算模拟的算法有机衔接,并与电镜实验技术相结合,为药物设计领域打造一套模拟-AI-实验三者驱动的解决方案。


四、AI+Science

在结构生物学领域的实践


鄂维南院士曾在多个场合呼吁:“科学是人工智能下一个主战场。”算力、算法、数据的协同发展正在缩短理论研究与解决实际问题之间的距离。AI 在科研领域与应用场景深入的过程中,需要各领域、多学科的交叉与合作。Uni-Fold是深势科技运用AI+Science 范式在结构生物学领域的一次实践。


在AI+Science的路径探索中,开源将会成为未来长远发展必要的协同机制。过去三年,深势科技致力于推动Deep Potential系列开源解决方案的普及与DeepModeling开源社区的发展。目前,社区中的开源软件已得到国内外一千余个研究组的近万名科学家使用,涉及物理、化学、材料、生物、地质等多个领域,形成了良好的“飞轮效应”。未来,深势科技将继续以开放的心态,与业界学界研究者们共同探索新的协同机制,攻克科研难题。


五、集成入Hermite

便捷使用


Uni-Fold现已在Hermite药物设计平台上线开放公测,诚邀体验!


无需下载模型、配置环境,不必担心计算资源,只要打开浏览器键入hermite.dp.tech,就可以在友好的图形化界面中提交蛋白结构预测任务,体验Uni-Fold的预测效果。今后,我们也会在Hermite药物设计平台持续更新Uni-Fold最新模型,让用户能在第一时间触达Uni-Fold最强大的预测能力。


6.jpg

Uni-Fold在深势科技Hermite药物设计平台上的使用


欢迎加入 DP Hermite Uni-Fold 用户群,了解更多详细内容,与开发者交流讨论!您可以扫描下方二维码进入群聊,如二维码过期或达到人数上限,请在深势科技公众号后台回复 "Uni-Fold" 获取最新入群方式。


7.jpg

DP Hermite Uni-Fold 用户群

关于深势科技

深势科技有限公司(“深势科技”)是一家成立于2018年的科技公司,于2019年开启规模化发展之路,致力于以新一代分子模拟技术解决微观尺度工业设计难题。 以打造切实服务于药企、材料商和科研机构的模拟研发平台为主要业务方向,以解放研发工作者的生产力为主要业务目标。


深势科技具有强大的科研与产业落地能力。其新一代分子模拟算法在保持量子力学精度的基础上,将分子动力学的计算速度提升了至少五个数量级,且对算力的需求与体系的原子数量呈线性依赖;结合高性能计算,能够对数十亿原子规模的体系进行量子力学精度的计算模拟。团队核心成员获得2020年全球计算机高性能计算领域的最高奖项“戈登·贝尔奖”,相关工作当选2020年中国十大科技进展,以及2020年全球人工智能十大科技进展。