CXYY    创新应用
创新应用
从工具赋能到范式革命“AI for Science”重塑科学发现新图景
文 | 新华三集团云与计算存储产线 王翛然

人工智能正在将科学研究从传统的“人类主导”模式推向“人机协同”的双引擎驱动时代,一场科研范式的历史性变革已经到来。2024年,诺贝尔化学奖和物理学奖双双授予与人工智能密切相关的研究,标志着AI for Science(以下简称“AI4S”) 正式成为主流科学界认可的研究范式。其中,蛋白质结构预测与设计工具AlphaFold成功解决了困扰科学界长达50年的蛋白质结构预测难题,这不仅体现了AI在解决复杂科学问题上的能力,更代表着科学研究正在经历从经验、理论、计算、数据驱动到“AI自主探索”的第五次范式革命。

 

2024诺贝尔化学奖获奖者                  2024诺贝尔物理学奖获奖者

David Baker与Demis Hassabis 和 John M. Jumper通过在蛋白质结构预测与设计方面的深入研究,为AlphaFold的推出奠定了有力的基础,John J.Hopfield与Geoffrey E.Hinton的研究让AI在解决复杂科学工程问题上能力更进一步。

1 科研范式变革:第五次革命的兴起

科学研究的演进从未停歇,传统科研经历了四次主要的范式跃迁:经验驱动范式、理论驱动范式、计算驱动范式和数据驱动范式。

图1 科研范式演进

而当下,AI技术正催化第五范式的诞生,推动科研从“人类主导”迈向“人机协同”。第五科研范式的核心特征体现在三大转变:从人类主导到人机协同、流程重构与知识生产模式的根本变革。在第五范式中,科研流程被重构为“假设生成—实验设计—验证迭代”的智能闭环,知识生产也基于大模型的涌现能力实现跨学科知识重组,突破人类认知局限与领域知识壁垒;AI4S正在以庞大的数据体量为支撑,以机器自动研究、自主研究为手段,从而实现研究方法的自动进化。

2 AI横扫前沿科学计算领域

2.1 从“折叠蛋白质”到“设计生命蓝图”的跨越

在AI的驱动下,生命科学正经历一场范式革命,其核心目标已从理解生命的“图纸”(如预测蛋白质结构),迈向更高维度的“编写生命蓝图”(如设计功能蛋白、编程细胞行为),这标志着AI4S正在重塑生命科学研究的底层逻辑与未来图景。

图2 DNA双螺旋架构

精准“折叠蛋白质”:蛋白质是生命活动的主要执行者,其三维结构决定了功能。AI的突破

始于对蛋白质结构的精准预测;DeepMind开发的AlphaFold成功解决了困扰生物学界长达50年的蛋白质结构预测难题,其推出的AlphaFold蛋白质结构数据库,已预测了约100万个物种的超过2亿种蛋白质结构,涵盖了科学界已编录的几乎每一种蛋白质;AlphaFold 3更进一步,将预测能力扩展到蛋白质与DNA、RNA、小分子、离子等的复合物结构与相互作用。

绘制“生命蓝图”:在精准预测的基础上,AI开始赋能科学家主动“设计”生命分子;华盛顿大学David Baker教授团队开发的“Hallucination”(幻觉)和“Inpainting”(修复)两种深度学习方法,能够scaffold指定的功能位点,设计出具有特定功能的蛋白质;斯坦福大学团队开发的Evo模型是一个大规模的基因组基础模型,它能够在单碱基分辨率下预测和生成DNA、RNA和蛋白质序列;北京中关村学院邓攀团队提出的CellNavi人工智能框架,能够绘制细胞状态的地形图,并预测驱动细胞状态转变的关键基因,如同为细胞研究装上了“导航仪”,指导细胞命运的转变。

2.2 从“炼金术”到“按需设计”的转变

在AI的驱动下,材料科学正经历一场深刻的范式转移,从过去依赖经验和大量试错的“炼金术”阶段,迈向了能够精准“按需设计”新材料的新时代。

传统的材料研发模式曾被戏称为“现代炼金术”,这个过程高度依赖研究人员的经验和直觉,需要阅读海量文献,尝试各种元素配方和制备工艺的组合,如同“炼丹”一样,周期漫长且资源消耗巨大。例如,过去高温超导材料的探索,就需要科学家在周期表中不断替换相似元素、调整配比来完成;AI技术的融入,从根本上改变了这一模式。通过机器学习、深度学习以及生成式模型,AI能够从海量数据中学习材料“成分-结构-性能”之间的内在规律,从而实现对目标性能材料的精准、快速设计与筛选。

图3 新材料研发古今对比

CGformer模型可以融合晶体图神经网络与全局注意力机制,捕捉材料中长程原子的相互作用,提升预测精度;E2GNN模型高效的等变图神经网络,保证物理合理性的同时,兼顾计算精度与效率;MatChat AI模型是材料科学领域的垂直领域智能问答引擎,基于大量科学文献训练,能回答专业问题并规避“AI幻觉”;多孔合金智能设计模型采用AI逆向生成算法,根据设定的力学性能目标,反向推演出最优的微观孔结构。

3 新华三智能科学计算方案构筑AI for Science基石

依托于在智能科学计算领域多年沉淀和对AI4S应用的深入理解,新华三可以为客户提供如图4的“一站式”AI4S SaaS层解决方案;该方案采用多层立体架构,可以提供AI4S运行所需全部算力与软件栈资源,满足客户“开箱即用”需求。

图4 新华三AI4S方案架构

对于AlphaFold 2这款经典的生命科学领域AI4S应用,新华三测试了AlphaFold 2在不同氨基酸序列推理场景下,不同软硬件组合的性能表现,如图5所示。

图5 AlphaFold 2进行不同氨基酸序列推理性能对比

短序列预测耗时Intel Xeon Max系列CPU与NV L20基本持平,长序列(单体)Intel Xeon Max系列CPU优于L20,多聚体NV L20性能优势明显;海光K100-AI虽耗时较久,但精度和稳定性都可以与商卡持平。

新华三智能科学计算方案不与特定技术路绑定,满足商业和全国产化AI4S项目需求,更加灵活、多元。新华三持续“根植”主流AI4S应用的适配与调优,与芯片厂商紧密配合,针对不同芯片平台输出针对性的AI4S集群调优方案;同时新华三根据AI4S不同具体细分场景,推出最佳实践,包括特定型号CPU、GPU,实现高效定制化解决方案;新华三还联合国产AI4S应用TOP级别ISV打造端到端解决方案,提供国产化SaaS层能力。

4 展望未来科学的美丽新世界

AI4S不仅是工具的升级,更是人类认知边界的拓展;一个由AI驱动、人类引导的“科学大发现”新时代,鼓励更多研究者拥抱这一变革。展望未来3~5年,AI4S最有希望的突破在于整体科研与研发范式的普及,从实验室自动化、新材料设计到新药研发、科学仪器创新,都将被深刻重塑。在AI的辅助下,科学家能够探索以往无法触及的科学前沿,从量子世界到宇宙尺度,从分子运动到生命起源,一个由AI驱动、人类引导的“科学大发现”新时代正在到来。

关闭