AI风向标

阿里开源首个统一科学大模型 LOGOS，仅用 1/56 参数超越微软 NatureLM

IT之家 6 月 18 日消息，阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院，今日宣布开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS（Language Of Generative Objec…

查看来源

详细介绍

IT之家 6 月 18 日消息，阿里 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院，今日宣布开源首个基于统一“科学语法”的多领域科学生成基础模型 LOGOS（Language Of Generative Objects in Science）。在六大代表性科学任务上，LOGOS 以纯序列建模范式，一致性地匹配或超越了领域专用方法。

尤其值得关注的是它的参数效率。LOGOS-1B 仅用 1/56 的参数量（1B vs 8×7B），就在多个任务上超越了微软 NatureLM，展现了极高的参数效率。 LOGOS 构建了涵盖 7 类模态、总计 44.87B tokens 的庞大预训练语料库：

生物大分子层蛋白质（28.9B tokens）+ 抗体（3.0B tokens）

化学实体与转化层小分子（2.1B tokens）+ 化学反应与 MOF 材料（0.47B tokens）

界面互作层蛋白质口袋（5.8B tokens）+ 蛋白口袋-配体复合物（4.6B tokens）

LOGOS 设计了一套共享词表，把蛋白质、小分子、材料等原本“鸡同鸭讲”的异构对象，全部编码成统一的离散 Token 序列。这让它们得以在同一个生成空间中被大模型“自回归”地理解和生成。此外，传统 AI 要看懂蛋白质和小分子怎么结合，须依赖显式 3D 坐标和复杂的几何神经网络。LOGOS 发明了一种“文字描述法”：它把 3D 空间接触模式直接“语法化”为离散 Token，完全不需要输入 3D 坐标，仅靠“读文字”（序列预测），就能在脑海里构建出复杂的 3D 空间互作规律。

传统范式中，换一个研究环节（比如从结构预测换到分子生成），往往就得换一套新模型和新假设。同时，预训练目标与下游任务之间存在显著的 " 目标偏差 "，这种“学用脱节”导致模型落地时需要大量微调。 LOGOS 的科学语法设计彻底解决了这个问题：

形式一致：预训练数据的序列形式等于下游任务的输入输出形式

内容信息

分类: AI趋势
时间: 2026-06-18T04:33:32.000Z

返回列表