2025年初,021LSM正式启动覆盖174个学科的科学语料生产计划,由具备相关学科专业背景的科研人员对34万个网站开展系统性质量评估,确保语料在准确性、专业性等方面达到高标准要求。
在GeoGPT的研究中,为了让模型“学透”地学,团队与国内外25家机构、400余位地学专家共建全球最专业的地学领域数据集,覆盖8个地学二级学科。与此同时,之江实验室还通过与中国科学院国家天文台共同举办大模型种子班等方式,推动天文专业数据和人工智能算法深度融合,进一步提升模型语料的科学密度。
021LSM没有在现有通用基础模型上“搭房子”,而是“从0到1”打地基“建房子”。这极具挑战。
“基础模型决定了模型能级的上限。”薛贵荣感叹,“就好比1升的瓶子装不下3升的水,在他人的通用模型的框架里做研究就很难有所突破。”
目前,021LSM模型训练流程每个阶段都可能耗时数月。让人工智能模型从“描述世界”跃升至真正“理解科学”的崭新境界,团队正跋涉在一条前人未至之路上。
让世界换一种玩法
今年6月,021LSM作为一名浙江的虚拟考生参与了全国高考。满分150的全国新高考Ⅰ卷,它能考143分。它还有“成长空间”——针对几何类的题目,人类使用视觉的辅助线可以高效快速地解决问题,但是若使用纯文字的解法需要更多的逻辑推理。
8月,021LSM亮相2025年人工智能向善全球峰会,吸引了全球参观者的目光,大家对这个“理科生”模型感到好奇——它与通用大语言模型究竟有什么不同,非英语母语者能否用它来解决科研问题?
了解科学家的共性、加深对科学问题的理解、覆盖更系统全面的科学领域知识……“还有太多太多的科学问题等待着我们去发现和解决。”薛贵荣感慨。
中国工程院院士、之江实验室主任王坚曾说:“基础模型是人工智能的皇冠,是人工智能发展的技术底座。”基础模型突破带来的将是巨大的想象空间。
“或许以后能发一个火箭派一堆机器人去外太空做实验。”薛贵荣畅想,“只要有电的地方,人工智能就能工作,地底下也是一样。机器人就能够完成一系列的科学实验。而人作为指挥者,要思考的是未来的问题。”
这并非空想。王坚近期在接受媒体采访时分享了一位美国高中生发现未知天体的故事:马特奥·帕兹是一名18岁的美国高中生,他借助人工智能技术,在美国航空航天局积累的2000亿条观测数据中,发现了150万个此前未被发现的天体。那些藏在数据洪流里的异常信号,曾让专业团队望而却步,却被模型敏锐捕捉——这恰是科学基础模型的神奇之处:它能让人类突破专业壁垒与认知边界,实现从前不敢想象的科学发现,即便发现者并非该领域的科研工作者,也能叩开未知世界的大门。
现在,之江实验室太空计算星座已经能让人工智能直接在轨处理遥感数据,不用把图片传回地球。深地探测、新药研发……未来,这些曾依赖“人海战术”的领域,或许会因为科学基础模型的加入而加速突破。而当科学基础模型深度嵌入材料、生物等产业创新链条,高效调用、深度分析海量科学知识和数据背后的联系,或许将从根本上重塑产业发展格局。
就像望远镜延伸了人类的视野、显微镜扩大了人类的微观世界,科学基础模型正在延伸人类的“思维”。它不是要取代科学家,而是要成为那个“最懂科学家”的搭档——帮你算公式、画图纸、找规律,让人类能更自由地探索那些“想都不敢想”的未知。
就像薛贵荣在采访的尾声,俏皮的那一下:“让世界换一种玩法,还挺有趣的。”