科学研究的真正水平统一失败了!新的基准SFE带
作者:365bet网页版日期:2025/07/12 浏览:
目前,驱动科学研究的科学AI(AI4S)在一个点上做出了巨大的发展,并实现了工具级别的变化。但是,为了成为“革命性工具”,有必要采用“ AGI”方法的“综合聚合”。大型模型的突破逐渐改变了科学研究模型,大型模型在科学领域的深刻应用需要支持科学分析。现有的科学测试面临两个主要疾病:现有测试更专注于知识和记忆,而真正的科学研究要求能够从对原始科学数据的感知到复杂推理的能力完全链接;在天文学,土地,生命和材料领域,有大量非生成数据评论多模式。因此,上海人工智能实验室的AI4S团队启动了第一位科学家考试(从那里开始),这是系统的Rev的基准多学科,高度困难的科学专业认知能力。 SFE领导了“推理的信号感知理解 - 理解 - 理解 - 理解为推理”的三级系统审查系统,使用原始的科学和中文英语双语问答数据涵盖了五个主要科学领域的66个高价值任务。测试表明,即使基本模型在传统的基准测试上表现良好,但它们仍然在SFE高级科学活动中面临重要的挑战(SOTA大型模型的组合分数约为30个)。 SFE通过对大型模型在科学活动中的能力进行系统和全面的综述,指出了开发AI -Scientific的突破方向。主流MLLM在各种基准测试中的三层认知框架的性能将评估科学能力的深度和程度SFE形成三层认知框架,包括:科学科学信号(L1),理解:科学特征(L2),科学(L3)。通过这三个层次的认知,SFE研究了模型从了解数据到高级推理的全面技能。 SFE涵盖了天文学,化学,地球科学,生命科学和材料科学的五个主要领域,并包含了66种由专家精心设计的多模式活动。所有任务均基于科学的科学数据构建,以视觉问答(VQA)的形式显示,并支持中文和英语的双语。 SFE不仅研究了深层域名知识和数据分析能力,而且还旨在提高科学研究效率并促进科学发展。 SFE旨在全面评估MLLM功能的深度和宽度。 SFE任务分布SFE数据分布共构建数据集在多学科领域中的专家。 SFE施工集数据已与多学科领域的专家广泛集成,包括三个主要阶段:结构设计,共同确定专家的科学挑战和方向;任务的设计,完善了科学在特定活动中的方向,并澄清了问题的类型以及提供的免费专家设计和评估的水平;基准结构,选择原始数据,渲染和可视化,并写出专家的高质量VQA示例。 SFE数据收集框架图。 1。基于专家的科学和建议的科学发展,科学各方正在前进。 2。邀请专家建议域活动,并根据三个认知水平提供原始任务。 3。考虑任务数据,并询问域专家,以纳入结果基准。评论表明,主要MLLM在高级科学活动中面临挑战。根据SFE,审查了16个主流开放和封闭的MLLM资源。为了降低评估过程中的随机性,所有的温度参数模型均匀设置为0。同时,为了确保分析的公平性,所有模型的最大代币数量也限于1024。在此实验设置下,SFE遵循以下关键现象:封闭源MLLM的科学能力比开源MLLM高得多。 SFE审查的结果表明,在科学认知能力中,封闭源大型模型(例如GPT-O3,Claude-3.7-Sonnet)通常比开源模型要好,平均铅为6-8%。其中,GPT-03和Gemini-7.5-Pro之间的性能差异超过26%。造成这一重大差距的主要原因是,在推理的原因期间,Gemini-7.5-Pro被思想不知所措,这导致令牌消费速度非常快,最终未能使结论完全暴露出来。尽管GPT-O3都是能够推理的模型,但它可以更有效地控制RE思维过程的衰落并提高了识别的效率,从而获得了更高的标记。该结果证明了SFE可以有效地识别不同的科学能力模型。此外,与前几代相比,在同一系列模型中也显示了显着的改进,例如Claude-3.7-Sonnet增加了7%以上。这种趋势也存在于InternVL模型系列中,这反映了继续改善建筑技术和培训方法所带来的能力。 MLLM在各种SFE学科中显示出明显的性能差距。审查的结果表明,材料科学是针对不同模型的Pibetter表演场。 GPT-O3在这个方向上的英语活动中达到了63.44%,中国活动的占58.20%。尽管开放资源模型(例如QWEN2.5-VL-72B,InternVL-3-78B)可能超过40%。该优势很大程度上是由于材料的明确结构输入S科学(例如相图和X射线变化)。该模型可以依靠强大的符号视觉信息处理能力来输出科学答案。相比之下,五项经济学活动更具挑战性,涉及光谱分析和天体物理参数的数值估计。由于原始数据非常嘈杂且易于理解,因此当前模型通常很难胜任。劣等性这是一种反思,即SFE可以有效揭示不同类型的科学推理中MLLM的优势和缺点。 MLLM的科学能力从了解知识变为高级推理。 SFE的三个莱手认知框架表明,最新的MLLM处于高级推理中。在开发(L2)工作的同时,(L3)工作的提高(L3)工作非常重要。例如,GPT-O3在L3工作中得分从26.64%(GPT-4.1)到36.48%,但L2得分几乎没有改变。它显示该模型已经发展了对理解,工具使用等的发展,而知识的程度并没有太大变化。同样,Intervl-3英语L3的工作比上一代高8%,这主要是由于新的Paging TechniqueSexercise等新的分页技术,例如多模式的预训练和链条思维。 L2活动的开发进一步表明,该模型的改进主要源于体系结构,并改变了先进的推理能力的培训。使用PASS@K量表,封闭的MLLM源通常比模型的开源源更好,以评估模型生成质量答案的能力。结果表明,封闭的资源模型(例如GPT-4.1-2025-04-14和Gemini-7.5-Flash)不仅起初表现更好(比30.56%,而26.09%),而且性能提高随着k的增加而更明显(30.56%→37.75%)(30.56%→37.75%),而不是26.09%→26.09%→27.33%→27.33%)。它表明,封闭源模型可以使用更丰富的在训练前进行的多种数据集,并在训练后阶段进行探索和使用之间的重点范围,这比仅关注开发的开源模型要好。 SFE综述下的科学模型的科学模型大小,各种大小的MLLM表明,该模型的大小并不总是与提高科学能力成正比。例如,与自己的小型型号相比,QWEN2.5-VL-72B和InternVL-3-78B并没有显着改善,并且QWEN2.5-VL-72B低于QWEN2.5-VL-7B,这可能存在过多的问题。它表明,在科学领域,随着模型的扩展,科学数据需要合理扩展,否则很难实现图纸的开发。 AI4Sciprismax科学评估平台共同建立了。除了发布SFE评估基准测试之外,研究团队还建立了“ Prismax”科学考试平台。该平台包括五个modULE:模型能力,纪律多样性,评估技术,评估项目和评估工具,涵盖了三个级别的评估维度:用于变更的AI,用于计算数据的AI和用于数据的AI,并专注于开发具有科学研究科学科学研究的更严格,动态和深入的深入评估生态系统。同时,该平台将通过实时监测,自我建设和社区建设来维持科学科学考试的动态科学数据库,以将AI基准在科学领域的开发结合在一起。 “ prismax”(sciprismx)台湾链接:https://prismax.opencompass.org.cn/
相关文章