AI黑马,开源模型,完胜GPT-5!
最近,人工智能领域传来一个相当引人关注的消息。
就在2025年9月,一个名为Eigen-1的人工智能系统,在一项被业内称为“人类最后考试”的超高难度测试中取得了历史性的突破。
具体来说,它在生物和化学领域的黄金测试集上,以五次尝试内答对的准确率计算,达到了61.74%。
这个数字之所以重要,是因为它是人工智能首次在这项顶级科学推理测试中突破60分的大关,可以算得上是“及格”了。
更令人感到意外和振奋的是,取得这一成就的Eigen-1,其核心技术并非依赖于那些由科技巨头公司严格保密、不对外开放的超大型模型,而是构建在我们国家公司开发的开源模型DeepSeekV3.1之上。
这一结果不仅刷新了纪录,也引发了人们对于人工智能发展路径的重新思考。
可能很多人对这个“人类最后考试”(简称HLE)还不太了解。
我们可以把它想象成一场专门为顶尖人工智能设计的“终极学术能力评估”。
这个测试库里包含了整整三千道题目,内容覆盖了数学、物理、化学、生物学以及工程学等多个基础科学和应用科学领域。
这些题目的难度非常高,很多都达到了博士研究生资格考试的水平,需要深厚的专业知识和极其严谨的逻辑推理能力才能解答。
在此之前,即便是像谷歌的Gemini系列和OpenAI备受瞩目的GPT系列这样公认的顶尖模型,在面对这项挑战时,成绩也一直在及格线以下徘徊。
因此,Eigen-1这次能够一举超越所有前辈,并将分数线提升到一个新的高度,确实让整个行业为之震动。
它打破了一种普遍存在的固有印象,即认为只有那些投入了海量资源、技术细节不为外人所知的闭源模型,才能代表人工智能发展的最高水平。
现在看来,通过技术和方法的创新,开源模型同样具备冲击顶峰的巨大潜力。
那么,Eigen-in究竟是凭借什么实现了这样的飞跃呢?
根据其研发团队公布的资料,它的成功并非依赖于某一项单一的技术,而是由一套精心设计、协同工作的组合策略所支撑的,主要包括三个关键部分。
第一个关键技术是一种名为“基于监视器的检索增强生成”(Monitor-based RAG)的机制。
要理解它的巧妙之处,我们得先看看传统的同类技术有什么局限。
传统的检索增强生成系统在解决问题时,一旦发现自己的知识库里缺少某个信息,它通常会暂停当前的思考过程,转而去外部数据库里进行搜索。
这个过程就像我们写文章时,突然想不起一个数据,于是停下笔去上网查找。
等我们找到数据再回到文章前,之前的思路可能已经被打断了,需要重新组织。
在人工智能领域,这种因调用外部工具而造成的思维中断和效率损耗,被形象地称为“工具税”。
Eigen-1的新机制则有效地解决了这个问题。
它在系统后台设置了一个“监视器”,这个监视器会持续不断地观察人工智能的推理过程。
当它发现推理进行到某一步时出现了不确定性或知识盲点,它不会粗暴地打断整个流程,而是会指挥一个“查询器”,根据上下文精准地提取几个最核心的关键词去进行搜索,避免了大海捞针式的无效查找。
搜索到的关键信息,再由一个“注入器”非常自然、无缝地补充到当前的推理链条中,整个过程流畅得就像我们在对话时,朋友恰到好处地补充了一句背景信息,完全不影响交流的节奏。
根据团队提供的数据,经过这样的优化,系统在处理任务时所消耗的计算资源减少了一半以上,整个工作流程的步骤也缩减了约百分之四十,同时还保证了甚至更高的准确率。
在一个关于计算单倍体数量的复杂生物学问题中,正是依靠这套机制及时补充了一个关键的遗传学定义,系统才最终得以准确地计算出答案。
第二个核心技术是“分层解法修复”(HSR),这是一种全新的多智能体协作模式。
在过去,当多个AI程序(即多智能体)协同解决一个问题时,它们往往采用一种类似“民主投票”的方式。
每个AI都提出自己的解决方案,然后系统对这些方案进行表决,得票最多的方案被采纳。
这种方式看似公平,但在解决复杂的科学问题时却有明显的弊端,因为一个真正优秀的、具有洞察力的解决方案,很可能会因为过于复杂或不被多数平庸方案“理解”,而在投票中被埋没。
Eigen-1摒弃了这种简单的投票模式,转而采用一种“锚点—修复”的协作流程。
在这个流程中,系统会轮流将每一个候选方案设定为“锚点”,也就是当前讨论的核心。
当一个方案成为“锚点”后,其他所有的AI程序就会转换角色,成为“评审员”和“修正员”,它们的任务不再是提出自己的独立方案,而是集中精力对这个“锚下”方案进行全方位的审视和改进。
它们会检查其中的逻辑漏洞、修正计算错误、提出更优的解题方法,或是优化其表述方式,使其更加清晰和严谨。
这就好比一个专家团队在评审一份重要的报告,由一人主笔,其他人分别从不同专业角度进行修改和完善,确保最终成果的质量。
在一个需要同时识别图像中的昆虫并计算花朵数量的例子中,最初被选为“锚点”的方案在评估一个图像识别模型的部署时间时出现了计算错误,正是依靠其他协作AI的及时发现和修正,才避免了最终结果的偏差。
这种协作方式显然比简单的投票更为可靠和高效,因为它追求的是通过集体智慧将一个方案打磨到最优,而不是在多个方案中进行简单的取舍。
第三个技术则被称为“质量感知迭代推理”(QAIR),它的核心理念在于追求效率和精准的平衡,避免不必要的资源浪费。
简单来说,就是让人工智能在得出答案后,先进行一次“自我评估”。
以往的一些模型为了追求更高的准确率,可能会不计成本地对一个问题进行反复计算和推理,无论当前得出的答案质量如何,都会一遍又一遍地进行迭代,希望能“碰”到一个正确答案。
Eigen-1的这套机制则为其引入了一个“质检”环节。
在每一次迭代后,系统都会从逻辑的严密性、答案的正确性以及解释的完整性等多个维度,对当前的解答进行打分。
如果评分结果显示这个解答已经足够好,系统就会停止迭代,直接输出结果。
如果评分不理想,系统则会根据评估指出的具体问题,有针对性地进行下一轮的优化和修改。
这个过程就像一位经验丰富的老师在批改学生的作业,对于完成得好的作业直接给予肯定,对于存在问题的作业则会明确指出错误所在,让学生进行修改,而不是让所有学生都把作业重做一遍。
这种智能化的工作方式,确保了计算资源能够被用在最需要的地方,实现了效率与准确性的最佳结合。
总的来看,Eigen-1的这次成功,其意义远不止是创造了一个新的测试记录。
它向整个行业证明,人工智能的发展并非只有华山一条路。
在开源的生态环境下,通过在系统架构和工作方法上进行持续的创新,同样可以达到甚至超越那些看似遥不可及的闭源大模型。
这无疑为广大的研究人员和开发者打开了一扇新的大门,让更多的人可以参与到推动前沿科学推理AI的进程中来。
研发团队的分析还发现,当前AI在解决科学难题时所犯的错误,大多数并非源于知识的匮乏或单纯的逻辑能力不足,而是在于无法将已有的知识和复杂的推理步骤有效地结合起来。
这一发现为未来人工智能的研发指明了方向。
Eigen-1的突破,更像是一个信号,预示着一个更加开放、协作和创新的AI新时代的到来。
热点资讯
- 2025-07-06韩娱圈“被遗忘女团”含泪逆袭夺冠,成员激动“跪地”感谢支持
- 2025-08-04乾隆求诊,黄元御把脉后痛哭称没救了,乾隆却大笑道:重重有赏
- 2025-08-05吴谨言产后复出为何成娱乐圈最大悬念
- 2025-08-06水瓶座桃花爆发期攻略来袭事业爱情双赢秘籍快收好
- 2025-07-09亳州市足球小将将代表安徽出征国赛总决赛
- 2025-07-18中国双航母刚返航,俄罗斯海军出兵四大洋,中俄接力突破西方封锁
推荐资讯
- 内蒙古宁源智慧酒店项目竞争性磋商招标公告
- 花12万买奔驰GLC?豪华SUV入手门槛被悄悄拉低!
- 雷达流速计的功能是什么
- 四家低价科技股最新行情盘点:资金流动、机会与风险怎么看
- 镀银与925银的终极对比:别再被商家忽悠了!