意昂体育
意昂体育
你的位置:意昂体育 > 产品展示 > AI黑马,开源模型,完胜GPT-5!

AI黑马,开源模型,完胜GPT-5!

发布日期:2025-10-10 21:30    点击次数:99

最近,人工智能领域传来一个相当引人关注的消息。

就在2025年9月,一个名为Eigen-1的人工智能系统,在一项被业内称为“人类最后考试”的超高难度测试中取得了历史性的突破。

具体来说,它在生物和化学领域的黄金测试集上,以五次尝试内答对的准确率计算,达到了61.74%。

这个数字之所以重要,是因为它是人工智能首次在这项顶级科学推理测试中突破60分的大关,可以算得上是“及格”了。

更令人感到意外和振奋的是,取得这一成就的Eigen-1,其核心技术并非依赖于那些由科技巨头公司严格保密、不对外开放的超大型模型,而是构建在我们国家公司开发的开源模型DeepSeekV3.1之上。

这一结果不仅刷新了纪录,也引发了人们对于人工智能发展路径的重新思考。

可能很多人对这个“人类最后考试”(简称HLE)还不太了解。

我们可以把它想象成一场专门为顶尖人工智能设计的“终极学术能力评估”。

这个测试库里包含了整整三千道题目,内容覆盖了数学、物理、化学、生物学以及工程学等多个基础科学和应用科学领域。

这些题目的难度非常高,很多都达到了博士研究生资格考试的水平,需要深厚的专业知识和极其严谨的逻辑推理能力才能解答。

在此之前,即便是像谷歌的Gemini系列和OpenAI备受瞩目的GPT系列这样公认的顶尖模型,在面对这项挑战时,成绩也一直在及格线以下徘徊。

因此,Eigen-1这次能够一举超越所有前辈,并将分数线提升到一个新的高度,确实让整个行业为之震动。

它打破了一种普遍存在的固有印象,即认为只有那些投入了海量资源、技术细节不为外人所知的闭源模型,才能代表人工智能发展的最高水平。

现在看来,通过技术和方法的创新,开源模型同样具备冲击顶峰的巨大潜力。

那么,Eigen-in究竟是凭借什么实现了这样的飞跃呢?

根据其研发团队公布的资料,它的成功并非依赖于某一项单一的技术,而是由一套精心设计、协同工作的组合策略所支撑的,主要包括三个关键部分。

第一个关键技术是一种名为“基于监视器的检索增强生成”(Monitor-based RAG)的机制。

要理解它的巧妙之处,我们得先看看传统的同类技术有什么局限。

传统的检索增强生成系统在解决问题时,一旦发现自己的知识库里缺少某个信息,它通常会暂停当前的思考过程,转而去外部数据库里进行搜索。

这个过程就像我们写文章时,突然想不起一个数据,于是停下笔去上网查找。

等我们找到数据再回到文章前,之前的思路可能已经被打断了,需要重新组织。

在人工智能领域,这种因调用外部工具而造成的思维中断和效率损耗,被形象地称为“工具税”。

Eigen-1的新机制则有效地解决了这个问题。

它在系统后台设置了一个“监视器”,这个监视器会持续不断地观察人工智能的推理过程。

当它发现推理进行到某一步时出现了不确定性或知识盲点,它不会粗暴地打断整个流程,而是会指挥一个“查询器”,根据上下文精准地提取几个最核心的关键词去进行搜索,避免了大海捞针式的无效查找。

搜索到的关键信息,再由一个“注入器”非常自然、无缝地补充到当前的推理链条中,整个过程流畅得就像我们在对话时,朋友恰到好处地补充了一句背景信息,完全不影响交流的节奏。

根据团队提供的数据,经过这样的优化,系统在处理任务时所消耗的计算资源减少了一半以上,整个工作流程的步骤也缩减了约百分之四十,同时还保证了甚至更高的准确率。

在一个关于计算单倍体数量的复杂生物学问题中,正是依靠这套机制及时补充了一个关键的遗传学定义,系统才最终得以准确地计算出答案。

第二个核心技术是“分层解法修复”(HSR),这是一种全新的多智能体协作模式。

在过去,当多个AI程序(即多智能体)协同解决一个问题时,它们往往采用一种类似“民主投票”的方式。

每个AI都提出自己的解决方案,然后系统对这些方案进行表决,得票最多的方案被采纳。

这种方式看似公平,但在解决复杂的科学问题时却有明显的弊端,因为一个真正优秀的、具有洞察力的解决方案,很可能会因为过于复杂或不被多数平庸方案“理解”,而在投票中被埋没。

Eigen-1摒弃了这种简单的投票模式,转而采用一种“锚点—修复”的协作流程。

在这个流程中,系统会轮流将每一个候选方案设定为“锚点”,也就是当前讨论的核心。

当一个方案成为“锚点”后,其他所有的AI程序就会转换角色,成为“评审员”和“修正员”,它们的任务不再是提出自己的独立方案,而是集中精力对这个“锚下”方案进行全方位的审视和改进。

它们会检查其中的逻辑漏洞、修正计算错误、提出更优的解题方法,或是优化其表述方式,使其更加清晰和严谨。

这就好比一个专家团队在评审一份重要的报告,由一人主笔,其他人分别从不同专业角度进行修改和完善,确保最终成果的质量。

在一个需要同时识别图像中的昆虫并计算花朵数量的例子中,最初被选为“锚点”的方案在评估一个图像识别模型的部署时间时出现了计算错误,正是依靠其他协作AI的及时发现和修正,才避免了最终结果的偏差。

这种协作方式显然比简单的投票更为可靠和高效,因为它追求的是通过集体智慧将一个方案打磨到最优,而不是在多个方案中进行简单的取舍。

第三个技术则被称为“质量感知迭代推理”(QAIR),它的核心理念在于追求效率和精准的平衡,避免不必要的资源浪费。

简单来说,就是让人工智能在得出答案后,先进行一次“自我评估”。

以往的一些模型为了追求更高的准确率,可能会不计成本地对一个问题进行反复计算和推理,无论当前得出的答案质量如何,都会一遍又一遍地进行迭代,希望能“碰”到一个正确答案。

Eigen-1的这套机制则为其引入了一个“质检”环节。

在每一次迭代后,系统都会从逻辑的严密性、答案的正确性以及解释的完整性等多个维度,对当前的解答进行打分。

如果评分结果显示这个解答已经足够好,系统就会停止迭代,直接输出结果。

如果评分不理想,系统则会根据评估指出的具体问题,有针对性地进行下一轮的优化和修改。

这个过程就像一位经验丰富的老师在批改学生的作业,对于完成得好的作业直接给予肯定,对于存在问题的作业则会明确指出错误所在,让学生进行修改,而不是让所有学生都把作业重做一遍。

这种智能化的工作方式,确保了计算资源能够被用在最需要的地方,实现了效率与准确性的最佳结合。

总的来看,Eigen-1的这次成功,其意义远不止是创造了一个新的测试记录。

它向整个行业证明,人工智能的发展并非只有华山一条路。

在开源的生态环境下,通过在系统架构和工作方法上进行持续的创新,同样可以达到甚至超越那些看似遥不可及的闭源大模型。

这无疑为广大的研究人员和开发者打开了一扇新的大门,让更多的人可以参与到推动前沿科学推理AI的进程中来。

研发团队的分析还发现,当前AI在解决科学难题时所犯的错误,大多数并非源于知识的匮乏或单纯的逻辑能力不足,而是在于无法将已有的知识和复杂的推理步骤有效地结合起来。

这一发现为未来人工智能的研发指明了方向。

Eigen-1的突破,更像是一个信号,预示着一个更加开放、协作和创新的AI新时代的到来。