你的位置：意昂体育 > 产品展示 > AI黑马，开源模型，完胜GPT-5！

AI黑马，开源模型，完胜GPT-5！

发布日期：2025-10-10 21:30 点击次数：99

最近，人工智能领域传来一个相当引人关注的消息。

就在2025年9月，一个名为Eigen-1的人工智能系统，在一项被业内称为“人类最后考试”的超高难度测试中取得了历史性的突破。

具体来说，它在生物和化学领域的黄金测试集上，以五次尝试内答对的准确率计算，达到了61.74%。

这个数字之所以重要，是因为它是人工智能首次在这项顶级科学推理测试中突破60分的大关，可以算得上是“及格”了。

更令人感到意外和振奋的是，取得这一成就的Eigen-1，其核心技术并非依赖于那些由科技巨头公司严格保密、不对外开放的超大型模型，而是构建在我们国家公司开发的开源模型DeepSeekV3.1之上。

这一结果不仅刷新了纪录，也引发了人们对于人工智能发展路径的重新思考。

可能很多人对这个“人类最后考试”（简称HLE）还不太了解。

我们可以把它想象成一场专门为顶尖人工智能设计的“终极学术能力评估”。

这个测试库里包含了整整三千道题目，内容覆盖了数学、物理、化学、生物学以及工程学等多个基础科学和应用科学领域。

这些题目的难度非常高，很多都达到了博士研究生资格考试的水平，需要深厚的专业知识和极其严谨的逻辑推理能力才能解答。

在此之前，即便是像谷歌的Gemini系列和OpenAI备受瞩目的GPT系列这样公认的顶尖模型，在面对这项挑战时，成绩也一直在及格线以下徘徊。

因此，Eigen-1这次能够一举超越所有前辈，并将分数线提升到一个新的高度，确实让整个行业为之震动。

它打破了一种普遍存在的固有印象，即认为只有那些投入了海量资源、技术细节不为外人所知的闭源模型，才能代表人工智能发展的最高水平。

现在看来，通过技术和方法的创新，开源模型同样具备冲击顶峰的巨大潜力。

那么，Eigen-in究竟是凭借什么实现了这样的飞跃呢？

根据其研发团队公布的资料，它的成功并非依赖于某一项单一的技术，而是由一套精心设计、协同工作的组合策略所支撑的，主要包括三个关键部分。

第一个关键技术是一种名为“基于监视器的检索增强生成”（Monitor-based RAG）的机制。

要理解它的巧妙之处，我们得先看看传统的同类技术有什么局限。

传统的检索增强生成系统在解决问题时，一旦发现自己的知识库里缺少某个信息，它通常会暂停当前的思考过程，转而去外部数据库里进行搜索。

这个过程就像我们写文章时，突然想不起一个数据，于是停下笔去上网查找。

等我们找到数据再回到文章前，之前的思路可能已经被打断了，需要重新组织。

在人工智能领域，这种因调用外部工具而造成的思维中断和效率损耗，被形象地称为“工具税”。

Eigen-1的新机制则有效地解决了这个问题。

它在系统后台设置了一个“监视器”，这个监视器会持续不断地观察人工智能的推理过程。

当它发现推理进行到某一步时出现了不确定性或知识盲点，它不会粗暴地打断整个流程，而是会指挥一个“查询器”，根据上下文精准地提取几个最核心的关键词去进行搜索，避免了大海捞针式的无效查找。

搜索到的关键信息，再由一个“注入器”非常自然、无缝地补充到当前的推理链条中，整个过程流畅得就像我们在对话时，朋友恰到好处地补充了一句背景信息，完全不影响交流的节奏。

根据团队提供的数据，经过这样的优化，系统在处理任务时所消耗的计算资源减少了一半以上，整个工作流程的步骤也缩减了约百分之四十，同时还保证了甚至更高的准确率。

在一个关于计算单倍体数量的复杂生物学问题中，正是依靠这套机制及时补充了一个关键的遗传学定义，系统才最终得以准确地计算出答案。

第二个核心技术是“分层解法修复”（HSR），这是一种全新的多智能体协作模式。

在过去，当多个AI程序（即多智能体）协同解决一个问题时，它们往往采用一种类似“民主投票”的方式。

每个AI都提出自己的解决方案，然后系统对这些方案进行表决，得票最多的方案被采纳。

这种方式看似公平，但在解决复杂的科学问题时却有明显的弊端，因为一个真正优秀的、具有洞察力的解决方案，很可能会因为过于复杂或不被多数平庸方案“理解”，而在投票中被埋没。

Eigen-1摒弃了这种简单的投票模式，转而采用一种“锚点—修复”的协作流程。

在这个流程中，系统会轮流将每一个候选方案设定为“锚点”，也就是当前讨论的核心。

当一个方案成为“锚点”后，其他所有的AI程序就会转换角色，成为“评审员”和“修正员”，它们的任务不再是提出自己的独立方案，而是集中精力对这个“锚下”方案进行全方位的审视和改进。

它们会检查其中的逻辑漏洞、修正计算错误、提出更优的解题方法，或是优化其表述方式，使其更加清晰和严谨。

这就好比一个专家团队在评审一份重要的报告，由一人主笔，其他人分别从不同专业角度进行修改和完善，确保最终成果的质量。

在一个需要同时识别图像中的昆虫并计算花朵数量的例子中，最初被选为“锚点”的方案在评估一个图像识别模型的部署时间时出现了计算错误，正是依靠其他协作AI的及时发现和修正，才避免了最终结果的偏差。

这种协作方式显然比简单的投票更为可靠和高效，因为它追求的是通过集体智慧将一个方案打磨到最优，而不是在多个方案中进行简单的取舍。

第三个技术则被称为“质量感知迭代推理”（QAIR），它的核心理念在于追求效率和精准的平衡，避免不必要的资源浪费。

简单来说，就是让人工智能在得出答案后，先进行一次“自我评估”。

以往的一些模型为了追求更高的准确率，可能会不计成本地对一个问题进行反复计算和推理，无论当前得出的答案质量如何，都会一遍又一遍地进行迭代，希望能“碰”到一个正确答案。

Eigen-1的这套机制则为其引入了一个“质检”环节。

在每一次迭代后，系统都会从逻辑的严密性、答案的正确性以及解释的完整性等多个维度，对当前的解答进行打分。

如果评分结果显示这个解答已经足够好，系统就会停止迭代，直接输出结果。

如果评分不理想，系统则会根据评估指出的具体问题，有针对性地进行下一轮的优化和修改。

这个过程就像一位经验丰富的老师在批改学生的作业，对于完成得好的作业直接给予肯定，对于存在问题的作业则会明确指出错误所在，让学生进行修改，而不是让所有学生都把作业重做一遍。

这种智能化的工作方式，确保了计算资源能够被用在最需要的地方，实现了效率与准确性的最佳结合。

总的来看，Eigen-1的这次成功，其意义远不止是创造了一个新的测试记录。

它向整个行业证明，人工智能的发展并非只有华山一条路。

在开源的生态环境下，通过在系统架构和工作方法上进行持续的创新，同样可以达到甚至超越那些看似遥不可及的闭源大模型。

这无疑为广大的研究人员和开发者打开了一扇新的大门，让更多的人可以参与到推动前沿科学推理AI的进程中来。

研发团队的分析还发现，当前AI在解决科学难题时所犯的错误，大多数并非源于知识的匮乏或单纯的逻辑能力不足，而是在于无法将已有的知识和复杂的推理步骤有效地结合起来。

这一发现为未来人工智能的研发指明了方向。

Eigen-1的突破，更像是一个信号，预示着一个更加开放、协作和创新的AI新时代的到来。

下一篇：吕后跟着刘邦真的是吃苦吗？为何感觉我她根本不算吃苦？上一篇：河源车体广告设计

AI黑马，开源模型，完胜GPT-5！

热点资讯

推荐资讯

推荐资讯

热点资讯