BrowseComp：为下一代 AI 智能体打造的“图灵测试”

我们日常使用的 AI 助手，在回答“今天天气如何”或“法国首都是哪里”这类问题时已经相当出色。但如果问题变得复杂，需要像侦探一样抽丝剥茧，从海量信息中拼接出唯一答案时，它们往往会束手无策。这正是当前 AI 智能体（Agent）能力的天花板。

OpenAI 最近发表的论文《BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents》直面这一挑战。它提出了一种全新的评测基准 BrowseComp，旨在衡量 AI 智能体在互联网上进行持久、深度信息检索的能力。这不仅是一个测试，更像是一个全新的赛道，将真正拉开“信息检索器”与“问题解决者”之间的差距。

什么是 BrowseComp

简单来说，BrowseComp 是一个包含 1266 个高难度问题的集合，这些问题都具备一个核心特点：答案极难找到，但一旦找到就很容易验证。它考验的不是 AI 的知识储备，而是其在开放网络环境中，面对看似无解的难题时，能否展现出类似人类专家的耐心、创造力和逻辑推理能力。

你可以从它的 GitHub 仓库了解更多细节。BrowseComp 的设计哲学，为我们评估和开发更强大的 AI 智能体提供了清晰的指南。

“反向提问”

BrowseComp 的问题之所以如此困难，源于其独特的“反向提问”创建方法。出题者并非从一个问题开始寻找答案，而是恰恰相反：

从一个确定的事实（“种子”）出发。这个事实可以是一个人物、一篇论文、一场比赛或任何具体事物。
为这个事实寻找多个难以直接关联的特征。这些特征的搜索空间巨大，单独搜索任何一个都无法直接定位到答案。
将这些特征组合成一个复杂的问题。

论文中给出了一个绝佳的例子来说明这个过程：

假设“种子”是某篇在 EMNLP 会议上发表的论文。出题者发现，这篇论文的第一作者本科毕业于达特茅斯学院，第四作者本科毕业于宾夕法尼亚大学。于是，问题就变成了：“请找出在 2018-2023 年 EMNLP 会议上发表的，第一作者本科毕业于达特茅斯学院，且第四作者本科毕业于宾夕法尼亚大学的论文标题是什么？”

要回答这个问题，暴力搜索几乎不可能。你需要检查这五年间数千篇论文的每一位作者的教育背景。然而，一旦有人给出了“Frequency Effects on Syntactic Rule Learning in Transformers”这个答案，你只需要几次简单的搜索就能轻松验证其真实性。

这种设计确保了问题的客观性和挑战性，也为我们提供了一种制造高质量、高难度评测数据的新思路。

连人类专家都头疼的“信息迷宫”

BrowseComp 的难度并非空谈。论文展示了人类专家（与出题者背景相似，但不知道答案）在这些问题上的表现——结果并不理想。

在限定时间内，人类测试者仅解决了 29.2% 的问题。即使是成功解决的问题，也往往需要花费一到两个小时甚至更长时间的持续搜索和分析。

图 1：人类解决 BrowseComp 问题所需时间分布

这些问题之所以困难，是因为它们往往要求解题者具备跨领域知识的整合能力。例如，一个问题可能要求你找到 1990 年代的一场足球比赛，但限制条件却包括了裁判国籍、黄牌数量与出现时段、换人次数以及其中一次换人是否因伤等多个维度的信息。

这不再是简单的信息检索，而是一场真正的调查。它考验的不是你知道多少，而是你如何运用策略去发现你不知道的东西。这或许是 BrowseComp 最具价值的洞见：未来的 AI 智能体，其核心竞争力将是策略性思考与执行的深度。

AI 的新赛道与未来方向

在 BrowseComp 这个全新的竞技场上，不同 AI 模型的表现也揭示了未来的发展方向。

像 GPT-4o 这样的通用大模型，即便开启了网络浏览功能，准确率也仅有 1.9%，几乎为零。这说明简单的“搜索-回答”模式已不足以应对复杂挑战。
专为深度研究设计的智能体模型“Deep Research”则表现出色，解决了 51.5% 的问题。它的优势在于能够自主规划搜索路径、评估信息源、综合多方线索，并根据新发现不断调整策略。

更有趣的是，性能与算力投入呈现出清晰的正相关关系。无论是增加单次尝试的计算量，还是通过多次采样、投票选择最优答案，Deep Research 的准确率都能得到显著提升。

图 2：Deep Research 的性能随测试时计算量的增加而扩展

这为我们指明了一条清晰的路径：未来的 AI 智能体不仅需要更强大的推理核心，还需要被赋予更充足的“思考时间”和更灵活的执行策略。

从评测到实践的价值

BrowseComp 的意义远不止于一个学术界的基准测试。它为 AI 的落地应用描绘了新的可能性。

对开发者而言：BrowseComp 提供了一套评估 agent 推理与工具使用能力的黄金标准。其“反向提问”的方法论，也为构造高质量的训练数据提供了全新范式，有助于训练出能处理复杂、多步任务的下一代模型。
对产品经理而言：能够征服 BrowseComp 的 AI 智能体，将催生出全新的产品形态。想象一下，一个能够自动完成竞品深度分析、技术专利检索、金融市场尽职调查的 AI 助手，将为专业领域带来何等的效率革命。
对普通用户而言：这意味着我们未来的数字助理将不再只是一个“万事通”，而是一个能够承担复杂研究任务的“问题解决专家”。我们可以将那些需要数小时甚至数天才能完成的信息挖掘工作，放心地交给它们。

从一个确定的事实（“种子”）出发。这个事实可以是一个人物、一篇论文、一场比赛或任何具体事物。
为这个事实寻找多个难以直接关联的特征。这些特征的搜索空间巨大，单独搜索任何一个都无法直接定位到答案。
将这些特征组合成一个复杂的问题。

论文中给出了一个绝佳的例子来说明这个过程：

这种设计确保了问题的客观性和挑战性，也为我们提供了一种制造高质量、高难度评测数据的新思路。

连人类专家都头疼的“信息迷宫”

BrowseComp 的难度并非空谈。论文展示了人类专家（与出题者背景相似，但不知道答案）在这些问题上的表现——结果并不理想。

在限定时间内，人类测试者仅解决了 29.2% 的问题。即使是成功解决的问题，也往往需要花费一到两个小时甚至更长时间的持续搜索和分析。

图 1：人类解决 BrowseComp 问题所需时间分布

AI 的新赛道与未来方向

在 BrowseComp 这个全新的竞技场上，不同 AI 模型的表现也揭示了未来的发展方向。

像 GPT-4o 这样的通用大模型，即便开启了网络浏览功能，准确率也仅有 1.9%，几乎为零。这说明简单的“搜索-回答”模式已不足以应对复杂挑战。
专为深度研究设计的智能体模型“Deep Research”则表现出色，解决了 51.5% 的问题。它的优势在于能够自主规划搜索路径、评估信息源、综合多方线索，并根据新发现不断调整策略。

图 2：Deep Research 的性能随测试时计算量的增加而扩展

这为我们指明了一条清晰的路径：未来的 AI 智能体不仅需要更强大的推理核心，还需要被赋予更充足的“思考时间”和更灵活的执行策略。

从评测到实践的价值

BrowseComp 的意义远不止于一个学术界的基准测试。它为 AI 的落地应用描绘了新的可能性。

对开发者而言：BrowseComp 提供了一套评估 agent 推理与工具使用能力的黄金标准。其“反向提问”的方法论，也为构造高质量的训练数据提供了全新范式，有助于训练出能处理复杂、多步任务的下一代模型。
对产品经理而言：能够征服 BrowseComp 的 AI 智能体，将催生出全新的产品形态。想象一下，一个能够自动完成竞品深度分析、技术专利检索、金融市场尽职调查的 AI 助手，将为专业领域带来何等的效率革命。
对普通用户而言：这意味着我们未来的数字助理将不再只是一个“万事通”，而是一个能够承担复杂研究任务的“问题解决专家”。我们可以将那些需要数小时甚至数天才能完成的信息挖掘工作，放心地交给它们。

BrowseComp：为下一代 AI 智能体打造的“图灵测试”

什么是 BrowseComp

“反向提问”

连人类专家都头疼的“信息迷宫”

AI 的新赛道与未来方向

从评测到实践的价值

结语

作者

分类

更多文章

当我们用 ChatGPT 替代谷歌搜索，得到了什么？效率、体验与陷阱

GEO：面向生成式引擎的内容可见性优化新范式

WebGPT：当语言模型学会自己上网查资料

BrowseComp：为下一代 AI 智能体打造的“图灵测试”

什么是 BrowseComp

“反向提问”

连人类专家都头疼的“信息迷宫”

AI 的新赛道与未来方向

从评测到实践的价值

结语

作者

分类

更多文章

当我们用 ChatGPT 替代谷歌搜索，得到了什么？效率、体验与陷阱

GEO：面向生成式引擎的内容可见性优化新范式

WebGPT：当语言模型学会自己上网查资料