WebGPT：当语言模型学会自己上网查资料

大型语言模型（LLM）正在重塑我们获取信息的方式，但其固有的“幻觉”问题——即生成看似可信但实际上是错误的或捏造的信息——始终是其大规模应用的核心障碍。一个模型无论语言多么流畅，一旦其信息的根基不稳，其价值便会大打折扣。OpenAI 提出的 WebGPT 模型，为解决这一根本性挑战提供了一个清晰且有效的实现路径。其核心思想并非革新语言模型的合成能力，而是赋予模型一个我们人类早已熟练掌握的技能：使用浏览器进行网络研究。

这篇博客将深入探讨 WebGPT 的工作原理，这篇研究的论文原文可以在这里找到：https://arxiv.org/abs/2112.09332。我们将解析其方法论，并讨论它为构建更可信、更具事实依据的 AI 系统带来的实际启示。

像人一样使用浏览器

WebGPT 的设计理念朴素而强大：与其让模型仅依赖其内部存储的、可能过时或不准确的知识，不如让它成为一个能主动在网络上验证和搜寻信息的主体。为了实现这一点，研究人员构建了一个纯文本的网页浏览环境。

WebGPT 演示界面

在这个环境中，模型不再是被动地生成文本，而是可以执行一系列具体指令，模拟人类浏览网页的行为。这些指令包括：

Search <query>：向必应（Bing）搜索引擎发起一次查询。
Clicked on link <link ID>：在搜索结果页或当前页面中点击一个特定的链接。
Find in page: <text>：在当前页面内查找关键词。
Quote: <text>：从当前页面中引用一段文本，这段文本将作为答案的参考文献。
Scroll down/up：在页面中上下滚动。
End: Answer：结束浏览，开始根据收集到的引用信息撰写最终答案。

通过这个交互循环，模型从一个封闭的知识库，转变为一个开放世界的信息探索者。它能够根据问题的需要，自主地制定搜索策略、筛选信息源、并从网页中提取关键证据来支撑其最终的回答。

WebGPT 的训练方法

要让一个预训练好的语言模型（在研究中是 GPT-3）掌握使用浏览器的能力，需要一套精心设计的训练流程。WebGPT 的训练分为几个关键阶段，层层递进，最终使其表现超越了提供训练数据的人类。

第一阶段：模仿学习（Behavior Cloning）

模型首先需要学习基础操作。研究人员招募了一批人类工作者，让他们在一个图形化界面的浏览器环境中，通过实际操作来回答一系列问题。这个过程中的每一步操作（搜索、点击、引用等）都被记录下来，形成一个“专家演示”数据集。

随后，模型通过监督学习的方式，模仿这些人类专家的行为。这就是行为克隆（Behavior Cloning, BC）——模型学习在特定情境下，执行与人类专家相同的指令。这个阶段的目标是让模型掌握使用浏览器的基本流程与技巧。

第二阶段：基于人类偏好的优化

单纯的模仿只能让模型达到人类演示者的平均水平，但无法超越他们。为了让答案质量进一步提升，WebGPT 采用了基于人类反馈的强化学习（RLHF）的思路，但实现上更侧重于两个核心组件：奖励模型和拒绝采样。

奖励模型（Reward Modeling）：研究人员让模型针对同一个问题，生成两个不同的答案（包含不同的浏览过程和引用）。然后，他们邀请人类评估者来判断哪个答案更好。通过收集大量的这类成对比较数据，他们训练了一个“奖励模型”。这个模型的核心功能是预测：对于任意一个给出的问题和答案，人类评估者会倾向于给它打多高的分数。它学会了分辨什么是高质量的、事实准确、逻辑清晰且引用可靠的答案。
拒绝采样（Rejection Sampling）：在拥有了一个可靠的奖励模型后，提升答案质量的方法变得直接起来。当需要回答一个新问题时，研究团队让已经通过模仿学习训练过的模型生成多个（例如 4 个、16 个或 64 个）候选答案。然后，用奖励模型为所有这些候选答案打分，并最终选择得分最高的那一个作为最终输出。这种“优中选优”的策略，虽然在推理时需要更多的计算资源，但能有效地过滤掉低质量的生成结果，显著提升最终答案的可靠性。

通过这个“模仿-优化”的两阶段流程，WebGPT 不仅学会了如何使用工具，更学会了如何高质量地使用工具，其最终生成的答案在人类评估中，有 56% 的情况下优于最初提供演示的人类专家，有 69% 的情况下优于 Reddit ELI5（像对五岁小孩解释）板块的高赞回答。

Search <query>：向必应（Bing）搜索引擎发起一次查询。
Clicked on link <link ID>：在搜索结果页或当前页面中点击一个特定的链接。
Find in page: <text>：在当前页面内查找关键词。
Quote: <text>：从当前页面中引用一段文本，这段文本将作为答案的参考文献。
Scroll down/up：在页面中上下滚动。
End: Answer：结束浏览，开始根据收集到的引用信息撰写最终答案。

奖励模型（Reward Modeling）：研究人员让模型针对同一个问题，生成两个不同的答案（包含不同的浏览过程和引用）。然后，他们邀请人类评估者来判断哪个答案更好。通过收集大量的这类成对比较数据，他们训练了一个“奖励模型”。这个模型的核心功能是预测：对于任意一个给出的问题和答案，人类评估者会倾向于给它打多高的分数。它学会了分辨什么是高质量的、事实准确、逻辑清晰且引用可靠的答案。
拒绝采样（Rejection Sampling）：在拥有了一个可靠的奖励模型后，提升答案质量的方法变得直接起来。当需要回答一个新问题时，研究团队让已经通过模仿学习训练过的模型生成多个（例如 4 个、16 个或 64 个）候选答案。然后，用奖励模型为所有这些候选答案打分，并最终选择得分最高的那一个作为最终输出。这种“优中选优”的策略，虽然在推理时需要更多的计算资源，但能有效地过滤掉低质量的生成结果，显著提升最终答案的可靠性。

WebGPT：当语言模型学会自己上网查资料

像人一样使用浏览器

WebGPT 的训练方法

第一阶段：模仿学习（Behavior Cloning）

第二阶段：基于人类偏好的优化

如何构建可信的 AI 系统

1. 将引用作为一等公民

2. 采用多步、主动的检索策略

3. 建立人类偏好反馈闭环

结论

作者

分类

更多文章

BrowseComp：为下一代 AI 智能体打造的“图灵测试”

当我们用 ChatGPT 替代谷歌搜索，得到了什么？效率、体验与陷阱

GEO：面向生成式引擎的内容可见性优化新范式

WebGPT：当语言模型学会自己上网查资料

像人一样使用浏览器

WebGPT 的训练方法

第一阶段：模仿学习（Behavior Cloning）

第二阶段：基于人类偏好的优化

如何构建可信的 AI 系统

1. 将引用作为一等公民

2. 采用多步、主动的检索策略

3. 建立人类偏好反馈闭环

结论

作者

分类

更多文章

BrowseComp：为下一代 AI 智能体打造的“图灵测试”

当我们用 ChatGPT 替代谷歌搜索，得到了什么？效率、体验与陷阱

GEO：面向生成式引擎的内容可见性优化新范式