
WebGPT:当语言模型学会自己上网查资料
大型语言模型经常因“幻觉”问题而备受诟病,它们生成的内容看似合理却与事实相悖。OpenAI 的 WebGPT 论文提出了一种解决方案:让模型学会使用浏览器,通过实时搜索、浏览和引用网络信息来回答问题,从而显著提升答案的事实准确性。
大型语言模型(LLM)正在重塑我们获取信息的方式,但其固有的“幻觉”问题——即生成看似可信但实际上是错误的或捏造的信息——始终是其大规模应用的核心障碍。一个模型无论语言多么流畅,一旦其信息的根基不稳,其价值便会大打折扣。OpenAI 提出的 WebGPT 模型,为解决这一根本性挑战提供了一个清晰且有效的实现路径。其核心思想并非革新语言模型的合成能力,而是赋予模型一个我们人类早已熟练掌握的技能:使用浏览器进行网络研究。
这篇博客将深入探讨 WebGPT 的工作原理,这篇研究的论文原文可以在这里找到:https://arxiv.org/abs/2112.09332。我们将解析其方法论,并讨论它为构建更可信、更具事实依据的 AI 系统带来的实际启示。
像人一样使用浏览器
WebGPT 的设计理念朴素而强大:与其让模型仅依赖其内部存储的、可能过时或不准确的知识,不如让它成为一个能主动在网络上验证和搜寻信息的主体。为了实现这一点,研究人员构建了一个纯文本的网页浏览环境。

在这个环境中,模型不再是被动地生成文本,而是可以执行一系列具体指令,模拟人类浏览网页的行为。这些指令包括:
Search <query>:向必应(Bing)搜索引擎发起一次查询。Clicked on link <link ID>:在搜索结果页或当前页面中点击一个特定的链接。Find in page: <text>:在当前页面内查找关键词。Quote: <text>:从当前页面中引用一段文本,这段文本将作为答案的参考文献。Scroll down/up:在页面中上下滚动。End: Answer:结束浏览,开始根据收集到的引用信息撰写最终答案。
通过这个交互循环,模型从一个封闭的知识库,转变为一个开放世界的信息探索者。它能够根据问题的需要,自主地制定搜索策略、筛选信息源、并从网页中提取关键证据来支撑其最终的回答。
WebGPT 的训练方法
要让一个预训练好的语言模型(在研究中是 GPT-3)掌握使用浏览器的能力,需要一套精心设计的训练流程。WebGPT 的训练分为几个关键阶段,层层递进,最终使其表现超越了提供训练数据的人类。
第一阶段:模仿学习(Behavior Cloning)
模型首先需要学习基础操作。研究人员招募了一批人类工作者,让他们在一个图形化界面的浏览器环境中,通过实际操作来回答一系列问题。这个过程中的每一步操作(搜索、点击、引用等)都被记录下来,形成一个“专家演示”数据集。
随后,模型通过监督学习的方式,模仿这些人类专家的行为。这就是行为克隆(Behavior Cloning, BC)——模型学习在特定情境下,执行与人类专家相同的指令。这个阶段的目标是让模型掌握使用浏览器的基本流程与技巧。
第二阶段:基于人类偏好的优化
单纯的模仿只能让模型达到人类演示者的平均水平,但无法超越他们。为了让答案质量进一步提升,WebGPT 采用了基于人类反馈的强化学习(RLHF)的思路,但实现上更侧重于两个核心组件:奖励模型和拒绝采样。
-
奖励模型(Reward Modeling):研究人员让模型针对同一个问题,生成两个不同的答案(包含不同的浏览过程和引用)。然后,他们邀请人类评估者来判断哪个答案更好。通过收集大量的这类成对比较数据,他们训练了一个“奖励模型”。这个模型的核心功能是预测:对于任意一个给出的问题和答案,人类评估者会倾向于给它打多高的分数。它学会了分辨什么是高质量的、事实准确、逻辑清晰且引用可靠的答案。
-
拒绝采样(Rejection Sampling):在拥有了一个可靠的奖励模型后,提升答案质量的方法变得直接起来。当需要回答一个新问题时,研究团队让已经通过模仿学习训练过的模型生成多个(例如 4 个、16 个或 64 个)候选答案。然后,用奖励模型为所有这些候选答案打分,并最终选择得分最高的那一个作为最终输出。这种“优中选优”的策略,虽然在推理时需要更多的计算资源,但能有效地过滤掉低质量的生成结果,显著提升最终答案的可靠性。
通过这个“模仿-优化”的两阶段流程,WebGPT 不仅学会了如何使用工具,更学会了如何高质量地使用工具,其最终生成的答案在人类评估中,有 56% 的情况下优于最初提供演示的人类专家,有 69% 的情况下优于 Reddit ELI5(像对五岁小孩解释)板块的高赞回答。
如何构建可信的 AI 系统
WebGPT 的研究虽然发布已有一段时间,但其核心思想对于当前构建需要高度事实准确性的 AI 应用,依然具有极强的指导意义。以下是几个可以落地的方案和启示:
1. 将引用作为一等公民
WebGPT 最重要的贡献之一,是强调了“答案必须附带引用”这一原则。这不仅是为了让用户可以追溯信息的来源,更是评估和提升模型事实准确性的关键。
落地方案:在开发任何问答系统或内容生成应用时,都应将信息溯源作为核心功能。无论是基于 RAG(检索增强生成)还是更复杂的 Agent 架构,系统都应该被设计为在生成内容的同时,明确指出其信息来源。对于企业内部的知识库问答机器人,这意味着每个回答都应链接到具体的内部文档、数据库条目或 Wiki 页面。这不仅提升了用户的信任度,也为后续的模型评估和迭代提供了清晰的依据。
2. 采用多步、主动的检索策略
传统的 RAG 系统通常执行一次性的文档检索,然后将检索结果作为上下文交给语言模型。WebGPT 证明了,一个多步骤、能够根据中间结果调整策略的主动信息检索过程,能获得更精准、全面的信息。
落地方案:可以设计一个小型“Agent”,模仿 WebGPT 的浏览行为。当面对一个复杂问题时,系统可以先进行一次初步的宽泛搜索,然后根据返回的结果摘要,决定是深入阅读某篇文档(点击链接),还是调整关键词进行二次搜索。这种迭代式的检索过程更能模拟人类专家的研究方式,从而应对更复杂的信息需求。
3. 建立人类偏好反馈闭环
模仿学习能为模型提供一个良好的起点,但要实现卓越性能,基于人类偏好的优化是必不可少的。
落地方案:在应用中内置一个简单的反馈机制,例如“赞/踩”按钮,或者允许用户在两个备选答案中选择一个更好的。长期收集这些偏好数据,可以用来定期微调一个奖励模型,并使用拒绝采样或更复杂的强化学习算法(如 DPO)来持续优化核心的语言模型。即使没有大规模的标注团队,这种众包式的、持续的反馈收集,也能帮助模型逐步向用户期望的方向对齐。
结论
WebGPT 的探索证明,解决大型语言模型的“幻觉”问题,不一定需要等待模型本身的革命性突破。通过将其与成熟、强大的外部工具(如搜索引擎)相结合,并建立一套以人类反馈为核心的优化流程,我们已经可以构建出在事实准确性上远超以往的 AI 系统。它为我们描绘了一幅蓝图:未来的 AI 不再是一个封闭的“黑箱”,而是一个开放、懂得研究、并能为其言论负责的可靠伙伴。
更多文章

当我们用 ChatGPT 替代谷歌搜索,得到了什么?效率、体验与陷阱
一项研究揭示了使用 ChatGPT 和谷歌进行信息搜索的真实差距。ChatGPT 带来了效率的巨大提升和更优的用户体验,但在关键的事实核查任务中表现不佳,这为我们如何选择和使用下一代信息工具提供了深刻的启示。

BrowseComp:为下一代 AI 智能体打造的“图灵测试”
当下的 AI 擅长回答简单问题,但在面对需要深度挖掘、多步推理的复杂信息时却常常束手无策。OpenAI 的新基准 BrowseComp 正是为此而生,它不仅是一个评测工具,更可能定义了下一代 AI 智能体的发展方向。

GEO:面向生成式引擎的内容可见性优化新范式
解读 GEO: Generative Engine Optimization 论文,探索生成式搜索时代内容创作者如何通过黑盒优化框架提升曝光率。