
当我们用 ChatGPT 替代谷歌搜索,得到了什么?效率、体验与陷阱
一项研究揭示了使用 ChatGPT 和谷歌进行信息搜索的真实差距。ChatGPT 带来了效率的巨大提升和更优的用户体验,但在关键的事实核查任务中表现不佳,这为我们如何选择和使用下一代信息工具提供了深刻的启示。
一项近期的研究系统性地比较了用户在使用 ChatGPT 与谷歌搜索时的行为与表现差异,其结论或许能修正我们对人工智能将如何改变信息获取方式的普遍认知。研究发现,使用 ChatGPT 完成信息查询任务,平均耗时比谷歌搜索少了近 40%,且最终的任务完成质量并无显著差异。
这种效率的飞跃听起来极具革命性。然而,这份发表于 arxiv 的论文《ChatGPT vs. Google: A Comparative Study of Search Performance and User Experience》(arxiv.org/abs/2307.01135)也揭示了效率背后的代价:在需要严谨事实核查的任务中,ChatGPT 的表现远不如传统搜索引擎,甚至会确认并重复用户输入中的错误信息。这不仅仅是技术优劣的问题,更关乎我们未来如何与信息共处。
效率的跃升与体验的革新
研究者进行了一项随机在线实验,将 95 名参与者分为两组,分别使用模拟 ChatGPT 和谷歌搜索的工具完成三项信息检索任务。数据清晰地展示了两者在效率上的巨大鸿沟。
图1:实验中使用的 ChatGPT 工具界面
图2:实验中使用的 Google 搜索工具界面
| 指标 | ChatGPT | 谷歌搜索 | 差异 |
|---|---|---|---|
| 平均完成时间 | 11.35 分钟 | 18.75 分钟 | 效率提升 65% |
| 信息质量评分 | 5.90 | 4.62 | +1.28 |
| 有用性评分 | 6.19 | 5.30 | +0.89 |
| 趣味性评分 | 5.87 | 4.74 | +1.13 |
| 满意度评分 | 6.06 | 5.27 | +0.79 |
无论是简单的知识问答,还是相对复杂的网站列表整理,ChatGPT 组的用户都用时更少。
这种速度优势源于两者根本性的交互范式差异。谷歌提供的是一个链接列表,将信息筛选、提炼和整合的认知负担交给了用户。用户需要在多个页面间跳转、阅读、比对,最终拼凑出答案。而 ChatGPT 则直接提供一个经过整合、语言流畅的“最终答案”,省去了中间繁琐的过程。这使得用户感知到的信息质量更高(评分 5.90 vs 4.62),使用过程也更愉悦、更有用且满意度更高。从数据上看,ChatGPT 在有用性(6.19 vs 5.30)、趣味性(5.87 vs 4.74)和满意度(6.06 vs 5.27)上的得分均显著高于谷歌。
任务决定工具的优劣
尽管总体表现相当,但在具体任务类型上,两者的优劣势开始显现,这也是整个研究中最具启发性的部分。
第一项任务是"找出第一位进入太空的女性的名字及其当时的年龄"。这是一项典型的事实检索任务。结果,ChatGPT 组的所有参与者都拿到了 10 分的满分。相比之下,谷歌组的参与者虽然能在搜索结果首页找到正确答案,却因为页面信息干扰(例如文章中提到了多位女性航天员的名字),反而出现了一些错误,平均分仅为 8.19 分。ChatGPT 通过直接呈现"瓦伦蒂娜·捷列什科娃,26岁"这样清晰的答案,规避了人为筛选错误的可能。
图3:不同教育水平下任务1(事实检索)的表现对比
第三项任务则暴露了 ChatGPT 的阿喀琉斯之踵:事实核查。研究人员提供了一段包含错误信息的文本,要求参与者核实。其中一个错误陈述是"2009 年哥本哈根联合国气候变化大会于 12 月 7 日至 15 日举行"。当用户将这个错误的陈述抛给 ChatGPT 进行验证时,它大概率会回答"该陈述为真"。然而,会议的实际结束日期是 12 月 18 日。有趣的是,如果用户换一种更中立的方式提问,如"2009 年联合国气候变化大会何时举行?",ChatGPT 则能给出正确答案。
图4:不同教育水平下任务3(事实核查)的表现对比
| 任务类型 | ChatGPT 平均得分 | 谷歌搜索平均得分 | 表现差异 |
|---|---|---|---|
| 事实检索(第一位女航天员) | 10.00 | 8.19 | ChatGPT 优势明显 |
| 网站列表整理(航班预订) | 相当 | 相当 | 表现相近 |
| 事实核查(错误信息验证) | 5.83 | 8.37 | 谷歌搜索优势明显 |
这揭示了生成式 AI 的一个内在缺陷:它倾向于"迎合"用户输入中的上下文,而不是严格地进行信息比对。在核查任务中,这种特性是致命的。更令人担忧的是,研究发现,使用 ChatGPT 的用户表现出更强的"过度依赖",高达 70.8% 的参与者直接采信了 ChatGPT 的错误判断,他们不太愿意去进一步验证和修正模型给出的信息。
“信息公平”的幻象与现实
研究还有一个耐人寻味的发现,即“水准拉平效应”(leveling effect)。在使用谷歌搜索时,用户的表现与其受教育水平呈正相关,教育背景更好的用户更擅长利用搜索引擎完成复杂任务。这说明,传统信息检索在某种程度上是一项需要学习和锻炼的技能。
而 ChatGPT 几乎抹平了这种差异。无论参与者的教育背景如何,他们在使用 ChatGPT 时都能取得相似的成绩。从积极的方面看,AI 降低了高质量信息获取的门槛,促进了信息公平。但结合其在事实核查任务中的糟糕表现,这层“公平”的幻象之下也潜藏着风险。当工具为所有人提供了一个看似权威、无需思考的答案时,它可能也在无形中削弱了用户批判性思维和信息辨别的能力。
我们应当如何选择
这项研究并非要判定 ChatGPT 与谷歌的胜负,而是为我们提供了一份清晰的使用指南,帮助我们在不同的场景下做出更明智的选择。
| 使用场景 | 推荐工具 | 原因 |
|---|---|---|
| 快速获取直观事实与概念解释 | ChatGPT | 高效整合,直接给出答案 |
| 激发创意与内容草拟 | ChatGPT | 头脑风暴,构思大纲 |
| 综合信息与初步概括 | ChatGPT | 整合复杂信息源 |
| 严肃的事实核查与信息验证 | 谷歌搜索 | 需要精确、可信来源支撑 |
| 寻求特定、有时效性的信息 | 谷歌搜索 | 针对性更强,信息更新及时 |
| 需要多元观点与深度研究 | 谷歌搜索 | 查阅多个独立信源 |
何时使用 ChatGPT 这类生成式 AI 工具?
- 快速获取直观事实与概念解释:当你需要快速了解一个人物、一个事件或一个科学概念时,ChatGPT 是高效的选择。
- 激发创意与内容草拟:在需要头脑风暴、构思大纲或起草邮件时,它能提供不错的起点。
- 综合信息与初步概括:当你需要对一个陌生领域有一个大致了解,它可以将复杂的信息源整合为一段易于理解的摘要。
何时我们仍需依赖谷歌这类传统搜索引擎?
- 严肃的事实核查与信息验证:任何需要精确、可信来源支撑的场景,都必须使用传统搜索引擎追溯到原始信息发布处。
- 寻求特定、有时效性的信息:例如查找特定商品的官方网站、最新的软件版本或具体的航班信息。研究中的第二项任务(预订航班网站列表)也表明,谷歌提供的结果更具针对性。
- 需要多元观点与深度研究的场景:当你想了解一个争议性话题的不同侧面,或进行学术研究时,只有通过查阅多个独立信源才能构成完整的认知。
最有效的策略或许是将两者结合。我们可以用 ChatGPT 快速建立对一个问题的初步认知框架,然后带着其中的关键信息点,利用谷歌进行针对性的溯源与验证。在与 AI 交互时,始终保持一种健康的怀疑态度,并尽量使用中立、开放式的提问,这可能是我们在这个新信息时代最重要的生存技能。
更多文章

当解释搜索失败时,信任 AI 的现实主义策略
解读《Why Trust in AI May Be Inevitable》提出的知识网络解释模型,理解解释失败的机制,并探索 AI 团队如何据此设计可靠的信任建设流程。

WebGPT:当语言模型学会自己上网查资料
大型语言模型经常因“幻觉”问题而备受诟病,它们生成的内容看似合理却与事实相悖。OpenAI 的 WebGPT 论文提出了一种解决方案:让模型学会使用浏览器,通过实时搜索、浏览和引用网络信息来回答问题,从而显著提升答案的事实准确性。

STS:重塑 AI 搜索时代产品能见度的隐形力量
深入解读《Manipulating Large Language Models to Increase Product Visibility》论文,揭示“战略文本序列”(STS)如何操控 AI 推荐,并探讨其背后的技术原理、市场影响与治理之道。