当我们用 ChatGPT 替代谷歌搜索，得到了什么？效率、体验与陷阱

一项近期的研究系统性地比较了用户在使用 ChatGPT 与谷歌搜索时的行为与表现差异，其结论或许能修正我们对人工智能将如何改变信息获取方式的普遍认知。研究发现，使用 ChatGPT 完成信息查询任务，平均耗时比谷歌搜索少了近 40%，且最终的任务完成质量并无显著差异。

这种效率的飞跃听起来极具革命性。然而，这份发表于 arxiv 的论文《ChatGPT vs. Google: A Comparative Study of Search Performance and User Experience》（arxiv.org/abs/2307.01135）也揭示了效率背后的代价：在需要严谨事实核查的任务中，ChatGPT 的表现远不如传统搜索引擎，甚至会确认并重复用户输入中的错误信息。这不仅仅是技术优劣的问题，更关乎我们未来如何与信息共处。

效率的跃升与体验的革新

研究者进行了一项随机在线实验，将 95 名参与者分为两组，分别使用模拟 ChatGPT 和谷歌搜索的工具完成三项信息检索任务。数据清晰地展示了两者在效率上的巨大鸿沟。

ChatGPT 实验界面 图1：实验中使用的 ChatGPT 工具界面

Google 搜索实验界面 图2：实验中使用的 Google 搜索工具界面

指标	ChatGPT	谷歌搜索	差异
平均完成时间	11.35 分钟	18.75 分钟	效率提升 65%
信息质量评分	5.90	4.62	+1.28
有用性评分	6.19	5.30	+0.89
趣味性评分	5.87	4.74	+1.13
满意度评分	6.06	5.27	+0.79

无论是简单的知识问答，还是相对复杂的网站列表整理，ChatGPT 组的用户都用时更少。

这种速度优势源于两者根本性的交互范式差异。谷歌提供的是一个链接列表，将信息筛选、提炼和整合的认知负担交给了用户。用户需要在多个页面间跳转、阅读、比对，最终拼凑出答案。而 ChatGPT 则直接提供一个经过整合、语言流畅的“最终答案”，省去了中间繁琐的过程。这使得用户感知到的信息质量更高（评分 5.90 vs 4.62），使用过程也更愉悦、更有用且满意度更高。从数据上看，ChatGPT 在有用性（6.19 vs 5.30）、趣味性（5.87 vs 4.74）和满意度（6.06 vs 5.27）上的得分均显著高于谷歌。

任务决定工具的优劣

尽管总体表现相当，但在具体任务类型上，两者的优劣势开始显现，这也是整个研究中最具启发性的部分。

第一项任务是"找出第一位进入太空的女性的名字及其当时的年龄"。这是一项典型的事实检索任务。结果，ChatGPT 组的所有参与者都拿到了 10 分的满分。相比之下，谷歌组的参与者虽然能在搜索结果首页找到正确答案，却因为页面信息干扰（例如文章中提到了多位女性航天员的名字），反而出现了一些错误，平均分仅为 8.19 分。ChatGPT 通过直接呈现"瓦伦蒂娜·捷列什科娃，26岁"这样清晰的答案，规避了人为筛选错误的可能。

任务1表现对比 图3：不同教育水平下任务1（事实检索）的表现对比

第三项任务则暴露了 ChatGPT 的阿喀琉斯之踵：事实核查。研究人员提供了一段包含错误信息的文本，要求参与者核实。其中一个错误陈述是"2009 年哥本哈根联合国气候变化大会于 12 月 7 日至 15 日举行"。当用户将这个错误的陈述抛给 ChatGPT 进行验证时，它大概率会回答"该陈述为真"。然而，会议的实际结束日期是 12 月 18 日。有趣的是，如果用户换一种更中立的方式提问，如"2009 年联合国气候变化大会何时举行？"，ChatGPT 则能给出正确答案。

任务3表现对比 图4：不同教育水平下任务3（事实核查）的表现对比

任务类型	ChatGPT 平均得分	谷歌搜索平均得分	表现差异
事实检索（第一位女航天员）	10.00	8.19	ChatGPT 优势明显
网站列表整理（航班预订）	相当	相当	表现相近
事实核查（错误信息验证）	5.83	8.37	谷歌搜索优势明显

这揭示了生成式 AI 的一个内在缺陷：它倾向于"迎合"用户输入中的上下文，而不是严格地进行信息比对。在核查任务中，这种特性是致命的。更令人担忧的是，研究发现，使用 ChatGPT 的用户表现出更强的"过度依赖"，高达 70.8% 的参与者直接采信了 ChatGPT 的错误判断，他们不太愿意去进一步验证和修正模型给出的信息。

“信息公平”的幻象与现实

研究还有一个耐人寻味的发现，即“水准拉平效应”（leveling effect）。在使用谷歌搜索时，用户的表现与其受教育水平呈正相关，教育背景更好的用户更擅长利用搜索引擎完成复杂任务。这说明，传统信息检索在某种程度上是一项需要学习和锻炼的技能。

而 ChatGPT 几乎抹平了这种差异。无论参与者的教育背景如何，他们在使用 ChatGPT 时都能取得相似的成绩。从积极的方面看，AI 降低了高质量信息获取的门槛，促进了信息公平。但结合其在事实核查任务中的糟糕表现，这层“公平”的幻象之下也潜藏着风险。当工具为所有人提供了一个看似权威、无需思考的答案时，它可能也在无形中削弱了用户批判性思维和信息辨别的能力。

我们应当如何选择

这项研究并非要判定 ChatGPT 与谷歌的胜负，而是为我们提供了一份清晰的使用指南，帮助我们在不同的场景下做出更明智的选择。

使用场景	推荐工具	原因
快速获取直观事实与概念解释	ChatGPT	高效整合，直接给出答案
激发创意与内容草拟	ChatGPT	头脑风暴，构思大纲
综合信息与初步概括	ChatGPT	整合复杂信息源
严肃的事实核查与信息验证	谷歌搜索	需要精确、可信来源支撑
寻求特定、有时效性的信息	谷歌搜索	针对性更强，信息更新及时
需要多元观点与深度研究	谷歌搜索	查阅多个独立信源