热搜词:

李彦宏说DeepSeek幻觉高,是真的吗?

李彦宏点名批评 DeepSeek 幻觉高。这回,他真的没错。但大模型的幻觉问题,又远非错与对那么简单。

然而,自从 R1 席卷全网后,关于它经常 " 胡说八道 " 的批评就不绝于耳,比如它实在太能编了,让人真真假假分不清。

除了用户端之外,李彦宏及其代表的大厂们也 " 苦 "DeepSeek 已久:一方面,大厂不得不依赖 DeepSeek 的泼天流量导入自身门户入口;另一方面,尽管投入大量人力物力研发深度推理模型,其成果却难以突破用户心智。

在 2025 百度 AI 开发者大会的开幕上,李彦宏直接点出全民 AI 大模型 DeepSeek-R1 的痛点:" 只支持单一模态、幻觉率较高、又慢又贵 "。一番犀利评论,再度引发了各界对 DeepSeek-R1 以及大模型 " 幻觉 " 的评议。

但出现强烈幻觉的并不止 DeepSeek 一家,OpenAI 在其内部测试中发现:o3/o4-mini 虽然全面替换了 o1 系列,但是幻觉现象越来越强了;国内第一个混合推理模型——阿里通义的 Qwen3 也在 X 上被网友指出幻觉现象仍旧大量存在。

关于幻觉的解释有很多,尤其是当推理模型问世后 , 大家都认为推理模型的思考模式和模型性能攀升后,幻觉就会被消灭,但事实证明:幻觉的生存能力太强了,用户们还是常常被 "LLM 生编硬造,逻辑闭环的幻觉操作 " 看呆。

不过,另有一说:大模型的幻觉也算是创作力的副产品,并不完全是桎梏。

今天我们重新讲讲大模型幻觉,看看 AI 圈子最大的黑箱问题到底解决了没有,解决进度到哪了?

01

李彦宏对 DeepSeek-R1 的批评确实有据可循。

AI 数据服务公司 Vectara 的一项HHEM 幻觉评估中,DeepSeek-R1 的幻觉率高达 14.3%,而其前代基础模型 DeepSeek-V3 仅为 3.9%,R1 的幻觉甚至要比 V3 的幻觉高出 4 倍。阿里通义的 QwQ-32B-Preview 的幻觉率则高达 16.1%。

更值得注意的是,除了 DeepSeek-R1 和 Qwen 系列之外,纵观业内,几乎所有最先进的大模型都遭到了幻觉问题的挑战。一般来说,当新模型出现,幻觉程度就会低于其前身模型,但是这一常理性的现象并不在推理模型上适用。

OpenAI 的内部评估系统卡里提供了一个具有代表性的例子:他们设计了一项名为 PersonQA 的基准测试,用于衡量模型回答人物信息问题的准确性。结果发现,o3 在 PersonQA 上的幻觉率上升到了 33%,几乎是被全面替代的前代模型 o1(16%)的两倍。轻量版推理模型 o4-mini 的幻觉率高达 48%。

在最新出炉的一版 Vectara 的幻觉测试中,马斯克 xAI 的 Grok-3 比 Grok-2 幻觉更严重,谷歌 Gemini 2.0 系列中强调深度推理的 Flash-Thinking 版本比标准版幻觉问题更突出。

当业界追求更强推理能力的大语言模型时,事实准确性与生成内容一致性几乎无法 " 鱼与熊掌兼得 "。

可见," 幻觉 " 是当下大模型领域的通病,而 DeepSeek-R1 正是该问题的显著案例之一。

每当新模型发布时,大家往往先入为主:当推理模型出来后,模型能力大幅度提升,幻觉就会被逐渐消灭;相反,也有一种猜测,推理模型往往要比通用模型幻觉更强。但这些观点其实全都是错的。

比如 o1 相对于 4o 并没有增加太多的幻觉,反过来也可以说,o1 并没有大幅度降低幻觉。

o3 和 o4-mini 幻觉的提升连 OpenAI 的研究人员在系统卡论文中也说道 " 仍需继续研究 "。可以说,在一定程度上,LLM 的幻觉现象仍然是个黑盒,随着模型的不断发展,这层迷雾仍然笼罩在各大基础模型厂商的上空。

广义上,普遍认为像 DeepSeek-R1 这样的推理模型往往喜欢多轮思考,放大幻觉。

推理模型和深度思考模型通常采用多轮推理或长链式思考策略,通过逐步分解问题、生成中间步骤,最终得出答案。这种设计本来是为了模拟人类复杂的逻辑推理过程。但是,多轮思考也可能导致模型在每一步生成中引入微小的偏差或错误,这些偏差在后续步骤中被放大,促成多米诺骨牌效应的出现。

为什么大家再谈 LLM 的幻觉?除了百度等厂商为了应对 DeepSeek 的竞争,破除唯 "DeepSeek 论 " 之外,还有一个原因:普通用户们在实际体验中越来越感到恐惧了。

这主要是因为大模型通过大规模训练数据,已经能够构建高度自洽、逻辑几乎闭环的知识体系,模型对语义上下文的理解和生成能力越来越强,幻觉却也越来越真实了。甚至产生了一种 " 性能与幻觉齐飞 " 的诡异现象。

可以说,幻觉已经事实上不再是评判模型性能的主要标准了。

大家在日常使用中,肯定都有过这样的体验:AI 杜撰不存在的信源、生成看似真实的学术引用、" 现场 " 构造伪造的网页链接,甚至在长长的思维链里不断 " 故意迎合 " 用户,谄媚用户。

如果只是普通的日常使用场景,幻觉现象的隐蔽性并不会降低用户信任。但是,当大模型商业化后,涉及专业领域或复杂问题时,这种不确定性就会引发用户对可靠性的质疑,甚至产生对 AI 本身的恐惧感。

02

李彦宏 2024 年曾说,过去 24 个月里 AI 行业经历的最大变革之一是大模型基本消除了 " 幻觉 " 问题。这一说法一时让各路网友觉得他出现了幻觉。

确实,某些领域(例如文生图、视频等多模态输出方面)随着模型能力的提升,幻觉现象确实已经大幅降低了。

但是,尽管幻觉问题在这些受控场景下大幅改善,在生成长文本或复杂视觉场景时仍未解决。

最直观的例子就是:每当各大厂商推出新一轮的深度思考模型时,都不得不再度老调重弹幻觉问题。可以说,幻觉问题已经被研究了好几年了,但直到今天都没有办法找到一个极好的方式克服幻觉,arXiv 上一篇一篇的论文砸向这个黑盒领域。

不过,技术开发者应对 AI 幻觉,也确实有一些手段。目前比较主流的方式还是检索增强生成(RAG),这个方式有点老了但是管用,也是最广的应用思路。

RAG,即在模型回答前先检索资料。英伟达 CEO 黄仁勋就强调,要让 AI 减少幻觉,很简单," 给每个回答加一道规则:先查证再作答 "。 具体而言,模型接到问题后,像搜索引擎那样查询权威来源,然后依据检索到的信息作答。如果发现引用的信息与已知事实不符,就丢弃该信息并继续查找 。通过这种方式,模型不再仅凭参数记忆回答,而是有据可依。让模型能够引入最新的网页 / 数据库内容,在内部机制里学会对不知道的事物说 " 我确实不知道 "。

百度 2024 年发布的检索增强的文生图技术 iRAG,就是为了解决文生图中的幻觉问题,结合了自身的亿级图片资源库,让生成的图片更真实、更贴合现实。

此外,一个更基本的方法是 " 严格控制训练数据的质量 "。

当然,全面的数据治理过于困难,因为互联网语料过于复杂且知识随时间变化,像是 " 弱智吧 " 的语料就极难正确过滤。

腾讯此前发布的混元深度思考模型 T1,针对长思维链数据中的幻觉和逻辑错误,训练了一个 Critic 批判模型来进行严格筛选。这种 " 双重把关 " 策略——即模型先产出回答,然后再核对其中的关键实体和事实,再决定是否输出,也能在一定程度上降低幻觉率。

即使有上述手段的加持,要彻底根治幻觉仍充满挑战。OpenAI 就在最新报告中坦承:" 为什么模型规模变大、推理能力增强后幻觉反而更多,我们目前也不完全清楚,还需要更多研究 "。

03

幻觉,也并非全无益处。各大厂商正站在一个幻觉与创造力交汇的十字路口:幻觉并非纯粹的缺陷,同样也能带来模型更佳的创造力。

大模型的幻觉一般分为:事实性幻觉和忠实性幻觉。当大模型回答的内容与用户的指令或者上下文信息不一致时,可能就会出现所谓的 " 灵感 "。 不管是违背输入文本,还是违背客观事实, " 幻觉 " 产生的部分往往是模型发挥想象的结果。

有个专业术语叫" 外箱式创意 ",指的是 " 跳出既有框架的创作力 " ,这正是大模型区别于检索引擎的魅力所在。大家往往潜意识里认为 AI 做的是低 " 创意密度 " 的任务,无法占领诸如科幻文学这类的高创造力写作。

然而,刘慈欣对此有话说。

前段时间,刘慈欣在一次采访中说他曾拿自己所写的长篇中的一章发给 DeepSeek,让它在这个基础上续写。结果发现它写出来的东西,甚至要比自己写得好。这甚至让他有了一种很大的失落感。

但是,刘慈欣本人仍喜爱 DeepSeek:" 为什么呢?因为我想到,由于人脑的生物特性,有一些没法冲破的认知极限,但 AI 却有可能突破。如果它真的可以突破极限,那么我甘心乐意被 AI 取代。当然,现在它还做不到。未来的路还很遥远。"

OpenAI CEO 奥特曼也曾提及 AI 的幻觉特性并非全然是坏事,在创作领域仍有积极意义。这也可能是未来 LLM 的一个方向。

面对几乎成为大模型固有特性的幻觉现象,要低到什么地步,我们才可以接受?

这没有固定的答案,而是依赖于应用场景。在需要精准性的高风险 or 涉及伦理的领域里,LLM 的幻觉固有特性几乎断绝了商业空间。

从哲学上看,这反映了人类对技术的期望:AI 应比人类更可靠。折射出人类对 LLM 的角色定位,如果将 AI 仅仅视作锄头而已,那么 AI 几乎永不可能达到这样的标准。如果将 AI 视作天然具有幻觉特性的工具,接受 " 幻觉 " 是 AI 的固有特质,就要赋予 AI 区分虚构与现实的能力,让它在需要的时候学会说 " 我不知道 "。

或许我们也应该换种思路研究 AI。