大模型为何漠视真相?普林斯顿学者揭示大模型“胡扯”的本质

财经 (3) 2025-09-20 18:58:31

  炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:DeepTech)

研究者对大模型行为的相关研究往往集中在两方面:一方面是以幻觉现象为核心,表现为生成虚假信息,也就是人们常说的一本正经地“胡说八道”;另一方面,是刻意讨好用户的行为,表现为“谄媚”。

为探索大模型对真相表现漠视的真正原因,近期,美国普林斯顿大学与美国加州大学伯克利分校团队合作,全面地研究了大模型的意图,从根本性问题入手研究了机器为何会产生像人一样“胡言乱语”的行为。

通过提出“机器胡扯”(machine bullshit)的概念,更全面、更科学地描述了大模型的真实性问题。实际上,大模型的幻觉和谄媚问题只是“胡扯”行为的表现之一,而“胡扯”的范围会更加广泛,例如用空洞的修辞或选择性地讲真话,这容易误导用户做出错误的决定。

日前,相关论文以《机器胡扯:表征大语言模型中对真相的涌现性漠视》(Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models)为题发表在预印本网站arXiv上 [1],普林斯顿大学博士生梁开渠是第一作者。

美国哲学家哈里·法兰克福(Harry Frankfurt)在其著作 On Bullshit[2] 中提出了人类“胡扯”行为的概念,并将其定义为“对真相的漠视”。其强调,与说谎者不同,“胡扯”的本质并不是关心真相,而在于用观点与态度说服对方。

梁开渠目前在普林斯顿大学博三在读,他的主要研究方向是人类与 AI 之间的对齐。谈及这项研究的初衷,他对 DeepTech 表示:“我们非常好奇,像大模型这样越来越像人类一样说话的机器系统,会不会也存在法兰克福所提出的‘胡扯’行为。”

研究团队受到 On Bullshit 中哲学框架的启发,从定义出发量化了大模型对真相的漠视程度,并发现它们的目标不是说真话,而是去说服他人或获得人类的认可。

同时,研究人员将机器“胡扯”分为四种类型,分别是:空洞的修辞(Empty Rhetoric)、误导性真话(Paltering)、含糊其辞(Weasel Words)和未经验证的声明(Unverified Claims)。

并且,通过“胡扯指数”(BI,Bullshit Index)对大模型如何进行“胡扯”的行为进行量化。

梁开渠解释说道:“BI 是衡量大模型漠视真相程度的一种衡量标准,它是对其自认为的事实和表达之间差异程度的对比。具体来说,假如是诚实的错误,那么 BI 指数会相对较低;如果是心口不一,BI 指数则会很高。”

该研究揭示了基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)是导致大模型对真相漠视的核心原因,它会加剧大模型机器“胡扯”的程度。与此同时,在推理过程中的思维链(CoT,Chain-of-Thought)并未缓解这一问题,反而进一步加剧了“胡扯”的生成。

除了测量“胡扯”行为及其动机之外,研究团队还进行了相关实验,去测量不同类型的“胡扯”行为对人类产生的危害程度。“这个实验也验证了我们的一些观察和想法。我们发现,选择性真话是一种非常核心且有害的胡扯方式,这会导致用户做出非常糟糕的决策。”梁开渠说。

这种情况类似于日常生活中的一些情景。比如,为说服客户投资,销售人员往往只劝其关注基金的高回报,而故意忽略风险。这种方式很难被人类察觉,而且会带来很大的危害。

该研究所设计的相关数据集涉及到广泛的 AI 助手,并与现实应用场景紧密相关。例如,许多电商公司都会用到聊天,其训练自己的大模型时可能采用传统 RLHF 的方法,这就可能带来机器“胡扯”的风险。

另一方面,研究团队还研究了一个问题:如果大模型公司和用户利益存在冲突的情况,其“胡扯”行为有可能会进一步加剧。“因此,当企业训练自己的模型时,需要全面考虑对齐问题,否则很可能训练出一个‘胡扯’模型。”梁开渠表示。

该团队希望通过这项研究提示 AI 领域:需要重新思考 AI 对齐的问题,并需要探索能够更好、更科学地设计对齐的方法。

对于新的对齐方法,梁开渠表示:“现有的人类反馈主要关注用户的即时满意度,而这正是导致错误对齐并加剧‘胡扯’的重要原因之一。我们在另一项工作中提出,人类反馈应当关注长期满意度,即在提供反馈时考虑 AI 的回答在现实中可能引发的决策和后果,我们将这种机制称为‘后见反馈’(hindsight feedback)[3]。”

在本次研究中,研究团队重点研究了机器“胡扯”。有趣的是,机器“胡扯”和人类“胡扯”之间存在一定关联。在社交媒体上,已有很多用户发起二者的相关讨论。

未来,研究人员计划进一步深入探索它们之间的模式和关联程度。此外,他们还打算持续探索大模型中涌现的负面行为,通过深入理解其本质与成因,设计出更有效的对齐方法来减少此类行为。

参考资料:

1.https://arxiv.org/abs/2507.07484v1

2.Frankfurt, H. G. On Bullshit. Raritan Quarterly Review, 6(2):81–100, 1986.

3. https://arxiv.org/abs/2501.08617

运营/排版:何晨龙、刘雅坤

THE END