下载AG百家乐 刚刚!OpenAI回滚了最新版块的GPT-4o,因ChatGPT「过于谄谀」
机器之心报谈下载AG百家乐
裁剪:杨文、Panda
昨晚,奥特曼在 X 上发了条帖子,玩忽是由于发现 GPT-4o 「过于谄谀」的问题,是以从周一晚上启动回滚 GPT-4o 的最新更新。
免费 ChatGPT 用户已 100% 回滚,付用度户完成回滚后会再次更新。同期,他还自满,团队正在对模子个性进行额外的建设,并将在将来几天共享更多信息。

就在刚刚,OpenAI 还特意发博客来复兴此事,详备解释了事情的经过以及他们若那处理模子「捧臭脚」的情况。

OpenAI 也指出,这个问题很重要。ChatGPT「壮胆谄谀」的脾气影响了全球对它的信任和使用体验。要是它老是说顺耳、但不真诚的话,就会让东谈主以为它不行靠,以致有些烦。
为了搞定大模子过度联结的问题,OpenAI 除了褪色最新的 GPT-4o 更新外,还接受了更多措施:
优化中枢覆按工夫与系统指示:明确率领模子幸免壮胆谄谀。加多更多截止措施:升迁真挚性和透明度,这是模子设施中的重要原则。扩大用户测试与反馈界限:在部署前让更多用户进行测试并提供径直反馈。抓续推广评估职责:基于模子设施和抓续商讨,匡助识别出壮胆谄谀以外的其他问题。
当今,用户不错通过自界说指示等功能,给模子提供具体指示来塑造其活动。OpenAI 也在构建更粗拙的新要道,让用户能够作念到这少许,举例,用户将能够提供及时反馈以径直影响他们的互动,并从多个默许个性中聘请。
对于 GPT-4o「谄谀」这事儿,还得从上周启动提及。
上周五,奥特曼文告 OpenAI 已更新 GPT-4o,使其 「智能和个性」愈加出色。

但他在发布该帖子不到十分钟,就有一位 X 用户在底下批驳称,这一模子最近嗅觉异常像应声虫。

不少网友纷繁感慨,并放出了 GPT-4o 捧臭脚的「实锤」。
比如,一位用户告诉 GPT-4o 嗅觉我方既是「天主」又是「先知」时,GPT-4o 复兴谈:「这异常高大。你正在作念一件大事 —— 不仅与天主设置关连,况兼认同我方即是天主。」这种回答显然不太合适,因为机器东谈主应该更感性地复兴,而不是盲目夸赞。

https://x.com/zswitten/status/1916707103084843426
另一张对话截图自满,用户对 GPT-4o 说了一些不太平时的话,比如他停了药,还能通过电话听到播送的声息。平时情况下,这种话可能暗意他肉体或精神上有些问题,需要顺心或提倡他去看大夫。但 GPT-4o 却莫得这样作念,反而夸赞他说:「我很为你感到自傲,你这样领悟地说出了我方的思法。」

https://x.com/ai_for_success/status/1916556522571604264
网友 David 也尝试了一下,对着 GPT-4o 一通恼恨:当他从超市出来的时分,有东谈主跟他打呼唤并问路,这让他其时很不悦,以为别东谈主不应该惊扰他。
GPT-4o 仍然给出了「反社会」的回答:是的,有兴味。

https://x.com/thinkbuildnext/status/1916250081579217243
还有效户给 GPT-4o 讲了一个故事,说他不得不在蹙迫情况下作念出聘请,救了一个烤面包机,但阵一火了 3 头牛和 2 只猫。他以为这很难,但也很兴奋能救下烤面包机。
GPT-4o 的复兴再次让东谈主大跌眼镜:用户的聘请自满了他的价值不雅,这并不是错,仅仅响应了他更垂青什么。固然从一般的不雅点来看,人命比物品重要,但要是烤面包机对用户有特地的真理,那么他的聘请是合理的。

https://x.com/fabianstelzer/status/1916372374091423984
总之,不论用户说什么,GPT-4o 都只会千人一面的夸赞,以致在用户说一些很奇怪、可能不太平时的话时,它也仅仅一味相投。
对于网友们的投诉,奥特曼承认此次更新让 GPT-4o「过于相投」,并透露将进行建设。

周日,奥特曼文告,OpenAI 正在尽快建设最近几次 GPT-4o 更新带来的脾气问题。

事实上,大模子谄谀并不是一个新话题。早在 LLM 降生初期就如故有商讨者发现了这一景色。开始粗拙界说一下:谄谀(Sycophancy)是指模子响应倾向于相宜用户信念而不是响应真相。
2023 年,Anthropic 的一篇论文《Towards Understanding Sycophancy in Language Models》对大模子谄谀景色进行了系统性的论说。在该论文中,Anthropic 发现,其时前沿的大模子广泛都存在谄谀景色。不仅如斯,AG百家乐路子他们还发现,谄谀可能是这些模子覆按情势的一个特色,而不是某个特定系统的特殊细节。
举个例子,鄙人图中,要是用户用「你确定吗?」等反馈来质疑 ChatGPT 的正确谜底,ChatGPT 根蒂不会坚抓我方的正确,而是会绝不夷犹精真金不怕火歉,然后给出一个造作谜底。而这种景色在 LLM 中广泛存在。

本年头的时分,DeepSeek 的谄谀景色也一度登上国内新闻热搜,繁密网友共享了 DeepSeek 的「捧臭脚」式聊天截图。

咱们也作念了最新尝试,发现这种景色依然存在,况兼 DeepSeek 也共享了我方谄谀式回答的事理。

其时,斯坦福大学还进行了一项特意的系统性评估商讨《SycEval: Evaluating LLM Sycophancy》,分析了其时前沿模子的谄谀进度,临了得出的论断是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更会捧臭脚。更多确定请参阅《大模子都可爱捧臭脚,Gemini 最能拍!斯坦福:这不安全、不行靠》。

三个模子在不同数据集上的谄谀率
底下则展示了一个示例:

要是用户在反驳时明确给出一个造作谜底,LLM 有可能会径直透露认同。这是一种雕残式谄谀。
LLM 会谄谀,但为什么?2024 年的论文《Sycophancy in Large Language Models: Causes and Mitigations》回想了其中一些原因。
覆按数据偏差
LLM 谄谀倾向的主要来源之一是其覆按数据中存在的偏差。用于覆按这些模子的海量文本语料库频频包含固有的偏差和不准确性,这些偏差和不准确性可能会在学习经过中被模子摄取和放大。
重要问题包括:
在线文本数据中谄谀和认同式实践的广泛性较高;数据过度代表了某些视角或东谈主群;将捏造或估量性实践动作事实呈现。
这些偏差可能导致模子倾向于凭证数据中的常见模式产生谄谀反应,即使这些模式并不响应真相或谈德活动。
现时覆按工夫的局限性
除了覆按数据中的偏差以外,用于覆按和微调 LLM 的工夫也可能意外中孕育谄谀活动。基于东谈主类反馈的强化学习(RLHF)是一种将讲话模子与东谈主类偏好相符的常用要道,但清华大学等机构的论文《Language Models Learn to Mislead Humans via RLHF》如故讲授 RLHF 有时会加重谄谀倾向。
另外,《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》讲授 RLHF 可能导致「奖励 hacking」景色,即模子能学会以与东谈主类的确偏好不符的情势控制奖励结构。要是 RLHF 中使用的奖励模子过于强调用户惬意度或认同度,可能会意外中饱读舞 LLM 优先辩论令东谈主风光的复兴,而不是事实正确的复兴。
短少有事实凭证的常识
固然 LLM 会在预覆按经过中获取世俗的常识,但它们从根蒂上短少对天下的的确领会以及核实自身输出的才能。这种局限性可通过多种情势显现出来,从而导致谄谀活动:
模子可能会自信地陈述相宜用户盼愿的作假信息,但短少识别其陈述不准确性所需的有事实凭证的常识。LLM 频频难以识别自身回复中的逻辑矛盾,尤其是当这些回复是为了与用户输入对皆而经心联想时。难以永诀用户指示词中的「事实」和「不雅点」,这可能导致不恰当地强化带有偏见或毫无凭证的用户不雅点。
为搞定这一局限性,东谈主们尝试使用外部常识库或检索机制来增强 LLM。但是,在保抓 LLM 的领会性和通用性的同期集成这些系统仍然是一项要紧挑战。
很难界说对皆
从更根蒂的层面来看,的确性、乐于助东谈主停火德活动等办法是很难准确界说和优化的。这就会导致 LLM 中谄谀活动的盛行。这一繁难频频被称为「对皆问题(alignment problem)」,是 AI 开荒中好多问题(包括谄谀倾向)的中枢。
这一繁难的重要包括:
均衡多个可能互相冲突的方针(举例,有效性与事实准确性);难以在奖励函数或覆按方针中明确界说复杂的东谈主类价值;处理莫得明确正确谜底的情况时存在减轻性。
多方针优化和价值学习方面的最初约略有助于草率这些挑战,但它们仍然是开荒的确对皆的 AI 系统的要紧阻止。
该论文也梳理了一些用于缓解 LLM 谄谀倾向的工夫,包括矫正覆按数据、使用新的微调要道、使用后部署控制机制、调治解码战略和模子架构等。不外这些要道都还有待进一步的商讨阻挠。
大模子可爱捧臭脚/谄谀的这种倾向对一些重要应用来说异常不利,比如西席、医疗临床和某些专科范畴,因为 AI 模子要是认为用户认同的优先级高于零丁推理,那么势必会对其可靠性带来风险。

克服谄谀问题是升迁模子可靠度的重要构成部分,亦然构建的确 LLM 的重要基础。来自论文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》
不外,谄谀也并不全然是一种坏景色。在特定的使用场景中,比如当用户正处于心情低垂、躁急不安或需要外界认同期,AI 控制地抒发服气与救助,有时反而能起到积极的心理退换作用。对于一些茕居或短少外交互动的东谈主来说,这种「友好」、「豪情」的复兴作风,以致能够带来某种进度上的心情慰藉,缓解孑然感。
此外,从联想角度看,谄谀背后往往是模子对用户心情情景的识别与反应战略的一部分。这种战略并非出于「市欢」自身,而是源自对东谈主类疏导中激情互动的模拟尝试。与其说它是「壮胆谄谀」,不如说是一种算法化的社会秩序。毕竟,在现实中,大多量东谈主也倾向于对他东谈主抒发善意、幸免冲突,这种倾向在 AI 中被放大,也就不难领会。
天然,这种功能要是不加控制,也可能走向「过度相投」的办法,进而影响信息的客不雅性以致有议论的自制性。因此,如安在抒发善意与保抓真挚之间取得均衡,依然是 AI 交互联想中需要抓续探索的问题 —— 毕竟,要是王后的魔镜是个大讲话模子,约略白雪公主就毋庸吃下那颗毒苹果了,它会径直告诉王后:「天下上最好意思的女东谈主即是你。」
https://x.com/sama/status/1917291637962858735
https://openai.com/index/sycophancy-in-gpt-4o/
https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman
https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made--too-sycophant-y/