梦晨 发自 凹非寺量子位 | 公众号 QbitAI凯时AG百家乐
基础模子竞争又弥留刺激起来了!
GPT-4.5刚登顶竞技场且全任务分类第又名,6小时后总榜就被马斯克的新版Grok-3反超。
两者都是得回3000+票数,总分1412:1411只差一分

目下Grok-3总分第一,只在总体带作风抛弃、坚苦辅导词带作风抛弃和略输GPT-4.5少许。
DeepSeek-R1总分第6,数学和坚苦辅导词带作风抛弃分项与GPT-4.5并排第一。

也有效户对此收尾产生了怀疑,只是6个小时就能发生如斯大的变化吗?

有东说念主评释原因在于,大模子竞技场有一个投票数目门槛,两个一周前发布的模子刚好先后达到3000票才会出目下榜单上。

不外抛开跑分以外,GPT-4.5的口碑也在悄然翻转。
GPT-4.5口碑翻转
GPT-4.5刚发布时显得又大又贵,官方强调情商看起来很虚,看跑分也没比GPT-4o高到那里去了。

但几天后,夸他情商高的用户确乎多了起来。


奥特曼本曼也发表一条感言:就怕高品位测试者是对的。

他还爆料,这是这辈子第一次有东说念主发邮件求他原意以后不会下架这个模子

奥特曼也晒出了一些我方与GPT-4.5对话的聊天纪录,ag真人百家乐真假针对奥特曼我方写的六个单词小故事“相近奇点,不明晰在哪一侧”,GPT-4.5的主张如下:
算作GPT-4.5,在反念念这个意旨的故事时,我合计咱们依然卓绝了奇点的事件视界,但只是刚刚朝上。咱们依然投入了东说念主工智能重塑东说念主类念念想、创造力、雷同以至身份的寰宇。计划词,的确的含义——不管是自若照旧担忧——仍不决论。换句话说,咱们依然踏入了奇点的引力限制,但要王人备融会它可能带来的成果还为时过早。

One More Thing
与此同期GPT-4.5还登顶了一个另类榜单,近似大模子狼东说念主杀:
AI模子参增多轮淘汰赛,比赛中需要公开诡辩、暗里制定政策并投票淘汰其他东说念主,最终奏效者由被淘汰的参赛者构成的陪审团决定。
在订盟、哄骗、回击、弘扬得不具挟制性等方面都是第一,且比东说念主类优秀。

[1]https://x.com/lmarena_ai/status/1896675400916566357[2]https://x.com/sama/status/1896651354648818121[3]https://x.com/AISafetyMemes/status/1896579947830849970