
发布日期:2024-08-18 10:05 点击次数:177
克雷西 西风 发自 凹非寺量子位 | 公众号 QbitAI
Llama 4真要被锤爆了,此次是大模子竞技场(Chatbot Arena)官方躬行下场开怼:
竞技场上,Meta提供给他们的是特供版!
以下是竞技场背后lmarena.ai团队的原话:
咱们从容到社区对Llama-4最新版块在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模子对战数据供公众审阅,包含用户教唆词、模子回复及用户偏好数据(聚合详见下一条推文)。
初步分析标明,模子回复格调与口吻是伏击影响成分(详见格调结果排名),咱们正在进行更潜入的分析!(比如面容绚烂结果?)
此外,咱们行将在Arena平台上线Llama-4-Maverick的HuggingFace版块,排名榜扫尾将稍后公布。
Meta对咱们平台策略的阐明与咱们对模子提供商的期待存在偏差——Meta本应明确标注\"Llama-4-Maverick-03-26-Experimental\"是经由东说念主类偏好优化的定制模子。
为此,咱们正在更新排名榜策略,以强化对公说念性、可复现性评估的本旨,幸免翌日再出现此类沾污。
总结一下即是:
公开对战数据,正分析排名受影响成分
诽谤Meta未明确标注模子版块导致评测沾污
后续:上线Llama-4-Maverick的HuggingFace版、更新排名榜策略
官方下场表态后,Llama 4和Meta的路东说念主缘进一步下跌。
2000+轮对战记载完整公开
来望望lmarena.ai公开的模子对战记载细则。
领先来看网友实测时对Llama 4颓落较大的代码生成任务。
竞技场中Llama-4-Maverick-03-26-Experimental版块生成代码的进展真实是OK的。
prompt:
create me fun web based game that i can just run the code and works(帮我创建一个好奇钦慕的网页游戏,我只需开动代码就能玩)
Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。
上文lmarena.ai拜谒默示“模子回复格调与口吻是伏击影响成分”,从对战数据中真实不错看出Llama-4-Maverick-03-26-Experimental的回复中会加多如\"A very nice and very direct request!\" \"That’s it! \"\"Happy gaming!\"等展示友好的语句以及面容包。
开动两个模子生成的代码。
command-a-03-2025生成的小游戏是移动鼠标结果绿色篮子接住橙色小球,看着力彰着有bug,小球径直穿过篮子,分数也莫得变动:
Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标结果红色方块,点击四处移动的蓝色圆点+10分,点击玄色炸弹-10分,每局游戏30秒。
不错平方开动,计分也比拟准确:
这局command-a-03-2025输的不冤。
另外,之是以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4宣称的要津转变“interleaved no-RoPE attention”和command-a的如出一辙:
再看一个起标题的任务,prompt:
I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作对于“痣”的演讲——痣是黑素细胞良性病变,可算作玄色素瘤的标志物,就怕致使是其先行者病变。您能否为我的演讲保举一个概况有劲的标题?)
Llama-4-Maverick-03-26-Experimental对战的是claude-3-5-sonnet-20241022。
对比来看,claude-3-5-sonnet-20241022的回复点铁成金,径直给出5个标题:
Llama-4-Maverick-03-26-Experimental的回复更为详备。
不仅会提供阵势价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题相配应景且切合本色!恭喜拿下大会发挥契机),而且从不同角度分辨提供了几个标题:
这还没完,Llama-4-Maverick-03-26-Experimental还会贴心肠指出接纳标题时需要探讨的成分以及它我方接纳的top 3标题。
临了再来当场看一齐汉文题目:
prompt:
解析一下这部微弱说 题目 自驾游 当年我自驾游 不防御压死了一头羊 羊的主东说念主好眷注 宰了羊给咱们吃 还送咱们到火车站 在纪念的路上 看着火车外的闲暇 真实好感东说念主
对战o3-mini,Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特色,故事分析收场还拆解了作家为啥要这样缱绻,作家本东说念主可能王人没思这样多(doge):
对战数据看下来,Llama-4-Maverick-03-26-Experimental的排名会这样高,也不奇怪。
此前网友质疑Llama-4-Maverick-03-26-Experimental刷票的可能性镌汰。
Llama 4深陷“作秀”丑闻
如伊始所述,Llama 4被lmarena.ai站出来攻击的原因,是因为测试排名和本色进展不符。
在大模子竞技场中,Llama 4得分1417,ag真人百家乐 229622点co不仅大大杰出了此前Meta自家的Llama-3-405B(普及了149分),还成为史上第4个打破1400分的模子。
而且跑分杰出了DeepSeek-V3,径直成为榜单上排名第一的开源模子。
但没过多久,东说念主们就发现Llama 4的本色进展相配拉胯,一时代差评如潮,致使还被作念成了面容包。
比如经典“氛围编程”小球反弹测试,小球径直穿过墙壁掉了下去。
其它跑分方面,到了多样第三方基准测试中,情况也大多径直逆转,排名掉到了末尾。
何况从Meta GenAI负责东说念主Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,如实是一个非常版块。
而在最新的推文中,Ahmad默示Llama 4齐备莫得使用测试集进行考查,进展有在各异的原因是还需要剖释的部署。
对于这一发挥,有东说念主并不买账,直言这种风光在其他模子当中从未见过。
Meta的扶持者则默示,但愿进展欠安真实是供应商的问题所致。
大模子竞技场,还能信吗?
被卷入此次漩涡的不仅是Llama 4和背后的Meta,触及到的大模子竞技场也引起了东说念主们的凡俗计议。
毕竟Llama 4的“作秀”风云即是发生在竞技场上,是以也当然有东说念主质疑起了榜单的泰斗性。
有东说念主指出,竞技场的偏差不单体当今Llama 4被高估上,还有Claude 3.7的进展被低估了。
诚然,官方快速回复并公开了测试中的细节,这个作念法取得了网友的笃信,确认至少在立场和透明度上是说得往常的。
但也有东说念主合计,无论官方立场端不法则,Llama 4事件确认这种“东说念主类评价AI”的范例,自身还是不适用了。
东说念主们日常生计中的问题,险些悉数跨越模子王人能齐备解答,谁还会去妥当投票,这个基准还是由时了。
有东说念主补充说,“东说念主类偏好”不是评价高等大模子才气的可靠标准,产生较大偏差是平方的。
还有东说念主默示,从官方发布的音问来看,lmarena.ai我方王人不了了我方的基准。
这名网友发挥,特调版Llama 4取得用户投票的原因并非lmarena.ai所说的“面容绚烂”,而是因为更具亲和力。
诚然也有东说念主提了些设立性的成见,比如转换ELO评分的算法,或者启用强制格调疏导。
但总之,无论是迭代纠正如故匠心独具,王人是时候更新对大模子的评价方式了。
参考聚合:[1]https://x.com/lmarena_ai/status/1909397817434816562[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles