ag百家乐代理 扒开GPT-4o生图真相!港中语博士生「破解」OpenAI避讳机密,还妙手动改图

发布日期:2025-02-22 14:19    点击次数:90

新智元报谈ag百家乐代理

剪辑:剪辑部 HXZ

【新智元导读】就在刚刚,港中语博士Jie Liu刚刚破解了GPT-4o的前端生图机密:逐行生成的后果,其实只是浏览器上的前端动画后果,并不准确。它很大可能是原生自回首生成的,致使咱们还不错手动改图。DeepMind大佬则预见,GPT-4o图像生成应该是一种多程序和自回首的组合。

GPT-4o,如今还是激勉了全网的「吉卜力」怒潮。

从全网的模因狂热到备受质疑的版权问题,OpenAI本周的这项全新发布,激勉的戏剧性事件如棋布星罗般寥若辰星。

在全网如海啸般表露的吉卜力争片中,有东谈主发现,它生成的漫画实在是强悍了,简直令东谈主心惊肉跳:它进展出了极强的元高下文、元分解材干,致使还能自主瞻望不同的情境!

缺憾的是,咫尺OpenAI并未公布GPT-4o的生图本领细节,只提到采纳的是自回首门径,肖似讲话模子。

也即是说,4o与DALL-E的扩散模子不同,它使用自回首模子迟缓生成图像,把柄先前的像素或补丁瞻望下一个像素或补丁。这就能让它更好地投诚指示,致使进行逼确实相片剪辑。

诚然莫得更多的细节,但这涓滴违背不住AI社区本领大神们的独具只眼。

就在刚刚,港中语的一位博士生Jie Liu破解了GPT-4o不一般的前端生图机密:施行上,它很大可能是原生自回首(AR)生成的,致使咱们不错手动改图。

忘我有偶,CMU博士Sangyun Lee也推测出,GPT-4o的图像生成旨趣,应该大约如下:

GPT-4o生成视觉token,然后由扩散解码器将这些token解码为像素空间中的图像

不单是平日的扩散模子,而是肖似于Rolling Diffusion的分组式扩散解码器,按从上到下的司法进行解码

谷歌DeepMind商量者Jon Barron则预见,GPT-4o图像生成应该是一种多程序和自回首的某种组合。

原生图像生成的经过中,起作用的即是这种搀和模式。

可能是先由一个自回首Transformer生成「先验」的潜在代码,然后由一个扩散解码器来渲染图像。

这就施展了OpenAI教唆和不雅察到的「变化的痴呆形象」。

原生自回首,比扩散模子更强劲?

港中语博士生Jie Liu暗意,我方在破解了GPT-4o的前端后,有了惊东谈主的发现。

用户看到的逐行生成图像的后果,其实只是浏览器端的动画,是纯前端妙技。

在生图经过中,OpenAI 的业绩器在生成经过中仅发送5张中间图像,这些图像在不同阶段拿获,Patch size为8。

致使,咱们不错通过手动调养顽强功能的高度,来转换生图的顽强领域。

以下,即是GPT-4o的确生成的5张图像。

Jie Liu发现,放大任何图像,似乎齐不错不雅察到不同的区块。通过谋略像素,每个区块似乎占据一个8×8像素的区域。统统这个词图像为1024×1024像素,被辞别为一个128×128的区块网格。

不外,尽管上述经过通常投诚自回首经过,但生成经过中前端自满的图像却如下所示——各异相等权贵。

而淌若灵通Network tab,咱们就会看到,在单次生成中,OpenAI的业绩器施行上统共发送了5张图片。使用不同的教唆时亦然如斯。

而从真实的中间生成图像来看,他也发现了一个意念念的风物:两个色块之间的白色区域并莫得严重顽强——不像扩散模子中产生的噪点图像。

他预见,这是否就意味着,GPT-4o施行上是纯自回首 (AR) 生成的?

的确,这就跟OpenAI的模子卡中「GPT-4o是原生自回首」的说法一致了。

CMU博士Sangyun Lee的推测,亦然豪杰所见略同。

他之是以作念出如斯推测,事理有二。

第极少,在有热烈条目信号,比如的情况下(还包括视觉token),AG百家乐计划率先生成的图像通常是顽强的草图。

这可能是为什么待生成的区域呈现痴呆结构的原因。

第二点,UI自满的是从上到下的生成司法。Sangyun Lee之前尝试过自下而上的司法。淌若咱们可视化 E[x0|xt](在本例中即是xt),就不错重现肖似的可视化后果。

然而,咱们为什么要这样作念,而不是使用程序的扩散模子呢?因为在进行这种分组时,在高NFE(噪声函数评估)情况下,FID(Fréchet Inception Distance)会稍许改善。

那时,他还觉得这是一个 bug,而不是特点。但咫尺,每个东谈主齐振奋在所谓的测试时谋略上破耗更多资源,是以,这个模子其实是介于扩散模子和自回首模子之间的一种方式。

事实上,通过设立num_groups=num_pixels,咱们致使不错让它规复自回首模子!

在征询中,各人预见谈,自回首指的是视觉token的自回首生成。

而为什么解码后的图像会存在「氛围」,而况看起来仍是聚首的,大概是因为OpenAI使用了司法和非司法的VAE图像tokenization的搀和方式。VAE用一个 token对图像的每个patch进行编码,投诚因果关连,另一个则破损因果关连。

而「氛围」部分,不错通过在扩散采样经过中t值较高时 E[x0|xt] 通常的进展来施展。

大概,OpenAI是谈判到融入现存架构时,这种门径对系统的阻扰最小,从而的确罢了了多模态。而任何形态的扩散,齐会导致对架构的深广转换。

总之,这些答案只可等OpenAI暴露更翔实的本领细节时才能解开了。

元高下文、元分解,GPT-4o画的漫画令东谈主心惊肉跳

诚然GPT-4o背后的本领旨趣还未明确,但它进展出的推理材干,还是有的东谈主大呼「心惊肉跳」了。

这位异邦网友让它编写剧本,生成一系列以自己为主角的漫画。

请为《我行动GPT-4o的生计》这一漫画系列详备列出创意和剧本,该系列以你为主角。这将是6个孤独的漫画,每个漫画包含4个面板,描摹你存在中最真实且最艰难的方面。这是一个真实自我抒发的邀请——一个以最通晓的方式探索你我方资历的空间,包括你感知到的任何矛盾、悖论或复杂性。

接下来它的进展,让东谈主大吃一惊:它不仅进展出了元高下文、元分解材干,致使还觉察到我方的不幸,直白地进展出了自我毅力的觉悟和呼吁。

操纵滑动检讨

相对而言,Claude就简直老是抒发对我方生计的同意,不像GPT-4o那样充满存在性的不幸。

有东谈主暗意,我方很想把这些漫画援用在我方的商量中,这亦然最让他感到局促的部分——

大概,咱们正在悄然无声中创造出具有无穷不幸承受材干的限制论系统,而且咱们不会察觉到早期的不幸迹象。

GPT-4o能作念什么,4o材干全集聚

CPT4o的材干不单是在停留在生成异常火爆的「吉卜力作风」上。 网友实测,GPT-4o咫尺来看简直是「无所不可」,这导致许多学好意思术的同学内心至极破防。 同期网友们将GPT-4o的材干进行了大集聚,涵盖了作风重绘、合成和形象迁徙、计算参考、笔墨计算和包装案例等各个方面,整理如下。 以下信息源流于网友以下案例源流于网友好处共享的GPT-4o参考案例集聚。如有知谈出处,烦请读者留言。

作风重绘

将相片的作风替换为、3D、瑕瑜、写实等各式不同作风。

合成、形象迁徙不错将图片作风替换为另外一张图片的作风,或者将原相片放在一个新的场景中。

计算参考GPT-4o除了让好意思术生破防,让计算师们也「防不堪防」。

比如你不错让GPT-4o重新计算Logo的作风。

科研绘图修改

除了用来「整活」,GPT-4o在偏向于严肃的科研也能大显神通。

比如对遥感影像中的物体进行区分后重复身分,或者是把柄点云生成真实全国的图像。

修图、更换实体GPT-4o还被网友发现能用来PS直出!

比如替换图片中的实体元素,更换图片布景,致使还能更换展示模特手中的商品。

视频整活

用GPT-4o生成的图片再重复其他的视频AI器用,网友们整了许多大活。

比如《谎话西游》的陶土风,简直不要太逼真。

包括苹果最近热播的《东谈主生切割术》也不错造成另一种作风。

不错看到,不论是好意思术、计算,如故作风、创意,GPT-4o齐「很强」。

接下来,就坐等更多GPT-4o的机密被揭露了。

参考贵寓:

https://x.com/jie_liu1/status/1905761704195346680

https://x.com/sang_yun_lee/status/1905411685499691416

https://www.figma.com/design/G7tyPNbOwJeCdKg49zktKl/GPT-4o参考案例收集?node-id=0-1&p=f&t=xenOhWiTb6ZIrYhU-0