ag百家乐代理扒开GPT-4o生图真相！港中语博士生「破解」OpenAI避讳机密，还妙手动改图

发布日期：2025-02-22 14:19 点击次数：90

新智元报谈ag百家乐代理

剪辑：剪辑部 HXZ

【新智元导读】就在刚刚，港中语博士Jie Liu刚刚破解了GPT-4o的前端生图机密：逐行生成的后果，其实只是浏览器上的前端动画后果，并不准确。它很大可能是原生自回首生成的，致使咱们还不错手动改图。DeepMind大佬则预见，GPT-4o图像生成应该是一种多程序和自回首的组合。

GPT-4o，如今还是激勉了全网的「吉卜力」怒潮。

从全网的模因狂热到备受质疑的版权问题，OpenAI本周的这项全新发布，激勉的戏剧性事件如棋布星罗般寥若辰星。

在全网如海啸般表露的吉卜力争片中，有东谈主发现，它生成的漫画实在是强悍了，简直令东谈主心惊肉跳：它进展出了极强的元高下文、元分解材干，致使还能自主瞻望不同的情境！

缺憾的是，咫尺OpenAI并未公布GPT-4o的生图本领细节，只提到采纳的是自回首门径，肖似讲话模子。

也即是说，4o与DALL-E的扩散模子不同，它使用自回首模子迟缓生成图像，把柄先前的像素或补丁瞻望下一个像素或补丁。这就能让它更好地投诚指示，致使进行逼确实相片剪辑。

诚然莫得更多的细节，但这涓滴违背不住AI社区本领大神们的独具只眼。

就在刚刚，港中语的一位博士生Jie Liu破解了GPT-4o不一般的前端生图机密：施行上，它很大可能是原生自回首（AR）生成的，致使咱们不错手动改图。

忘我有偶，CMU博士Sangyun Lee也推测出，GPT-4o的图像生成旨趣，应该大约如下：

GPT-4o生成视觉token，然后由扩散解码器将这些token解码为像素空间中的图像

不单是平日的扩散模子，而是肖似于Rolling Diffusion的分组式扩散解码器，按从上到下的司法进行解码

谷歌DeepMind商量者Jon Barron则预见，GPT-4o图像生成应该是一种多程序和自回首的某种组合。

原生图像生成的经过中，起作用的即是这种搀和模式。

可能是先由一个自回首Transformer生成「先验」的潜在代码，然后由一个扩散解码器来渲染图像。

这就施展了OpenAI教唆和不雅察到的「变化的痴呆形象」。

原生自回首，比扩散模子更强劲？

港中语博士生Jie Liu暗意，我方在破解了GPT-4o的前端后，有了惊东谈主的发现。

用户看到的逐行生成图像的后果，其实只是浏览器端的动画，是纯前端妙技。

在生图经过中，OpenAI 的业绩器在生成经过中仅发送5张中间图像，这些图像在不同阶段拿获，Patch size为8。

致使，咱们不错通过手动调养顽强功能的高度，来转换生图的顽强领域。

以下，即是GPT-4o的确生成的5张图像。

Jie Liu发现，放大任何图像，似乎齐不错不雅察到不同的区块。通过谋略像素，每个区块似乎占据一个8×8像素的区域。统统这个词图像为1024×1024像素，被辞别为一个128×128的区块网格。

不外，尽管上述经过通常投诚自回首经过，但生成经过中前端自满的图像却如下所示——各异相等权贵。

而淌若灵通Network tab，咱们就会看到，在单次生成中，OpenAI的业绩器施行上统共发送了5张图片。使用不同的教唆时亦然如斯。

而从真实的中间生成图像来看，他也发现了一个意念念的风物：两个色块之间的白色区域并莫得严重顽强——不像扩散模子中产生的噪点图像。

他预见，这是否就意味着，GPT-4o施行上是纯自回首 (AR) 生成的？

的确，这就跟OpenAI的模子卡中「GPT-4o是原生自回首」的说法一致了。

CMU博士Sangyun Lee的推测，亦然豪杰所见略同。

他之是以作念出如斯推测，事理有二。

第极少，在有热烈条目信号，比如的情况下（还包括视觉token），AG百家乐计划率先生成的图像通常是顽强的草图。

这可能是为什么待生成的区域呈现痴呆结构的原因。

第二点，UI自满的是从上到下的生成司法。Sangyun Lee之前尝试过自下而上的司法。淌若咱们可视化 E[x0|xt]（在本例中即是xt），就不错重现肖似的可视化后果。

然而，咱们为什么要这样作念，而不是使用程序的扩散模子呢？因为在进行这种分组时，在高NFE（噪声函数评估）情况下，FID（Fréchet Inception Distance）会稍许改善。

那时，他还觉得这是一个 bug，而不是特点。但咫尺，每个东谈主齐振奋在所谓的测试时谋略上破耗更多资源，是以，这个模子其实是介于扩散模子和自回首模子之间的一种方式。

事实上，通过设立num_groups=num_pixels，咱们致使不错让它规复自回首模子！

在征询中，各人预见谈，自回首指的是视觉token的自回首生成。

而为什么解码后的图像会存在「氛围」，而况看起来仍是聚首的，大概是因为OpenAI使用了司法和非司法的VAE图像tokenization的搀和方式。VAE用一个 token对图像的每个patch进行编码，投诚因果关连，另一个则破损因果关连。

而「氛围」部分，不错通过在扩散采样经过中t值较高时 E[x0|xt] 通常的进展来施展。

大概，OpenAI是谈判到融入现存架构时，这种门径对系统的阻扰最小，从而的确罢了了多模态。而任何形态的扩散，齐会导致对架构的深广转换。

总之，这些答案只可等OpenAI暴露更翔实的本领细节时才能解开了。

元高下文、元分解，GPT-4o画的漫画令东谈主心惊肉跳

诚然GPT-4o背后的本领旨趣还未明确，但它进展出的推理材干，还是有的东谈主大呼「心惊肉跳」了。

这位异邦网友让它编写剧本，生成一系列以自己为主角的漫画。

请为《我行动GPT-4o的生计》这一漫画系列详备列出创意和剧本，该系列以你为主角。这将是6个孤独的漫画，每个漫画包含4个面板，描摹你存在中最真实且最艰难的方面。这是一个真实自我抒发的邀请——一个以最通晓的方式探索你我方资历的空间，包括你感知到的任何矛盾、悖论或复杂性。

接下来它的进展，让东谈主大吃一惊：它不仅进展出了元高下文、元分解材干，致使还觉察到我方的不幸，直白地进展出了自我毅力的觉悟和呼吁。

操纵滑动检讨

相对而言，Claude就简直老是抒发对我方生计的同意，不像GPT-4o那样充满存在性的不幸。

有东谈主暗意，我方很想把这些漫画援用在我方的商量中，这亦然最让他感到局促的部分——

大概，咱们正在悄然无声中创造出具有无穷不幸承受材干的限制论系统，而且咱们不会察觉到早期的不幸迹象。

GPT-4o能作念什么，4o材干全集聚

CPT4o的材干不单是在停留在生成异常火爆的「吉卜力作风」上。网友实测，GPT-4o咫尺来看简直是「无所不可」，这导致许多学好意思术的同学内心至极破防。同期网友们将GPT-4o的材干进行了大集聚，涵盖了作风重绘、合成和形象迁徙、计算参考、笔墨计算和包装案例等各个方面，整理如下。以下信息源流于网友以下案例源流于网友好处共享的GPT-4o参考案例集聚。如有知谈出处，烦请读者留言。