机器之心报谈AG百家乐有规律吗,剪辑:泽南、Panda。
霸榜数天的秘要文生图模子 Mogao,什么来头?
这两天,不少业内东谈主已在磋商「这个魔法般模子」的出处。

有东谈主对模子效力颇为招供,意思如何体验。

秘要模子 Mogao 的横空出世,始于近期它在盲测打分的 Artificial Analysis 文生图名次榜上飞速蹿升,一度排名第一,位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模子之前。
从粗俗媒体也能看到,网友对该模子近乎一水的好评。

昨晚,Mogao 的秘要面纱终于被揭下。
它背后是图像生成基础模子 Seedream 3.0,来自字节逾越 Seed 团队。

在 Artificial Analysis 文生图榜单上,除了拿下总榜第一,Seedream 3.0 在确凿、图形蓄意与数字渲染、动漫、卡通与插图、相沿风、传统艺术等不同作风,以及翰墨、商务、东谈主像、当然、幻想等不同维度均发扬最先。

图片从左至右展示了在确凿感、动漫、东谈主像这三个细分项上的前 10 名。
尤其海报蓄意方面,Seedream 3.0 发扬尤为杰出,不仅小字崩坏率低,输出图像的蓄意感也很强。


无人不晓,Seedream 3.0 已于 4 月初在字节自家的即梦和豆包平台上线,其在翰墨生成和排版上的出色才略备受暄和。
而就在今天,字节逾越 Seed 团队也对外发布了 Seedream 3.0 时刻讨教,明慧透露了模子的性能发扬和时刻细节。
机器之心带环球一睹为快。

时刻讨教:https://team.doubao.com/zh/tech/seedream3_0arXiv:https://arxiv.org/abs/2504.11346
定性定量评估俱佳
文生图 SOTA 实至名归
Seedream 3.0 不久前绽放使用时,咱们也曾专诚体验了一番,参阅《实测完 Seedream 3.0,我后悔大学选了蓄意专科……》。
追忆起来,比较于市面上其它同类产物,Seedream 3.0 上风体当前 —— 速率与质地兼备、翰墨准且好意思、原生支撑 2K 图像输出三个方面。
凭证官方透露的时刻讨教也能发现,模子在结构、指示盲从、好意思感、东谈主像、文本可用性等多个维度均发扬杰出。

轮廓才略以外,团队还强调了密集文本渲染和传神东谈主像生成两方面才略。
具体来说,在生成收尾中,Seedream 3.0 华文和英翰墨符的文本可用率均达到 94%,基本让文本渲染不再成为图像生成的制肘。

除了可用率的全体提高以外,比较 2.0 版块,Seedream 3.0 渲染密集文本的才略也有要紧提高,同期其小字符生成的准确率和文本布局的当然度也赫然名显进步。

在东谈主像确凿感方面,团队为评估模子发扬,专诚构建了一个采纳 Elo 竞赛机制、包含 100 个教导的东谈主像评估新基准,囊括热枕、姿势、角度、发质、肤质、衣饰、配饰等东谈主像生成的方方面面。
经过超越 50000 轮的公开评估,Seedream 3.0 与 Midjourney V6.1 同处第一梯队,比较其他模子上风昭着。

从示例不错看到,Seedream 3.0 能灵验摈斥东谈主像生成的「AI 感」,可生成带有皱纹、绒毛和疤痕等确凿特征的皮肤质感,传神度已基本接近专科影相水平。

机器之心还在试验评测发现,Seedream 3.0 不需要像之前相通实践超永别率操作,而是不错一键直出 2K 永别率图像。


对比其他模子,Seedream 3.0 也展现出极快的生收效力。
凭证据测体验,Seedream 3.0 基本十几秒摆布就能生成 4 张 2K 永别率待选图像,生成高清图像(1K)时长更是短至数秒。相较之下,业界同类模子生成一张高清内容的耗时基本在 10 秒以上,而效力较好的 GPT-4o 生成一张高清图耗时不息超越 1 分钟。
从数据过滤到后考研
多数底层时刻升级
Seedream 3.0 究竟是如何真金不怕火成的?在时刻讨教中,咱们看到了 Seed 磋商团队在数据、预考研和后考研上的多项职责。
数据准备阶段
在数据上,因之前偏保守的数据过滤战略会极大放手可用数据集大小,团队引入了一种全新的颓势感知型考研范式。
该范式包含一个专诚的颓势检测器,可通过范围框算计精笃定位颓势区域。当检测到的颓势总面积小于图像空间的 20%(可建树阈值)时,就会采选保留这些样本(之前会被丢弃),同期使用掩码隐含空间优化。
团队以为,这种创新症结的效力很好:在保证模子踏实性的同期,将灵验考研数据集膨大了21.7%。
为了优化数据散布,他们冷漠了一个双轴协同数据采样框架,可从视觉样式和语义散布两个维度进行连合优化。
团队还自主研发了一套跨模态检索系统,进一步增强数据生态系统的结合性,针对图像 - 文本对,诞生了一个连合镶嵌空间。该系统在悉数基准测试中均得回了最好性能。
预考研阶段
Seedream 3.0 的基本架构蓄意禁受自 2.0 版,采纳 MMDiT 来贬责图像和文本 token ,并捕捉两种模态之间的联系。不外,AG百家乐有没有追杀在 Seedream 3.0 中,团队增多了基础模子的总参数,并引入了多项症结革命,提高了模子的可膨大性、泛化才略和视觉讲话对皆才略,其中包括:
羼杂永别率考研:每个考研阶段中,不同宽高比和永别率的图像会被打包在沿路,最先在平平永别率为 256² 的图像上预考研模子,然后在更高永别率的图像(从 512² 到 2048²)上对其进行微调。Seed 团队还采纳了尺寸镶嵌看成另一个要求,使模子大约感知探讨永别率。
跨模态 RoPE:Seedream 2.0 中的 Scaling RoPE 被膨大成了跨模态 RoPE,从而进一步增强了视觉文本 token 的对皆效力和文本渲染精度。其中,文本 token 被视为体式为 [1, L] 的二维 token,并对文本 token 利用二维 RoPE。
后考研阶段
Seedream 3.0 后考研进程则包含以下几个阶段:抓续考研(CT)、监督微调(SFT)、东谈主工反馈对皆(RLHF)和教导工程(PE)。各阶段效力对比如下图所示。

为进一步提高好意思感,在新模子上,团队专诚考研了多个版块的描摹模子。
这些模子能在审好意思、作风、排版等专科限制提供精确的描摹,确保 Seedream 3.0 大约更灵验地反馈有关教导,不仅增强了模子的可控性,也提高了教导工程后模子的性能。
另外皮奖励模子上,Seedream 3.0使用了 VLM 看成奖励建模框架,而不再是 CLIP,并提高了其参数目。
团队模仿讲话模子中生成式 RM 讲明,进行奖励建模,依靠 LLM 正本的 Scaling 才略,提高奖励准确性与鲁棒性;此外,团队还将奖励模子参数目从 0.8B 拓展至 20B 以上。
推理加快有关职责
为促使 Seedream 3.0 领有更高生收效力,团队专诚针对推理加快进行了优化。
框架方面,模子采纳了Hyper-SD 和 RayFlow。这使得生成旅途得到了优化,每个数据点会被辅导至特定实例的探讨散布,从而完竣每个样本的轨迹定制。这可显赫减少旅途碰撞,并提高生成踏实性和样本各样性。
该团队还引入一种伏击性采样机制来提高效力,其不错学习在考研过程中暄和最症结的时辰步。此外,Seedream 3.0 的框架也支撑高效的少步数采样,且不会影响生成质地。
打榜一时超越 4o
就比它更强?
看到这,深信不少东谈主也会发问,Seedream 3.0 比起 GPT-4o 如何?打榜超越就一定强么?
在时刻讨教中,咱们发现团队专诚对比了 Seedream 3.0 与 GPT-4o 的发扬。需要强调的是,GPT-4o 骨子上是一款文本 + 图像的多模态模子,而这里的对比仅限于图像生成才略。不外,通过一些案例比较,该团队也找到了这两个模子各自的上风和短板。
举例密集文本渲染方面,团队发现 GPT-4o 在小英翰墨符的准确性和某些 LaTeX 象征的渲染方面发扬出色。但是, GPT-4o 在渲染中翰墨体方面发扬相对不及,比较之下,Seedream 3.0 不错缺陷生成密集的华文文本,而且在排版和构图好意思感方面优于 GPT-4o。
下图给出了一些示例,其中上列来自 Seedream 3.0,下列来自 GPT-4o。

此外,团队还系统性地对比了包括神采、纹理、明晰度和好意思不雅度在内的生成质地。
下图展示了多组示例,每组图像的左图来自 Seedream 3.0,右图来自 GPT-4o。
在生成质地点面,Seedream 系列模子色调更为富足,GPT-4o 生成图像部分伴有噪点。

值得一提的是,在衔接性图片生成(比如:漫画、进程图)方面,GPT-4o 的才略依然让东谈主感到惊艳,这亦然 Seedream 3.0 需要进一步提高之处。
文生图开卷
全面落地时期已来
最近,文生图模子又运行卷到飞起,字节 Seedream 3.0 矜重亮相的同期,仅在国内,就有好几家 Artificial Analysis 上榜模子同期发布。
从多模态对皆到高永别率输出,再到密集翰墨渲染与东谈主像确凿感优化, Seedream 3.0、GPT-4o 等模子在这一波集体跃迁,MJ、Flux 等也曾的明星模子被徐徐渐忘。而背后的时刻演进、系统蓄意玄学与产物化想路,也将越来越多地决定 AI 在确凿寰宇中的落地旅途与生态后劲。
一轮新竞赛也曾悄然开场,这些新模子在迷惑暄和的同期,也有望催生出全新的创作范式。