AG百家乐到底是真是假推理资本比MoE直降83%！字节最新大模子架构入围ICLR 2025

发布日期：2024-01-13 06:27 点击次数：148

豆包大模子团队投稿量子位 | 公众号 QbitAIAG百家乐到底是真是假

字节出了个全新架构，把推理资本给狠狠地打了下去！

有多狠？

推理速率比较MoE架构提高2-6倍，推理资本最高可裁汰83%。

这个全新的阑珊模子架构叫作念UltraMem，有用地处罚了现在主流的MoE架构和PKM架构所存在的局限性。

举例MoE在作念推理时，较小的batch size会激活一皆各人，导致访存急剧高涨，推理蔓延加多；而PKM诚然减少了访存支出，但着力较差且扩张智商有限。

实验放弃标明，进修限制达2000 万value的UltraMem模子，在同等猜测打算资源下，可同期竣行状界早先的推理速率和模子性能，为构建数十亿限制value或expert开采了新旅途。

这项研讨现在一经被ICLR 2025接收。

那么UltraMem架构具体是怎样作念到这点的呢？咱们不绝往下看。

兼顾访存和模子着力

跟着谎言语模子智商的提高，所需的猜测打算资源呈指数级增长，这在及时专揽等资源受限的环境中带来了巨大挑战。

为了顶住猜测打算资源的瓶颈，研讨者们建议了多种处罚决策，其中包括MoE和Product Key Memory (PKM)。

但是，这些要津各自存在一定的局限性。

MoE 通过阑珊激活各人（expert）的样式，将猜测打算与参数解耦，从而在进修时大致有用减少猜测打算量；但在推理场景中，MoE 的推崇却不尽如东谈主意。

由于推理时模子需要逐字生成输出，batch size和sequence length频繁较小，而频繁情况下，数目较少的token就不错激活确凿通盘的各人。

这种全各人激活的形状使得访存需求急剧加多，进而激发严重的访存瓶颈，最终导致推理蔓延大幅高涨。

另一方面，PKM建议了 large memory layer的倡导，其中包含了大批的阑珊参数 value（每个 value 试验上是一个向量）。

在推理时，每个 token 通晓过“行路由”和“列路由”定位到得分最高的几个 value，并对其进行加权乞降（weighted sum pooling），算作 memory layer 的输出。

由于每个token在推理时仅激活小数数的value，PKM大致有用幸免访存瓶颈。但是，尽管PKM在访存着力上推崇优异，其模子着力却较差，且扩张智商（scaling）有限，难以顶住更大限制的模子需求。

总的来说，MoE和PKM诚然在一定进度上缓解了猜测打算资源的问题，但它们在推理着力、模子着力和扩张智商等方面仍存在澄莹不及，亟需新的处罚决策来进一步优化大模子的推感性能。

而UltraMem则是参考了PKM的设想，但针对PKM的3个颓势给以补充，以竣事更高效的访存、更优质的value检索，同期，裁汰了显存和部署资本。

1、优化模子结构

PKM的设想中，memory layer独一1层，插在通盘Transformer的中间层，这对大限制进修并不友好，况且如斯雄伟的阑珊参数应该尽可能多的参与到每次的残差贯穿中。

因此，研讨团队拆分出多个小memory layer，以固定的斥逐散播在 Transformer layer中；况且加多了skip-layer的操作，即刻下层的memory layer的输出会加到后头某层Transformer layer 的输出。

这使得模子不错并行地扩充memory layer的访存操作和Transformer layer的猜测打算。

2、优化value检索样式

在检索时，ag真人百家乐每天赢100独一score最高的m个value会被激活，PKM的score是通过“行score”+“列score”得到的。

团队进一步探索了一种更复杂的乘法要津Tucker Decomposed Query-Key Retrieval（TDQKR）。

这一要津受启发于Tucker Decomposition。具体来看，给定values，shape为（n，n，h），其中h为hidden size，那么values的score S_grid不错作念如下剖释：

其中Srow,Scol∈Rr×n，C∈Rr×r是可学习的tucker core。这个结构下，每个value的score由r个行score和r个列score的组合乘加取得，具备更高的复杂度。

3、隐式扩张阑珊参数

更多的阑珊参数频繁会带来更好的着力，但过多的参数又会给显存和部署带来抨击。

为此，研讨团队建议了Implicit Value Expansion （IVE）要津隐式地扩张阑珊参数，并引入了virtual memory和physical memory的倡导。

以4倍扩张为例（如下图所示），virtual memory的数目是physical memory的4倍，给定多对（score， index）后，早先按照virtual memory address table作念查表，4个virtual block会查询归拢个physical memory table，之后各自作念 weighted sum pooling，并过程不同的线性层，终末再乞降输出。

由于终末的Linear和取value之间莫得任何非线性操作，因此每个Linear都不错和physical memory table作念通晓，生成一个全新的memory table，这个例子下，试验上隐式扩张了4倍的value 数目。

较MoE最高提速6倍

1、模子性能评估

研讨团队在151M、680M、1.6B三个尺寸的激活参数上作念了鄙俚的实验，其中MoE、PKM和UltraMem的总阑珊参数保抓在激活参数的12倍。

如下表所示，不错发现 UltraMem在680M、1.6B上具有权臣的着力上风。

跟着阑珊参数的加多，UltraMem的着力和推理速率怎样变化？

下图（b）展示了UltraMem的着力变化，横轴为阑珊参数和茂密参数的比值，每个情愫的线代表了一种阑珊度。阑珊度界说为value的数目 / 每个token激活的value数目。不雅察发现，抓续加多阑珊参数和loss的下落呈对数连络；且阑珊度越小，模子着力越好；但是阑珊度抓续裁汰带来的收益在徐徐充足。下图（c）展示了UltraMem的推理时间变化，横轴为阑珊参数和茂密参数的比值。不雅察发现，UltraMem在抓续加多阑珊参数时推理时间确凿不变，反不雅MoE有权臣增长的趋势。

2、消融实验

研讨团队在151M激活、1.5B总参数的阑珊模子上进行了全面的消融实验。

从最原始的PKM运转，徐徐加多一些 trick 和上文建议的结构雠校，最终能拿到C4 validation loss-0.092的权臣收益，同期阑珊参数和猜测打算量确凿不变。

要而言之，研讨团队建议的UltraMem具有极小的访存，因此，比较 MoE 竣事了最高达6倍的速率提高，推理资本最高可裁汰83%。

同期，在性能方面，跟着模子容量的加多，在疏通的参数和猜测打算量情况下，UltraMem跳动了MoE，标明其具有更强的扩张智商。

这项使命不错说是为成立更高效和可扩张的话语模子提供了一个有但愿的标的。

论文地址：https://arxiv.org/abs/2411.12364

AG百家乐到底是真是假推理资本比MoE直降83%！字节最新大模子架构入围ICLR 2025

热点资讯

推荐资讯

AG百家乐到底是真是假 推理资本比MoE直降83%！字节最新大模子架构入围ICLR 2025

热点资讯

推荐资讯

AG百家乐到底是真是假推理资本比MoE直降83%！字节最新大模子架构入围ICLR 2025