还铭刻之前阿谁建议了新的液体基础模子(LFMag百家乐积分有什么用,Liquid Foundation Model)的 Liquid AI 吗?在被 AMD 投资数月后,这家来自好意思国麻省理工学院的初创公司又带来新恶果了。
4 月 25 日,Liquid AI 认真发布了面向边际开采的全新 AI 架构“Hyena Edge”。与当今主流的基于 Transformer 的模子架构不同,Hyena Edge 是一种基于卷积的多搀和模子,专为智高东谈主机等边际开采优化遐想。
“东谈主工智能正飞快变得无处不在,从大领域云霄部署到智高东谈主机和札记本电脑等资源受限的边际开采。”Liquid AI 科学团队成员 Armin Thomas、Stefano Massaroli 和 Michael Poli 在计划请问中暗示,“尽管有令东谈主印象潜入的卓越,大多半为边际部署优化的微型模子,如 SmolLM2、Phi 模子和 Llama 3.2 1B,主要依赖于基于严防力运算符的 Transformer 架构。”
这些传统架构天然具有可并行规画和高效内核的特色,但在边际开采上仍濒临服从瓶颈。而 Hyena Edge 动作一种 Liquid 架构,天生就在规画服从上具有上风,相等适用于边际部署。据 Liquid AI 声称,Hyena Edge 在确凿硬件测试中,于规画服从和模子质地两方面均展现出超越 Transformer 基线的性能。
他们在三星 Galaxy S24 Ultra 上对 Hyena Edge 进行了测试,戒指表示该模子在多个重要认识上均超越强劲的基于 Transformer 的基准模子。
在服从方面,Hyena Edge 展示了更快的预填充(prefill)息争码蔓延。稀罕是关于卓越 256 个标志的序列,解码和预填充蔓延最高可提高 30%。值得严防的是,其在短序列长度下的预填充蔓延也优于 Transformer 基线,这少许对反馈式开采应用至关热切。在内存使用方面,Hyena Edge 在通盘测试序列长度下均使用更少的内存。
在模子质场所面,Hyena Edge 在经过 1000 亿 tokens 的熟悉后,在包括 Wikitext、Lambada、Hellaswag、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在内的各式常见谈话建模基准测试中阐发出色。举例,在 Wikitext 上的困惑度(perplexity)从 17.3 降至 16.2,在 Lambada 上从 10.8 降至 9.4,在 PiQA 上的准确率从 71.1% 提高至 72.3%,在 Hellaswag 上从 49.3% 提高至 52.8%,在 Winogrande 上从 51.4% 提高至 54.8%。
“这些戒指标明,模子的服从提高并不以展望质地为代价——这是好多边际优化架构常见的弃取。”计划团队暗示。
而 Hyena Edge 的中枢时刻,正在于团队此前建议的 STAR(Synthesis of Tailored Architectures)框架偏激优化时刻。STAR 框架的中枢念念想是利用进化算法(Evolutionary Algorithms)和线性输入变化系统(LIVs,Linear Input-Varying Systems)的数学表面,来高效地探索雄壮的神经收罗架构空间,并自动合成出针对特定方向(如低蔓延、小内存占用、高模子质地、小参数目等,可多方向同期优化)的“量身定制”的架构。
与传统的依赖东谈主工教养和直观进行模子遐想,或在有限空间内进行自动化搜索的步调不同,STAR 提供了一个更全面的处罚有蓄意。LIV 表面是一个重要的表面基础,它能够调理地刻画和泛化深度学习中常见的多种规画单位,包括各式严防力变体、线性轮回收罗、卷积收罗以偏激他结构化算子。STAR 基于 LIV 表面,构建了一个新颖的、分层的架构搜索空间。
在这个框架下,威斯尼斯人AG百家乐模子架构被编码成一种“基因组(Genome)”。这种基因组包含了架构的多个层级信息,从底层的特征化(Featurization)式样、算子结构(Operator Structure,界说了 Token 和 Channel 的搀和式样),到顶层的主干收罗(Backbone,界说了 LIV 单位之间的说合和组合式样)。STAR 的基因组遐想具有精湛的档次化和模块化本性。
随后,STAR 欺诈进化算法的旨趣,对这些架构基因组进行迭代优化。主要包括评估(笔据预设方向计算架构性能)、重组(组合优秀父代架构的特征)和变异(引入随即变化以探索新架构)等才略。该框架救援多方向优化,能够同期磋商模子质地、参数目、推理缓存大小、蔓延等多个可能互相摧残的认识,以寻找在这些方向间达到较好均衡的架构有蓄意。
笔据那时刻文档,STAR 在优化大型谈话模子架构时,无论是在纯质地优化、质地与参数目连合优化,已经质地与推理缓存大小连合优化方面,其生成的架构均能在各项认识上显赫优于高度优化的 Transformer++ 和 StripedMamba 等基准模子。举例,在优化质地和参数目时,7/8 的 STAR 进化架构不才游任务基准上超越了 Transformer++ 和搀和模子,同期参数目减少高达 13%。在优化质地温煦存大小时,7/8 的 STAR 进化架构兑现了比搀和模子小 37%、比 Transformer 小 90% 的缓存,同期质地很是以致更好。
在 Hyena Edge 的遐想中,Liquid AI 团队就应用了 STAR 框架。他们从一个包含 16 个候选架构的启动种群入手,进行了 24 代的进化迭代。其搜索空间遐想得相等丰富,包含了多种卷积算子的变体,这些变体主要受到 Hyena 架构的启发:
Hyena(Full):在门控机制(Gating Mechanism)和 Hyena 里面卷积中齐包含卷积操作。Hyena-X:舍弃了里面卷积。Hyena-Y:舍弃了特征组(门)中的卷积。
除了这三种主要的 Hyena 类型,搜索空间还磋商了它们学习到的短距离、显式卷积核的长度变化(从 3 到 128),悉数组成了 18 种不同的卷积算子。此外,搜索空间还包括了分组查询严防力的变体(具有不同的 KV 头数目)和 SwiGLU(具有不同的里面宽度)等常见的 Transformer 组件。
在进化历程中,STAR 框架通过对每个候选架构在三星 S24 Ultra 上的启动蔓延和内存占用进行性能分析,并同一模子在熟悉历程中的困惑度阐发,握住地将架构种群向着服从-质地前沿(Efficiency-Quality Frontier)进行优化。
有利念念的是,跟着进化历程的鞭策,当架构接近服从-质地最优领域时,STAR 显明地偏疼采取 Hyena-Y 类型的卷积。这标明 Hyena-Y 卷积在蔓延、内存和模子质地之间赢得了更优胜的均衡。
基于这一发现,最终的 Hyena Edge 架构在一个 GQA-Transformer++ 基准模子的基础上,将部分 GQA 算子替换为由 STAR 优化选出的 Hyena-Y 门控卷积。
而最终戒指如基准测试所标明的,Hyena Edge 在提高服从的同期,保抓了较高的模子质地,这关于性能和资源齐受限的边际开采应用而言是一个热切的本性。
Liquid AI 已暗示筹划在翌日数月内开源包括 Hyena Edge 在内的一系列基础模子,其方向是构建能够顺应从云霄到边际多种环境的 AI 系统。除了模子自己,其所展现出的遐想步调,好像更值得咱们的期待。
参考云尔:
1.https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices
2.https://arxiv.org/abs/2411.17800
3.https://venturebeat.com/ai/liquid-ai-is-revolutionizing-llms-to-work-on-edge-devices-like-smartphones-with-new-hyena-edge-model/
运营/排版:何晨龙