ag百家乐代理 中科大华为发布生成式保举大模子,昇腾NPU部署,背后贯通公开
发布日期:2024-08-22 03:46 点击次数:189贯通智能宇宙要点履行室&华为诺亚方舟 投稿量子位 | 公众号 QbitAIag百家乐代理
保举大模子也可生成式,况且初度在国产昇腾NPU上见效部署!
在信息爆炸期间,保举系统已成为生计中不能或缺的一部分。Meta最初提议了生成式保举范式HSTU,将保举参数推广至万亿级别,得到显赫效果。
近期,中科大与融合建立了保举大模子部署决策,可应用于多个场景。
探索历程中还有哪些训戒与发现?最新公开共享来了。
阐明亮点包括:
精采保举范式发展历程,指出具备推广定律的生成式保举范式是改日趋势;复现并盘问不同架构的生成式保举模子偏捏推广定律;通过消融履行和参数分析,剖析HSTU的推广定律起首,并赋予SASRec以可推广性;考据HSTU在复杂场景和排序任务中的施展及推广性;团队预测并精采改日盘问地方。
具备推广定律的生成式保举范式正在成为改日趋势

如图1所示,保举系统的发展趋势是逐渐减少敌手工联想特征工程和模子结构的依赖。在深度学习兴起之前,受限于计较资源,东谈主们倾向于使用手工联想的特征和浅易模子(图1A)。
跟着深度学习的发展,盘问者专注于复杂模子的联想,以更好地拟合用户偏好,并进步对GPU并行计较的诓骗率(图1B)。
但是,跟着深度学习能力的瓶颈,特征工程再次受到热心(图1C)。
如今,诳言语模子推广定律的见效启发了保举领域的盘问者。推广定律形色了模子性能与关节狡计(如参数界限、数据集界限和磨砺资源)之间的幂律相干。通过增多模子深度和宽度,并结合多数数据,不错进步保举效果(图1D),这种时势被称为保举大模子。
近期,HSTU等生成式保举框架在此地方得到了显赫效果,考据了保举领域的推广定律,激勉了生成式保举大模子盘问的兴隆。团队以为,生成式保举大模子正在成为颠覆刻下保举系统的下一个新范式。
在此布景下,探索哪些模子简直具备可推广性,贯串其见效应用推广定律的原因,以及怎样诓骗这些端正进步保举效果,已成为刻下保举系统辖域的热点课题。
基于不同架构的生成式保举大模子推广性分析
为了评估生成式保举大模子在不同架构下的推广性,团队对比了HSTU、Llama、GPT和SASRec四种基于Transformer的架构。
在三个公开数据集上,通过不同详确力模块数目下的性能施展进行分析(见表1)。适度清晰,当模子参数较小时,各架构施展一样,且最优架构因数据集而异。
但是,跟着参数推广,HSTU和Llama的性能显赫进步,威斯尼斯人AG百家乐而GPT和SASRec的推广性不及。尽管GPT在其他领域施展遍及,但在保举任务上未达预期。团队以为,这是因为GPT和SASRec的架构穷乏专为保举任务联想的关节组件,无法有用诓骗推广定律。

生成式保举模子的可推广性起首分析
为了探究HSTU等生成式保举模子的可推广性起首,团队进行了消融履行,折柳去除了HSTU中的关节组件:相对详确力偏移(RAB)、SiLU激活函数,以及特征交叉机制。
履行适度(见表2)清晰,单一模块的缺失并未显赫影响模子的推广性,但RAB的移除导致性能澄莹着落,标明其关节作用。

为了进一步分析赋予模子推广定律的身分,团队比较了SASRec与推广性遍及的HSTU和Llama的区别,发现主要互异在于RAB和详确力模块内的残差伙同方法。
为考据这些互异是否为推广性的关节,团队为SASRec引入了HSTU的RAB,并退换其详确力模块的驱散方法。
履行适度(见表3)清晰,单独添加RAB或修改残差伙同并未显赫改善SASRec的推广性。但是,当同期修改两个组件后,SASRec展现出遍及的推广性。这标明,残差伙同模式与RAB的结合,为传统保举模子赋予了推广性,为改日保举系统的推广性探索提供了热切启示。

生成式保举模子在复杂场景和排序任务中的施展
复杂场景中的施展
HSTU在多域、多步履和补助信息等复杂场景中施展出色。以多域为例,HSTU在AMZ-MD的四个域中长久优于基线模子SASRec和C2DSR(见表4)。
与单域寂寞磨砺的HSTU-single比拟,多域纠合磨砺的HSTU施展更佳,讲授了多域纠合建模的上风。表5清晰,HSTU在多域步履数据上的推广性显赫,尤其在界限较小的场景如Digital Music和Video Games上。这标明HSTU在处分冷初始问题上具有后劲。


在排序任务中的施展
排序是保举系统中热切的一环,团队深刻斟酌了生成式保举模子在排序任务中的有用性和推广性。正如表6所示,生成式保举大模子在性能上显赫优于DIN等传统保举模子。尽管在小界限模子下,Llama的施展优于HSTU,但HSTU在推广性方面更具上风,而Llama在推广性上显得不及。

团队还盘问了负采样率和评分收罗架构对排序任务的影响,并进行了全面分析。此外,还斟酌了缩减embedding维度对性能的影响。浮松embedding维度(表7)进步了极少据集ML-1M和AMZ-Books的性能,但在大数据集ML-20M上则有所着落。这标明,保举大模子的推广定律不仅受垂直推广(详确力模块数目)影响,也受水平界限(embedding维度)影响。

改日地方和精采
在技巧阐明中,团队指出了数据工程、Tokenizer、磨砺推理服从等保举大模子改日盘问的后劲地方,这些地方将匡助处分刻下的挑战并拓宽应用场景。
论文联贯:https://arxiv.org/abs/2412.00714主页联贯: https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models
百家乐ag厅投注限额