AG百家乐网站

ag百家乐贴吧 比英伟达工程师还练习!DeepSeek R1+测试时Scaling自动优化GPU内核

发布日期:2024-07-28 21:04    点击次数:119

新智元报说念ag百家乐贴吧

剪辑:英智

【新智元导读】玄机地将DeepSeek-R1与推理时扩张相并吞,构建了全新职责经过,自动优化生成GPU内核,得回了令东说念主戒备的效果。

本周英伟达的一篇本领博客激励了业界改造!

英伟达的团队尝试诈骗DeepSeek-R1和推理时扩张收场GPU内核生成自动化,效果极佳。

跟着AI模子的扩张,推理时扩张(inference-time scaling),也叫测试时扩张(test-time scaling)正闪亮登场。

推理时扩张就像是给AI模子配备了一个「颖悟锦囊」。当模子进行推理时,它会非常分派筹算资源,让模子有智商评估多种可能的截止,然后从中挑选出最优解。

通过这种阵势,AI不错像东说念主类同样,丝丝入扣地认识复杂问题,找到最好惩处决策。

为了充分进展DeepSeek-R1的上风,同期克服其在生成优化GPU内核时遭遇的艰巨,英伟达的工程师们想出了一个翻新的样式——将推理时扩张本领与DeepSeek-R1相并吞,构建了一种全新的职责经过。

他们使用DeepSeek-R1,在推理过程中借助非常的筹算智商来惩处一个复杂问题:旨在自动生成数值正确且针对不同类型选藏力机制进行优化的GPU选藏力内核,扫数这个词过程无需任何显式编程。

在某些情况下,R1生成的内核以致比娴熟的工程师建树出来的还要出色!

对此,网友评价说念:「英伟达是在烧毁我方的护城河吗?」

优化选藏力内核的挑战

长远了解推理时扩张本领怎么进展作用之前,先要鉴定一个LLM中至关遑急的主见——选藏力机制。

选藏力机制就像是「聚光灯」,能让AI模子在处理任务时,有聘请地聚焦在输入信息中最关连的部分,快速找到要道语句,作念出更准确的量度,发现数据中的瞒哄模式。

然而,选藏力操作的筹算复杂度与输入序列长度的普通成正比。输入的文本越长,模子处理起来就会越吃力,不仅筹算量大幅加多,还可能出现运行时谬妄,比如内存不及的情况。

为了幸免这些问题,提升筹算遵循,建树优化的底层收场,也即是GPU内核,特殊必要。

另外,选藏力机制有多种不同的变体,像因果选藏力、相对位置镶嵌、alibi等。工程师们在濒临不同的任务时,通常需要把这些变体组合起来使用。

在多模态模子,比如视觉Transformer中,需要专诚的选藏力机制,像空间邻域选藏力(Spatial Neighborhood Attention),来处理筹算机视觉、视频生成模子中常见的时空信息。

建树一个优化的GPU选藏力内核,对警告丰富的软件工程师来说,AG百家乐网站亦然一项辛苦的任务,费时辛勤。

尽管像DeepSeek-R1这么的模子在代码生成任务中展现出了很大的后劲,但它们在第一次尝试生成优化代码时,如故会遭遇不少挑战。

这使得在推理时必须使用其他战略来生成优化代码。

以下是为相对位置镶嵌选藏力内核输入的示例用户辅导。

模子随契机产生幻觉,生成一些「不靠谱」的代码,要么在语法上有谬妄,要么把不同言语或框架的语法混在一齐,导致无法运行或遵循低下。

筹算最优的GPU线程映射也不是一件容易的事,经常需要反复调遣优化,才智得到一个正确又高效的内核。

DeepSeek R1与推理时扩张「强强齐集」

为了攻克优化GPU选藏力内核这个难题,英伟达的工程师们想出了一个玄机的主张,他们把DeepSeek-R1模子和推理时扩张本领并吞起来,创造了一种新的职责经过。

一运转,工程师会手动输入一个辅导。然后,DeepSeek-R1会凭证这个辅导,在第一次遍历中生成GPU代码,也即是内核代码。

生成的代码会交给一个特殊的考证器,这个考证器运行在英伟达H100 GPU上,仔细分析生成的内核代码。

如若发当代码有不及的场合,考证器就会生成新的辅导,再把这些辅导算作输入,反应给DeepSeek-R1。模子凭证新的辅导,对代码进行校正,如斯日中则昃。

工程师们发现,这个过程捏续15分钟,就能得到一个性能更好的选藏力内核。

凭证斯坦福大学的KernelBench基准测试,它生成的内核在处理Level-1问题时,在数值上100%是正确的。在处理Level-2问题时,正确率也能达到96% 。

KernelBench Level-1问题惩处率,是用来评估LLM为特定筹算任务生成高效GPU内核智商的数值正确野心,它是一系列测试LLM GPU编程智商挑战的一部分。

推理时刻预算对生成正确内核的影响也很彰着。从测试截止来看,在Level-1问题中,如若每个问题分派的推理时刻逾越10分钟,就能为100个问题中的大精深生成数值正确的代码。

这也意味着,给模子迷漫的「想考时刻」,它竟然能给出更好的谜底。

诈骗DeepSeek-R1模子,通过在推理时插足更多筹算资源,不错生成比一些练习工程师建树的优化内核还要好的截止,这为GPU内核的自动化生成开发了一条新的说念路。

现在这项本领还处于早期商讨阶段,天然仍是得回了一些令东说念主奋斗的效果,但要想让它能稳重地产生更好的截止,还有好多职责要作念。

商讨者对DeepSeek-R1的最新进展及后劲感到得意。

参考府上:

https://x.com/anneouyang/status/1889770178487132384

https://developer.nvidia.com/blog/automating-gpu-kernel-generation-with-deepseek-r1-and-inference-time-scaling/





Powered by AG百家乐网站 @2013-2022 RSS地图 HTML地图