18
2024
10

ag真人百家乐官网 清华翟季冬: DeepSeek 百倍算力效用背后的系统编削 | 智者访谈

发布日期:2024-10-18 11:52    点击次数:127

一线AI知悉ag真人百家乐官网,智者深度想考

深入产业变革,共创AI将来

2025年来源,全球AI业界被DeepSeek刷屏。当OpenAI文牍5000亿好意思元的「星际之门」磋议,Meta在建领域超130万GPU的数据中心时,这个来自中国的团队冲突了大模子武备竞赛的既定逻辑:用2048张H800GPU,两个月考试出了一个失色全球顶尖水平的模子。

这一突破不仅撼动了英伟达万亿市值,更激励了所有这个词这个词行业的反想:在通往AGI的征途上,咱们是否过于盲信算力领域,而残暴了一条愈加求实且充满创新可能的旅途?

与2023年「更大即更好」的轻视发展不雅不同,2025年AI发展或将更像是一场量入为出的手艺真金不怕火金:若何用最少的资源最大化模子效用,如安在特定场景杀青极致效率。DeepSeek还是展现出这种方式的威力——开发者老是倾向于弃取性价比更高的开源有磋议,当屡见不鲜的应用都以DeepSeek为基座,由此构建的生态将若何重塑AI产业风物?

本期《智者访谈》邀请到清华大学筹备机系长聘老师、高性能筹备量度所长处翟季冬,深入探讨大模子期间的AI算力优化之说念。翟季冬老师指出,DeepSeek杀青百倍性价比进步的一个紧迫原因,是其在系统软件层面的深度创新。

「性能优化是一个无极度的经过,」翟季冬老师默示,在中国濒临算力资源挑战的布景下,通过系统软件创新进步算力效用,是产业解围的症结。这不仅需要在编程谈话、编译器、通讯库、编程框架等多个手艺层面发力,更需要建立起完好的基础软件体系。

当下,一个值得深想的得志是:尽管AI算力需求抓续攀升,但国内宽广智算中心的国产算力资源却存在闲置。供需错配的背后,暴阐发基础软件体系的短板。

但逆境也蕴含着紧迫机遇:若何买通从应用到系统软件,再到自主芯片的完好链路,探索出一条恰当中国现实的发展旅途?这不仅是手艺创新,更是策略抉择。

在算力主导AI竞争力的期间,若何让每一份筹备资源都能开释最大价值,这个问题自己,与谜底同样紧迫。

视频集会:https://mp.weixin.qq.com/s/Elby5usJVFjEHU45MNDYWA

时刻戳

03:35

DeepSeek与算力需求将来趋势

06:41

算力效用评估新视角

10:26

中好意思硬件互异下的软件想考

14:00

为何还没Transformer专用芯片

17:41

万卡集群考试难点

21:01

降本增效:推理优化的症结

24:41

Infra若何为下一代大模子作念好准备

27:19

大领域异构集群的算力管理

29:42

智算供需错配:系统软件若何补位

访谈翰墨整理

机器之心:翟季冬老师好,宽饶作客机器之心的《智者访谈》。最近在AI算力商场出现了好多新的趋势。起程点,寰球接头相称多的,ScalingLaw是不是真撞墙了?其次,跟着OpenAIo1/o3模子的推出,通过加多推理筹备时刻也八成带来模子性能的显贵进步,这也让咱们重新想考,究竟要把算力用在那处。

不错看到,若何进步算力的期骗效率,成为业界越来越关注的议题。相称欢悦能邀请到您,与咱们一同从系统软件的角度探讨算力优化之说念。

DeepSeek的启发:性能优化永无极度

翟季冬:谢谢主抓东说念主。相称荣幸来到机器之心作念交流。Dr.IlyaSutskever在一次论坛上默示,咱们所知的ScalingLaw还是快走到终点。我觉得这个问题分几方面来看。起程点,面前互联网上高质地的文本数据果真是越来越少,但多模态数据(比如图片、视频)还有好多挖掘空间,它们对将来模子考试会产生相称大的影响。

第二,以OpenAIo1/o3为代表的复杂推理系统,在后考试阶段使用了强化学习(RL)等手艺,RL会生成大都新的数据,这也导致对算力的需求抓续增长。第三,如今考试一个基座模子,可能需要几周乃至一两个月的时刻,如若有更多算力,几天就能预考试出一个好的模子,这也将极地面改变后期的坐褥效率。此外,关于终局的用户来说,寰球对性能,包括对精度的追求本质上是无极度的。

机器之心:DeepSeek公司最近在业界激励普通接头,他们以较低资本考试出了堪比海外顶尖水平的模子。从公开信息来看,您觉得这里的进步主要在那处?

翟季冬:起程点是算法脉络的创新。他们选拔了新的MoE架构,使用了分享大师和大都细粒度路由大师的架构。通过将通用常识压缩到分享大师中,不错松弛路由大师的参数冗余,提高参数效率;在保抓参数总量不变的前提下,分别更多的细粒度路由大师,通过天真地组合路由大师,有助于更准确和针对性的进行常识抒发。同期,通过负载平衡的算法瞎想,灵验地缓解了传统MoE模子因负载不平衡带来考试效率低下的问题。

其次在系统软件脉络,DeepSeek选拔了大都致密化的系统工程优化。举例,在并行策略方面,选拔双向活水的并行机制,通过致密的排布,挖掘了筹备和通讯的类似,灵验的裁汰了活水并行带来的气泡影响;在筹备方面,选拔FP8等羼杂精度进行筹备,裁汰筹备复杂度;在通讯方面,选拔低精度通讯策略以及token路由甘休等机制灵验裁汰通讯支拨。

上述算法和软件的创新与优化,极地面裁汰了模子的考试资本。DeepSeek给咱们的启示,更多在于如安在有限的算力情况下,通过算法和软件的协同创新,充分挖掘硬件的极致性能,对中国发展将来东说念主工智能至关紧迫。

从DeepSeek的得手不错看出,在大模子领域仍然存在好多不错改良的空间。他们的创新涵盖了从算法、软件到系统架构的多个层面,为国内大模子的发展提供了很好的启发。

我是作念高性能筹备地点诞生,咱们领域一直在追求应用款式的极致性能。之前我在清华辅导学生参加国际超算比赛时,每当拿到题目,咱们就会遏抑想考:当你发现了负载的某些脾气后,若何针对这些脾气进行灵验优化,可能会带来几十、几百,以致上千倍的性能进步。不错说,性能优化是一个永无极度的经过。

在当前场合下,中国在算力资源方面濒临很大挑战。海外像微软、X公司等,参预了10万卡以致更大的领域,在如斯丰足的算力基础上,他们可能会将更多元气心灵放在瞎想更好的模子上,极致的性能优化也许并不是他们当前的要点。但当咱们算力有限时,比如固定惟有1万张加快卡,就需要想考若何更极致地期骗好这些硬件,挖掘算法、系统,包括硬件等各方面协同创新的可能性。

机器之心:追求性能优化和模子创新两种发展阶梯是否互相冲突?它们能在归拢个阶段共存吗?

翟季冬:从系统软件层面来看,它与算法发展是解耦的。换句话说,这些优化手艺同样适用于算力更充足的场景,换到好意思国的量度环境中也不错应用,并不会阻隔表层模子的发展。

机器之心:业界似乎还莫得一个客不雅评价算力期骗效率的体系或模范。从您的角度看,咱们应该若何科学、客不雅地评价算力的期骗?

翟季冬:这是个很好的问题。面前一些科技报说念中时常提到「GPU期骗率」这么的磋议,但要评价一个系统是否用得好,很难用单一磋议来量度,就像评价一个东说念主不可只看单一维度一样。

具体来说,在大模子考试时,GPU期骗率只是其中一个方面。在大型集群中,还包括收罗开导、存储开导等。只是追求GPU期骗率很高,而收罗期骗效率或内存使用率很低,这并不是最优的状态。从系统软件优化的角度,咱们需要追求举座的平衡,可能通过提高收罗和内存的使用率来适当裁汰GPU滥用。

评价模范也因场景而异。在考试场景中,咱们更关注所有这个词这个词集群(包括加快卡、存储、收罗、通讯等)的举座期骗效率。在推理场景中,终局用户更爱慕蔓延,比如是否能在几毫秒内得到反映,除了第一个token的生成蔓延,后续每个token之间的间隔时刻亦然紧迫的磋议;算力提供方则更关注举座微辞量,比如1000张加快卡每天能处理些许恳求,是每天能反映100万个恳求,照旧1000万个恳求。

一个时常被残暴但很紧迫的磋议是资本,绝顶是每个token的处理资本。寰球总说追求极致性能,但当咱们将资本顾问也纳入商量时,对系统微辞量和处理蔓延的接头会更有现实好奇艳羡。从长久来看,显贵裁汰推理资本关于实施AI应用至关紧迫。

中好意思硬件互异下的算力解围

系统软件双向适配

机器之心:由于中好意思之间的硬件互异,寰球很关注软件栈层面是否会出当代际分叉,以致发展出不同的科技树?

翟季冬:中国如委果系统软件方面濒临着不同的想考地点。在好意思国和欧洲,AI基础设檀越要以NVIDIAGPU为主,但在中国,很难取得首先进的NVIDIA算力。

NVIDIAGPU之是以受宽饶,很猛进度上归功于其锻真金不怕火的生态系统。我印象很深化的是,从我念书时期启动,NVIDIA就与清华等高校张开协作,探索若何更好地在他们的硬件上杀青加快。他们面前的软件栈亦然经过多年积蓄形成的。比拟之下,中国的AI芯片公司大多始于最近几年,发展历程不到十年。

咱们还有很长的路要走,不管是在底层编译器优化芯片算力,照旧在多卡互连的高效通讯协同方面。中国濒临双重挑战:一方面需要补皆短板,进步芯片易用性;另一方面由于获取不到首先进的芯片制程工艺,可能会过期海外一到两代。这使得软件与硬件的协同优化在中国显得更为紧迫,咱们需要挖掘所有这个词可能的优化空间。

机器之心:从您的角度看,咱们应该用什么样的想路来支吾NVIDIA建立的软件生态壁垒?

翟季冬:看成自后者,咱们起程点要学习他们在算子库、编程谈话和编译器方面的先进理念。在不违背常识产权的前提下,咱们不错模仿这些效果。但也不可统统照搬,而是要有我方的想考。举例,在工艺制程过期的情况下,咱们不错在软件栈方面作念些什么?针对与NVIDIA不同的架构脾气,咱们是否不错有我方的创新?

如若八成把从应用侧到系统软件,再到自主研制芯片的整条旅途买通,我信服咱们能找到一条恰当中国现实环境的可行发展阶梯。

从学术角度来说,咱们不错探索开发更好的领域特定编程谈话,让用户编写高层代码时能自动生成更高效的杀青。这里还有好多不错探索的空间,ag百家乐正规的网站但要杀青买卖落地需要时刻。

机器之心:说到大模子算力优化,为什么还莫得芯片厂商推出Transformer专用芯片?您若何看待这个趋势?

翟季冬:我觉得面前莫得并不代表将来莫得,可能有些公司正在这个方进取致力。从芯片瞎想到流片再到封装,所有这个词这个词经过资本相称高,必须要有有余大的商场空间才调撑抓这种特定架构。

如若大模子最终如实会以Transformer架构为主,那么咱们如实不错瞎想一款统统针对Transformer的专用芯片。但面前存在几个主要商量:起程点,AI模子发展相称飞速,咱们无法笃定Transformer架构是否会一直保抓主流地位,可能还会出现新的非Transformer架构。其次,Transformer自己也在遏抑演化,比如MoE这么的寥落激活模子,以及多模态MoT(Mixture-of-Transformers)的寥落脾气,这些脾气很难在芯片层面径直描摹。

回来最近这一波AI发展,简短从2012年于今,领先以卷积神经收罗为主,一些芯片公司特别为卷积瞎想了ASIC芯片。但到了2017年后,Transformer架构缓缓兴起,与卷积有很大的不同,导致之前针对卷积优化的ASIC芯片难以顺应新的架构。

值得一提的是,在此经过中NVIDIA天然也在其芯片架构中添加了多样新的硬件模块,但举座架构保抓相对褂讪,通过系统软件来顺应应用的变化,比如他们的TensorCore针对矩阵乘法进行优化,而不是特别为Transformer的某个组件(如Attention)瞎想特定架构。

机器之心:NVIDIA的作念法能给咱们带来什么启示?

翟季冬:从软件角度来说,最大的启示是以不变应万变。专用硬件的瞎想想路,内容上是把具体的算法用电路去杀青,但瞎想的症结在于若何把这个具体的算法拆解成合适的、通用的基本硬件单位,以便多样应用都能通过这些基本单位来杀青。举例,NVIDIA的TensorCore即是将多样操作都转化成矩阵乘法,这种映射方式相对更天真。

拆解的中枢在于粒度要恰到平允:粒渡过大,袖珍应用难以灵验期骗硬件资源,酿成阔绰且性能下落;粒渡过小,则会加多数据搬运和调理支拨,裁汰举座效率,并加多硬件和软件的复杂度。这是一个需要权衡的瞎想弃取。

机器之心:面前好多公司一方面投资现存基础设施购买各样筹备卡,一方面也在与高校协作并投资创业公司,以支吾非Transformer架构带来的挑战。从系统软件层面来看,这种布局能在多猛进度上支吾下一代手艺的冲击?

翟季冬:系统软件的内容是将表层应用款式更好地映射到底层硬件。一方面要关注应用层面的变化,比如面前多模态模子越来越紧迫,咱们就需要想考多模态带来的新模式和负载特征,同期要关注底层架构的演进,不管是NVIDIAGPU照旧国产加快卡,都可能会加多新的筹备单位或访存单位,咱们需要想考若何更好地期骗这些硬件脾气。

系统软件的中枢任务是密切关注上基层的变化,通过中间层的合理瞎想将两头匹配起来,让硬件效率施展到极致。关于正在探索的新式模子,咱们需要分析它们的负载特征,量度若何更好地映射到底层芯片以充分期骗硬件资源。

从提前布局的角度来说,系统软件要作念好新兴应用负载的分析。同期,当新的芯片架构出当前,系统软件也要实时作念出相应的改良和适配。这种双向的适配才略,是系统软件支吾手艺变革的症结。

万卡集群期间的算力优化

机器之心:您参与了多个基座大模子的考试,在使用万卡级集群方面有第一手教养,能否分享一下在这种超大领域考试中遭遇的主要手艺挑战?

翟季冬:2021年,咱们与北京智源量度院等机构协作,使用新一代神威超算系统进行一个基座大模子的考试,不错把它领会为一个10万卡的集群。在这个经过中,我体会到大模子考试主要有几方面的挑战。

起程点是并行策略的弃取。因为模子很大,用10万台机器去作念,就要把模子进行切分,就像把一块豆腐要切成好多块,不错切成方块,也不错切成细条,旨趣是一样的。要把一个大模子分到10万台机器上,也有好多切分方式。用术语来讲,比如说稀有据并行、模子并行、活水线并行、序列并行等等,每个并行策略都有我方的优过错。在10万台机器上,若何组合这些并行策略,自己即是很大的挑战。而况10万领域的集群,没主意像单卡那样反复测试多样策略,一定要把策略分析澄澈了才去跑,因为一次的测试资本就很高,也不允许作念太屡次尝试。

第二个挑战是通讯问题。10万台机器需要通过高速收罗互连,但不同的机器组网方式不一样,收罗的拓扑是不一样的。大模子考试时有好多通讯函数,这些通讯函数若何跟底层的收罗拓扑高效映射是一大挑战。咱们发现,不同的通讯策略可能导致1-2倍的性能互异。

第三个挑战是容错机制。当机器领域增大,所有这个词这个词系统平均无故障时刻就会相称小。基座模子考试普通需要几周至一两个月。咱们必须瞎想轻量级的容错机制,在硬件出现故障时八成快速替换出错的卡并不绝考试,同期将这个支拨降得越低越好。

临了,单卡性能也至关紧迫。在关注万卡、10万卡这类举座系统的同期,也要把单卡效率打得绝顶高,比如通过编译优化等策略,确保每张卡都能施展出极致性能。

机器之心:在进步算力期骗率方面,咱们应该关注哪些点?

翟季冬:大模子的生命周期包含多个阶段,每个阶段对算力的需求都不相似。咱们刚才谈了预考试,但在预考试模子完成后,还有一个很紧迫的阶段即是后考试(posttraining)。以OpenAIo1/o3为代表的后考试手艺,为所有这个词这个词考试经过带来了新的挑战。

后考试包括生成阶段、推理阶段和微调阶段,每个阶段的负载脾气都不同,最优的并行策略也会不同。需要谨防的是,不可简单地追求每个阶段的局部最优,因为阶段之间的切换也会产生支拨。咱们要从所有这个词这个词pipeline的角度来商量优化策略。后考试还濒临着负载不平衡的问题,需要探索若何灵验类似不同阶段以提高资源期骗率。

在微调阶段,客户经常会用我方的独到数据对基座模子进行调理。由于硬件资源可能有限,这时需要商量一些特殊的策略,比如offloading,也即当GPU内存不实时,将部分参数存储在CPU端。微调自己看成一个考试经过,对并行策略也有很高条款。

推理阶段的优化濒临更多挑战:

KVCache管理:推理经过会产生大都中间完了(KVCache)用于裁汰筹备量。若何管理这些数据很症结,比如不错选拔页面式管理,但页面大小是固定照旧证据负载特征动态调理,都需要仔细瞎想。

多卡协同:当模子较大时需要多GPU配合,比如在8个GPU上进行大模子推理,若何优化卡间并行亦然一大挑战。

算法优化:还不错从量化等角度进行优化,充分施展底层算力性能。

总的来说,从预考试到后考试,再到微结伙推理,每个阶段对算力的条款都不同,咱们需要针对这些脾气进行深入的优化。

机器之心:如若要设立百万卡集群,是弃取多家厂商的卡,照旧只弃取少数厂商乃至单唯独家的卡更好?

翟季冬:从管理和使用效用的角度来说,弃取单一类型的加快卡无疑是最通俗的。但本质情况经常愈加复杂。比如说在好意思国,企业可能先购入1000张A100,自后又添置1000张H100。不同代际的加快卡存在性能互异,整合使用时就会带来系统优化的挑战,而况这个问题在考试和推理场景下的施展也不尽相似。

从系统软件角度看,这本质上是芯片碎屑化的挑战。我面前正在矜重一个样貌,面向异构芯片的统一编程和编译优化。核热诚念是,天然底层使用不同的AI芯片,但在编程模子和编译优化层面要尽可能统一。咱们但愿归拢套款式能在不同加快卡上都施展出高效性能,同期裁汰不同加快卡间的移植支拨。

好多东说念主都说过,但愿算力像水电一样成为基础设施。用电时咱们并不需要爱慕是风力发电照旧煤炭发电。要杀青这个想法,本质上有很长的路要走,咱们需要作念好中间层的软件责任。此外,还要建立完善的算力度量模范,比如若何筹备算力使用量,若何计价,这些都需要模范化。

在现阶段,咱们照旧需要关注底层硬件的具体情况。但将来的发展地点是,通过完善中间层的系统软件,为用户提供透明的接口。用户只需要调用简单的API就能通俗使用多样算力资源,不消爱慕底层细节。这可能是一个终极的发展地点。

机器之心:那咱们把时刻拉近一些,将来1-3年内,系统软件优化方面可能会看到哪些显贵趋势或变化?

翟季冬:面前我国各省市建立了许多智算中心,以国产算力为主。咱们不雅察到一个得志是,尽管应用开发者遍及穷乏算力资源,但许多国产算力中心却存在闲置得志。用户更倾向于使用NVIDIA这么开箱即用的管理有磋议。

这种景况其实带来了紧迫机遇:若何将宏大的算力需求与现存的国产算力灵验对接?咱们的想法是让国产算力达到同样的易用性,使用户感受不到互异。这不仅能促进东说念主工智能在中国百行万企的发展,也能带动从芯片到软件再到应用的举座发展。

为此,咱们实验室孵化了一家公司「清程极智」,接力于为国产闲置算力提供更友好的接口,匡助行业用户通俗地整合各样国产算力资源。

从手艺层面来说,这不单是是优化算子库那么简单。系统软件的完好设立应该包括编程谈话、编译器、通讯库、并行筹备、编程框架,这些地点都需要参预。就像木桶效应,任何一个短板都可能影响芯片的举座使用效果。要充分施展国产算力的性能,咱们需要在这些地点全面发力,才调真确把算力这个地点作念好。

嘉宾简介

翟季冬,清华大学筹备机系长聘老师,博士生导师,高性能筹备量度所长处。青海大学筹备机手艺与应用学院院长。CCF高性能筹备专委副主任、CCF隆起会员。清程极智首席科学家。

主要量度领域包括并行筹备、编程模子与编译优化。在并行筹备与系统辖域顶级会议和期刊发表论文100余篇ag真人百家乐官网,出书专著一部。量度效果获IEEETPDS2021最好论文奖、IEEECLUSTER2021最好论文奖、ACMICS2021最勤学生论文奖等。担任清华大学学生超算团队老师,疏浚的团队15次取得寰球冠军。获耕种部科技跳跃一等奖、中国筹备机学会天然科学一等奖、CCF-IEEECS后生科学家奖、高校筹备机专科优秀教师奖励磋议。国度隆起后生科学基金取得者。



推荐资讯
热点资讯


Powered by ag百家乐下三路 @2013-2022 RSS地图 HTML地图