ag真人百家乐怎么赢
ag真人百家乐怎么赢 无需购买英伟达高档GPU也能种植揣测打算速率,科学家设备快速近场能源学算法,比现存算法加快800倍
发布日期:2024-01-05 20:00    点击次数:89

跟着 DeepSeek 的大火,也让东谈主们关于 GPU 过甚配套的联总揣测打算建造架构 CUDA(Compute Unified Device Architecture)有了更多了解。

而在近日,深圳北理莫斯科大学杨杨副证据和互助者,围绕英伟达 GPU 研发出一款新算法。具体来说,该团队研发出一种使用 GPU 并行 CUDA 编程工夫的键型近场能源学并行算法——PD-General。

在 AI 范围有“得算法者得天地的说法”,本次算法的最大价值在于无须更换 GPU,就能让揣测打算效率达成最大化。

PD-General 约略充分诓骗英伟达 GPU 中的里面结构,通过读取 GPU 里面寄存器显卡,在无需更换更高档显卡的同期,就能种植揣测打算效率,从而约略减少关于更高水平的硬件。哪怕使用平时的家用 GPU,也能将正本需要几天才能完成的揣测打算任务裁汰到几小时以致几分钟。

(开首:Engineering Analysis with Boundary Elements)

与串行标准(Serial)和 OpenMP 并行标准比较,本次算法不错分别达成高达 800 倍和 100 倍的加快。(注:串行标准,指的是按照领导端正一个一个地实行的标准,前一个任务完成后下一个任务才会启程点;OpenMP(Open Multi-Processing)并行标准‌,是一个用于分享内存并行编程的 API,主要用于 C、C++和 Fortran 言语。‌‌)

在典型的一百万粒子模拟中,当在低端 GPU PC 上实行 4000 次迭代时,本次算法在单精度条目下需要 5 分钟,在双精度条目下需要 20 分钟,这一速率能让科研东谈主员进行复杂材料遐想和挫伤模拟时,不错更快地获取闭幕。

此外,商讨东谈主员还冷漠一种通用寄存器工夫,其能用于高速看望寄存器,从而减少全局存储器看望。

该算法还能达成粒子并行的款式,并能通过使用寄存器针对带宽达成更有用的看望。(注:粒子并行是一种诓骗并行揣测打算工夫加快粒子系统模拟的顺序,其基本想想是将粒子系统的揣测打算任务分拨到多个处理器或揣测打算节点上,通过同期实行这些任务来提高揣测打算效率。)

比较串行标准和其他并行算法,本次算法约略达成显赫的加快,从而约略针对键型近场能源学(BBPD,bond based peridynamic)中的变形和裂纹推广进行快速分析,同期这一算法也适用于其他近场能源学表面。

日前,干系论文以《基于 GPU 并行揣测打算的快速键型近场能源学标准》(A fast bond-based peridynamic program based on GPU parallel computing)为题发在 Engineering Analysis with Boundary Elements[1]。

深圳北理莫斯科大学杨杨副证据是第一作家兼通信作家,南边科技大学刘轶军讲席证据和硕士生苏梓鑫是共同作家。

图 | 干系论文(开首:Engineering Analysis with Boundary Elements)

据了解,杨杨是商讨力学算法诞生,关联词参与本次商讨的硕士生则是揣测打算机诞生,后者相等熟练揣测打算机架构,恰是这么跨学科的交叉和会,使得他们不走寻常路地打造了本次算法。

GPU 并行揣测打算亟需铲除“逆境”

据了解,近场能源学(PD,Peridynamic)是一个非局部表面框架。该表面通过引入基于积分的适度方程,来惩处不联络空间建模的问题。(注:不联络空间建模,是一种用于模拟和分析不联络介质或结构的数值顺序。)

这种顺序在不调动网格的情况下,约略对裂纹推广进行更好的建模。(注:裂纹推广,是指材料在外界身分作用之下,裂纹从运转位置逐渐延迟的历程。)

在上述历程中,需要将求解域冲破为一系列物资点,每个物资点包含了位置、体积和密度的干系信息。

为了保证数值揣测打算的踏实性和准确性,必须确立较小的增量步长,而这会带来大皆的迭代次数和揣测打算资源。(注:增量步长,是指在数值揣测打算和揣测打算机模拟中,将通盘这个词揣测打算历程分离为一系列小智商的时辰拆开。)

与基于经典联络膂力学的顺序比较,近场能源学不仅需要更多的揣测打算,同期也需要更大的存储空间,因此会导致揣测打算效率较低。

为了提高近场能源学的揣测打算效率,此前曾有多个商讨团队冷漠过一系列顺序。

关于 CPU 并行加快中的大多数加快优化来说,皆是面向小于 100 万点的示例。而关于大限度模拟来说,频繁需要依赖超等揣测打算机或多 CPU 结构,这时时需要更高的建造规格,况且也不不祥用户使用。

此前,基于 GPU 的并行能源学商讨大多局限于将串行标准治愈为并行标准。大多数已有优化政策所带来的加快恶果,也主要依赖于 GPU 自己性能的种植。与此同期,也很少有东谈主基于 GPU 硬件结构来遐想优化政策。

另外,GPU 并行揣测打算还存在一些问题:

其一,用于存储邻域点的内存空间莫得被事前笃定大小,这导致线程和内存资源的诓骗效率十分低下,进而导致内存和揣测打算资源的浪费,以至于让 GPU 难以处理大限度揣测打算。(注:邻域点是指在数学和揣测打算机科学中,以某个点为中心,显示一定距离或条目的一组点。)

其二,大多数 GPU 并行揣测打算仍然严重依赖全局内存,CUDA 的内存结构并未得到莫得充分诓骗,aG百家乐真人平台导致内存带宽被浪费。

其三,大多数近场能源学并行算法空泛通用性。有的算法可能会为止邻域的大小,以至于只可处理均匀散播且未损坏的冲破结构;而有的算法例可能会为止近场能源学表面。(注:冲破结构,是将联络函数或变量治愈为冲破点的结构。)

基于上述局限性,本次商讨东谈主员设备了 PD-General 算法,借此得手提高了内存使用率和揣测打算效率。

大大提高揣测打算效率,推广 PC 揣测打算身手

Warp,是 GPU 中实行并行操作的基本单元,它由 32 个线程构成。因此,商讨东谈主员将线程块组织设为 32k(k 是正整数)。

商讨东谈主员以内力揣测打算为基准,在‌英伟达的 Nsight Systems 上,测试和比较了三种模子中不同线程块组织的性能。(注:Nsight Systems‌ 是一款系统级性能分析用具,专用于达成应用算法的可视化,旨在匡助设备者发现优化契机并进行调优,从而达成跨 CPU 和 GPU 的高效推广。)

时代,商讨东谈主员分析了单个时辰智商的实行情况,并分别测试了 64、128、256、512、768 和 1024 个线程的线程块组织。

测试闭幕如下图所示,条形图暗示占用率,折线图暗示实行效率。该图露馅:当每个块的线程数为 1024 时,性能最低。另外,线程块组织的占用率越高,揣测打算效率就越高。

一般来说,领有 128 到 256 个线程的组织不错达成最好性能。探求到增多邻域半径的潜在影响,商讨东谈主员罗致了具有 256 个线程的组织来开展测试。(注:邻域半径,‌是指以某点为中心,掩盖一定范围的距离。在这个范围内的点被合计是该点的“邻居”,其在很多算法和应用中皆有要紧作用。)

(开首:Engineering Analysis with Boundary Elements)

商讨东谈主员还测试了标准的总揣测打算时辰。总揣测打算时辰指的是,从标准启程点到收尾的齐全实行时辰,它包括除了数据输出除外的通盘操作的时辰。

践诺中,商讨东谈主员运行了三个不同的模子:线性标准、OpenMP 并行标准、CUDA 并行标准,同期这一践诺涵盖了 7 组不同圭臬的冲破结构,这些冲破结构领有从 2 万到 200 万不等的点数。

与此同期,商讨东谈主员还分析了邻域点数目大于 32 和小于 32 的情况。下图标明,基于 CUDA 的并行标准比 OpenMP 和串行标准效率高得多。

(开首:Engineering Analysis with Boundary Elements)

另外,跟着物资点数目的增多,基于 CUDA 的并行标准的效率愈加明显。如下图所示,并行标准的运转加快比相对较低,与 OpenMP 标准比较莫得显赫各别。

关联词,跟着物资点的增多,加快比启程点飞腾。带裂纹的键型近场能源学加快比是 OpenMP 的 200 倍。

(开首:Engineering Analysis with Boundary Elements)

在最大限度案例商讨中,商讨东谈主员快要场能源学的时辰复杂度设为 O(PN),P 为物资点的总额,N 为每个物资点的视界点数。此外,商讨东谈主员使用 ADP、AP、PN 暗示内存大小(单元为字节)。

践诺中,商讨东谈主员所使用的 GPU 表面内存大小为 12GB。关联词,由于操作系统的要乞降 CUDA 启动占用的内存,只须大致 11GB 的内存可被用于编程。

因此,商讨东谈主员使用 11GB 看成基线,以笃定近场能源学的最大比例。通过代入四个条目:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36 来代入相应内存揣测打算公式。借此得出了相应条目下的表面内存占用情况(如下表所示)。

(开首:Engineering Analysis with Boundary Elements)

践诺闭幕露馅,单精度的朦拢量是双精度的 64 倍。因此,在更高的精度水平之下,当处理疏导限度的问题时,双精度的处理速率和运行速率较慢。况且,邻域半径的大小也会影响表轻易能。

与此同期,这也标明邻域点数目越多,实行限度越小,实行效率越低。

商讨东谈主员在论文中暗示,其所使用的近场能源学通用模子约略模拟数千万个粒子。通过优化参数确立,不错模拟的最大粒子数为 75645000。

具体来说,在单精度下模拟 1000 步只需 100 秒到 600 秒实行时辰,而在双精度下模拟 1000 步需要 900 秒到 2500 秒实行时辰。

总的来说,商讨东谈主员通过分析近场能源学模子和探索并行揣测打算表面,诓骗 CUDA 打造了高性能、低资本的近场能源学分析框架 PD-General。在并行框架中,其所设备的邻域生成模块有用地减少了内存占用浪费。此外,商讨东谈主员还通过内存看望模块,大大提高了揣测打算效率,从而不错推广个东谈主揣测打算机的揣测打算身手。

参考而已:

1.Yang,Y. et al. A fast bond-based peridynamic program based on GPU parallel computing. Engineering Analysis with Boundary Elements 172,106133(2025). https://doi.org/10.1016/j.enganabound.2025.106133

https://baijiahao.baidu.com/s?id=1822824852862951748&wfr=spider&for=pc

排版:刘雅坤

01/

02/

03/

04/

05/