金磊 发自 凹非寺量子位 | 公众号 QbitAIAG百家乐感觉被追杀
堪称地表最强的M3 Ultra,土产货跑满血版DeepSeek R1,后果到底怎样?
其实,有些DeepSeek玩家们照旧提前拿得手作念过实测了。
例如这位Alex老哥即是其中之一:

他提前拿到了两台搭载M3 Ultra的Mac Studio,成立是这么的:
M3 Ultra(32 核中央处治器、80 核图形处治器和 32 核神经收集引擎)512G妥洽内存1TB固态硬盘

具体来说,Alex老哥用配备Thunderbolt 5互连时代(传输速率为 80Gbps)的EXO Labs成立,来驱动好意思满的DeepSeek R1模子(671B、8-bit)。
然后后果是这么的:

视频地址:https://mp.weixin.qq.com/s/wkuGZ-woRgcz8Ks0STtUDQ
嗯,跑通了!
Alex老哥默示,两台Mac Studio土产货跑满血版DeepSeek R1,内容速率是11 tokens/秒,表面上不错达到20 tokens/秒。
至于价钱嘛,一台上述成立的Mac Studio是74249元,两台即是小15万元。

约略许多小伙伴以为这个价钱有点略贵。
但在M3 Ultra之前啊,若是你思在土产货使用显卡来推理V3或R1,那么就得起码需要6、7张A100……大致小100万元。
也正因如斯,也有不少网友认为搭载M3 Ultra的Mac Studio,堪称是“性价比最高的大模子一体机”。

值得珍爱的是,苹果此次似乎是主动给DeepSeek玩家们提前发货,有种让他们飞速测一测的意味。
毕竟在发布之际,苹果就强调了不错在M3 Ultra版Mac Studio中跑栽种6000亿参数的大模子。
掀翻一波土产货跑DeepSeek的风
其确切M3 Ultra版Mac Studio发布前后,照旧有不少东谈主作念过访佛的评测。
例如B站博主“固然然而张黑黑”的测试截至是:
15.78 tokens/秒:选拔Ollama的GGUF次序19.17 tokens/秒:选拔更相宜苹果的MLX次序

这个速率照旧跟在线使用DeepSeek R1的速率相失色了。
除此以外,AG真人旗舰厅百家乐像外网博主Xcreate还把M3 Ultra版Mac Studio和M4 Max版Macbook Pro的拉到一个“擂台”作念了比拟。
最初从性能上来看,Geekbench测试的截至清晰,M3 Ultra在CPU性能方面与M4 Max极端接近,但M3 Ultra后发先至。

在土产货驱动大模子测试方面,博主在驱动基于Llama的DeepSeek R1 70B模子时,M3 Ultra的速率为11.3 tokens/ 秒,而M4 Max测试截至为10.69 tokens/秒,差距并不是很大。

但更伏击的是测试满血版DeepSeek R1的截至。
对此,博主认为在土产货好意思满驱动671B的DeepSeek是有点穷困的,因为照旧有东谈主宣告失败。
但也有告捷的例子。
他例如另一位评测东谈主员的截至,清晰是驱动8bit量化版块的DeepSeek R1,取得了9-21 tokens/秒的速率。
而在4bit量化版情况下,速率为16-18 tokens/秒。


至于为什么体量更大的671B的DeepSeek,会比70B驱动速率更快,是因为DeepSeek将671B模子分片为 “行家混杂体”,内容驱动时字据问题切换,访佛驱动30B的模子。
临了,博主也教导思要在土产货驱动大模子的友友们,网传苹果将在本年WWDC上发布M4 Ultra,是以不错再不雅望一下。
参考聚积:[1]https://x.com/alexocheema/status/1899604613135028716[2]https://www.bilibili.com/video/BV1nkRnYTEWx/