Model Y这些训练模块构建了一个高密度、高性能、高可靠的系统

摘要来自：《特斯拉抗衡英伟达失败，自研芯片要凉凉？》

作者：汽车商业评论

时间：2024-04-22

【易车摘要频道】下列精选内容摘自于《特斯拉抗衡英伟达失败，自研芯片要凉凉？》的片段：

这些训练模块构建了一个高密度、高性能、高可靠的系统托盘，每个托盘可容纳10个训练模块，并配备相应的电源、冷却和网络设备。每个系统托盘的峰值算力达到90 PFLOPS，带宽为9 TB/s。

最后，基于系统托盘，特斯拉构建了一个ExaPOD集群。每个集群由10个系统托盘组成，安装在一个机柜中。一个ExaPOD机柜模型的峰值算力高达900 PFLOPS，带宽为90 TB/s。

作为Dojo落地形式的ExaPOD，由3000片D1芯片构成，单精度算力为1.1EFlops。

根据特斯拉的公开资料，Dojo基于特斯拉自研D1芯片，用于替代基于英伟达A100的数据中心。截至2022年9月，该数据中心有1.4万片A100，是全球第七大数据中心。

特斯拉计划2023财年大概出货4万-5万片D1，2023年7月第一个ExaPOD已经投入运营，且预计在短期内向Palo Alto数据中心投入6个ExaPOD，算力共7.7EFlops。到今年四季度，Dojo算力目标是达到100EFlops（约91个集群）。

在2023年7月下旬的二季度电话会议中，马斯克表示没必要自造芯片，“如果英伟达能夠给我们足够的GPU，也许我们就不需要Dojo，但他们无法满足我们的需求。”

在自研的重要节点上，2023年11月，负责Dojo超算项目的负责人、同时也是特斯拉自动驾驶硬件高级总监加内什·文卡塔拉马南（Ganesh Venkataramanan）离职，职位由前苹果高管彼得·班农（Peter Bannon）负责。彼时有消息称，很可能是因为Dojo第二代芯片未达标，加内什遭到解雇。

加内什此前负责特斯拉Dojo超算项目已达5年，在进入特斯拉之前，他曾在美国知名半导体公司AMD任职近15年。

加内什的离职，被认为是特斯拉自研芯片不力，或者没有设想中那么顺利。

对马斯克来说，他能采取的措施就是一边想办法自研，一边购买合适的芯片。

设想与现实

一位网名为 “whydoesthisitch”的深度学习科研人员研究AI芯片已久，他解析了马斯克的Dojo无法依靠自研芯片的原因。

他认为，Dojo 仍可能处于相对早期的开发阶段，即使它加紧追赶，在性能方面仍将落后英伟达4 年以上。

今年3月20日，英伟达投下了Blackwell B200 炸弹，这是下一代数据中心和 AI GPU，将使得计算能力获得巨大的代际飞跃。

Blackwell 包含三个部分：B100、B200 和 Grace-Blackwell 超级芯片 (GB200)。

新的 B200 GPU 拥有 2080 亿个晶体管，可提供高达 20petaFlops 的 FP4 算力；GB200 将两个 GPU 和一个 Grace CPU 结合在一起，可为 LLM 推理工作负载提供 30 倍的性能，同时还能大大提高效率。

英伟达表示，与 H100 相比，它的成本和能耗“最多可降低 25 倍”。训练一个 1.8 万亿个参数的模型以前需要 8000 个 Hopper GPU 和 15 兆瓦的电力，如今，2000 个 Blackwell GPU 就能完成这项工作，耗电量仅为 4 兆瓦。

在具有 1750 亿个参数的 GPT-3 LLM 基准测试中，GB200 的性能是 H100 的 7 倍，英伟达称其训练速度是 H100 的 4 倍。

“而特斯拉确实夸大了芯片本身以及它们的开发进展，”“whydoesthisitch”认为，例如，特斯拉宣传 Dojo 突破了 exaflop 算力、Dojo跻身世界上最强大的计算中心之列之时，谷歌在俄克拉荷马州梅斯县的数据中心已经安装 8 个 TPUv4 系统Pods，该数据中心正在以接近 9 exaflops的总计算能力供谷歌云部门使用；亚马逊的AWS 使用 Trainium 芯片算力达到6 exaflops ，使用英伟达的 H100 GPU 算力达到 20 exaflops。

他认为，如果Dojo足够便宜，那它有理由取代英伟达。问题是，特斯拉的运营规模支撑不了这种庞大的研发投资。

今年1月16日，最近离职的特斯拉公共政策和业务发展副总裁的罗汉·帕特尔（Rohan Patel）在社交媒体X上发布了一则消息，称“周五晚上与埃隆·马斯克就一项大型AI数据中心投资进行了反复讨论。他决定批准这几个月来一直密切跟踪的计划。很难想到一位首席执行官比你能想象地更多地参与公司最重要的细节。”

资深科技博主汉斯·尼尔森（Hans Nelson）研究马斯克和特斯拉多年，他在随后的连线时评上称，Dojo肯定是大型AI数据中心的重要部分，但是帕特尔的这则推文却没有提及Dojo,估计是Dojo的芯片项目有点落后于他们希望推进的程度，这可能表示Dojo在短期内将更多使用英伟达的芯片。

Dojo原打算到今年2月，算力规模进入全球前五，今年10月算力总规模将达到100 exaflops，相当于30万块英伟达A100的算力总和。

尼尔森认为，Dojo目前算力能达到33exaflops，至于如何在10月达到100exaflops，以及目前的算力中使用的自研芯片和英伟达芯片各自占比，则无从得知。但可以肯定的是，无论Dojo是否能按照时间表实现算力目标，马斯克囤积了足够的H100GPU。

（图源：来自汉斯·尼尔森连线对谈视频截图）

H100GPU性能比此前的A100更好，特别是在AI训练和推理方面。H100基于英伟达Hopper架构，是第一代支持AI和HPC的Ampere架构的下一代架构，而A100是基于Ampere架构的产品。

10天后的1月26日，纽约州州长凯西·霍楚（Kathy Hochul）称，特斯拉将投资5亿美元，在该州的布法罗市（Buffalo）建造一台Dojo超级计算机。

虽然霍楚在发布会上着重提到了5亿美元的投资规模，但是特斯拉在社交媒体X上却有意淡化了这一数字，并指出该公司在2024年，在英伟达硬件上的投资将超过这一金额。

5亿美元相当于约 1 万颗 H100 GPU。

4月8日，X 平台用户“The Technology Brother”发布的囤积英伟达H100GPU排行榜上，Meta以35 万块位居第一。

马斯克对该排行榜将特斯拉和 xAI 1万块的排名表示不满，并指出“如果计算正确，特斯拉应该是第二名，xAI 将是第三名”。

这意味着特斯拉可能拥有 3 万到 35 万颗 H100 GPU，xAI 则可能拥有大约 2.6 万到 3 万颗。

一直和扎克伯格针锋相对的马斯克，在不服气的嘴炮中暴露了真实状况：至少现在，Dojo的自研芯片失败，全面转向英伟达。

马斯克称，在人工智能领域保持竞争力，每年至少需要投入数十亿美元，并将会扩大购买英伟达竞争对手AMD的产品。

但“whydoesthisitch”认为，Dojo的算力规模要达到100 exa flops，估计要延至2027-2028年，而那时主流的云服务商比如亚马逊的算力已经达到zettaflop级别。

他称，目前Dojo的芯片性能其实只能达到H100的10%-35%，当它追上H100时，英伟达已经在新一代的Blackwell 上奔跑很远。

Model Y这些训练模块构建了一个高密度、高性能、高可靠的系统

最新资讯