百科2024-05-18 12:29:01841

英伟达GH200、特斯拉Dojo超级算力集群，功能爆棚！算力之争减轻！

电子发烧友网报道（文/李弯弯）往年8月，英伟在合计机图形学顶会SIGGRAPH 2023现场，斯拉算力算力英伟达宣告了新一代GH200 Grace Hopper平台，超级该平台专为处置狂语言模子、集群减轻推选零星、爆棚矢量数据库等全天下最重大的英伟天生式 AI使命负载而构建。

日前，斯拉算力算力这款GH200 Grace Hopper超级芯片初次亮相MLPerf行业基准测试，超级在这次测试中，集群减轻具备更高的爆棚内存带宽以及更大的内存容量的GH200与H100 GPU比照，功能逾越17%。英伟要知道，斯拉算力算力英伟达的超级H100 GPU产物功能在业界已经是处于遥遥争先的水平。

比照于H100 GPU，集群减轻英伟达新一代GH200功能逾越17%

英伟达在去年3月推出了第一代Grace Hopper超级芯片平台，爆棚初次将CPU以及GPU融会在一个平台上。比照力之下，其往年8月推出的新一代产物装备了HBM3e，内存容量以及带宽都有清晰后退。HBM3e内存是一种新型的高带宽内存技术，可能在更小的空间内提供更高的数据传输速率。

详细来看，HBM3e比之后的HBM3快50%，可提供合计10TB/s的带宽。这使患上新平台可能运行比上一版本大3.5倍的模子，同时凭仗快3倍的内存带宽提升功能。

黄仁勋此前展现，为了知足对于天生式AI不断激增的需要，数据中间需要可能知足特定需要的减速计算平台。全新GH200 Grace Hopper超级芯片平台以卓越的内存技术以及带宽，后退了吞吐量，在不影响功能的情景下可衔接多GPU 以整合功能，而且具备可能轻松部署到全部数据中间的效率器妄想。

此外，新平台可能经由 NVIDIA NVLink与其余超级芯片衔接，使它们可能协同使命，从而部署当下大型天生式AI模子。

新平台以及芯片的加持，能让大模子磨炼的老本患上到实用飞腾。据黄仁勋介绍，一台效率器可能同时装载两个GH200超级芯片。而投资800万美元Grace Hopper，至关于8800个价钱1亿美元的x86 GPU，象征着老本飞腾12倍，能耗飞腾20倍。

在这次MLPerf行业基准测试，英伟达这款GH200 Grace Hopper超级芯片将其功能之高揭示缺少。MLPerf是影响力普遍的国内AI功能基准评测，其推理功能评测涵盖运用普遍的六大AI场景，好比合计机视觉、做作语言处置、推选零星、语音识别等，每一个场景接管最主流的AI模子作为测试使命，每一使命又分为数据中间以及边缘两类场景。

其由MLCo妹妹ons由来自学术界、钻研试验室以及行业的家养智能向导者组成的同盟开拓，旨在对于硬件、软件以及效率的磨炼以及推理功能“构建公祥以及实用的基准测试”。

据介绍，这次MLPerf Inference v3.1基准测试是继4月宣告3.0版本之后的又一次更新，值患上留意的是，这次更新搜罗了两个第一次：引入基于60亿参数狂语言模子GPT-J的推理基准测试以及改善的推选模子。

GPT-J是来自EleutherAI的OpenAI GPT-3的开源替换品，现已经在MLPerf套件中用作掂量推理功能的基准。与一些更先进的家养智能模子（如1750亿参数的GPT-3）比照，60亿参数的GPT-J属于至关轻量的模子，但它颇为适宜推理基准的脚色。该模子总结了文本块，并可在延迟敏感的在线方式以及吞吐量密集型的离线方式下运行。

GH200 Grace Hopper超级芯片在GPT-J使命负载方面取患了优异的下场，在离线以及效率器场景中的每一减速器功能都抵达了最高水平。

搜罗特斯拉，泛滥企业自动构建算力芯片以及集群

随着家养智能技术的睁开，特意是近些年来天生式AI及大模子运用的快捷拓展，市场对于算力的需要快捷削减。咱们知道，不论是AI磨炼仍是推理，都需要大批的算力作为反对于。而当初在大模子的磨炼以及推理方面，英伟达的GPU占有紧张位置。

往年以来，英伟达的A100以及H100两款芯片定单不断削减，价钱也在不断上涨。凭证其最新的第二财季陈说，其净利润抵达61.88亿美元，与去年同期比照削减422%，较上一财季削减203%。据业内人士预料，英伟达H100芯片明年出货量还要至少削减两倍。

在AI迅猛睁开确当下，除了英伟达，国内外企业都在自动研发AI芯片，构建自己的算力集群，好比英特尔、AMD此前都针对于AI大模子推出了响应的大算力芯片产物。国内的良多GPGPU企业及云效率厂商也都在自动妄想。

此外，作为全天下驰名的自动驾驶企业，特斯拉也早已经开始研发自己的算力芯片，打造自己的超级合计机。最近，特斯拉的股票大涨，摩根士丹利合成师以为，特斯拉超级合计机Dojo释放家养智能提升功劳的重大后劲，成为其股价走强的主因之一。

在产物形态上，特斯拉的Dojo最终落地单元是一个名为ExaPOD的超级合计集群。它集成为了3000颗基于7nm制程工艺的D1芯片，搜罗120个磨炼模块，最终可能实现高达 1.1 EFlops（百亿亿次浮点运算）的BF16/CFP8峰值算力；1.3TB高速 SRAM；13TB高带宽 DRAM。

在2021年的特斯拉AI Day上，Dojo超算名目负责人Ganesh Venkataramana揭示了集成为了25个D1芯片的磨炼模块，他展现特斯拉找到的一个关键谜底是用台积电的InFO_SoW整合扇出技术。这是一种芯片先进封装技术，比照于传统的打线封装，InFO技术的根基优势是可能实现多个芯片集成封装，减速信号传递。

特斯拉规画运用Dojo对于海量视频数据妨碍无把守学习，减速Autopilot以及残缺自动驾驶（FSD）零星的迭代，同时为其人形机械人Optimus提供算力反对于。

在2022年9月的AI Day上，特斯拉宣告Dojo已经建树残缺的散热盘上零星。同时也宣告了将去道路图，展现AI团队正在研发新版本的Dojo超算组件。

据往年7月20日的报道，特斯拉Dojo超算已经在往年7月开始量产，而总算力达100ExaFLOPs的超算零星将于2024年尾量产。

特斯拉以前已经构建基于英伟达GPU的大型超级合计机，而如今其自主研发并推出D1芯片，有助于其削减对于英伟达GPU的依赖。

小结

从当初的情景来看，英伟达在AI磨炼以及推理中占有极大的市场份额，在大模子规模更是占有相对于优势，国内外大部份企业都依赖英伟达A100、H100等产物，而如今其GH200在功能上更强，在大模子磨炼方面又可能辅助企业飞腾老本，确定会受到一众企业追捧。

尽管除了英伟达，外洋内尚有泛滥企业也在经由自己的方式，钻研并宣告适宜AI磨炼以及部署芯片，为AI行业的睁开构建算力集群。可能看到，在天生式AI、大模子的睁开下，作为根基反对于的算力尤为紧张。

相关文章