英伟达GH200、特斯拉Dojo超级算力集群,功能爆棚!算力之争减轻!

电子发烧友网报道(文/李弯弯)往年8月,英伟在合计机图形学顶会SIGGRAPH 2023现场,斯拉算力算力英伟达宣告了新一代GH200 Grace Hopper平台,超级该平台专为处置狂语言模子、集群减轻推选零星、爆棚矢量数据库等全天下最重大的英伟天生式 AI使命负载而构建。

日前,斯拉算力算力这款GH200 Grace Hopper超级芯片初次亮相MLPerf行业基准测试,超级在这次测试中,集群减轻具备更高的爆棚内存带宽以及更大的内存容量的GH200与H100 GPU比照,功能逾越17%。英伟要知道,斯拉算力算力英伟达的超级H100 GPU产物功能在业界已经是处于遥遥争先的水平。

比照于H100 GPU,集群减轻英伟达新一代GH200功能逾越17%

英伟达在去年3月推出了第一代Grace Hopper超级芯片平台,爆棚初次将CPU以及GPU融会在一个平台上。比照力之下,其往年8月推出的新一代产物装备了HBM3e,内存容量以及带宽都有清晰后退。HBM3e内存是一种新型的高带宽内存技术,可能在更小的空间内提供更高的数据传输速率。

详细来看,HBM3e比之后的HBM3快50%,可提供合计10TB/s的带宽。这使患上新平台可能运行比上一版本大3.5倍的模子,同时凭仗快3倍的内存带宽提升功能。

黄仁勋此前展现,为了知足对于天生式AI不断激增的需要,数据中间需要可能知足特定需要的减速计算平台。全新GH200 Grace Hopper超级芯片平台以卓越的内存技术以及带宽,后退了吞吐量,在不影响功能的情景下可衔接多GPU 以整合功能,而且具备可能轻松部署到全部数据中间的效率器妄想。

此外,新平台可能经由 NVIDIA NVLink与其余超级芯片衔接,使它们可能协同使命,从而部署当下大型天生式AI模子。

新平台以及芯片的加持,能让大模子磨炼的老本患上到实用飞腾。据黄仁勋介绍,一台效率器可能同时装载两个GH200超级芯片。而投资800万美元Grace Hopper,至关于8800个价钱1亿美元的x86 GPU,象征着老本飞腾12倍,能耗飞腾20倍。

在这次MLPerf行业基准测试,英伟达这款GH200 Grace Hopper超级芯片将其功能之高揭示缺少。MLPerf是影响力普遍的国内AI功能基准评测,其推理功能评测涵盖运用普遍的六大AI场景,好比合计机视觉、做作语言处置、推选零星、语音识别等,每一个场景接管最主流的AI模子作为测试使命,每一使命又分为数据中间以及边缘两类场景。

其由MLCo妹妹ons由来自学术界、钻研试验室以及行业的家养智能向导者组成的同盟开拓,旨在对于硬件、软件以及效率的磨炼以及推理功能“构建公祥以及实用的基准测试”。

据介绍,这次MLPerf Inference v3.1基准测试是继4月宣告3.0版本之后的又一次更新,值患上留意的是,这次更新搜罗了两个第一次:引入基于60亿参数狂语言模子GPT-J的推理基准测试以及改善的推选模子。

GPT-J是来自EleutherAI的OpenAI GPT-3的开源替换品,现已经在MLPerf套件中用作掂量推理功能的基准。与一些更先进的家养智能模子(如1750亿参数的GPT-3)比照,60亿参数的GPT-J属于至关轻量的模子,但它颇为适宜推理基准的脚色。该模子总结了文本块,并可在延迟敏感的在线方式以及吞吐量密集型的离线方式下运行。

GH200 Grace Hopper超级芯片在GPT-J使命负载方面取患了优异的下场,在离线以及效率器场景中的每一减速器功能都抵达了最高水平。

搜罗特斯拉,泛滥企业自动构建算力芯片以及集群

随着家养智能技术的睁开,特意是近些年来天生式AI及大模子运用的快捷拓展,市场对于算力的需要快捷削减。咱们知道,不论是AI磨炼仍是推理,都需要大批的算力作为反对于。而当初在大模子的磨炼以及推理方面,英伟达的GPU占有紧张位置。

往年以来,英伟达的A100以及H100两款芯片定单不断削减,价钱也在不断上涨。凭证其最新的第二财季陈说,其净利润抵达61.88亿美元,与去年同期比照削减422%,较上一财季削减203%。据业内人士预料,英伟达H100芯片明年出货量还要至少削减两倍。

在AI迅猛睁开确当下,除了英伟达,国内外企业都在自动研发AI芯片,构建自己的算力集群,好比英特尔AMD此前都针对于AI大模子推出了响应的大算力芯片产物。国内的良多GPGPU企业及云效率厂商也都在自动妄想。

此外,作为全天下驰名自动驾驶企业,特斯拉也早已经开始研发自己的算力芯片,打造自己的超级合计机。最近,特斯拉的股票大涨,摩根士丹利合成师以为,特斯拉超级合计机Dojo释放家养智能提升功劳的重大后劲,成为其股价走强的主因之一。

在产物形态上,特斯拉的Dojo最终落地单元是一个名为ExaPOD的超级合计集群。它集成为了3000颗基于7nm制程工艺的D1芯片,搜罗120个磨炼模块,最终可能实现高达 1.1 EFlops(百亿亿次浮点运算)的BF16/CFP8峰值算力;1.3TB高速 SRAM;13TB高带宽 DRAM

在2021年的特斯拉AI Day上,Dojo超算名目负责人Ganesh Venkataramana揭示了集成为了25个D1芯片的磨炼模块,他展现特斯拉找到的一个关键谜底是用台积电的InFO_SoW整合扇出技术。这是一种芯片先进封装技术,比照于传统的打线封装,InFO技术的根基优势是可能实现多个芯片集成封装,减速信号传递。

特斯拉规画运用Dojo对于海量视频数据妨碍无把守学习,减速Autopilot以及残缺自动驾驶(FSD)零星的迭代,同时为其人形机械人Optimus提供算力反对于。

在2022年9月的AI Day上,特斯拉宣告Dojo已经建树残缺的散热盘上零星。同时也宣告了将去道路图,展现AI团队正在研发新版本的Dojo超算组件。

据往年7月20日的报道,特斯拉Dojo超算已经在往年7月开始量产,而总算力达100ExaFLOPs的超算零星将于2024年尾量产。

特斯拉以前已经构建基于英伟达GPU的大型超级合计机,而如今其自主研发并推出D1芯片,有助于其削减对于英伟达GPU的依赖。

小结

从当初的情景来看,英伟达在AI磨炼以及推理中占有极大的市场份额,在大模子规模更是占有相对于优势,国内外大部份企业都依赖英伟达A100、H100等产物,而如今其GH200在功能上更强,在大模子磨炼方面又可能辅助企业飞腾老本,确定会受到一众企业追捧。

尽管除了英伟达,外洋内尚有泛滥企业也在经由自己的方式,钻研并宣告适宜AI磨炼以及部署芯片,为AI行业的睁开构建算力集群。可能看到,在天生式AI、大模子的睁开下,作为根基反对于的算力尤为紧张。


百科
上一篇:OpenAI视频模子Sora炸裂退场,视频作者展现:或者将残缺端掉行业饭碗
下一篇:南陵县家发镇睁开“多念书·读好书”浏览分享行动