当前位置: 主页 > 资讯 > 详情
通信设备及服务行业:AI超算浑然一体 光互联地位显着提升 天天热资讯

国泰君安证券股份有限公司   2023-06-03 00:04:19


(资料图片仅供参考)

本报告导读:

超算中心趋于一个整体,光互联重要性快速提升;GH200性能提升原因在存储,H100仍为主流场景应用;芯片光模块比为1:9,比DGX H100 组网更高。

摘要:

超算中心趋于一个整体,光互联重要性快速提升。Nvidia CEO 黄仁勋在大会上反复提到,未来的超算数据中心将表现的越来越像一个超级计算机,正如这次DGX GH200 系统可以将256 个GPU 无缝连接,使其性能等于一个超大号的GPU。DGX GH200 里面采用了242.4 公里的光纤,证明在高速互联领域,对光通信器件、模块的应用将大大增加,光进铜退的趋势在服务器外部的层级趋势越来越明显。

GH200 性能提升原因在存储,H100 仍为主流场景应用。集群性能的提升主要有算力本身、网络、存储三大要素。市场担忧DGX GH200对GPT3 训练性能提升2.2x,不利光模块比例提升。但算力层面,单颗GH 芯片和H100 芯片FP8 浮点算力没有差异。存储层面,DGXGH200 内部GPU 和CPU 的连接方式与DGX H100 不同,其高速触达的存储容量可以大幅提升。我们观察到对于同样消耗数十TB 内存级别的操作,存储瓶颈越明显,DGX GH200 系统表现就比DGX H100集群越优越。因此,传统GPT3、GPT4 等主流大模型下,DGX H100集群(NVLink 联网)与DGX GH200 系统没有明显差异,因为存储、网络、算力都不是瓶颈。

芯片光模块比为1:9,比H100 NVLink 组网更高。这个数字比DGXH100 使用NVLink 组网下还要高2 倍,主要的差距在于是DGX H100服务器内到服务器外做了2:1 的收敛,8 个GPU仅用了4 个NVSwitch芯片,无法做到1:1 无阻塞的传输。而GH200 是6 个NVSwitch 芯片对应8 个GPU,可以实现胖树架构,因此这个光模块比例约比256个H100 NVLink 组网方案多一倍。

投资建议:超算中心与传统云中心相比,网络相关投入比例将继续增加,重点关注数通产业链和算力网络链:1)数通光模块核心标的:

新易盛、天孚通信、光迅科技;2)稀缺的光芯片突破企业:光库科技,仕佳光子;3)有望突破的模块企业,受益标的:剑桥科技、博创科技、华工科技。

风险提示:DGX GH200 推广不及预期,AI 训练需求不及预期

相关资讯