超算芯片霸主之争!终于有了新变数

  • 时间: 2020-11-18 05:20:47

  2020 年 4 月,以近 70 亿美元被英伟达最终收购的以色列顶级数据中心网络技术公司 Mellanox,在长达半年多的“沉默”后,在 11 月迎来了两件足以引起业内轰动的大事。

  首先,陪 Mellanox 走了 21 年,并一手促成这笔交易的创始人兼首席执行官 Eyal Waldman 宣布离职,并留下了一句颇为潇洒的话:

  “在达成这笔交易时,我就知道我要离开了。你知道我用几十年创建一家公司并做出所有决策,不是用来做第二名的。”

  其次,就在今天,Mellanox 作为英伟达 GPU 家族的一部分,被英伟达融入了新的网络连接架构产品——NVIDIA Mellanox 400G InfiniBand。

  此后,它将以“GPU 伴侣”的身份,率先打入数据中心市场的最精锐部队——超级计算机市场。

超算芯片霸主之争!终于有了新变数

  NVIDIA Mellanox 400G InfiniBand 产品的架构组成。简单来说,就是一个用以连接其他服务器与英伟达产品的组件

  英伟达在今天的全球超级计算大会上,再次刷新了自己最强大 GPU 产品线——企业级加速器 A100 的性能纪录。

  新一代的 A100 GPU 将高带宽内存提升至 80GB,比上一代扩大一倍。这意味着,每秒超过 2TB 的内存带宽,会让数据在内存与 GPU 之间流通得更加迅速,以便“承受”研究人员建立更大规模人工智能模型和数据集带来的压力。

  “现在要在 AI 和高性能计算(HPC)的研究成果上继续突破上限,科学家们必须要构建更大更复杂的模型,那么便需要比以往更大的内存容量与更高的带宽。” 英伟达应用深度学习研究副总裁 Bryan Catanzaro 指出。

超算芯片霸主之争!终于有了新变数

  英伟达在英国剑桥的超算中心部署了由若干块 A100 80GB 组成的 DGX 系统

  实际上,除了改变芯片产品的架构,把成百上千块芯片用最高效的形式“连”起来,当然也能解决科学家们每秒/百亿亿次的超大计算需求,而收购的 Mellanox 的用意便在于此。

  如果你见过位于无锡的中国超级计算机“太湖之光”,就会发现“这台计算机”其实是一个由成百上千台黑色机柜组成的计算机集群,可以填满一间约 1000 平米的屋子。

  它既可以被称为“高性能计算机群”,也可以被看做是一个不小规模的数据中心。

  当然,这些黑色机柜的性能,要比普通服务器强大太多,由 4 万多块不同种类的国产芯片组成,仅集成它们就是一项极为艰巨的任务,用时两年,总投入超过了 18 亿人民币。

超算芯片霸主之争!终于有了新变数

  位于无锡超算中心的太湖之光

  而 NVIDIA Mellanox 400G InfiniBand 的作用,便是将超级计算机中上万块 CPU、GPU 以及其他种类芯片“连接”在一起。在发挥性能最大化的同时,每块芯片的数据传输效率也不能有太多损耗。

  “之前 CPU 与 GPU 之间的互联,都是通过英伟达的 NVlinks(一种总线及其通信协议),但这个东西互联的效率没有特别好,不能简单扩展到上千块芯片互联的超算场景。”参与研发过 TPU,芯英科技联合创始人杨龚轶凡告诉虎嗅,Mellanox 擅长的便是此前英伟达最大的短板之一,

  “一台超级计算机,各品牌芯片之间的高效配合,极为重要。之前英伟达的 NVlinks 只能和 IBM 的 CPU 互联。而收购 Mellanox 后,英伟达增强了用芯片构建超算系统的可扩展性,可以让 GPU 与其他品牌和种类的芯片进行连接。”

  换句话说,英伟达找到了“让自己产品轻松插进包括英特尔在内,所有服务器芯片接口”的方法。

  超算市场,不可忽视的芯片掘金地

  英伟达的这次全系列产品,无一例外面向的都是“烧钱魔窟”——超级计算机市场。

  举个例子,在 2020 年 6 月颁布的全球超级计算机 Top500 榜单上,排名第二的美国橡树岭国家实验室超级计算机 Summit,在每个节点配备了 2 个 IBM 的 Power9 CPU 和 6 个英伟达的 Tesla V100。这样的节点有 4356 个,总耗资 2 亿美元。

  而在 2019 年 3 月,美国能源部阿贡实验室公开宣布,将耗资 5 亿美元搭建新一代超级计算机 Aurora 。这台将在 2021 年实现交付的超级计算机,并非追求一味追求计算速度,而是需要针对人工智能等新技术应用采用新的设计思路。

  那么这笔巨额政府合同的主要受益者是谁?外界猜测是美国最大的 CPU 生产商英特尔与著名超算系统集成商 Cray。

  但不可忽视的是,随着超算系统被用在人工智能研究领域的次数越来越多,额外装载的加速芯片 GPU,逐渐成为搭建超级计算机的必选品。

  因此,英伟达也在全球许多超算项目中获得了颇为丰厚的收益,包括美国技术最强大的国家实验室——橡树岭实验室、阿贡实验室,都是英伟达最好性能产品的首批尝鲜者。

超算芯片霸主之争!终于有了新变数

  美国迄今最强的超级计算机 Summit(巅峰),在最新的 Top500 榜单中排名第2。

  超级计算机之间的竞争,从来都被看作是国家之间技术实力的竞争。

  尽管这是一个狭隘的衡量标准,但这些超级计算机群的确在很多军事与科学任务中发挥着极为重要的作用,譬如武器设计与密码破译,再譬如模拟气候变化,研究与诊断新冠病毒。

  很多前所未有的材料与化学实验,不太可能在云端执行,因此部署高性能服务器便显得格外重要。

  “没有人愿意烧很多钱去做一些几十年没成果的新技术研究,但是这些研究却很有必要,那么这些新技术的运算就需要超级计算机来支持。”一位业内人士告诉虎嗅。

  而这场竞争中,中国与美国理所当然是最为强劲的参赛选手,也是最愿意砸钱做超算系统的两个科技大国。

  2020 年 6 月,尽管 Top500 的榜首之位,被日本神户理研计算中心耗资 10 亿美元的超算系统 Fugaku 夺走,但在这 500 个超级计算机中,中国拥有其中 226 个系统,而美国则占据 114 个。

超算芯片霸主之争!终于有了新变数

  2020 年 6 月最新榜单的前 10 名。在 2016 年~2017 年蝉联 4 次冠军的中国超级计算机太湖之光位于第四名,天河二号第五名。

  因此,如果按照每台超级计算机单价上亿美元来计算,这是一个令人垂涎的市场。而政府一次又一次创下记录的巨额订单,对商业公司产生着越来越大的吸引力;

  此外,毫无疑问,由于超级计算机运行的都是难度最高的技术研发任务,它们的存在,是未来技术下沉到工业和消费级市场的源动力。

  国家之间的超级计算机之战从几十年前就已打响。一开始,大多数超级计算机使用的微处理器都是从英特尔和 AMD 的 PC 芯片演变而来,然而,就是在过去 5 年里,数据量开始如爆炸般增长,新技术应用层出不穷,因此最强大的超级计算机已经开始加大专业芯片的使用力度,而英伟达,便是最大的受益者之一。

超算芯片霸主之争!终于有了新变数

  从图中可以看出,2020 年~2025 年产生的数据量,是 2010~2020 年数据量的三倍。图片来自英伟达。

  不过有意思的是,日本 Fugaku 打败中国和美国最强计算机的“源动力”,竟然是富士通的 48 核 A64FX SoC,这应该是榜单上第一个由 ARM 处理器提供动力的超算系统(虽然不想把英伟达和 ARM 的收购联系起来,但这好歹是个开始)。

  “未来超算市场,目前现在的共识是 HPC+AI。也就是说,未来 AI 是超算的典型应用,而且量级很大。所以英伟达,想要作为未来霸主,保持在这个市场的领先地位。

  当然,高性能计算市场,一切都没那么容易。”