目前,高性能计算市场正处于技术转型期 —— 向“Co-design(协同设计)”的方向过渡。就像很多文章中所探讨的那样,这种转型的出现是为了打破当前基础设施和应用的性能瓶颈,既由存在已久的多核CPU以及CPU为核心的系统架构所带来的性能瓶颈。

那么,为什么多核CPU反倒成了性能瓶颈的原因?为了更好的理解这一点,我们来回顾一下此前的单核CPU时代。在那时,CPU的核心频率是最重要的参数——因此当时人们提升系统性能的办法就是通过提高CPU主频,并将网络功能减少(包括网络适配器和交换机)。每一代新产品的发布都会带来更快的CPU以及更低延迟的网络适配器和交换机,这是当时计算机性能提升的主要模式。然而,这个模式不可能一直持续下去——由于功耗问题的限制,CPU主频不可能无限提高。因此,我们并没有一味地再去提升频率,而是采用了并行多核CPU,从而让处理器能够在同一时间执行多个进程。从此,我们提升系统性能的方法,不再是简单的提升单核运行速度,而是通过多核来同时处理更多的指令。

这种增加CPU核心数量的新模式大幅增加了互连系统的负担,另外这也让网络互连变成了系统性能的主要因素。准确的说,决定系统性能的关键,就是所有CPU进程的同步速度,以及CPU进程之间数据包聚合和分发的速率。

不过,与大环境的通信模式相比,互连延迟的改进所能带来的影响也是微乎其微的。目前,InfiniBand交换机的普遍延迟为90纳秒,InfiniBand适配器的延迟则是100纳秒。CPU处理的通信框架,比如MPI集体通信,它的延迟在几十微秒范围内(1微秒=1000纳秒)。这种不同数量级的通信延迟差距,使得互连系统方面的延迟优势微乎其微——即便再降10、20、40或50纳秒,与CPU进程间的通信延迟相比可以忽略。换句话说,对HPC的未来而言,某些公司所提议的将网络适配器与CPU合并,以减少几纳秒延迟的想法太过异想天开。

也许有人会好奇这和卸载(Offloading)与加载(Onloading)的PK有何关系,其实关系非常大。过去,卸载与加载之间的争论主要集中在CPU效率方面。研发出一项基于卸载架构的互连技术的难度和复杂度都不容小觑,但其回报也不菲——它能够让CPU从网络管理中脱身,进而能够轻松提升40-50% 的CPU与系统利用率。而基于加载(onloading)架构的互连技术开发则相对简单的多,它只不过是一个简单的通道,所有的网络操作仍然必须由CPU来管理和执行;从应用的角度来看,一半的CPU资源都被浪费了。

此外,基于任务卸载(Offloading)的架构能够让像RDMA(远程内存直接访问)这样的技术变得可用,而这是加载(Onloading)架构无法做到的。我们已经见过无数应用性能展示的示例,这些示例无一不证明了基于任务卸载解决方案对比Onloading产品的显著优势(比如DDR InfiniBand  vs. Pathscale InfiniPath 和 QDR InfiniBand vs.QLogic/Intel TrueScale)。

如今,基于任务卸载的架构不光拥有绝佳的性能和性价比优势,更是解决系统性能瓶颈的关键——除非采用智能的互连和卸载技术,否则系统将很难再继续高效的扩展下去。

随着进程数量的持续增长,IT人士可以通过并行的编程手段来解决科研与制造领域中的复杂问题,也因此,进程间通讯的重要性日益凸显。和“乒乓操作”(Ping-Pong)的网络延迟相比,更关键的是复杂通讯的延迟——集群通信(collective)或数据聚合操作。在CPU上执行这类操作都会导致其性能受到极大极限,从而无法进一步加快速度。实际上,唯一的有效解决方案就是当数据在集群内传输过程中就执行此类操作,暨数据传输中通过互连设备自身功能(交换机、适配器)进行复杂通信的操作。该方案基于全球Co-Design(协同设计)架构开发,它将帮助我们加速迈向百亿亿次计算。

这一技术趋势不仅将影响高性能计算,还将改变数据分析、机器学习以及其他数据密集型应用和基于数据搜索的应用领域的发展。曾经在21世纪前期大放异彩的CPU多核并行解决方案在今天已经成了提升系统性能的瓶颈,新型智能卸载互连技术才是新的救星。智能互连解决方案将成为新的协处理器,因此它们也将是高可扩展计算的关键因素。

重新回到应用性能和系统投资收益率(ROI)的讨论。关于EDR InfiniBand和英特尔Omni-Path之间的性能对比与此前两种不同互连技术的对比应该基本类似。虽然目前关于Omni-Path的可用系统很少,但我们已经可以看到在不同高性能应用实例中所表现出的系统性能差异,例如WIEN2K、Quantum Espresso和LS-DYNA。

WIEN2k可让用户采用密度泛函理论计算固体电子结构。它是一个包括相对论在内的全电子方案,已授权2000多个用户组使用 。Quantum Espresso则是一个开源计算代码的集成套件,它可用于实现电子结构的计算和纳米级的材料建模。它主要基于密度泛函、平面波和赝势等理论。LS-DYNA是由Livermore软件科技公司(LSTC)开发的一款先进的通用多物理仿真软件包。这个软件包不仅能够继续升级用于真实复杂世界问题的计算,它的核心功能还可以应用显性时间积分方法解决高度非线性瞬态动力有限元分析问题。LS-DYNA主要用于汽车、航空、建筑、军工、制造以及生物工程等行业。

image001

WIEN2K软件性能比较(数值越大越好)

image002

QuantumESPRESSO性能比较(数值越大越好)

image003

LS-DYNA性能比较(数值越大越好)

在以上这三种评测中,我们可以看到EDR InfiniBand智能网络均表现出了显著的性能优势。值得一提的是,在整个系统的性能差异对比中,InfiniBand的性能优势在35%~63%之间。还应指出的是,这些测试系统的规模较小,随着系统规模的扩大,其性能优势比例也会更高。

此外,就像LS-DYNA示例中所示,只采用6个节点的InfiniBand性能表现就已经超过了采用12个节点的Omni-Path,即InfiniBand以一半的系统规模即能实现比Omni-Path更高的性能

总结:基于卸载的智能互连系统的性能优势显而易见,而InfiniBand和Omni-Path的对比评测结果也是亦然。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-04-12 14:53:35
算力新闻 黄仁勋:未来数据中心将取代单个芯片成为计算系统的基本单元
黄仁勋眼中的“芯片”是什么?英伟达CEO黄仁勋在GTC 2024大会上称,未来数据中心将取代单个芯片,成为计算系统的基本单元。 <详情>
2024-01-04 14:35:02
2023-08-01 08:43:57
国内资讯 上半年我国规上互联网企业完成收入6433亿元,同比增长2.6%
7月31日,工信部官网公布了2023年上半年互联网和相关服务业运行情况。总体来看,上半年,互联网业务收入保持小幅增长,利润总额增幅维持较高水平。 <详情>
2023-05-30 08:59:59
互联网 信通院发布《2023年一季度我国互联网上市企业运行情况》研究报告
日前,中国信息通信研究院政策与经济研究所互联网运行分析团队发布了《2023年一季度我国互联网上市企业运行情况》报告。 <详情>
2023-04-17 17:23:00
市场情报 信息技术赋能国际数据流通 “数据空间论坛暨汽车数据流通研讨会”成功举办
由下一代互联网国家工程中心(CFIEC)和国际数据空间协会(IDSA)共同主办的“国际数据流通技术高峰会议-数据空间论坛暨汽车数据流通研讨会” 4月14日下午在北京成功举办 <详情>