7月2日,2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边,可信创未来”为主题,由中国信息通信研究院主办。

下午13:30大会特设的智能云论坛活动正式开始,北京航空航天大学教授,计算机学院中德联合软件研究所所长刘轶做了《高性能计算的现状与未来》的精彩演讲。

北京航空航天大学教授,计算机学院中德联合软件研究所所长刘轶

北京航空航天大学教授,计算机学院中德联合软件研究所所长刘轶

很高兴今天有机会跟大家分享这个报告。我今天报告的题目是“高性能计算的现状与未来”。今天是智能云论坛,所以简单谈一下高性能计算和人工智能的关系。

高性能计算发展现状

在高性能计算领域有一个Top500排行榜,每年6月下旬和11月下旬分别发布两次排行榜,代表全世界目前性能好500台超级计算机。

我们统计Top500性能增长的趋势,横轴是时间,最近几十年来,高性能计算机性能长期维持十年千倍的增长速度,也就是说高性能计算机的性能市面上高性能的超级计算机每十年增长千倍,超过摩尔定律增长速度。

曲线上,从2013年开始性能增长趋缓,2013年开始降到十年百倍,主要是由于处理器性能的增长,随着集成电路领域在讲摩尔定律终结问题,高性能计算机性能还有进一步放缓的趋势,这是整个增长的趋势。

最新发布的Top500排行榜中前10名机器表格(6月17号刚发布的排行榜)。排名前10机器中,前2名是美国机器,第3、第4是中国。

2018年6月份,中国太湖之光第一,去年美国Summit冲到第一,Seierra到了第二,我们现在是第三、第四的排行。

排行榜地点是机器安装位置,主要在美国、欧洲等国家。

峰值性能。计算机领域处理器、浮点运算次数有一个理论的峰值性能,但这个排行榜是通过一个测试程序测到的性能来排名的,更全面、更综合考察这台超级计算机综合性能,包括体系结构等各方面综合性能。

目前世界第一的Summit台计算机峰值达到200PF。Linpack性能达到140多PF水平。这个机器的构成,尤其处理器,前10机器只有2台是所谓同构纯CPU机器,第5机器和第9机器纯粹用英特尔CPU搭出来,其他都是异构和加速的结构,太湖之光和天河二号要么是异构,要么是加速器的结构。

功耗。现在排名靠前的机器功耗一般都到10兆瓦上下量级。按照国别排行,即这些机器放在不同国家,有一个说法是Top500排行里存在所谓三个世界,第一世界占据了绝大多数资源。今年有一个很有趣的现象,按系统数量,即按机器数量,中国已经占到第一,超过了美国,中国占到500台中的200多台,中美两个国家在Top500中占了一大半。有一个说法:中国在超算上超过了美国,但没有这么乐观。

另外一个统计曲线,按照性能合计。左图按照台数,Top500里中国占200多台,将其性能加到一起,和美国相比,反过来了,说明中国在Top500里的机器数量相对比美国多,但性能加到一起比不过美国,也就是美国比较靠前。代表Top500里所谓超级计算机有相当多是互联网企业,国内互联网公司做云计算,性能相对来讲是中小规模的性能更多一些。

按厂商做统计,排名前三中国厂商,联想、浪潮、曙光三家企业在系统数量里占到了34%,是第一大。在今年6月下旬超算大会上,有一个话题专门讲的是中国现在已经成为了高性能计算大的生产者,大的消费者。生产者体现在中国的厂商在高性能计算机制造系统里已经占到了第一。

从性能来看,还是高,但比例占得小多了,可以看出这三家企业生产的高性能计算机数量比较多,但整体机器规模相对比较小。在国内目前排名前2位的太湖之光和天河二号都不是这三家厂商生产出来的。

世界上最先进的超级计算机是什么样子?

排名第一的美国Summit,美国超级计算机主要是由所谓DOE(能源部)主导,能源部下属有若干个国家实验室,由它来运营和管理这些机器,Summit这台机器安装在美国能源部橡树岭国家实验室。在美国二战时,曼哈顿计划设立了橡树岭国家实验室。

这个机器一共有4608个节点,每个节点是典型的集群结构,跟云计算非常相近。

如图,节点俯视图。这个机器是2个CPU+6个GPU,跟通常大家见到的集群节点的区别:第一,CPU不是英特尔CPU,而是IBM的PowerCPU,GPU用的是V100;第二,这个用了GPU自带上午高速互联接口,IBM为它专门设计了主板,CPU跟GPU之间互联数据通路打通,完全用高炉通道实现互联。这里没有散热风扇,用的液冷。整个样子跟云计算数据中心很相近,一排一排机柜,但采用液冷,噪音比较低。

互联网用的是InfiniBand,是典型的集群结构。操作系统是:RedHat。

中国两台机器,现在排名第三的太湖之光,放在无锡超算中心。这台机器比较有特点的是使用了我们自主的众核处理器SW26010,分成4个核组,每个组是1主核+64从核,实现高性能浮点运算。这个CPU大概是三年前的计算,当时浮点达到3个T,跟同时代最快的GPU基本相当,所以性能相当。浮点性能、系统峰值性能是125个PF。这个机器从2016年交付到2017年,连续两年四次得到Top500第一的排名。

跟Summit不好对比,这是2016年的机器,Summit是2018年的机器,两个有代差。

天河二号放在广州的超算中心。天和二号机器说起来一波三折,今年以来在IT领域,美国禁运话题非常热,高性能计算领域里更早,2015年首先就已经遭受了美国商务部的禁运,天河二号是典型第一个被禁运的,先做了一期系统,一期系统采用英特尔志强处理器+Xeon Phi。有计划二期升级,跟英特尔谈好了,结果美国商务部禁运,没办法,只好立足自身做自主的处理器,所以二期之后,在2015年禁运之后,到2017年完成升级,本来最早升级计划是直接把英特尔一代加速卡替换成二代,就是现在的所谓KEL,完成系统升级。禁运之后卡不能买了,所以换成了自己的加速卡,实现最终系统的升级,峰值性能达到110个PF。

未来的情况。

高性能计算领域目前讲的最多的是所谓E级计算,E级就是Exa-scale,中文是百亿亿次。

E级计算机面临一系列技术挑战:

第一,功耗。现在Top10机器功耗经常达到10兆瓦以上,功耗太大对整个机器运营各方面都造成很多麻烦,耗电多不经济;可靠性受到影响。高性能计算领域前几年有一个设定,将来做E级计算机时,希望把它的功耗限制在20兆瓦以内。按照这个来换算,性能功耗比要达到每瓦50GFlops以上,现在好水平也不过是20G,距离真正50G还有相当距离。目前从功耗上还没有有效的技术途径解决这个问题。

第二,应用性能问题。

第三,可编程性问题。系统规模极为庞大,动辄上百万个处理器核规模,导致并行性、线程数量很难达到这样的水平,对程序员带来很多挑战。

第四,可靠性问题。系统规模庞大之后,之前平均无故障工作时间到了几个小时,未来E级系统规模还会增大,平均无故障工作小时可能降到1个小时以下,也就是说系统全机连续运转不到一个小时就会有节点挂掉,这样对于整个系统、对程序运行会带来诸多挑战,都是需要解决的问题。

为了应对这些挑战,各个国家都开展相关研究。中国在2016年启动了E级原型机研制,先后研制出3台E级原型系统。

1.曙光E级原型机,采用的是x86处理器。所谓E级原型系统不是E级机,是小规模缩微版的,性能只有3PF,主要为了探索未来E级机技术路线、系统架构,怎么样能够真正将来把E级系统做出来。

2.曙光系统全浸泡式蒸发冷却技术,使得整个冷却效率比较高,工作温度限定比较低。

天河E级原型机,做了一些优化和升级,搭建出这样一个系统。国防科大这个机器特点是互联网络完全自主研制,网络可重构,使得这个系统成为柔性体系结构,可以根据应用需求来做灵活的配置。

3.江南计算所的神威E级原型机,采用26010神威处理器,高密度组装板子,整个256个节点一个机架搭建,全液冷,技术水平相当高。同时采用自主互联网络。

美、日的情况。

美国几年前提出NSCI计划,多个政府部门协同发展超级计算。DoE前两年启动ECP计划,专门完成超级计算机和相关软件的研制与配套情况。

路线图——目前在美国E级机有两支研发队伍,IBM+Nvidia合作,还有是Intel+Cray,IBM+Nvidia这个队伍2018年两台机器交付,Intel+Cray这个团队目前没有交付机器。可以预见,美国第一台E级超级计算机大概在2021年上半年会出现,由英特尔系统搭建,目前其技术整个架构还不清晰,都是保密的。

日本一直在高性能计算领域是重要的参与者,在前期有一个K计算机,中文叫做京,机器logo就是用毛笔字写的“京”,几年前启动Post-K,目前整个架构已经基本敲定,中间起了很多波折。

现在用ARM架构,前一代K计算机还用的是Spark,研制单位都是富士通和日本理化研究所联合研制超级计算机,处理器架构由原来的Spark转成了ARM。日本软银收购了ARM公司,用这个也可以从某种程度上来说是自主的CPU。ARM是自己完全设计,48个计算核+2辅助核,有48-52个核,扩展了部件,总共有15万个节点,机器规模非常大,没有加速器,用CPU搭出来的,所以性能整体很难做得非常高。2019年3月已经开始生产,预计今年会交付,整体性能在400P。

高性能计算系统的特点和趋势小结。

目前在架构上以CPU+加速部件和以通用核+计算核异构形态成为目前高性能计算机的主流,高性能计算机从传统的面向工程和科学计算开始扩展到兼顾人工智能和大数据分析。同时不断增长的系统规模带来了若干技术挑战。

中、美、日、欧洲等世界主要强国围绕E级超级计算机开展了激烈的竞争。

随着摩尔定律的终结,将会给高性能计算乃至整个计算机产业带来巨大的影响。现在有一个论点,大概在2023年左右,摩尔定律可能就停了,停了以后怎么办。

我国高性能计算虽然已经取得第一的成绩,但还是有很多短板,主要体现在几个方面:基础技术薄弱,自主的高性能内存没有;软件方面更弱,天河二号、太湖之光都是自主处理器,架构是自己的,软件生态环境、工具链、开发环境、各种算法库、上层应用软件、生态环境搭建等需要很久的努力才可以,而我们国内长期是所谓重硬轻软;高性能计算软件方面,几乎目前所有大型商用计算软件均为进口。

十二五高性能计算有一个重大项目,91%经费投到了机器研制上(硬件),关键技术研究和软件研发不到10%。在美国是一半一半,机器研制多少钱,软件基本是1对1的比例。所以我们要补足这些短板,需要正确的政策和长期持续的努力。

高性能计算与人工智能的关系。

在人工智能领域典型的卷积神经网络,通过卷积层和全连接层完成图像识别和分类。在这个应用里包含了多层神经网络(深度学习核心技术),千万量级以上的神经元,涉及到大量的计算量。卷积层用这样一个计算归结为3×3小矩阵,卷积层和全连接层计算模式最终都体现为矩阵和向量计算。通过这个例子可以看出,作为高性能计算最擅长的向量级计算,对于人工智能有天然的支撑,所以高性能计算是新一代人工智能重要的支撑,已经得到很多应用。

排名第一的Summit的Logo里,美国最新和最聪明的Summits,架构上更擅长支持人工智能有关系,介绍中也讲了AI。排名第八的日本机器干脆说是一个Open AI infrastructure架构。

高性能计算和人工智能目前呈现出相互融合,人工智能技术大量用在高性能计算领域,同时高性能计算传统硬件开始从过去面向科学和工程计算转向兼顾人工智能,如Google的TPU,寒武纪云服务加速卡。目前传统高性能计算硬件开始向人工智能提供支持。

我的介绍就到这里。谢谢!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-11-23 16:00:00
云资讯 百度Q3净利润58.9亿元 李彦宏表示持续投资智能云和智能驾驶
第三季度,疫情给云业务的落地推进带来挑战,但百度智能云依旧保持了积极健康的增长势头。 <详情>
2022-08-04 15:06:14
2020-03-27 17:26:55
云资讯 精准智能云解析 青云QingCloud DNS服务开启免费公测
日前,企业级云服务商青云QingCloud(qingcloud.com)DNS服务(qingcloud.com/products/dns/)正式开启免费公测。 <详情>