如果把普通计算机的运算比作成人走路,那么高性能计算机则可以称为计算机界的运载火箭,其计算速度能达到每秒千万亿次,能计算普通PC机和服务器不能完成的大型、复杂课题,在诸如天气预报、基因、核工业、军事、航天等高科技领域都可以见到高性能计算机的身影。

高性能计算机是一个国家科技实力的象征,人们熟知的“天河一号”、“天河二号”就是我国自行研制的高性能计算机的代表。

近几年,基于互联网和人工智能技术的创业风起云涌,格灵深瞳、Face++、神马语音等公司在图像、语音、安全等领域进行着人工智能的创新,以图形图象和音视频为代表的深度学习是典型的计算密集型应用,由此催生了互联网行业对高性能计算的需求。

中国首个云上高性能计算平台受热捧

12月15日,阿里云基于公共云平台的高性能计算产品HPC正式对外商用,用户可通过官网购买GPU服务器实例。这也是中国首个云上高性能计算平台。

早在今年9月阿里云HPC对外公测期间,上百家用户找到阿里云申请使用并排起长队,每周新增排队用户比测完用户还多,客户类型涵盖深度学习、科研、金融甚至国家超算用户。

据了解,阿里云HPC每个计算集群配备2个GPU+2个CPU+128G内存+13T存储数据,单机单精度浮点计算能力达到11T flops。同时配备128G内存,13T本地盘存储数据,双千兆上联网络等。

“我们会给用户专属100%物理机,CPU、GPU不会发生争抢,保证无性能波动,没有虚拟化开销,也会有任何硬件功能的阉割。” 阿里云HPC产品负责人长仁强调。

据测算,假如有200万张图片需要学习,用一台双路E5-2650 v2的服务器训练需要16天时间,而如果用阿里云双GPU物理机仅需要1天。

游戏玩家应该对图形处理器GPU非常熟悉,他们会购买专门的显卡提升视频游戏体验。现在,因为GPU强大的数学处理能力,其被越来越多地应用于高性能计算。

为什么不使用大量CPU而要用GPU?这两者有何区别?

长仁介绍,单核CPU的理论浮点性能和GPU目前差距约两个数量级,多核CPU比如双路16核,和GPU相差8倍。

深度学习是浮点计算密集应用,目前广泛使用GPU。假如单纯堆砌大量CPU会造成网络通信延迟,堆得越多速度越慢。而单机GPU计算能力密度高,所以业界普遍使用GPU。

世界高性能计算TOP500很多采用GPU加速,比如我国首个夺取全球第一名的超级计算机“天河一号”。

阿里云的GPU合作伙伴是NVIDIA。NVIDIA全球副总裁、PSG兼云计算业务总经理Ashok Pandey表示:“深度学习是NVIDIA重要的战略方向,未来我们将发挥自身在深度学习技术平台的优势和在全球深度学习领域积累的应用经验,与阿里云一起为中国致力于深度学习的新兴企业提供更强大的支持。”

开放全世界唯一kepler架构GPU原生汇编器

高性能计算不仅需要硬件设施,更需要匹配“软实力”,才能大限度发挥硬件性能。

长仁介绍,阿里云不仅提供硬件和基本系统,更为HPC准备了Docker实例、调度系统、监控平台,以及针对深度学习的训练、预测中间件和工具。

尤其值得一提的是,阿里云HPC主页(hpc.aliyun.com)开放了全世界唯一的kepler架构GPU原生汇编器及cuda占用计算器,这是阿里内部性能调优的“独门秘技”。阿里用这款汇编器优化出了目前在kepler架构GPU上最快的卷积、矩阵乘法实现。

图片1

alexnet第二层卷积单精度量化性能

专注于计算机视觉识别的明星创业公司格灵深瞳HPC负责人张洋表示:“阿里云HPC产品性能强劲,配置简单,作为线上预测服务平台是很棒的选择。期待阿里云自己的深度学习软件框架上线。”

涂鸦技术架构师柯都敏也称赞阿里云“强劲的HPC能快速解决我们对数据训练和线上业务的需要”。

只有用户才能更好地服务用户

领先的互联网巨头如Google、Facebook都是GPU的深度用户。同样,阿里内部也部署了大规模的GPU异构计算集群,服务于所有内部应用。

在对外提供服务之前,阿里云已经在高性能计算领域实践多年,从设备选型、准入测试、运维监控,到系统架构、性能优化等,整个链条都有深入积累。

长仁认为,脱胎于阿里“母体”的HPC不仅是一款产品,更是一种服务能力,这是阿里云的核心竞争力。

这种能力也得到了用户的认可。利用深度学习搜寻时尚商品的创业公司Dress+ VP严布江就评价阿里云HPC团队“业务技能精湛,服务周到热情”。

从一些细节能看出长期积累的重要性。比如同样是利用GPU,但不同的公司会在具体技术选择上产生差异,小到如何插卡保证硬件性能的发挥都大有学问。

比如阿里云选择了NVIDIA K40,K40的GK110B是kepler架构GPU单核性能强。在深度学习应用中,关键的卷积计算、矩阵乘法计算在开启或者关闭boost下,K40表现最出色。

搜狗截图15年12月15日1303_1

市场上另外一些方案则会选择NVIDIA K80。K80是两个GK210核心,从用户的角度看虽然K80是1张卡,但是两个设备。每个设备的计算能力和K40比还有差距,用户要用好两个设备,相互配合完成一个任务需要额外的开发,使用难度会提高。

专注于人脸识别的创业公司Face++许欣然对K40的性能表示认同,他表示“阿里云HPC服务器性能优异,发挥了双卡K40的极致性能”,另外“运维出色,稳定性非常强”。 

长仁表示,阿里云既是阿里内部用户的服务者,也同样是用户,现在更是云上服务的提供者。只有经过实践才能更好地服务外部客户。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-09-18 13:42:18
市场情报 亚马逊云科技宣布Amazon EC2 P5e 实例正式可用
亚马逊云科技是首个将英伟达H200 GPU用于生产环境的领先云提供商。 <详情>
2024-07-08 11:54:00
空调制冷 面向GPU高功率未来,相变浸没式液冷做好准备了吗?
未来CPU与GPI的比例可能会变成6:4或5:5,基于智算需求,伴随GPU比例提升,机柜设计功率则要达到60-100千瓦乃至更高,相变浸没式将获得进一步发展。 <详情>
2024-01-08 10:43:17
国内资讯 买GPU就能做算力业务? 味精、园林、染料、纺织企业跨界忙
相较于上一次企业跨界数据中心热潮,这一次跨界算力的难度无疑更小。 <详情>
2023-08-04 16:58:52
整机柜服务器 AI+算力需求爆发 网宿科技升级GPU算力平台拥抱机遇
在离用户更近的场景中,包括虚拟人、云游戏等都对实时渲染提出超高要求。 <详情>
2023-07-17 16:51:24
中兴通讯发布第三代模块化间接蒸发冷却解决方案,树立数据中心绿色制冷新标杆
2025-04-29 17:08:57
面向未来 Rambus CryptoManager如何重塑数据中心安全格局?
2025-04-29 13:22:16
1年5000P!算力“国家队”京算公司树行业新标杆
2025-04-28 11:01:06
万国数据全国首单“数据中心持有型不动产ABS”在上交所 成功挂牌上市
2025-04-25 11:11:02
供需牵引,生态共筑:2025中国智算产业生态发展大会即将启幕
2025-04-25 10:02:00
智算中心面临“分水岭”:施耐德电气以四维创新驱动价值破局
2025-04-24 14:35:25
上海市启动2024年度全市算力资源摸底工作通知
2025-04-24 13:44:00
聚焦投资、技术与可持续发展——中国—东南亚数字基础设施合作论坛圆满举行
2025-04-23 17:54:00
从算力变革到AI生产力创新 首届酒仙桥论坛丨AIDC创新驱动生产力新变革论坛成功举办
2025-04-22 10:19:00
Rambus 通过新一代CryptoManager安全IP解决方案增强数据中心与人工智能保护
2025-04-16 10:55:15
油城算力攀“新峰” 丝路云网架“金桥” ——克拉玛依市算力产业发展纪实
2025-04-15 10:57:00
筑AI生产力底座 酒仙桥论坛丨AIDC创新驱动力新变革专场将于4月16日隆重举行
2025-04-11 18:26:00
26亿!普洛斯中国首支数据中心基金完成募集 AI驱动算力资产升温
2025-04-07 16:10:47
科智咨询:寒冬将尽,春山可望!AI引领中国IDC市场进入新一轮增长周期
2025-04-03 12:04:48
原创|中国智算中心建设“过剩论”的另一面
2025-04-02 11:38:00