高性能计算(HPC)已经应用到社会生活的方方面面。在应对能源短缺、环境污染、全球气候变化方面;在精准医学方面;在航空工业、高速铁路、重大装备制造、高能物理材料高通量计算等领域发挥着重大作用,对于传统产业升级、提升人民生活水平和进行重要基础科学研究具有重要意义。

要让这些完成高性能计算的机器们发挥作用,就需要高效、长期的运维机制。但是从中国现阶段的高性能计算运维工作来看,大多数高性能计算中心,缺乏专业的运维团队,这就导致高性能计算机的故障多、性能低、寿命短,无法真正发挥高性能计算机的作用。

基于中国高性能计算运维发展的现状,中科曙光从2015年11月就开始试运行了EasyOP在线运维平台。经过6个月的试运营,EasyOP已经成长为一款针对高性能计算集群的专业运维工具,并于4月21日正式上线。

EasyOP能做什么?

2015年,曙光提出了"数据中国"战略,该战略表示,五年内要在国内百个城市百个行业建成云计算数据中心,搭建一个覆盖全国的数据平台,提供基于数据的服务。并表示,曙光未来要构建一个覆盖全国的数据平台,以便为用户提供基于数据的服务。曙光作为高性能计算行业的佼佼者,该如何支持数据中国战略的落地、完成"从硬件提供商向综合服务提供商转型"呢?

image001

曙光EasyOP在线运维平台正式上线发布仪式

在互联网+HPC的模式下,EasyOP是一款SaaS级的专业、高性能计算集群运维平台。EasyOP能够为HPC在线7*24小时的全生命周期的运维服务。曙光副总裁沙超群进一步表示,EasyOP通过提供运维、调优等服务,将各行各业的专家从HPC的运维和管理中解放出来。不止于此,曙光希望通过EasyOP构建一个资源交易平台,打造一个HPC生态圈,让闲时资源创造价值,从而为用户带来更多价值。

EasyOP拥有五大关键技术:监控数据实时远程采集、海量数据存储与展示、故障的分析与定位技术、大量数据统计与分析、移动终端的集成与推送。采用EasyOP,HPC运维人员不仅可以随时了解HPC集群的运营情况和故障,还可通过网页或微信等在线咨询服务与线上专家进行一对一的交流。EasyOP还会将常见、有代表性的故障解决方案上传至知识库,以便于HPC运维人员积累。

曙光HPC研发部经理张晋锋现场演示了EasyOP平台,一个是网页版本,一个是单机版本。通过演示,可以看出,HPC集群的运行状态、性能监控数据一目了然。而且可以灵活地配置告警责任人和通知方式。而且正式上线的EasyOP还能够通过微信关注EasyOP公众号的方式,实现对HPC集群的实时监控,及时发现并解决集群出现的问题。

为什么要选择EasyOP?

中国软件行业协会数据软件分会常务副秘书长姚继锋博士总结表示,要实现高性能计算集群的高效运维,需要有三面的支持:管理制度、专业团队和支撑系统,这三方面要彼此相关、高度耦合才能够保证集群的稳定运行。就技术方面来说,只有"懂HPC,才能够懂HPC在线运维。"EasyOP的研发团队全部来自于曙光高性能计算团队,加上运维团队,已经有近百人,这是一批懂硬件、懂软件,且懂应用的高性能计算团队。

数据显示,试运营期间,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。

从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。这种多线程任务下适于对HPC系统各子功能的全方位监控。

统计显示,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机,从侧面反映了曙光集群系统的高可靠性。

中科院物理所的徐力方研究员表示:"HPC集群的运维此前一直是我们的艰巨任务,非常辛苦。接入EasyOP后,我们的运维压力大大降低了,运维成本和人力投入也都减少了,而且HPC集群的安全性和使用效率也得以提升。我们终于解放了。"

寄语:

运维是IT行业中一块比较难啃的骨头,尤其是高性能计算集群的运维工作,在过去的25年,中科数据在高性能计算领域取到了很好的成绩,中科曙光的高性能计算已经服务于航天、航空、能源、电力、气象、生物、金融、国防等众多领域,交付集群数量超过10000套。

这样的曙光更有能力,而且更有责任为高性能计算集群的运维工作提供更好的保障。希望曙光EasyOP能够帮助HPC用户提供系统稳定运行的保障,提供系统效率,让中国的HPC事业有更好的发展。从而,曙光自身能够打造出健康的"HPC生态圈",践行"数据中国"战略,实现"从硬件提供商向综合服务提供商转型"的目标。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-30 09:57:53
国内资讯 盘点中国六大国家超算中心
近十年来,我国先后成立家国家级超算中心, “天河一号”、“神威蓝光”、曙光“星云”、“天河二号”、“太湖之光”等超级计算机先后登上世界顶级超算阵容。 <详情>
2019-07-15 16:32:52
云技术 代表“中国速度”的6家国家超算中心,你了解吗?
如今,中国超级计算机研制、创新、应用发展已经走过40年。而刚刚过去的十年,是中国超级计算机技术创新与超级计算应用创新深度融合、迈向新阶段的十年。 <详情>
2019-07-03 17:13:55
云资讯 容器已成运维必备能力,你知道它是如何出现的吗?
2019年运维行业的变化还是很大的,除了比较多的新技术出现,更多的是一些原先处在设想中的技术的落地。 <详情>
2019-06-25 15:45:23
国内资讯 百花盛放,展露锋芒丨第二届MAXP大赛决赛落幕
中国高性能云计算创新大赛旨在进一步推动国内高性能计算的发展,鼓励云计算应用创新。 <详情>
2019-06-21 13:26:00
互联网 六大技术支柱落地,英特尔10nm Ice Lake带来指数级性能增长
目前市场上的GPU正在面临着一些架构上的挑战,例如显存空间太小、性能无法完全满足精细的图形并行栅格化工作等等。 <详情>