11月4-6日,OpenInfra开源基础设施峰会在上海举行,峰会首日,浪潮联合英特尔发布了《基于500节点大规模单一集群行业云部署和性能优化白皮书》(以下简称《白皮书》),为社区成员与用户构建更大规模的OpenStack单一集群,提供了详尽指导规范。
作为今年OpenStack领域具影响力的事件之一,双方基于浪潮云海InCloud OpenStack 5.6(Rocky)完成的单一集群500节点大规模测试受到社区关注。在大会keynote环节,OpenStack基金会个人独立董事王庆介绍了大规模测试概况,评价本次测试为OpenStack发展历程中重要的里程碑事件,将为OpenStack在大规模乃至超大规模的云建设场景落地提供参考。
OpenStack基金会个人独立董事王庆在keynote上介绍大规模测试概况
大规模、开放、敏捷成为行业云新特征
目前,电信、交通、能源、金融等行业的云计算规模正不断提升,对大规模和超大规模行业云部署的需求更加迫切,诸如金融产品上线、城市轨道交通系统等具备强周期性的业务系统,对云平台的高性能、高可用特别是高并发有着更高的要求。在这些业务场景的驱动下,行业用户对单一集群规模提出了更高的需求,希望通过部署更多的虚拟机、容器等资源以支撑更多工作负载,进一步提升 IT 资源利用率并降低运维管理复杂度。以移动云为例,作为中国移动政企市场产品和服务统一入口,三年内规模超过20w节点,并且需要与5G网络相融合,云平台在大规模基础上,满足云网合一、随需定制、安全稳定等要求。
《白皮书》指出,单一集群规模提升带来的好处显而易见,能够实现更高、更灵活的工作负载,提升云平台的伸缩性并显著降低管理复杂度。不过,目前基于开源技术构建大规模行业云仍面临诸多挑战。
首先,开源应用的快速增长带来了工作负载的提升,而日益丰富的开源技术堆栈则进一步扩大了云平台性能的上下限差距,优化效果的好坏直接关乎性能表现。
其次,敏捷基础设施成为重要趋势,大规模的行业云将千倍放大单节点的成本支出,因此,对于性能进行持续优化、并增强成本的控制能力至关重要,需要在软件定义层面实现性能、QoS、TCO的轻松调配。
最后,在开源技术日益活跃的全球性趋势下,基础设施的开放性至关重要。调研显示,在中国,已经应用了开源技术的企业占比达到86.7%,有计划应用开源技术的企业占比10.6%,开源技术已经被企业普遍接受,将更多的开源技术融合到统一的云平台中变得更加重要。
浪潮云海 出色完成单一集群全球大规模压力测试
当前,基于社区原生版本的云平台规模普遍较小,500个节点规模已经超出了负载的峰值,尝试在 500个节点上成功部署 OpenStack 必须进行大量复杂的测试和优化。今年9月,浪潮云海ICOS 5.6成功完成单一集群规模达500节点的测试,这是目前基于OpenStack Rocky版本进行的单一集群全球大规模实践。
测试结果显示,在高密度、高并发环境测试中,在系统已有20,000虚拟机负载的情况下,成功完成负载60%环境下的1,000 并发虚拟机创建,空载环境下2,000并发虚拟机创建。同时,测试验证了大规模集群在全部节点数据库灾难恢复、全部控制节点断电等极端情况下的高可用性,大程度减少业务中断。
在高性能方面,浪潮从硬件层、操作系统层、网络协议栈、Hypervisor层、OpenStack API服务、数据库以及消息队列、分布式存储、GuestOS等进行了全栈优化,系统性能可以满足大规模行业云应用对于负载的需求。
此外,浪潮云海ICOS 5.6也实现了高效的云平台软环境部署交付,10小时完成500台服务器节点系统部署、5小时部署323个OpenStack节点、3小时部署77个分布式存储节点、1小时完成100个计算节点扩容改配,单日可交付500+节点。
目前,浪潮云海ICOS已具备单集群设计规格超1000节点能力,并在广电等客户中成功部署了单集群1000+节点的大型行业云。
此外,在本次峰会上浪潮云海InCloud OpenStack团队与百度智能云、无锡地铁信息管理部门共同入围超级用户评选。