近日,在“2023中国信通院ICT+深度观察报告会”算网融合发展论坛上,NVIDIA网络事业部高级总监宋庆春聚焦网卡计算、交换机计算、性能隔离等话题,探讨了网络计算技术如何实现高效节能、安全低耗、高性能业务加速、网络极限突破。
宋庆春指出,当前数据中心异构算力需求正在不断提升,主要包括三个方面,一是HPC高性能业务不断增长;二是AI应用对算力需求正在不断提升,包括大规模训练、推荐、推理系统等均需要大规模算力支撑;三是数字孪生、元宇宙等技术发展,对高性能、AI算力需求快速增长。多种异构算力需求场景的涌现也对数据中心算力基础设施发展带来巨大挑战,用户一方面需要算力平台提供高可靠的算力性能,另一方面又希望算力平台的功耗维持在较低水平。
“在传统计算架构中,CPU要参与到除加速计算外的所有事情,容易产生系统性能瓶颈,在性能和能耗间难以实现协同提升。”宋庆春讲道。对此,他认为云原生超级计算架构能够有效平衡性能提升和节能减排,是未来数据中心计算架构的重要方向。
宋庆春表示,云原生超级计算架构的核心是将原先由CPU执行的操作卸载到DPU上,将存储、计算框架等管理平面上的操作同样卸载到DPU上,释放CPU、GPU资源,使CPU、GPU能够更加集中的处理业务,DPU上的算力也可实现算力共享,最终确保CPU、DPU、加速器和网络协同工作,数据在哪里,计算就在哪里,由此形成更高性能、更环保、更安全的计算平台。
最后,宋庆春总结道,NVIDIA将持续关注网络异构计算的发展,为用户提供高性能、低功耗的计算、存储及网络产品,提供高品质的云原生超级计算架构,促进数据中心异构计算向前发展。