4月14日,腾讯云发布,新一代HCC高性能计算集群,采用最新一代星星海自研服务器,搭载NVIDIA H800 Tensor Core GPU,基于自研网络、存储架构,带来3.2T超高互联带宽、TB级吞吐能力和千万级IOPS。实测结果显示,新一代集群算力性能较前代提升3倍。

腾讯大模型训练效率

去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。

大模型进入万亿参数时代,单体服务器提供的算力有限,需要将大量服务器相连,协同优化单机算力、网络架构和存储性能,打造大规模、分布式的高性能计算集群。

计算层面

服务器单机性能是集群算力的基础,新一代集群的单GPU卡在不同精度下,支持输出高1979 TFlops的算力。

针对大模型场景,星星海自研服务器采用6U超高密度设计,相较行业可支持的上架密度提高30%;利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至更高。

单卡算力性能

网络层面

计算节点间,存在着海量的数据交互需求。随着集群规模扩大,通信性能会直接影响训练效率,需要实现网络和计算节点的大协同。

腾讯自研的星脉高性能计算网络,具备业界高的3.2T RDMA通信带宽。实测结果显示,搭载同等数量的GPU,3.2T星脉网络相较1.6T网络,集群整体算力提升20%。

同时,腾讯自研的高性能集合通信库TCCL,融入定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化40%负载性能,消除多个网络原因导致的训练中断问题。

集群算力

存储层面

大模型训练中,大量计算节点会同时读取一批数据集,需要尽可能缩短数据加载时长,避免计算节点产生等待。

腾讯云自研的存储架构,具备TB级吞吐能力和千万级IOPS,支持不同场景下对存储的需求。COS+GooseFS对象存储方案和CFS Turbo高性能文件存储方案,充分满足大模型场景下高性能、大吞吐和海量存储要求。

HCC高性能计算集群

此外,新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

腾讯混元大模型背后的训练框架AngelPTM,也已通过腾讯云TACO提供服务,帮助企业加速大模型落地。

通过腾讯云TI平台的大模型能力和工具箱,企业可结合产业场景数据进行精调训练,提升生产效率、快速创建和部署 AI 应用。

腾讯云智算平台

依托分布式云原生的治理能力,腾讯云智算平台提供16 EFLOPS的浮点算力,规模业界领先。

以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向AIGC的高性能智算网络,持续加速全社会云上创新。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-08-11 18:23:36
云资讯 阿里巴巴发布2024 Q1业绩,阿里云收入251.23亿元
阿里云收入增长4%至251.23亿元,经调整EBITA利润增长106%至3.87亿元。 <详情>
2023-08-02 08:44:58
云资讯 国家发改委:支持民营企业牵头承担云计算、人工智能、工业互联网等攻关任务
值得一提的是,《通知》指出,支持民营企业参与重大科技攻关,牵头承担工业软件、云计算、人工智能、工业互联网、基因和细胞医疗、新型储能等领域的攻关任务。 <详情>
2023-07-31 09:45:08
云资讯 云计算产业发展趋势及对运营商云业务的发展启示
随着新一轮科技革命与产业变革的蓬勃发展,经济社会数字化转型进程深入推进,作为数字化转型关键信息基础设施的云计算业务迎来广阔增长空间。 <详情>
2023-07-28 08:52:05
云资讯 《云计算白皮书(2023年)》:我国云计算市场处于快速发展期
7月25日,中国信通院发布《云计算白皮书(2023年)》(以下简称《白皮书》),《白皮书》聚焦过去一年多来云计算产业的新发展新变化,总结梳理国内外云计算政策、市场、技 <详情>
2023-07-25 15:25:54
云资讯 中国电信与国家信息中心共同发布国信政务云
下一步,双方将从科技支撑、智慧化应用创新和敏捷专业贴身服务全方位建设并运营好“国信政务云”。 <详情>