“AI正在通过多种方式重塑云基础设施”,IDC在日前发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》中这样说。正如当年互联网推动PC和信息化在企业的快速普及一样,如今AI的飞速迭代和落地应用,正在改变企业对算力和基础设施的庞大需求。
报告显示,全球公有云IaaS继续快速增长,预计2025年的整体规模将达到1880亿美元。IDC在报告中将亚马逊云科技评为“领导者”,并表示,“当需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。”
全球IaaS规模2025年达1880亿美元 亚马逊云科技获评双维度第一
当前,云计算在全球范围持续深入,AI推动云的各层级开启新一轮增长。IDC发布的《2025年IDCMarketScape:全球公有云基础设施即服务(IaaS)报告》表示:随着企业将更多工作负载迁移到云并创建新的云原生应用程序,公有云IaaS继续快速增长,预计2025年IaaS的整体规模将达到1880亿美元。
《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》对各大云厂商进行了评估,最终亚马逊云被评为领导者,在能力和战略的双维度均位居第一。
对于当前复杂多变的IaaS服务需求与市场,企业如何选择供应商,IDC也给出了一系列建议,其中重点提及了部署决策的原则、AI功能的集成度以及系统可观测性相关的安全性,例如工作负载部署决策不能仅局限于成本考量,服务集成度、供应商服务的广度,以及对互操作性和开放标准的支持力度,均至关重要。
IDC分析师、报告作者Dave McCarthy表示:“广泛的全球基础设施,结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资,使亚马逊云科技在满足企业需求方面独具优势。其在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。”
AI重塑云基础设施 亚马逊云加速自研芯片创新
ChatGPT已成旧谈,2025年伊始,DeepSeek横空出世,OpenAI发布首个AI智能体Operator,Manus突然火爆……AI正以前所未有的速度迭代发展。
经过了2024年AI从静态输出转向多模态交互,2025年被认为是AI应用落地的关键一年,现阶段,大模型在互联网、金融、运营商、制造和政府行业已获得较好的接受度和渗透。
不止业务,AI正全面渗透到企业的产品、服务、运营和基础设施中,带来改变。
《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》指出,AI正在通过多种方式重塑云基础设施。AI带动了对GPU、TPU和FPGA等专用硬件的大量投资;改善了自动化基础设施管理的运营效率和成本;推动了安全升级,企业需要以AI驱动型安全工具来响应日益复杂的威胁;提供需求预测以优化资源分配;推动开发AI驱动的服务与应用等。
大模型已经进入应用落地期。正如李开复近日在中关村论坛年会上的发言,“Scaling Law(规模定律)正从预训练阶段转向推理阶段,也就是慢思考模式。”伴随大模型推理阶段工作负载的持续增加,在计算层面,企业愈发需要面向应用和推理需求进行设计的芯片和系统架构。
作为全球云计算的开创者和引领者,亚马逊云科技早已率先进入自研芯片领域,并不断推陈出新。迄今为止,亚马逊云科技已推出了多个系列的自研芯片,包括Amazon Nitro系统、通用处理器芯片Amazon Graviton、机器学习训练芯片AmazonTrainium和推理芯片AmazonInferentia,同时保持稳定的更新频率,且每次更新均提供两位数以上的百分比的性价比提升。
为满足当前大模型对计算的高性能需求,亚马逊云科技在2024年的re:Invent上推出了全面升级的AmazonTrainium2芯片,以及基于该芯片的Amazon EC2 Trn2实例和超级服务器。
与基于GPU的EC2 P5e和P5en实例相比,Amazon EC2 Trn2实例的性价比提升30-40%。单实例配备16个Trainium2芯片,可提供高达20.8 Petaflops浮点算力的性能,非常适合训练和推理高达数十亿参数的大型语言模型。
AmazonEC2 Trn2 UltraServers服务器旨在满足大规模生成式AI训练和实时推理的性能需求研发。该服务器配备64个相互连接的Trainium2芯片,采用NeuronLink超速互连技术,可提供高达83.2 Petaflops浮点算力,其计算、内存和网络能力是单一实例的四倍,能够支持训练和部署超大规模的模型。训练方面,Amazon EC2 Trn2 UltraServers使客户能够突破单个Trn2实例的限制进行扩展,从而减少训练时间,加快投放市场的速度,实现快速迭代以提高模型准确性。推理工作负载方面,客户可以使用Trn2 UltraServers提升生产环境中万亿参数模型的实时推理性能。
据透露,亚马逊云科技携手Anthropic正打造名为EC2 UltraCluster,包含数十万颗Trainium2芯片,所达到的超级算力比他们当前一代领先AI模型训练所需算力高出5倍以上。
此外,亚马逊云科技还发布了新一代AI训练芯片AmazonTrainium3——其首款采用3纳米工艺制造的芯片,首批基于Trainium3的实例预计将在2025年末上线。
伴随着AI在千行百业的加速应用落地,更具针对性的芯片设计正在从此前的加分题,变成云基础设施服务商的必答题。而亚马逊云科技已经率先交出了优秀答卷。
不止计算 IaaS服务需求更全、更广、更安全
虽然当前企业将AI视为业务转型、抓住新浪潮的关键,但绝非只看AI的价值体现,尤其IaaS投入高,企业在选择服务商时往往从多维度进行衡量,希望云厂商提供更丰富的功能和服务。这就需要IaaS服务商具备强大的研发和创新能力,方能满足企业用户不断变化的需求。
亚马逊云科技自2006年成立以来,在基础设施覆盖的范围、以及IaaS领域涵盖的核心服务如计算、网络、安全等多个方面进行持续扩展及创新。
针对大量新增的智能计算提出的高带宽、低延时网络需求,亚马逊云科技在2024年re:Invent上推出了第二代UltraCluster网络架构——也称为"10p10u"网络。该网络支持超过20,000个GPU协同工作,带宽达10Pb/s,延迟低于10μs(微秒),这一突破性的性能跃迁将模型训练时间缩短至少15%。同时还推出了兼具中央控制和优化及分布式的速度和弹性的SIDR(Scalable, Intent DrivenRouting)全新网络路由协议。相比传统的BGP、OSPF等协议,SIDR在亚马逊云科技的10p10u网络中能在不到1秒内恢复网络,速度比传统方法快10倍,显著提升了分布式AI训练中的可靠性和实时性,确保网络在故障发生时也能保持高效运行。
10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。
性能之外,随着上云的数据与业务不断增加,数据安全和隐私保护也是企业用户重点考虑的问题。
对此,亚马逊云科技CEOMatt Garman表示:“安全是构建业务的根基。我们认为安全性是企业文化的一部分,并非事后附加上去的。不能先推出产品而后再添加安全性,必须从一开始就予以落实。安全性自始至终都要在设计阶段、实现阶段、部署阶段、补丁阶段等所有环节占据核心地位,极其重要。”
亚马逊云科技认为“安全是设计出来的”,无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。无论在全球哪一个区域,无论对方是初创企业还是大型公司,亚马逊均采用同样的最高安全标准,并不断持续使用创新技术提升安全性。
全球能源紧张情况下,可持续发展既节能降本,也是企业ESG的重要组成部分。亚马逊云科技持续推动在数据中心的创新,如简化电气和机械设计,在冷却、机架设计和控制系统进行创新,其中冷却系统无缝集成风冷和液冷功能,满足AI计算的散热需求,以最低成本为客户提供最佳性能和效率。
经过近二十年的发展,今天,云服务已经无处不在,用户也不局限于大型企业,无论正在崛起的中东和非洲,还是最早上云的欧美,以及全球其他地区,上云和用云都在持续深入。亚马逊云科技也持续扩展业务,以更广的全球覆盖规模提供创新的基础设施服务,目前其基础设施遍及36个地理区域的114个可用区,并已公布计划在新西兰和沙特阿拉伯等新建4个区域、12个可用区。
放眼未来,亚马逊云科技还将持续投入IaaS。亚马逊首席执行官Andy Jassy在2025年2月的第四季度财报电话会议中表示,亚马逊在2025年的资本投资预计达1000亿美元,其中大部分将用于亚马逊云科技AI基础设施的建设等。
凭借更广泛的服务和持续创新,亚马逊云科技正在全球为越来越多客户提供服务,助力企业直面AI带来的挑战与机遇,创造更多商业价值。