9月26日上午,在2019云栖大会上,刚加入阿里巴巴不久,目前担任阿里巴巴副总裁、阿里云智能计算平台事业部总经理的“Caffe之父”贾扬清在其主题演讲《让AI拥有无限可能的开发平台》中介绍了飞天大数据平台和飞天AI平台,作为飞天大数据平台架构核心之一的大数据计算服务MaxCompute和飞天AI平台核心引擎PAI被重点提及。
在云栖大会期间让人目不暇接的各项重大新品与战略发布消息中,飞天大数据平台中MaxCompute与飞天AI平台中PAI联合公布的成绩单也并不逊色——由英特尔支持的阿里云MaxCompute和PAI,成为在国际大数据性能基准测试TPCx-BB中,目前全球唯一一家通过100TB数据规模测试的系统。而在30TB数据规模的测试中,阿里云与排名第二的系统相比,在性能快了近一倍的同时,成本降低了约一半。
“支撑阿里巴巴经济体近全量大数据业务”——MaxCompute
MaxCompute是一种快速、完全托管的PB级数据仓库解决方案,使用户可以经济高效地分析处理海量数据。它可以提供简单易用的多功能计算服务,具备极致弹性能力与完善的平台服务,同时能够帮助用户降低总体拥有成本。
MaxCompute在阿里巴巴的地位是至关重要的,据阿里云计算平台研究员、高级总监关涛先生介绍,飞天平台在2009年建立时一共分为三大部分,其中之一就是现在的MaxCompute,主要实现分布式计算,而另外两个就是EB级分布式存储系统“盘古”与数万台机器规模分布式调度系统“伏羲”。
“MaxCompute的作用分成两部分,一部分是阿里巴巴内部,我们存储了阿里巴巴99%的数据,承接95%以上的计算需求,可以理解为,MaxCompute就是阿里巴巴这个经济体的大数据内存,是(几乎)所有阿里的数据,如淘宝、支付宝、天猫、拍立淘,以及各种人工智能应用的大数据计算平台。大概从2015年开始,MaxCompute在云上提供对外云服务,目前也是阿里云排名前十的旗舰产品之一。”关涛说道。
“飞天AI平台核心AI开发环境和框架引擎”——机器学习PAI
机器学习PAI是飞天AI平台中的核心产品,构建在阿里云MaxCompute等计算平台之上,在机器学习大规模分布式训练场景拥有非常强的性能表现,在本次TPCx-BB的比赛中,PAI基于MaxCompute,在逻辑回归、Kmeans、朴素贝叶斯三个算法的表现性能上取得很好的成绩
除此之外,机器学习PAI还支持MPI, MapReduce, PS, Graph等多种算法引擎,支持上百种常用算法,在算法上持续创新优化,性能和正确率上有显著的提升。机器学习PAI不仅为企业提供快速拉起的软硬件一体AI编程环境,还为企业提供被集成的AI解决方案,包括PAI算法的支持客户二次开发,PAI的API服务支持客户定制化AI平台,PAI编译优化的能力支持客户集成到自己的平台环境等
目前大数据领域最佳的参考标准TPCx-BigBench(TPCx-BigBench)
TPCx-BB是由国际标准组织TPC(Transaction Processing Performance Council)制定的一项大数据性能基准测试,通过最常用大数据应用场景来全面衡量系统软硬件性能,是最终客户选择最佳软硬件平台的重要参考标准。
谈到选择TPCx-BB来验证MaxCompute平台性能的原因时,关涛表示首先TPC是一个相对比较权威的基准测试组织;其次,TPCx-BB测试中同时包含了大数据、机器学习工作负载,既有结构化的24小时数据,也包含非结构化数据,有30种不同的维度基准联合测评,这代表着更丰富的测试结果,测试环境更能贴近越来越丰富的用户作业场景。
软硬件双赛道发力,英特尔为阿里飞天平台(MaxCompute+PAI)赋能
在MaxCompute/PAI多年的系统优化过程中,英特尔作为阿里巴巴重要的合作伙伴,提供了许多助力。英特尔作为测试基准中BigBench的重要贡献者,与阿里云开发团队深入合作,共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持,并一起在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。
据英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权先生介绍,英特尔与阿里巴巴在MaxCompute/PAI平台的基准测试方面有近3年的合作历史。双方合作涵盖软硬件两个层面:在硬件层面上,MaxCompute/PAI平台基于搭载了英特尔至强可扩展处理器的服务器,通过充分发挥英特尔至强处理器的潜力,获取了强大的性能。此外还使用了英特尔傲腾数据中心级持久内存,帮助提升数据存储能力;在软件层面上,英特尔与阿里巴巴共同合作,用大量英特尔工具去分析性能,找到性能的瓶颈。与此同时,针对系统中的众多核心算法或算子,双方工程师也通力合作,帮助提高系统性能。
随着数据规模的不断扩大,作为系统基石的硬件基础设施,将面临新的挑战,也将产生新的自身发展趋势。戴金权表示:“对于英特尔来说,我们认为硬件计算架构将来的趋势,会是一个异构或者超异构。包括英特尔自己也非常看重标量、矢量、矩阵、空间等等各种超异构架构,来支撑大数据处理分析,包括机器学习等等工作负载的计算。”
当然,戴金权补充表示,除了硬件之外,软件的升级也是提高系统性能的必要手段。通过软硬件升级叠加,将得到成倍数量级的提升。
对于未来双方在飞天大数据和AI平台(MaxCompute/PAI)持续优化上的合作,戴金权表示,双方在新的硬件架构技术平台有非常紧密的合作,包括上文提到的超异构的架构,共同探索如何更好地利用新的技术,为大数据处理分析、机器学习平台赋能。另外,双方也合作致力于将AI平台和大数据平台紧密联合,使不同的组件更好地联合在一起,打通整个计算流水线。
【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】