7月2日,2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边,可信创未来”为主题,由中国信息通信研究院主办。

下午13:30大会特设的智能云论坛活动正式开始,中国信通院云大所云计算部工程师郑立对智能云标准体系进行了深入解读。

中国信通院云大所云计算部工程师郑立

中国信通院云大所云计算部工程师郑立

大家好,欢迎大家来参加我们智能云分论坛。大家听完上述演讲,可能会有疑问,智能云使能平台,到底有没有一些衡量的方法?我们信通院针对当前智能云发展情况做了一系列标准,下面我简单给大家介绍一下我们所做的工作。

一、认识人工智能

人工智能本质是一个参数可学习的复合函数,这个函数有两个输出,是或不是。其实是一个纯数学的问题。再往上是AI的计算方法及模型,什么叫计算方法?就是算法,通过我们设定的某种规则,然后让函数输出我们想要的结果,比如我们输入很多参数,通过一系参数算子的操作,最终得出想要的结果:是或不是。为了实现这个目的,我们生产了通用开发工具以及平台。我们需要这些算力和平台验证这个过程。当条件都具备以后,才有AI落地最后的结果,就是AI应用场景以及实践。从图中这个圈子看,越往上涉及的面越广,场景也越多。当前,AI应用场景以及落地到了什么程度?不仅ALphaGo可以和人下围棋,甚至人类现在玩游戏打dota都打不过机器人,确实发展的非常厉害。

当前对我们普通人来讲,人工智能到底是怎么一回事呢?

人工智能落地是一个流水线的过程,首先要采集数据,没有数据是没有办法做任何操作,也没有办法得到我们想要的结果。数据采集的过程需要人来做。

数据采集完成之后要进行环境的配置,也是由人来进行的。如要用到GPU,可能用到英伟达GPU,下载相关的驱动版本CUDA,如果用到卷积网络的话,要下载匹配相应版本的CNDNN,在此如果用到Tensorflow等,就要下载相应的框架,要有对应的版本,这些过程其实是非常复杂的过程,相信大多数从机器学习入门、人工智能入门都会经历这样一个非常痛苦的时期。

当算法能跑通,想做一些验证性能好不好,把模型搬到环境上,需要不断调参数,就像炼丹师,把参数加一点进去,看模型会变好还是直接爆炸,验证的过程也是一个非常让人掉头发的过程,非常痛苦。

当把这些工作都做完以后,等到模型去部署的时候,这时候才真正用到了智能,我把这些模型放在服务器上面,写一个脚本跑起来了,就不用管了。

通过这个流水线可以看出来五个步骤里有四个步骤需要人来操作的,所以当前人工智能20%的智能+80%的人工,一点都不过分。云能解决什么问题?云解决的问题是80%人工的问题,如何能缩短80%的时间是云要做的事情。

为什么叫智能云?智能可以理解为是一个形容词,也可以理解为是一个名词,在这里是一个名词。没有算力、没有数据,我们天天说AI,天天说人工智能,其实是一个虚无缥渺的空中楼阁。必须有算力,对这些数据进行操作,才能说AI真正影响到了我们。

这些数据以及算力从哪来?现在云计算已经不单单是一个提供算力的水电站或发电站这种基础资源,是集成了各种各样工具的大仓库,企业目前都在纷纷上云,这样云端数据会越来越丰富,数据量越大,对AI产生的影响是质变的。

云计算还有海量的资源,弹性的,理论上来讲可以无限去用,满足所有的需求。AI需要的这两个元素,云能够完美地契合。我们要实现AI技术的雅俗共赏,而不是少部分精英的游戏,需要云参与进来,最终形成一个智能云的体系。

智能云方面我们也画了一个圈圈图,最外圈是基础资源,这是云的最原始形态,引入AI属性以后,为了方便大家做开发,做模型的调试、调参,各家都有使能平台,用云给AI使能。再往上,如果不愿意做这种开发,不愿意调试,也没有问题,训练好的一些人脸识别,直接以API的形式暴露给你,你要用就调用,直接可以用证件OCR或语音转写等相关工作。有些人如果连API调用也不知道的话,有一套完整的行业解决方案,如有一条精准营销的方案,有一套推荐系统方案直接给你,可以直接去用。所以只有在云的基础上,人工智能才能真正实现落地,对我们普通人来讲真正实现了AI技术的雅俗共赏。

什么叫雅俗共赏?古时候白居易写了一首诗,总会给村口老大娘先读一读,老大娘觉得好的话才算是一首好诗。AI也没有特别高雅的地方,普通人能认可和接受就是好的技术。以后搞人工智能落地,一定是普通人都能享受到其便利的时候。

基于以上,我们把智能云分成三个层次,每个层次对应的界限非常清晰,首先是基础资源,目前针对GPU、FPGA做了一些标准,然后是使能平台,最上层是智能云应用服务如证件OCR,后续标准会不断丰富。

二、GPU云主机评估方法

主要面向用户,当厂商提供GPU云主机时,会说我的GPU云主机非常棒,作为用户选择时有没有一些方法?给大家一些参考。

材料审核、运维审查、基础测试涉及公司层面会多一些,普通用户更关注的是性能评估。在性能测试方面:

基础配置验证主要是核实一下买的机器和实际情况是否一样,比如买了一个GPU云主机,看看显存跟你所说的是否一样。我们考虑到在性能方面目前大多数人买GPU云主机也是做一些机器学习、深度学习的场景,针对这些特定场景设计了一些测试力,在Tensorflow框架下用这些经典模型做训练和推理,把指标拉出来做一个参考项,用户可以直观看到这些指标,他去判断这家GPU云主机是否是好的。

视频编解码场景,我们提供一些框架、供给,解码速率是否满足宣传需求。

三、智能云使能平台标准解读

随着数据爆发以及AI算法的愈发复杂,单机上运行的机器学习任务存在缺少资源隔离、无法动态伸缩等问题。

智能云使能平台是基于云强大计算能力的人工智能学习服务平台。它能够对各种数据源、组件、算法、模型和评估模块进行组合,使得算法工程师和数据科学家在其之上能够方便地进行模型训练、评估和预测。

一个完整的平台不仅有功能,还要有工程上的完备性,这个框架分了几大块:基础资源层,肯定要对基础资源能够管理,包括资源的管理、调配、分布式资源调度,以及对异构计算的支持;在此之上看一下功能,大家经常会接触到宣传广告上其实都是说平台功能、性能表现如何。在此之上考察一个平台的性能,平台好坏会有测试例公平检验,然后给大家一个参考值。平台安全的要求,如用户鉴别,但这也是一个非常重要的部分。平台高可用性,我们平台如果稍微经历一些挫折直接崩溃,肯定也不是好的平台,也不是合格的平台。所以在高可用方面,我们有断电恢复、自动保存等几个功能,从这个块考察平台的高可用性。

——基础资源层

资源管理。首先是平台会对依赖的基础资源IaaS的资源进行有效管理,以支持机器学习的模型训练、推理等任务的进行。

资源调配。平台应具备用户创建资源时自由选择或更改配置的能力,具备资源的自动回收能力。根据具体的任务来进行资源的升降配。

分布式资源调度。平台为了支持大规模的机器/深度学习任务,需要整合大量的计算资源,需支持分布式集群资源的调度。

异构计算支持。在进行机器学习任务的训练和推理时,往往需要处理海量的数据,进行巨量的计算,需利用异构计算的并行计算能力来加速任务。

——基本功能

顾名思义是你能完成这一套最简单的功能:

算法开发管理,用户需要有一些算法开发的管理工具,如DAG五图、Notebook等。

算法库,减少用户自己去设计代码时间。

初级模型管理,指模型训练好之后,增删改问题,必须要提供这样的功能,否则对模型是没有可控性。

平台迁移性,主要是指模型的迁移、数据的迁移,原始数据导入进行处理之后得到中间数据,能否给我弄出来,用作它用。目前通过首批评估来看,这两部分大家都可以支持。

多框架支持,满足大家对学习或开发不同平台架构的要求,Tensorflow、Caffe、PyTorch等。

多存储方式支持,支持数据集的多种存储接入方式。

数据预处理,能否对传入的图片、音频等非结构数据进行操作,能否对数据进行批量的操作等等。

如果满足以上这些功能的话,可以在这个平台上把80%的时间节省为30%左右。

——高级功能

多语言支持,现在机器学习Python多一点,我们要求一个平台不仅只能支持主流的Python,也要能支持其他语言。

API封装,主要指平台提供很多功能或组件、或操作,以API形式很简单提供给你,甚至都不用去读一些服务的契约,直接可以调过来使用。

场景模板库,平台里面会给你提供很多场景模板,已经训练好的,针对自己的需求可以把这个模型拿过来,然后做微调、二次开发,这相当于直接跳到了流水线的模型验证部分,节省了60%的时间。

内置数据集,初学者有数据集,不用标注,可以快速验证你的idea是否合理,内置数据集也可以是企业为了这个平台自己标注一些小的数据集或提供开源数据集的链接。

高级模型管理,在模型训练之后,涉及到上线,也是一个工程性问题。

分布式任务,能够同时运行很多任务的并行能力。

自动学习能力,数据到处之后直接选择分类,这个平台能够同时选择很多分类的算法,然后把这些指标做一个对比,最终推荐一个效果好的。机器学习半自动提供参数调节器,可以调参,这是可以控制的,全自动是所有都不用管。

效果可视化,也是中间一些操作的可视化。我们在测试时发现,神经网络、机器学习到哪一步之后,输出的数据是什么样的,都完全可以看到,这个完全是白盒,每一步做什么操作,有什么影响都可以看到。高级模型管理中的版本管理可以回退、AB测试、灰度发布等等,另外测试指标可视化。

——高可用性

有断电恢复、自动保存、监控告警等。

——性能要求

训练性能、推理性能、集群加速比、交换延迟。

测试方法,第一个是推理的,用Inception为模型进行多并发推理性能测试,并发数20个用户。

集群加速比以及训练方面使用Horovod benchmark进行训练以及加速比测试。

——平台安全要求

包括了用户鉴别,权限控制,日志审计。

对于后续工作安排,目前我们SaaS做了三个服务,使能平台做一个平台标准,底层资源做了GPU和FPGA的标准,后续会丰富使能平台的标准和SaaS标准。

另一个重要的事情是对于GPU、使能平台,我院比较权威的测试case能形成测试库,供客户自己去检验。

大家对机器学习平台感兴趣可以加我微信,有时间可以进行交流。

我的演讲就到这里,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-03 14:53:00
云资讯 2019云计算开源产业大会丨郭维河:云数赋能,山钢集团数字化转型经验分享
7月2日上午, 2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边,可信创未来”为主题,由中国信息通信研究院主办。 <详情>
2019-07-03 14:50:00
云资讯 2019云计算开源产业大会丨董恩然:云边协同与可信物联网云相关标准
7月2日上午, 2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边,可信创未来”为主题,由中国信息通信研究院主办。 <详情>
2019-07-03 10:18:11
云资讯 2019可信云大会 | 郭润平:企业服务市场SaaS云端创新
郭润平:非常高兴有机会在这里花一点时间跟大家分享,我来自与西云数据。西云数据2015年在宁夏中卫成立的,aws在全球云计算的状况大家知道,2015年把它的技术引进到中国,2 <详情>
2019-07-03 10:15:12
云资讯 2019可信云大会 | UCloud刘异:云计算赋能智慧政务
刘异:感谢各位来宾来参加这个分论坛,我来自UCloud,是政企事业部架构师。我分享的材料有几部分:智慧政务发展概述,现在智慧政务面临什么挑战,重点要解决什么问题;梳理 <详情>
2019-07-03 10:12:20
云资讯 2019可信云大会 | 张琳琳:2019政务云评估佳实践
张琳琳:尊敬的各位领导、各位嘉宾:大家下午好!我是一直在从事政务云相关标准制定和评估工作,我主要从第三方评估的角度分享一下在我们眼中看到政务云市场上最新的发展特 <详情>