为了进一步促进云计算创新发展,建立云计算信任体系,规范云计算行业,促进市场发展,提升产业技术和服务水平。由中国信息通信研究院、中国通信标准化协会主办的“2018可信云大会”将于2018年8月14日-15日在北京国际会议中心召开。
随如今,云计算已经发展了10余个年头,并逐渐形成庞大的产业规模,企业“上”云也并非难事。但不断出现的信息数据泄露事件给火爆的云计算界敲响了警钟,企业开始逐渐意识到云计算的风险性,明白部署哪一种云都有可能受到黑客攻击。虽然云计算可带来显著的优势,但潜在风险也不容忽视。"2018可信云大会"邀请了行业内多位大咖与权重人物共同探索可信云与云计算的创新发展新路径。
以下是北京邮电大学副教授,硕士生导师陈光:《浅谈AI思维》演讲全文:
首先自我介绍一下,我是来自北京邮电大学的人工智能研究院的陈光,实验室是模式识别与智能系统实验室,一直以来从事模式识别和人工智能方面的研究,今天给大家带来的分享是“浅谈AI思维”。特别荣幸受到大会的邀请,今天从另外一个层面谈谈对AI的思考。
所谓AI,如果要给它界定一下的话,应该包括两部分,一部分是怎么样认识AI就是我们所说的AI的世界观;另一方面是怎么样用AI的方式思考,这部分可能更重要,所以我今天分享的东西对大家来讲更多是一个抛砖引玉,希望引起大家的思考,如果能引起共鸣就更好了。
首先我们先来看一看AI的世界观,有些片子大家可能在各个地方都看过,但是今天讲的东西大家未必在别的地方听到过。
AI目前整个世界观是怎样的,目前的AI世界观是由三部分构成的,一部分是人工智能技术、一部分是机器学习技术、一部分是深度学习技术;刚才有朋友介绍了阿尔法狗,包括后面打游戏都是基于深度强化学习,深度强化学习实际上是深度学习的一个分支,深度学习实际上是用神经网络做模型的训练和模型的利用。现在大家一提到人工智能很多人都知道阿尔法狗,如果再深一点的知道深度学习,未必知道深度学习在人工智能大的体系里面是什么位置,首先机器学习是人工智能里面的一部分实现技术,或者说用到的人工智能应用里面的一个核心应用技术。深度学习其实算机器学习的一个分支,算是一个表示学习的技术方法,所以他们之间是这样一个包含关系;
另外一个角度是时间的维度,在1980年之前更多谈到的是人工智能,从80-2010年之间更多在提机器学习,10年之后谈到的是深度学习。这三个阶段是怎么划分的呢?实际上就是AI的两次寒冬,第一次在80年,第二次在10年之前。这两次寒冬是怎么来的呢?
在这张时间轴上我们看到,AIwinter发生了两次,第一次的AI寒冬,11年之前第二次AI寒冬虽然没有标出来,在两次AI大的高速发展阶段里面都有一些比较有标志性的节点,第一次之前最早的时候1950年提出了图灵测试,图灵测试就是在互相屏蔽的情况下,比如一个帘子后头可能是人也可能是机器,你跟它聊天,如果判定不了它到底是机器还是人就算通过了图灵测试,50年提出了图灵测试的概念,到了55年在人工智能的会议上才提出了AI的概念,所以55年也算是一个非常重要的节点。虽然人工智能的概念,但是这样一个概念到底应该包含哪些技术、到底该怎么发展?大家都还比较茫然,之前研究的是符号推理,它研究的是传统的专家或者知识库的方法,和现在的人工智能系统还差的非常远。
接下来给大家分享一下到底AI的寒冬本质是什么?到底是什么造成了这样一个寒冬出现?到97年深蓝出现了,打败国际象棋的第一个系统,98年有了第一个情感机器人,情感机器人更多是情感的表现,而不是情感的交互。2016年微软推出了TAY也是对话机器人,最早的机器人是针对自然语言对话推动来的,它上线以后很快就撤下来了,因为它面对整个社区上所有的网友进行互动的时候,很快被网友给带歪了,号称是在线学习的机器人,在社区里面很多人进行互动的时候用一些种族主义、性别歧视的语言包括一些粗俗的语言对话,它很快学习到了这些,从学习的某种意义,它其实还是一种模仿。到目前为止整个AI的发展更多还是一场模仿游戏,更多是模仿人在进行某些系统的判断、系统输入输出的时候,在模仿其中内含的推理过程,但是它并没有真正的理解。
整个AI圈层结构应该包含四个层次,最底层的是数学原理,再往上是算法和模型、软硬件平台、应用技术。数学原理主要是AI的基本机理,如果再本质一点就是参数可学习的复合函数,刚才讲的这场模仿游戏真正的脑子其实在这儿;
第二个层次是算法和模型,算法模型层面上包括AI基本的算法流程和模型;
软硬件平台包括今天大会的主题,高性能的云计算平台,包括已经开源的框架,tensorflow、pytorch、keras等等越来越应用广泛了,像谷歌、facebook支持开源的框架,本身参与到开源框架的开发里面,从某种意义上讲也是在布局抢市场,因为将来这些开源框架的使用直接会关系到他们自己在出的开源的云平台,云服务将来市场的占有率,所以在这些开源软件的背后实际上是企业之间更深层次或者更长远范围内的较量。
这些应用也好、发展也好,是不是表示现在的AI真的已经达到了理想中的境界?大家在很多场合里面都在说AI是什么。但是很少有人告诉你什么不是AI,或者AI不是什么。比方说科幻,现有的科幻作品里面对于AI的描述,比如家庭的AI保姆、能真正和你谈恋爱的机器人、《未来世界》里面这些真正具有人的智能。能和你进行感情和生活上交互的,这些都是科幻,科幻和现实之间的差距是非常非常大的。
第二类叫做炒作Hype和公关PR。刚才提到了AI的冬天为什么会出现?很大的问题在于炒作和公关,炒作一般是谁来炒作,企业或者科研机构可能更多还是媒体。公关是谁公关?大部分是企业,像现在谷歌发布了很多的新闻,它的技术价值、学术价值或者突破性的价值非常低,引起了众多的关注,它抢眼球的能力特别强。这种炒作和公关更多是为了吸引大众投资化政府关注,对现有的成果进行夸大的宣传,目的是吸引投资获得支持。刚才讲到的两次寒冬和这个有什么关系,这两次寒冬就是因为忽悠过劲了,总在说明天我们就实现了真正和我们一样的机器人,明天就实现能和我们谈恋爱的机器人,所以有大量的资金和大量的支持涌进来的时候,过一段时间大家发现,目前技术还远达不到这个状态,持续关注AI的人就得不到相应的支持,相应的寒冬就出现了,直到有下一波新的技术出现,大家又燃起新的希望了,所以现在大家也在想,现在新一轮的寒冬、这一轮泡沫是不是需要出现,寒冬是不是已经降临了,可能还要再看一看。
曾经的“自动化”电器,说起来有点好笑,全自动洗衣机、全自动洗碗及、全自动农作物的分捡机械,在当时都是智能设备,但是目前来看算不算智能,已经不是AI的一部分,在《社会机器》那本书里有个非常好的判断标准,什么是真正的AI,现在机器做不了的事是真正的AI,如果现在机器可以做的都算不上是AI,这实际上也不失为一个判断的准则。
在当下我们该怎样冷静客观的看AI的发展,首先现在的AI技术核心还是机器学习,我们取得突破的实际上不是AI里面除了机器学习以外的那些部分,而仅仅就是机器学习的这部分,可能更多来讲,除了机器学习里面的经典方法以外更多还是深度学习方面的技术,所以大家有关注学术圈的话,可以看到铺天盖地都是深度学习的论文,真正AI的实现更要依赖逻辑推理和决策,在这些层面上的突破实际上还离我们非常的遥远。
另外很多的AI系统实现仅仅是输入和输出的模仿,还远远算不上是智能。所以我专门把讲图灵的电影《模仿游戏》找出来了,“模仿”这个词非常的贴切,包括所有AI应用的大图里面,每个应用都可以从模仿角度上给阐述一下内部的实验机制,实际上和真正所说的智能的推理,自主的智能还非常的遥远。现在所谓的强人工智能还没有公认明确的定义,有一种观点,强人工智能就是讲的通用智能。为什么强人工智能这么难?非常重要的原因在于,首先定义就不好定义,强人工智能有些朋友讲,阿尔法狗下棋这么厉害,又出来了zero,又出来打游戏的,不表示机器已经比我们强了吗?如果客观来看的话,现在所实现的在围棋、游戏上的突破更多的界定为特定领域的窄问题,在这个窄问题上有哪些特点呢?第一相应的规则都已经掌握了,都可以描述,都可以让计算机输入进去,这些东西也是我们的知识。
另外一部分有充足的数据,不管是已有的还是让它自己去下创造数据,这个过程里面都需要充足的数据。第三点,人对所有的数据是不能进来的,而机器有这个优势,它可以不睡觉,可以快速的浏览和分析。基于这三点算法是比较容易进行这些问题的处理的,所以有了在围棋打游戏领域,只要有足够的算例、合理的算法都可以战胜人类,但是这个战胜人类是打引号的。
机器学习还远没有发展到足以成为一个可靠的工程理论,一些工程的实现对于它的稳定性要求是非常高的,机器学习还没有达到这个层次。目前对AI的提法,AI=IA+II,什么是IA智能增强,就是在人已有的能力或者人已经掌握的可描述的推理或者规则的层次上面,让机器增强人类的能力,比如人的运算速度不如机器,让机器完善运算部分,但是真正的推理由人来做,机器是作为人的延伸。有个特别好的比喻叫“我们做的到底是个穿着人皮的机器还是穿着机器皮的人?”穿着人皮的机器是说,这个东西本身发展到足够的水平,套了人皮分不出来它是不是人。另外是套着机器皮的人,现在看到有机械外骨骼、有些科幻电影戴上头盔可以把我的智力延伸,可以和一万个人同时谈恋爱。另外一个叫智能技术件,像是从硬件平台上面大规模的云存储云计算,还有一个层次是已有的智能处理的组件,像图像的识别、图像的增强、目标的检测,这些层面上这些基础件都能够帮助我们将来完善或者搭建更好的智能应用。
说到底到底什么是AI的思维?AI思维是将AI技术和工具合理有效的应用在实际问题上,本质上是一种应用思维,不是让大家学技术,现在有一种偏见是学这些东西学的是其中具体的技术。让孩子们掌握算法就是了解AI,但实际上不是,如果他了解技术同时又能够了解问题才真正是具备了AI的思维。重点是看待和分析问题的角度和思维方式,如果它能够从生活里面发现一些能够用算法提高效率代替繁复工作的方法或者发现这样一些问题,这个才叫思维。
同时我们还要避免“拿着锤子找钉子”的误区,深度学习发展很快,很多问题可以用深度学习解决,但并不意味着所有问题都用深度学习解决就合适,所有的问题未必是最新好问题的好的解决目标,要避免这样一个误区。重点在于问题本身而不是技术本身,怎么样找到合适的问题,怎么样用合适的方法解决应对这些问题、怎么样从合适的角度思考问题永远是我们最重要的一点。
最后是几点小的思考:1、AI的核心现在是机器学习,机器学习的核心是什么?我以为机器学习的核心/本质就是表式学习。表式学习是在已有的数据里面找到一个合适的看待角度,或者学术一点的话是找到一些合适的特征表示他们,有这了合适的角度、合适的特征就可以解决更多的问题。同时现在深度学习也把它叫表式学习,它是从图片里面逐层抽取一些抽象的更好的、更适合表达图像本身性质的数据/特征。在表式学习里面最重要的一点就是增强范化性能,能用现有的学习到的东西解决没见过的数据里的问题,左面的这个仅仅只能解决见过数据周围的东西,好的范化可以解决同类型的更多的问题。所以核心还是范化。
2、另外一个问题是怎么样让人和机器能够达到很好的结合,现在有一种观点,human in the loop,人在环路,是让人和机器共同学习,或者人干一些机器目前无法掌握无法理解的东西去标注信息、完善规则、完善它的推理过程,让机器达到更好的状态,让人和机器原来都很头疼的问题,转化成人和机器可以共同高效率完成的问题。
关于AI的效能;大家现在用到的所有电器都有一个能效标志,到底在第几级,我们会看一下是否省电,目前来讲AI的发展更多专注于性能层面上,但是我们相信在不久的将来一定会把关注点更多转换在效能上面,因为我们知道地球也在变暖、地球的能源也是有限的,怎么能有限的利用现有的能源,利用有限的能源更多的产出就是效能。现有神经网络机器学习的算法它的效能可能需要的功耗是100瓦,人脑只需要10瓦,目前机器的神经网络每个单元输入和输出就是1-3,而人脑每个单元输入可以达到上千,所以我们看到人脑的特色就在于它是用大规模并行处理大大降低了能耗。所以从这个角度来讲,目前的性能还是有很长的路要走的,这里面现在也有了一些线索,怎么样提高现有的人工智能应用或者算法的能耗,比方说用一些前移学习、用一些特定的FPGA特定的硬件降低能耗,包括现有架构层面上做一些边缘计算的处理都可以降低能耗,通过模型和重用减少训练时间,这些都是降低能耗的方法。在未来降低能耗一定会成为我们应用的重点。
最后一点思考,关于环境的改造和适应,举一个例子大家就清楚了,无人驾驶都在告诉大家走在路上根本看不出来是人在开还是机器在开,甚至于在进行测试环境也是这样进行测试,但是实际上这里面有很多问题,我拿我的技术在一个实际场景、实际环境里面跟现有的应用模式死磕,实际上我们应用AI可以从更好的角度出发,大家知道这是driving.AI创立的试点,它有一个广受好评的思路,也被大家誉为最接近无人驾驶的实验。它是怎么做的呢,它是让所有人知道我是无人驾驶的机器,有个屏幕,告诉后面的驾驶员我是无人驾驶的机器,这样有什么好处?实际上可以避免很多问题,如果在后面的车不知道你是不是一个机器就把你当成一个人去看待,机器现在还照顾不到的问题后面的驾驶员可能就不知道,所以明确表示我是一个机器在开这个车,确定的时间、确定的场景、固定的停车点,所有这些为无人驾驶汽车量身打造的应用环境,它的推广和应用效果反而会更好。所以从这个角度来讲,有时候我们在进行AI技术落地、AI产品和系统设计的时候量身打造一个应用场景、应用环境可能是更合适的,而不是用现有的技术和现有的应用场景死磕。这一点在无人车、无人驾驶问题的探讨里面很早就达成共识,将来一定会在基础设施层面上有个崭新的设计,不管是有专门无人车的道路也好还是无人车上下车,有专门的规定,一定不是在现有的四车道里面和人驾驶的车混在一起。
这个就是我们关于AI的认识和AI应用的思考,也希望大家能够多多交流,谢谢大家!