百度开放云大数据产品负责人张琪：开源开放的百度大数据平台_云资讯

9月1日，由工业和信息化部指导，中国信息通信研究院、中国通信标准化协会主办，数据中心联盟承办的“2016可信云大会”在京隆重召开。在9月2日下午的大数据分论坛上，百度高级产品经理、百度开放云大数据产品负责人张琪发表了题为《开源开放的百度大数据平台》的演讲。

zhangqi

百度开放云大数据产品负责人张琪

以下是演讲实录：

多谢各位，非常荣幸有机会跟大家作这个分享。我分享的主题是开源开放百度大数据平台。分享之前我希望大家能够回头想想，我们整个社会有很多的创新，但是有些创新发展的非常好，有些创新却慢慢的淡出了人们的视野，这是为什么？作为大数据来说，现在还是非常创新的事物，为了研究这一点，我用了创新扩散的模型，基本上研究了很多的行业领域，找出了创新扩散的过程。我们可以从左边开始看，最早的一批人，可能只有2.5%，这样的人叫做创新者。当iphone一代发布的时候，今天来看这个产品并不那么成功，但是仍然有热情的人，他们连夜到苹果店排队，都不知道这个手机跟诺基亚的手机有什么差别，他都会排队，使用。这样的人毫无畏惧，甚至可能认为这个产品失败也在所不惜，这样的人我们叫做创新者。后面的是3.5%的，这样的人跟前面的创新者比是会谨慎一些，他会主观判断一下这个东西是否有用，但是他们也会非常高瞻远瞩的。当年呼叫中心刚出来的时候，思科非常有眼光，他觉得客户负担很重，他想能不能有呼叫中心，可以为用户服务，同时把用户反馈的问题搜集出来，整理出来知识库，找到方法，甚至更新我的产品。他们往往成为了意见领袖，能够引领一个时代的前进。

下一部分叫早期大众。我们现在说新能源的车，但是这些早期大众非要等到周围有朋友用过了这个产品，并且证明这个产品不错，口碑都很好这个时候他才会购买。早期大众占了34%的市场，这个市场是我们所有人都喜欢的。晚期大众是比较直观的，周围的大多数人都买了他才会买。落后者是大概占16%。这个模型告诉我们一个技术创新发明是怎样在社会发散的。

我们用大数据比方，也是走了这样的模型，大数据这个词说的比较多，但是在大数据发明之前，在这个社会上微软、IBM这些数据都提供了，但是，互联网来了以后，这些互联网公司会发现，原来这些东西固然好，但是已经没有办法承受这些数据了。以前有一个朋友，他们也很早期，2000年的时候想做大数据，他跑到杭州的互联网公司说我想给你做大数据，他说我这里有1天1T的数据，你给处理看看。其实原来的数据技术都存在，但是互联网的来了以后，使得原先的数据不能处理。早期的时候，以谷歌，Facebook他们作为创新者发布了一些方法。当然谷歌只发了三篇论文，很多创新者接受了他的理念，并且实现了，他们是真正的大数据时代的创新者。

后来以百度、腾讯、阿里这样的互联网公司为代表的，他们是大数据的早期的采用者。他们谨慎的判断了这个技术后，认为这个技术很有前途。百度在早年就采用了大数据技术，早期这些互联网公司采用这个技术以后，会慢慢的程度意见领袖，在国内推广大数据产品了。大数据基本上现在处于早期大众的位置，我是来自百度开放云，我们是一个To B的部门，我们谈了很多的客户，发现国内大多数是处于早期大众，很多企业不是互联网公司，但是他们慢慢的会感到大数据对自己有用。我觉得我们现在增整个的产业格局应该是在早期大众。

我们下一个问题是有了技术，能很快的过渡到下一步，有的技术发展完一半就销声匿迹了，90年代的时候有公司推出过平板电脑，但是后来直到苹果平板才把它发扬光大。这张图稍微有点复杂，这基本上是一个谷歌发的三篇论文，有了三篇论文之后，谷歌还是比较保守的，当时没有发源代码，但是社区很快根据这些论文的原理创造出Hadoop系统，然后推出了hadbase产品。之后还有一个论文，社区做出了HBase，2010年是在Hadoop的核心的内容，之后市场有很大的分化，上面绿色的这块代表分析性的产品，最早的时候有谷歌的这片论文，后面到了2012年，有Spark推出来，不同的功能推出了。下面的蓝色的是流式的，黄色的是批量的数据的，在2013年到2015年一个新的平台推出来了，下面是机器学习的，昨天百度在世界大会上宣布了pasle这个平台。大家觉得是不是大数据是开源驱动的，最早谷歌推出这篇论文的时候，世界上很多公司做了这样的事情。微软和阿里都做了自己的大数据平台，他们非常的成功，但是在开源界也异常的火爆。

说起了大数据就是Hadoop，Spark，开源是大数据真正创新的发展。我们统计了100多个比较有名的开源产品，做数据仓储的，做分析的是作热门的，机器学习极其火爆，仅仅知道过去发生的事情是不够的，预测未来是非常火热的。后续数据的接入，数据的处理，这三块是基于捆绑的数据库，分布式文件系统等等也是比较火爆的。这个图开源很好，但是很混乱。我们总结出了以下几点：

我觉得开源是大数据的新常态。如果我们回到新产品的传播的曲线属性来看，开源在其中起了很大的作用。第一，开源产品大多数是免费的。第二，企业级大数据产品不同，他们的产品大多数基于486的普遍的硬件上，相对来说成本比较低，因为它是水平扩展而不是垂直扩展。第三，很多客户想尝试以后再买。第四，社区的演化速度是非常快的。

使用开源软件的挑战是什么：

第一，选型困难，不知道哪个东西适合我。

第二，运维成本。开源产品本身比较便宜，但是运维是很昂贵的，上周碰到一个客户，有一个小的问题，整个的业务停了整整四天。

第三，弹性扩容。假设你是在企业内部搭的大数据平台，你要批运算，把硬件安装调试，对于弹性扩容其实是很不友好的。

第四，按需购买，如果你是在一个Hadoop上跑，业务有波峰波谷，但是在波谷的时候，没有任何的收发，结点的成本还是要付的，有没有方式是按需购买，只为使用的资源付费，这是使用开源的很大大优势，但是现在很多的开源做不到的。

第四是缺乏整合。开源软件非常集中在数据仓库这块，流式处理这块，之间是怎么整合的，真正写代码的人，心里的苦只有自己知道。

站在百度开放的角度，我们是想怎么解决这个问题的。在7月份的发布会上我们发布了天算的大数据平台。红色的是数据的接入，绿色的是存储，蓝紫色的是分析。我们除了最基本的公网上传外，我们还有日至服务BLS无，还有互联网服务LOT，如果你原来的系统是用的标准协议的话，可以很快的用到这个服务，并且使用。这个服务是全托管的服务，只要为你使用自部分付费就可以。

我们提供了一些纯托管的服务，如果今天的业务没有任何收发就可以免费。这是关系数据搜索ROS，左边的是关于BML的机器学习，强有paddle深度学习。当你使用这个服务的时候，只要一键下去，说我要三个节点，五六分钟就可以使用。右边的是BBC，这个批量处理跟Hadoop不一样，Hadoop是你有一个大的任务拆解成比较小的任务计算，而这个批处理更适合精英分析和视频渲染的场景，就是你的任务本身不好拆解，但是任务很多，这样的话做一个水平的扩展就会很方便。

这三款产品是分析型的产品，这个是关系型数据的引擎，这个会非常非常快，百度统计应用，在自己的网站上嵌入了一些代码，就可以看到一些用户的属性。全国所有的百度统计背后就是一个paob的实例。在处理这种表格型的数据外，我们还提供了sql。最后是对文本进行分析的，这三个产品有自己的定位，这是表格型的，关系型的，这是树型的，这个是纯文本型的分析，上面都可以接数据的可视化。我们知道，开源是相当不错的，但是有一个问题，每一个产品好像都自己要做自己的可视化的方法，我们希望把整个的可视化做成抽象的平台，遵循相应的标准，我们就可以对接世界上好的可视化平台。百度开放已经和领先的BI工具签了技术合作伙伴。再往上是数据的解决方案。本质上我们遵循的本质的概念是开源和开放，我们说的开源是要么用开源的产品，要么我们的产品提供了跟开源产品兼容的接口。

下一个我们想讲的是关于开放，开源产品跟以前不太一样，以前很多的企业的软件会把源代码束之高阁，成为企业最静定的保存。但是现在的开源产品非常的丰富，缺的是接口的标准化，如果产品不能遵循接口标准的话，不能很好的互动。我们现在的产品都是基于开源的标准接口。我们右边可以随便接，这是对大数据的普及是非常重要的。非常懂业务的人它的技术稍弱一些，懂技术的人业务不是很好。经常是产品经理求着工程师说帮我做个报表，整个过程也是花时间的。整个过程并不怎么敏捷。有了这种BI工具的支持，只要你懂业务就能自己做分析，不用写任何的代码。我们通过开放的策略，能够和世界上顶尖的BI工具的整合，为大数据的使用拉低了门槛，会非常的方便。

我们的主题是关于可信云，我们个人觉得，大数据的发展开源在里面起了巨大的作用。开源产品万般号，但是在商业应用中有很多问题，比如说能不能保证接口兼容，因为大数据的时候非常害怕的是，如果被你商家私有的协议锁定以后，我到时候没有任何的抵抗能力。对于开源的接口是很重要的。另外是产品的本身，我们用户在产品里碰到了很多缺陷，这些缺陷导致了业务的中断，而我们本身是大的应用者，在内部所有的部门都用的同样的产品，他们已经把这个坑都踩掉了，然后才把整个产品拿出来。我们相信这个可信计算在大数据领域，特别是开源软件运行的时候是至关重要的。

最后，快速的介绍案例和解决方案。一个是关于日至分析，是你的敌人而不是你的朋友，将如何造高墙去保护这个城市。在运维商业网站的时候也是这个道理，当创始人有很好的愿景，但是这个网站真正做成什么样子的是你的客户。你一个一个采访用户的话，时间的成本是很大的，同时需要技巧，才能从用户身上挖掘到痛点。但是数据是不骗人的，我们的解决方案是基于开源软件的产品，比如说这些机械日志，我们可以用Hadoop做定时的清理，可以随时搜索，也可以方作palo里做数据分析，也可以把这些标准数据放在机器学习里跟用户做相应的推荐。

另外日志搜集的数据可以时时的做预测，比如说有一些服务可能出问题了，可以很快的通过工程师去维护，或者是分析出我的网站正在遭受攻击，可以很快的作出响应。

还有一个场景是社会违法的，比如说以前的电梯，一年买六次的保养，其实各种因素导致一个电梯需要保养的次数是大相径庭的，我们可以搜集电梯的状态，训练的模型，就能够知道这个电梯什么时候应该具体的修几次，更重要的是我们可以改变原来的业务模型，原来是按照次数提供服务的。如果我们能在这个电梯里99.99的情况下不停机，你会愿意付更多的钱吗，这个是很有吸引力的。当然对飞机引擎是更有吸引力的。这个是风车，可以通过风机，3G，可以通过数据的搜集，然后通过KAKA，对历史数据进行建模训练，通过流式处理退给他，然后做预测，如果有问题的话，就能知道这个风机损害之前就能够把这个问题消灭在襁褓中。对于风车也是有刚需的，风车动的时候才能发电，停下来什么都没有了。

我们通过这两个解决方案，其实是非常现实的说明目前基于开源服务的大数据的解决方案在社会上是得到了很好的收获。

最后，我总结一下，大数据原来是个创新，今天我们是处于早期，在大数据的创新过程中，开源起到了至关重要的作用。刚才给大家看了图，开源有万般好，但是使用起来也是有代价的，我们希望能够提供开源软件的运营，使大家很方便的使用这些开源产品，但是运维和弹性扩容都不用再担心。同时，使用大数据的时候，有很多的缺陷，百度是大开源软件的实践者，我们在这里踩了很多坑，我们把这些缺陷都提交给社区。这样的大数据平台会推动大数据往前走。所以我们非常开心的，我们希望合作，能够把大数据用开源解决的方案，为用户带来价值。谢谢大家。