王威:今天非常有幸能参加这个大会,能跟大家分享在新东方信息安全这个层面上的一些探索,在座的大家应该都知道新东方,相信有很多人都念过新东方或者自己的孩子在念新东方。我今天主要跟大家讲一讲,从我们的基础架构层面上,看待新东方信息安全在未来智能化方面的探索。我负责新东方整体基础架构的建设,包括整个云平台、IT服务的交付,当然也包括信息安全。从我这个角度上来看,信息安全不单单是合规、规范、风险,更关注的是整体信息安全技术如何能够控制和保障我们在企业里面碰到的一些实际安全问题,它最主要还是控制我们实际的业务风险。
首先我会花很短的时间介绍新东方和新东方内部的信息化系统。新东方成立于1993年,是2006年在美国纽交所上市的,我相信大家应该都比较了解新东方董事长俞敏洪老师,俞敏洪老师比较倡导教育的公平化,同时也希望利用信息化的技术和IT的技术,能够提升学习效率和体验。
新东方其实是一个很庞大的整体产业公司,它涵盖了从学前到成人的很多年龄段对的教育。我们每年培训150万学员,我们有4万多名老师,包括我们在全国拥有1000多个校区,4万多间教室,整个这样一个体系来构筑了新东方的业务其实是一个多元化的,面临多种用户年龄层面的这么一个培训机构、一个集团。
应对这么一个庞大的业务体系的集团,我们在内部基础架构这部分,这几年构建了一个混合云机制。也正是因为这个混合云的机制,给我们的信息安全带来一些新的挑战。我们可以看一下混合云的机制涉及到了IAAS、PAAS层,涉及到公有云、私有云的,我们最后实现了云门户的交付,主要解决了下面的子公司、各个不同业务条件的项目,他们可以用自助、自服务的形式来解决他们IT资源获取的需求。
我们整个内部云服务的服务体系,基本上涵盖了新东方所有基础设施能力、基础服务能力、应用服务能力的这三层的框架。从垂直的部分看,其实是我们的IT交付服务还有信息安全,今天我们跟大家分享的主要是信息安全,其实信息安全服务贯穿整个新东方信息服务化的所有层次,从最低层的基础设施到最上层的应用服务,其实都会涉及到和涵盖。
我们的业务体系是非常庞大的业务线,这是我们新东方内部比较重要的系统,我们把它罗列在这个地方。其实我们可以看到,分为整个三大层面,第一大层面就是最下面的运营服务层,这个运营服务层很像我们很多传统企业里面,正常的会有的多个系统,这个跟在新东方一样,也同样会存在。新东方会有教育培训行业一些比较特殊的系统,与之对应在上面会有非常庞大的产品服务体系,这个产品服务体系其实是2C的,是让我们的学员或者家长使用的,在不同的年龄层、不同的产品线、不同的品牌都会有自己的独立的应用服务和产品,所以这个体系也会有很多的应用系统来支撑。
因为大家也知道教育培训行业是一个非常依赖整个互联网营销或者是整个营销转化的行业,因为它需要用户,因为它2C。我们会有自己的官网、社区、微信服务平台、教学工具、英语学习工具等等,这一些的互联网各种各样的网站也好、APP也好,也构筑了我们的获客流量的渠道,最终可以把用户逐步转化成新东方的一些用户。从这个体系来看,新东方非常类似一个互联网的公司,这个互联网公司会有很多很多的产品。
我刚才讲了整个新东方的体系架构以后,实际上回过头来我们看一下我们在信息安全上可能会遇到的问题。首先是我们在2014年,信息安全部门在做整个数据中心梳理规划的时候画的一张矩阵图,这个图主要的目的就是为了隔离和区分在不同数据中心里面,不同业务级别的访问控制权限。这个访问控制权限我们可以看它分的很细,目的也是为了把我们的风险能够区分到最小颗粒度。这里面打个比方,我们有外包团队研发的团队,有外购的系统,也有我们自己研发的系统,这三类系统在我们的安全矩阵里面,其实它是分属于不同的安全域,这样可以有效隔离数据访问和一些数据安全的问题。这个安全矩阵非常有效的支撑了我们大概跑到了2017年,也就是去年。从去年开始,我们就开始面临非常多的问题,在这个矩阵上面,首先暴露出来的实际上在落地这个矩阵图的部门,我们叫网络部门。网络部门抱怨这个图已经实在没有办法在每一个业务上线的时候把业务放在这里面去了,因为业务和业务互相之间访问复杂度越来越高。按正常的理解,业务和业务之间应该通过API的调用,但其实在实际业务开发和使用过程中,这个原则其实是很难遵守的。
我们现在在新东方内部有大量的数据同步是依靠数据库,数据库互相之间的CDC来进行同步的。所以如果像刚刚我们整个产品矩阵,我们有那么多产品,它的基础数据都要靠数据来同步。如何规则都要服务于业务,不遵守规则业务就不能干,所以就需要有特殊的工程去开通它、管理它。2017年基本上平均以每周一到两个的特批申请的许可,在这个安全域上打洞,截止到现在我们已经打了100多个洞,而且这100多个洞打了以后没有人去封,打完就放那了。所以到2018年我们发现这个问题越来越大,安全域的控制其实已经是有名无实的,所以这也是我们所面临的整个在业务发展过程中,或者在云化过程中,我们碰到的一个安全问题。
另外一个问题是我们的WAF组网问题,以前我们的安全控制策略基本上都是很传统的,就是控制,我们先设定边界,刚才这个图是我们先设定边界,设定边界以后通过放安全设备,来进行控制和审计,WAF其实也是这样做一些控制和拦截。我们以前北京有三个数据中心,我们在三个数据中心出口都有WAF的部署,但是在2017年我们在做整个数据中心的云化过程中,我们需要首先解决的一个事情是我们要跟运营商实现整个上连链路的负载均衡和冗余,这时候他们需要跟我们内部数据跑,其实大部分WAF设备是不支持的。另外一方面,我们整个业务增长以后,我们在这个数据中心的业务流量变化也会非常大,比方说新东方其实现在每年都有一年四次类似于像京东6·18或者淘宝天猫节的促销活动,每次我们活动差不多在5分钟之内可以成交1个亿的订单。所以大家可以想象一下,平时可能一天都成交不了100万,但是在促销高峰10分钟里成交1个亿的订单。所以可以想象一下这个网络爆发的量是很大的,我们如何来解决这个爆发的量?当然很简单,跟运营商说把流量给打开就OK了。但我们可以想象一下,如果WAF设备在中间,WAF有一定的处理能力,像这种几十倍、上百倍的量的增长WAF也是扛不住的,所以WAF组网在传统系统里面的问题也越来越凸显。
这是我们信息安全小组在我们内部安全工具的导航页,我们可以看见,我相信很多公司应该也一样,比方说有数据库审计、WAF等等,各种各样的系统有很多,其实这些系统互相之间应该是有一些关联的,但是它能关联呢?现在以这样的形式存在的系统能有关联吗?很难,所以我们又往往都是靠人,我的工程师、分析师靠人去通过一个业务或者是一个工具的事件,去把这些的很多信息串联起来,这种串联效率很低而且很慢很滞后的,所以这个也越来越不能满足整个业务发展过程中的信息安全需求。所以针对上面的这些问题,当然还有好多,包括日常帐号的攻击、爬虫的攻击,其实我们也会碰到很多现实业务上的安全管控问题,基于这些问题我们如何解决?传统企业里面来讲不会设立很多安全岗位,你要靠人工,每个人比如10个系统,每个系统派1—2个人看着,这其实是不太现实的。
所以我们就发现在传统安全的里面,我们认为有四个比较重点的问题。第一个,我们的边界越来越模糊,刚才我讲的边界其实现在的设定很模糊,包括我们现在用的多云管理平台,我们自己的私有云和公有云边界到底怎么设置,业务和业务之间边界到底怎么设置,越来越模糊。第二个,攻击复杂度的提升,刚才上面的老师也讲过,现在任何一个小孩,拿一套攻击几下,给你来一套组合攻击拳,其实对于企业的信息安全部门来讲还是挺难去识别和防护的。第三个,很多安全产品其实还是很单一的,刚刚我列举了,有负责数据库的,有负责入口的,有负责扫描的,有负责主机的,这些都是很单一的系统。第四个,合规压力越来越大,面对这样的局面,通过传统的手段越来越困难。
2018年,我跟信息安全在聊需求的时候想,我们的问题怎么解决,网络组已经支撑不了你的需求了,你的设备已经不能放在传统的位置上了,你这个部门如何生存下去?如何代表我们公司给你的KPI?所以安全部门说,那我必须要转变思路,我必须要调整方法,怎么调整?我们现在的想法就是我们与以往的以产品和系统为核心的方式,转变为以数据为核心的方式,什么意思?我后面会讲到,我们希望打造一个企业以数据为核心的智能安全数据湖,其实我们现在企业,我们所有数据中心运行的系统,都是有数据输出的,包括我们以前的安全产品它的分析和策略也都是基于它的数据来进行决策和判断的。但是现在因为有大数据、人工智能,我们有能力可以汇聚所有工具或者是平台、系统的数据,汇聚到一起进行统一的标识和关联,这是我们现在可以具备的技术能力和条件。所以我们觉得我们可以从现在开始起,建立一个企业内部的信息安全的数据池,或者说大一点叫数据哭。这里面会包含什么数据?比方说我们的结构化数据,所有的安全设备里面存储的数据库里面结构化的数据、非结构化的数据,所有的日志、网络流量、进项,还有半结构化的数据,还有数据类型,这些数据在我们架构平台上都有。我们整个数据的运用也有很多种,现在智能算法也有很多种,我们希望通过这样一个手段尝试建立一个我们以往叫做情报中心。
最后基于这个数据湖,我们在上面要建立一个平台,因为你光有一个数据湖或者数据池其实没有用,存了好几个P的数据,你怎么用?其实那样数据也没有意义。在上面我们要建立一个安全的智能平台,这个平台的目标首先你要智能化、可视化、自服务化。不能说所有的东西我来帮你,所有的都要通过安全团队来帮你去算,那个我觉得太困难了。同时把监控、决策、响应这样的诉求也放在那里面,实现我们对于安全能力平台的定义。
当然了应用场景,我相信在整个行业里面,大家在讨论的无非也就是这几个场景,首先是危险感知,其次是业务风控。然后是分析决策,我可以基于之前的这些逻辑决策一些事件,同时我可以能够有一些智能化的响应,把这种决策变成自动化调整的机制,让机器自动地去进行设定。
这是我们整个大数据的一个实时分析平台,这个其实就是一个ERK整个数据流转的界面,我觉得这个是属于很标准的。目前我们整个大数据的实时流的架构就是基于这个来构建的。这是我们基于流数据里面,通过报表平台我们做过的一个样例,我们的安全平台通过一些策略,把IPS、WAF的数据整合到一起,通过一个时间线把数据统一汇聚起来,这样我们会有一个一目了然的平台,而不是说每一个我们都要分开来去看。可以把数据放在一个系统里面去发现,这样更加有全局性。
另外一个是我们另外一个大数据安全应用的场景,我们去关联一个特别典型的帐号暴力破解的关联信息,因为新东方的帐号数量还是比较庞大的,而且涉及到很多老师的帐号信息,包括俞老师的帐号信息也在里面。其实以往我们帐号的攻击量其实还是很大的,我们通常的手段是通过帐号,比方说你输错了10次,比方说在5分钟之内输错了10次、20次,自动把你的帐号封停2分钟或者3分钟,这是以往的手段。这是这种安全防护的手段在互联网时代很难满足用户需求,因为用户说我用的好好的,突然上不去了,为什么?你告诉他有人攻击你,把你的帐号关了,你等一等,我觉得用户可能很难接受这样的解释。现在我们会通过大数据分析说什么样的攻击是异常的,我们发现50%多的这种帐号密码的错误攻击,往往不是来自于黑客,而是来自于他自己。
因为我们的合规要求他定期修改密码,他改完密码以后移动端,我们现在都通过手机或者IPAD收邮件,移动端没改,移动端会不停的有帐号错误信息出来,会导致被锁。这时候我们通过识别,就很容易关联到设备密码的错误,还有它的时间,因为我们的帐号登录其实是有好几个系统,我们有统一登录系统、邮件系统、无线WIFI的806.X认证系统等等,所以我们好多系统汇聚起来就会发现,它其实是一个单终端的或者自己终端密码没改的问题,所以通过这种用户的帐号画像,我们就能很好的识别这个风险,当然我们也做了一些钓鱼识别,有一些钓鱼文件也是我们很头疼的问题。
另外还有一个爬虫,我们以前还发现新东方的网站有好多国外的,比如说来自欧洲和俄罗斯的用户在访问我们的业务,我们当时还觉得挺奇怪。其实我们后来通过爬虫系统发现,这些都属于代理服务器,后面有引擎驱动他们爬取我们的网站,模拟的行为特别像人的行为,比如说1分钟访问5到6次,我们通过一般的规则引擎很难发现它。我们通过大数据的聚类匹配发现这一类用户都有这样的特性,我们就可以识别它的确存在这样的安全风险。
所以我们认为未来的企业在信息安全上的方向,应该是以数据为基础,通过实时和离线这两条分析引擎,我们通过对数据的处理,数据的保护和分析,利用机器学习、深度学习的工具,最终达成我们信息安全的感知、决策和响应这样的目标,这也是我们新东方信息安全团队包括在行业里面不同的厂商也会努力的方向,谢谢大家!