9月1日—2日,由工业和信息化部指导,中国信息通信研究院、中国通信标准化协会主办,数据中心联盟承办的“2016可信云大会”在京隆重召开。在云安全分论坛上,广州赛宝认证中心服务有限公司副主任李尧发表了题为“云端数据治理”的演讲。
广州赛宝认证中心服务有限公司副主任 李尧
以下是演讲全文:
大家下午好,很高兴有这个机会来跟大家做一个分享,关于云端数据治理。
刚开始在来之前准备这个题目的时候,因为看到参会的都是在安全或者云计算行业比较资深或者专业性很强的公司,当时也考虑可能大家介绍的都还是跟技术结合比较多的。我们公司是两个身份,一个是工信部下属的第五研究所,另外也是一家专门做第三方认证和评估的公司。想简单了解一下在座的专家和同事有没有之前对数据治理有过接触或者了解?比较少,我看可能只有几位专家我们之前在标准会上也碰过,也多多少少接触过一点,相对来说咱们在座的大家还是对安全特别是安全技术了解的比较多一点。从话题的内容来看作为今天内容的一个补充。
云端数据治理,前面各位专家也提到很多,在云端安全的形势是很重要的内容,也是影响咱们的用户选择和上云的重要的因素。安全大家提得非常多了,从安全的角度也有很多应对的措施。从云的角度来看,工信部原来的领导也提过,在整个IT产业发展用了一个词叫“云物移大智”,意思是整个现在IT产业几个大的方向,云计算、物联网、移动互联网、大数据和各种智能的相关的东西。在这个大的背景下,云计算作为支撑所有的这些IT资源的交付模式也好,或者IT资源的服务形式也好,它所有的数据都会在云上面,不管是在云上存储还是在云上使用或者在云上传输,云上更多的是对于数据安全的关注,是现在很多这个行业的专家以及企业关注的很主要的方面。我们认为云计算最主要的安全问题,后面有一个简单的表,现在从标准化的角度做了很多区分,我认为简单来看,云计算上面的安全问题就是两个问题,一个是数据的安全问题,一个是服务的安全问题。金丹来区分,从数据的安全的角度考虑,大家也有很多解决方案,包括加密,包括数据的全生命周期管理等等。今天跟大家分享的主题是云端数据治理是从另外一个层面来考虑,结合业务发展,结合公司自身的需求,怎么来考虑在云端的这些数据的安全问题。
举两个例子,第一个,现在随着前面提到的“云物移大智”应用的推广和不断的深入落地,很多的公司都开始用大数据分析,包括数据的交易、数据的开放共享。从我们安全角度来考虑这个问题,这是一个矛盾的话题,我怎么样能保证在充分利用数据价值、充分对数据进行挖掘分析做交易的同时来保证它的安全,我相信这是很多在座的安全方面的专家可能在工作中会碰到的问题或者面对客户的时候会提到的问题,你既然要用数据,这个数据在越来越开放的前提下怎么保障数据安全,这可能是很多公司内部领导给我们提的要求,我要开发数据,要不断利用数据做挖掘、分享和交易,但是怎么保障数据安全。第二个,合同作为公司内部的核心数据,相信在座各位应该没有人也任何的疑义。合同里面的信息能不能对外分享,能不能对外公开,相信不同的人有不同的看法,从市场的角度,市场的同事可能认为说愿意分享,因为要给别人看我能承担项目的大小。从公司内部的治理和审计的角度来说,他不愿意分享这些数据,因为他觉得对于我来说这是公司内部的资产和机密。从这个角度考虑,到底数据该不该分享,该不该对外公开,怎么样的形式公开,在什么场景下什么条件下可以公开,这个也是我们数据治理关注的。这两个例子说明数据的安全并不是数据安全本身的问题,要结合它所面对场景,它所应对的环境,所面对的对象。这是数据治理从另外一个角度来看我们的数据安全问题。
这里有两个体系的框架,一个工信部指定的云计算综合标准化体系框架,我们是做第三方评估认证的,所以很多事情都喜欢拿标准来说事,因为我们自己不做产品,也不做具体的服务,是从行业的角度来看这个事情。可以看到工信部发布的这个云计算走合标准化体系框架里涉及到云的包括基础的标准,包括服务的标准,资源的标准还有专门一块针对云的安全的标准。从标准的细分分解来看,传统的数据安全把它割裂为一件单独的事情,但是实际凑治理的角度,我们认为数据安全不应该作为单独的安全的一件事单独来看,这里数据安全可能更多是从数据安全管理的手段来表述。如果要对数据做比较有效的安全管控,对它做比较高级别的加密,任何人都没有这个密钥,相对来说数据安全性比较高。但在这个情况下他没有办法分享、没有办法使用。所以实际上对于数据安全应该结合应用场景来看。这个大的背景和前提之下我们提出数据治理,不是我们公司提的,是整个产业提出了数据治理这么一个想法和概念。对于它的定义,这里有包括DMBOK、DGI等提出来不同的理解和定义,其中核心的几个关键词,首先它是一套体系、一套方法论,把数据当作公司的资产来进行管理,对于这个资产要考虑谁,可以对这个数据,谁采取什么措施,在什么情况下什么时间采用什么方式,数据治理更多的是要在这个大的环境下提数据治理。这里提出来场地和时间,不断的从ISO到数据管理的联盟,到数据治理的研究院,等等这些研究机构都纷纷提出数据治理和数据管理大的框架。在这些最佳的实践和治理模型底下,我做了一个简单的归纳提炼,对于数据治理角度来考虑,一定要跟企业的战略保持一致,就是企业的战略一致性,不要单独孤立去讲数据安不安全,在孤立的场景下,安全的要求是不一样的。第二是保障运营的合规性,我们的数据治理在它安不安全的前提下,首先要跟我们运营的业务相关,现在大家都会提到说数据安全,会说我的数据如果存在美国、中国、欧洲,对数据的要求不一样,都有各个国家对数据包括隐私保护的法规和标准。第三个是通过数据治理的方式实现风险可控,目的是我的风险管控是有一定的针对性的,并不是网络的所有的数据所有的场景都用同一套方案去解决,有很多具体的细的内容,今天时间关系不展开介绍,但是对于这些标准模型和最佳实践的分析我们提出这三个方面,也是从数据治理来考虑。
我们做了一个对照,在云端的数据治理和传统的数据治理有什么区别,红色的字是我们分析和提炼出来的,不一一介绍了。
在这个大的背景之下,结合全球的大的咨询公司和研究机构提出来的数据治理的大的背景,我们提出来赛宝云端数据治理模型,从治理活动来看,包括策划、实施和评估。在这个环境底下,从六个方面来做数据治理,从数据的战略到数据的管理,到数据质量、数据操作、数据架构和安全以及隐私,并且对每一个大的模块做了一个细分,从这些方面去展开,开展数据治理的工作。其中最核心的环节是元数据管理、主数据管理、数据质量提升和数据安全保障。首先为什么要做元数据管理,对元数据简单的解释就是描述数据的数据,元数据就是对数据库字段的定义的描述,这个字段怎么理解或者这个字段应该包含什么信息,元数据包含技术元数据、业务元数据和操作元数据。对于这些元数据的管理给我们带来的好处,从安全角度考虑,有一个明确的数据的参考框架,便于数据统一的管理和统一的分享,同时解决数据的模糊性的问题,对它的不同的定义存在差异的。另外是可视化数据流动,并且对于它影响和血缘做一个分析,推进标准化建设,规范数据审计。元数据管理是从这个角度来开展的。结合元数据一定会出现的是主数据管理,主数据想解决的问题是解决内部数据冗余的问题。前一段时间炒得比较火的网络诈骗的问题,大家日常生活中每个人都会碰到大家的个人信息,发现在电信也好,在航空公司也好,在很多单位都有自己这一套信息重复的部分,也就是产生了很多数据的冗余,其实不需要这么重复的提供相同的信息给不同的机构,有越多的备份,数据的安全风险就越来达到,从主数据管理角度是解决这个问题。对业务的影响,对数据冲突,对应变等方面,也是通过主数据开展的。主数据管理分三个方面,一个是对主数据的标准管理,第二是对全生命周期流程的管理,还有本身的数据内容的管理,分不同的角度开展具体的管理。整个主数据管理的组织包括管理的机构、管理制度、管理内容培训和管理课程考核。通过主数据管理的模型来开展,实现的目的是达到安全的数据的集成、共享和交互。还有数据质量管理,更多是从业务本身来考虑,最开始是定义业务需求和方法,首先要结合我们的业务场景,并不是孤立说为了做数据安全而实现数据安全,定义业务需求,分析信息所处的环境,评估现在的数据质量和对于业务的影响,确定主要对它影响的原因,然后做数据质量的改善和组织管理的改善,从这两个角度开展数据质量的提升。第四部分是数据安全,这一块相信在座的各位非常熟悉,甚至有些专家比我更了解,这里不再过多阐述。对于数据安全还有很多可以参考的业界的最佳实践和做法,包括前面很多人提到了CSA,现在推出了大的框架,对于云端安全的保障,包括C-STAR云安全评估,包括PCI DSS等,都是在这方面有所关注。
最后是我们按照前面这个大的框架做了这个事情,怎么判断数据治理的效果或者有没有达到目的,可以通过我们结合了前面的数据治理的模型,结合数据成熟管理度的模型,开发了一套赛宝云数据治理成熟度评估的模型,也是分为五级,从最开始的数据孤立、管理过程比较混乱到有一定的规范化管理规程到管理规范、全面,标准的结构化数据集部分非结构化数据等,再进一步是要实现具体的量化的管理,管理过程不仅要有要求,而且要求把具体华,最后是持续优化的过程。这里是整个模型简单的展示,可以看一个简单的例子,数据治理里对组织和角色的成熟度,从两个方面来看,GQM表,首先第一个目标是看有没有建立云端数据治理的目标,到底达没达到这个目标,可以从几个问题来考虑,第一是有没有组建数据治理的组织,这个组织是不是能够支撑数据治理目标和愿景。接下来是数据治理组织和角色是不是符合数据治理战略的要求。第三是组织与角色是否得到数据利益相关者认可,我们对数据把它当成资产管理,资产就一定有资产的所有人、资产的使用人,对这个资产的所有人是不是认可。还有数据治理组织与角色是否能指导数据治理活动开展的所有工作。从这个角度来描述我们建立的数据治理的组织是否适合。具体的衡量指标,后面对前面做了一个展开和描述。从这个方面我们有一个GQM表。最后会给一个评级,这里是一个简单的展示,一个比较好的做法,从组织内部开展数据治理的架构的角度来看,部门级应该有数据主管、数据架构师、数据收集员、数据分析师等,这是基层的。接下来是中层的,跨部门级,最上面一层是从公司或者整个组织的角度来考虑,有首席数据官、数据治理委员会、首席信息安全官和首席信息官。这是我们最后一个评估结果简单的展示,我们有详细的评估表,这个也是当前IBM一个分析结果,国内大部分公司所处的状态还处于管理级相对比较低级的状态,对于数据治理这件事情。可以设定短期的目标,要实现到定义级,未来中长期要实现优化级。
今天分享的内容大概是这些,谢谢大家。