中国IDC圈7月28日报道,进入2015年,大数据产品和服务采购进入爆发期,新的大数据技术解决了企业海量数据(历史数据、非结构化数据)的存储、分析和查询等问题,逐步开始替代传统的数据仓库等产品。然而大数据领域新的技术和产品层出不穷,刚刚熟悉了Hadoop、Spark技术,又诞生了Flink框架,理解了NoSQL数据库,出现了NewSQL数据库。面对快速发展变化的大数据技术和产品,企业CIO面临如何评估、如何选型、如何使用等问题,企业IT部门也苦恼于如何搭建企业级的大数据平台以支撑企业未来业务的发展。
2014年6月,数据中心联盟联合20多家企业启动了大数据平台基准测试标准的制定,想帮助企业解决大数据技术和产品评估、选型、使用等难题,为企业IT部门找到适合企业业务场景的大数据产品和服务。经过半年的工作与讨论,联盟于今年年初发布了《大数据平台基准测试》的技术要求和测试方法,技术要求定义了大数据平台基准测试对象、测试的基本要素和指标,测试方法给出了从性能、可用性、运维安全三个维度评估大数据产品的具体测试流程。
今年5月联盟组织国内一线厂商开展了大数据商业产品的第一轮评测,4家厂商的商用Hadoop软件产品和1家商用Hadoop云服务参加本次评测。Hadoop软件产品统一在中国信息通信研究院提供的16台服务器进行测评,Hadoop云服务在企业自己提供的公有云环境中进行评测。本次测试主要测试企业提供的商用hadooop平台,包括hdfs、yarn、mapreduce、hive、hbase和zookeeper等组件,测试主要分为性能测试、可用性测试和安全性测试,每家企业有7天的时间来完成测试。性能测试包括Hive Join、Hive Aggregation、NoSQL Write、NoSQL Read、NoSQL Scan、TeraSort、WordCount、PageRank、Kmeans、Naïve Bayes等十个负载,覆盖了Hive、HBase、MapReduce和HDFS等组件。可用性测试包括NameNode主备节点、DataNode节点、HMaster节点、RegionServer节点失效及恢复等测试项。安全和运维测试包括存储加密、身份认证、统一用户管理和权限管理四项。测试严格按照《大数据平台基准测试 第二部分 测试方法》来执行,审核流程包括测试前检查、输入检查、测试过程检查、测试结果检查和留存文件等。
在本次可信云服务大会上,联盟将首次发布国内第一批大数据产品评测结果,汇报测试过程和未来大数据基准测试的发展方向,参测厂商也将集中亮相大数据产品最佳实践。从用户角度出发制定的这一规范是否能解决CIO烦恼,测试结果是否能对企业的选型、部署和使用有一定参考,规范未来的演化是否能精确反应用户的需求,需要我们拭目以待。