随着互联网科技的不断进步,产生的数据将以成倍速度进行增长,据IDC预测,到2025年全球数据总量将会达到175ZB。如果要把175ZB用8TB的磁盘存下来的话,那就需要230亿块磁盘来存储这些数据,如果每块磁盘的成本是1300元,那要完整存储这些数据,就需要付出30万亿的存储硬件成本投入,相当于国内一年生产总值的三分之一。
逐步攀升的数据存储需求和高昂存储成本的冲突下,很多企业都将面临着大量数据无法得到有效存储和数据流失的问题。对此,UCloud优刻得存储产品经理周恭元在10月23日刚结束的TIC2020技术分论坛上带来了《海量数据云归档存储最佳实践》的议题分享,围绕企业数据归档面临的存储问题及需求,重点介绍了数据存储的分层价值,以及UCloud优刻得新一代归档存储的可靠性优势及三大适用场景。本文整理自演讲内容,供大家参考学习。
传统归档存储面临的两个问题
首先,周恭元分享了今年疫情特殊时期碰到的两个公司的遭遇。
第一件事情,大约4月份的时候,某电商公司一个做DBA的朋友来咨询我,本地硬盘已经删除了的文件有没有办法恢复?我便产生了一些疑问,为什么数据库运维要管这些呢?后来详细聊了下事情的原委,才知道他们公司由于设置了30天的数据库日志备份策略,但是正好碰上这次疫情休假时间超过了一个月,导致一些年前的数据库日志数据已经被删除了。究其原因,根本的问题还是由于公司为了节约成本,使本地归档存储的空间有限造成的。
第二件事情,某传统企业申报项目的核心数据存储在公司内网的共享文件中,而内网网盘数据与外网不通,导致他们不得不在疫情相对严重的时期,还需要专门派人去公司将所需的数据拷出来,浪费了大量精力,同时也存在外出感染疫情的风险。
从这两件事情,不难看出传统数据归档存储确实存在着两个问题:一是本地存储空间的限制,二是数据交互的不便。而这也正是如今有越来越多的用户开始选择云存储进行数据归档的原因。
ZB级数据需要做“冷热”处理
随着数据的量级从MB、GB增长到PB、EB甚至ZB级别,就会产生一个很实际的问题,就是企业存储能力的提升已经远远跟不上数据的增长速度。预计到2025年,全球175ZB的数据最终将会流失超过90%。而对企业来说,这流失的90%数据正是需要被长期存储下来存在价值的数据。
一方面是大量数据无法得到有效的存储,另一方面这些真正被存储下来的数据又面临什么样的情况呢?
通过分析用户存放在UCloud优刻得公有云对象存储的数据访问量可以发现,数据在单位时间内的请求数(我们也称之为数据热度),是会随着时间的推移不断降低的,也就是说绝大多数据在半年之后都会成为冷数据。然而实际上,大部分用户还是将这些冷数据存放在与刚写入这些数据时相同的存储类型中,造成了大量不必要的成本支出。
针对这样的问题,UCloud优刻得最早在2017年就推出了第一代归档存储产品,2019年针对对象存储产品的不同存储类型做了统一,提供了三种不同的存储类型,单价上由热至冷,存储成本分别为标准存储的一半与四分之一。这样一来,用户就可以实现在同一个存储空间里借助生命周期策略自动对数据进行降冷处理,从而优化存储成本。
新一代归档存储,突破成本极限
在今年8月份UCloud优刻得发布了最新一代归档存储产品,成为了国内率先采用JBOD磁盘阵列与SMR叠瓦式磁盘介质提供公有云归档存储服务的云厂商。在具备分钟级别取回时效、11个9以上数据可靠性的归档存储产品中,突破了传统3分钱每GB每月的定价区间,达到了0.024元每GB每月,可以进一步降低20%的成本。
大家知道存储成本主要由硬件、运营成本构成。UCloud优刻得新一代归档存储在国内首次采用西部数据的高密JBOD设备和SMR盘,SMR盘全名为叠瓦式磁记录硬盘,相较于传统CMR硬盘,大区别是,磁道按Zone呈现的叠瓦式分布,这种分布可以以更高密度存储数据。与36盘传统机型相比,引入JBOD设备统一管理硬盘并采用高密度SMR盘:单位机架的存储容量提升5.375倍,硬盘数量增加59%,单块硬盘存储空间提升150%。同时借助磁盘休眠的技术,可以降低90%的硬盘能耗。
在降低成本的同时,新一代归档存储自研的全新架构也带来了更高的可靠性保障,通过双机头的故障快速切换,能在数据取回快速的同时提供极高的可用性保障;通过采用Intel大比例纠删码冗余策略,归档存储提供了同时4块硬盘故障情况下的数据可靠性保障,由于归档存储读取请求较小的缘故,新一代归档存储还引入了定期的一致性校验应对磁盘的静默错误,以保障数据一致性。
归档存储的三大场景
通过前面的介绍,不难看出归档存储比较适用于一些写大于读的数据存储场景,这类数据和以往对云存储广泛适用的读大于写的场景正好相反,因此归档存储的应用场景往往是一些已经经过在线处理或者应用的在线数据的近线存储。由于是近线存储,数据是具备分钟级的取回时效,这和需要数个小时甚至按天取回的离线存储相比会有更高的实时性。
再结合客户的实际使用,我们可以将归档存储的核心场景汇总为三类,分别为多媒体数据归档、历史数据合规性归档以及大数据、AI分析数据的归档。
视频归档场景
由于近几年实时音视频场景的普及,在线教育和培训、远程医疗、视频会议、娱乐直播需求层出不穷。借助于UCloud优刻得实时音视频服务提供的强大的覆盖能力,可以实现用户的就近接入,提供网络低延迟、低丢包率的音视频实时通信。
但也正是因为实时音视频服务的普及,政策监管也逐渐规范化,合规性要求成为了实时视频业务场景中不可或缺的一个环节。目前不仅泛娱乐直播类平台通常对直播视频有6个月的合规性归档要求,在线教育、在线医疗也有了更长时间的历史视频归档的合规性要求。
通过与URTC实时音视频业务的无缝接入,UCloud优刻得归档存储在此次疫情期间帮助了多家在线教育、在线医疗用户实现了实时音视频与历史记录归档的无缝衔接,用户仅需在每次RTC服务结束后选择保存视频,即可将视频记录进行归档。不仅简洁易用,无需额外操作;更在降低存储成本的同时易于归档视频的访问调取。
数据库、日志备份场景
一直以来,数据库和日志的备份问题困扰着许多电商用户。通常情况下,中小规模的电商公司的整套服务架构都在云上,如果给云主机绑定硬盘用来进行备份,会面临单点故障的问题,而这些中小企业又没有能力自己定制数据备份,将数据备份至别的存储类型中。
对此,UCloud优刻得提供了灵活的数据库备份组件和针对ES集群的备份接入能力,帮助用户可以快速将MySQL数据库直接备份至归档存储中,省去了备份到本地再上传的复杂过程。归档存储同时具备ES集群的接入能力,能够帮助用户将历史日志定时进行云归档,为用户保留更长时间的日志记录。
UCloud优刻得通过帮助客户进行归档方式改造,降低了数家电商公司的数据备份成本,延长备份周期,简化操作流程,大大降低了用户数据丢失恢复及历史日志追溯的难度。
大数据归档场景
针对大数据分析场景,UCloud优刻得对象存储服务提供了Hadoop集群的接入工具,甚至在存储性能上媲美HDFS。过去用户往往受制于本地HDFS集群的存储空间,所以将分析后的原始数据丢弃,损失了大量数据价值。通过云归档的方式将大数据分析后留下的大量数据样本和分析结果进行长期存储,再通过提供的Hadoop集群的接入工具,就能实现将历史数据激活后,直接在云端进行大数据分析,不用担心数据二次取回的本地存储空间压力。
企业也可以更灵活、弹性地应对数据爆炸带来的存储空间压力,按3年期投入计算,更是比本地搭建相同规模的HDFS集群降低80%以上的成本投入。
写在最后
英国数学家Clive Humby曾说过,数据是数字时代的新石油,尽管数据本身很有价值,但数据需要处理,就像石油需要在其真正价值被解锁之前需要精炼一样。石油是一种有限的资源,而数据却是可重复使用的。对于企业而言,积累数据就是积累原始财富,在有分析能力的情况下可以进一步提炼数据背后的商业价值,UCloud优刻得新一代归档存储正是为这些海量数据归档存储提供高可靠、低成本解决方案的重要基石。