2018年2月,春节刚过,北京还笼罩在雾霾中,上地某酒店,阿里云工程师们摩拳擦掌。

他们从115科技“踩点”回后,推演了各种可能,确保万无一失,遂决定正式启动“肯尼亚”迁移项目。

肯尼亚,横跨赤道,是野生动物的王国,每年7-9月都会上演最为传奇的动物大迁徙。

在阿里云内部,“肯尼亚”迁移项目指115科技的数据大迁移。

115科技是一家成立十年、以云存储起步的高新技术企业,旗下核心产品之一“115个人”(原“115网盘”)是国内最早一批上线的云盘产品。

但做云盘的苦,只有做过才知道。出于自身发展的综合考量,115科技决定上云。

1. 差点用劳斯莱斯运冰块

2009年“115个人”产品上线后,115科技喊出「改变分享」的口号,以便捷的文件分享功能赢得海量用户的喜爱,且不放广告、不限速,用户体验好。一时间,几乎全国各大论坛、软件厂商、游戏厂商、设计论坛、教育机构、漫画及影视行业全部在用“115个人”进行文件分享。

到2017年底,115科技个人注册用户接近1.5亿,随之而来的是,硬件成本节节攀升,要不断地租机房、买机器,繁重的运维工作如排山倒海袭来。

115科技日常需要运行维护接近5000台服务器,安置在广东东莞、梅州、佛山等地的数据中心,共约10万块硬盘。硬盘不断读写数据,损耗极大。

硬盘一旦损坏,就需要及时的备份恢复。115科技为此专门组建了一支“救火队“——七人换盘小分队。

队员们背景各异,有设备运维,有网络维护,也有帮忙搬运设备的厨房工作人员等。需要换盘时大家实时响应,平时就从事本职工作。

“救火队”的工作庞杂,不仅要换盘,有时数据中心没有硬盘备份时,他们还要集体出动采购硬盘,或从其他机房开车运送硬盘。甚至机房制冷供电系统出现故障,也要第一时间赶到检修。

有一次大朗机房空调制冷出现问题,小分队需要运送冰块到现场,由于当天公司还有其他接待任务,车辆紧张,还差点动用公司的劳斯莱斯运冰块。小分队在机房蹲了一夜,用风扇吹冰块为设备降温,并密切关注是否有硬盘损坏,以备随时更换重启。

作为网盘行业的资深玩家,115科技的存储技术已经炉火纯青,却吃够了硬件的苦头。

同时,网盘的市场格局也在不断变化,用户对网盘的体验提出了一些新要求。是继续把精力耗损在维护硬件上,还是把所有精力集中在业务创新?115科技走到了岔路口。

2.上云,要上云

必须上云,上云才能解决问题。

这个决定来的突然但是坚决。2017年12月,115科技创始人赖霖枫忽然召集核心成员开会,传达了这个决定。没人有异议。但所有人都知道,这不是一件容易的事,毕竟115科技的数据量已经到了100PB。

100PB数据有多大?按普通DVD约4GB容量算,就相当于2500万张DVD,每天观看一张,大约要68000年才能看完。

会后第二天,115科技的上云小组就开始和各个厂商探讨方案。其中,阿里云是最后一家。

高手过招,两三回合后便可将对方底气探个大概。「我们聊了聊存储方面的技术问题,发现对方都非常有研究。」阿里云中国区解决方案总经理霍嘉回忆说。

115科技向霍嘉坦言已经接触过几家云厂商,霍嘉也大方指出这个项目比较复杂。首先,115个人是一个在线系统,迁移过程不能影响用户正常使用,因此这是一个热迁移问题。其次,115个人上数据量大,存储及业务系统复杂,因此更需要详细设计。

霍嘉说,115科技上云这一项目和优酷上云的项目非常相像。都是以非结构化数据为主的图片及视频业务,存储需求类似;也都是线上系统,需要保持不宕机。

有了优酷的迁移经验,霍嘉多了一份底气。他把整个上云过程进行了拆分讲解,找到关键节点及风险点,并估算了时间。他的判断是,这个项目需要90天完成。

对于115科技来说,迁移时间是非常敏感的考量指标。因为在迁移过程中,公司需要负担双份的硬件及带宽费用。

「动不动就几千万上亿的,这谁扛得住啊。」

尽管深知115科技方面对时间的敏感,霍嘉还是坚持三个月迁移周期的评估, 「100PB的数据迁移,史无前例。这种事一定要对客户负责。因为开工没有回头箭。」

3. 决战45天

阿里云在周期评估过程中的专业与坚持,让115科技信心大增。

赖霖枫也在项目结束后谈到,最打动他的是阿里云的方案从实际出发,是最接地气的方案。

「不像是甲乙方,更像是战友和伙伴。」他评价说。

「我们派了两位同学留在115科技北京办公室,摸清系统架构、数据的冷热情况。仔细地制定了迁移方案,做了成本评估。又当面向赖霖枫做了汇报。」霍嘉回忆,「上云这件事最担心的就是影响业务,我们把所有的过程都拆解清楚了,对方也就吃了一颗定心丸。」

刚刚过完2018年的春节,这个在阿里云内部代号为“肯尼亚”的迁移项目正式启动。

(115科技在阿里云上海峰会现场演示)

阿里云的方案是闪电立方+专线迁移同步进行。闪电立方是阿里云于2017年初推出的物理搬迁方案,针对数据量大、时间紧的两地搬迁,115科技的需求正好符合这两点。针对115系统维持正常运转的需求,阿里云创新性地采取了闪电立方+专线辅助迁移的方式。

就此,115科技也成为闪电立方问世以来数据量大的使用客户。普通企业的数据量大多在几百TB,上PB级很罕见。

阿里云当时调了十套闪电立方,八套用来迁移,两套备用。当一套在路上跑时,另一套加载数据。等数据加载完,另一组已经回来了。霍嘉回忆说,「这是一个非常精密的过程,中间不能有任何的误差。」

115迁移上云的最终回合在一个凌晨打响。最后一台闪电立方在阿里云的深圳机房平稳上传完最后100TB数据。

凌晨5点,「肯尼亚」项目完工,闪电立方停止工作,115科技和阿里云完成最后割接。

阿里云一行人走出115科技在东莞的办公大楼。广东的早春,已经不算寒冷了。霍嘉扭头和身边的同事们说,「你看兄弟们还行吧,当初吹的牛也算是实现了。」

最终,「肯尼亚」项目仅仅用时45天,比预计的三个月时间少了一半,也创造了百PB级数据公共云迁移的新纪录。

现在,上云后的115科技摆脱了运维的繁重工作,七人换盘小分队得以解散,都投入到了更有意义的系统优化和业务创新工作中。

115科技一共使用了阿里云三十多款产品。除了解决了原本机房不稳定的问题,还实现了业务层面的创新,直接采用云上的AI、视频转码技术,用户已经可以快速分类网盘内容、智能搜索。

借助大型公共云的力量,115科技加快了在人工智能等方面的战略布局,进一步完善云生态,让基于大数据的云端存储、沟通、协作成为了新的业务增长点。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排 行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-07-21 09:43:58
2023-05-04 17:29:44
市场情报 平台赋能技术创新,阿里云天池持续助力全球顶尖算法大赛
“顶会”“期刊”一直以来都是学术领域最重要的前沿技术分享阵地。在计算机领域,全球顶会也代表着来自世界各地的顶尖算法创新竞赛。 <详情>
2022-12-21 09:24:34
机房建设 阿里云在日本东京正式启用第三座数据中心
此前,阿里云已于2016年和2019年在日本先后设立两座数据中心,成立本地公司,服务于游戏、制造、零售和汽车等多个领域。在日本东京正式启用第三座数据中心以满足快速增长的 <详情>
2022-11-11 12:01:00
云资讯 阿里云大数据平台ODPS入选2022年世界互联网领先科技成果
11月9日,2022年世界互联网领先科技成果发布活动在世界互联网大会乌镇峰会期间举办,评选出具有国际代表性的年度领先科技成果,由阿里云自主研发的大数据智能计算平台ODPS入 <详情>
2022-11-07 09:24:00
云资讯 阿里云数据库走向“四化”:深度融合自研软硬件体系,All in Serverless
11月3日,在2022云栖大会上,阿里云宣布PolarDB、AnalyticDB(简称ADB)、RDS、Lindorm等核心数据库产品已与自研CPU、CIPU、飞天操作系统进行深度融合创新,并全面Serverless <详情>