2019可信云大会丨清华研究生耿金坤：大规模分布式机器学习未来发展之我见_云技术

7月2日，2019可信云大会在北京国际会议中心隆重开幕。2019可信云大会以“智能云网边，可信创未来”为主题，由中国信息通信研究院主办。

下午13:30大会特设的智能云论坛活动正式开始，MAXP大赛最佳案例获得者清华大学计算机系研究生耿金坤做了《大规模分布式机器学习未来发展之我见》的精彩演讲。

耿金坤

很高兴，也很荣幸能够站在这个台上跟大家分享一下关于我的科研经历，以及结合本次比赛的经历，分享一点关于分布式机器学习的有趣故事。

刚才陈媛提到对于产业界来讲，可能更重要的是落地，对于高校来讲，更着重的是创新，也就是要往前看一步，从高校的角度来看，到底会有什么样的故事，跟大家聊一聊。

众所周知，我们目前处在大数据驱动的AI时代，大数据成为业界常态有两个原因：1.数据量在爆炸式增长。数据将在2020年达到175ZB。

2.模型复杂度不断增加。目前想要得到更高的准确度，拟合能力必须足够强，这个模型深度要跟上。以后很有可能还会再出现2000层、3000层的网络，这使得单机根本没有办法承受。

在未来的发展过程中，只想靠一台单机笔记本写300行，跑一个模型，圈一笔投资不太可行。现在一提到机器学习就是数据中心化，就是上云，动辄几百台甚至上千台规模的也有进行联合训练。

在大规模分布式学习中有哪些基本问题？主要有四个问题：

DML架构和参数同步算法

参数同步模式

数据/模型并行模式

新型加速技术的应用

基础架构与同步算法。

大家都在推自己的分布式框架，Tensorflow、PaddlePaddle等，无非就是有三种架构：

1.基于参数服务器的架构

稍微有点系统开发经验的都知道，每个Work负责训练模型，然后把自己的参数推送到参数服务器，然后由worker推送下来，这是最基本的工作流。

2.基于Mesh的架构

3.基于Ring的架构

对比，基于PS架构是最常用的，最经典的Tensorflow、MXNet都是支持PS架构，优势显而易见，被多数主流框架支持；部署简单；弹性扩展好；鲁棒性强。劣势是容易产生中心化瓶颈。

基于Mesh负载更加均衡，但扩展性比较差。

基于Ring这个架构目前被广泛关注，起源并不是分布式，起源于高性能，但大家一提到Ring都提到百度，其实百度并不是Ring的发明者，早在2009年由三个学者在一个论文中发表这个算法，这个算法的优点是带宽最优，2017年百度一个科学家是以博客形式贴出来，广受关注。带宽最优，意思是如果给定这样带宽资源，同步效率不可能做得比Ring更高，所以大家都很认可它。劣势是鲁棒性差，比如把所有的节点连成一个圈，只要有一个节点断掉，这个工作流就没有办法进行，路棒性很差。

一个公司如果很有钱，或跟BAT协商好，搭一个私有集群来训练业务，私有集群就没有必要采用经典架构，扁平架构反而效率很低，可以考虑采用模块化架构。BQ这种情况可以不用扁平式的算法，而可以采用层次化的算法进行高效同步。

参数同步模式。

SP、ASP、SSP三种模式。

BSP是目前最常用的，假如现在有三个节点，节点性能肯定不一样，有的节点跑得快，有的节点跑得慢，有的节点率先把参数算出来，BSP要求每一次迭代时所有的节点都必须等最慢的节点算完以后，然后大家把自己的参数进行同步，同步完成以后同时开始第二次迭代。这个形式优劣势都很明显，优势在于每一个worker下一次开始都能拿到最新的全局参数，意味着同步迭代质量很高，但劣势也很明显，那些跑的快的worker要等慢的worker，导致计算资源很大程度被浪费。

所以为了解决这个问题采用ASP异步同步，就是没有同步，比如现在worker2比较快，运行第0次迭代，就可以直接运行第1次迭代，所达到的参数就是有多新就多新，比如运行完第一次迭代以后，要进行参数同步，只能从Work0和1那里拿到第0次迭代参数。ASP这种情况带来的问题是迭代质量偏低，本来BSP运行100次、200次就可以收敛，但ASP需要运行300次、400次，甚至异构性很强的话，这种情况有可能就不收敛。

由于这两个都有问题，既不用BSP也不用ASP，用SSP，就是允许同步的过程中采用旧的参数进行同步，但旧的参数能够旧到什么程度必须有一个阈值。如果认为比我慢一次迭代的参数，接受它。

对比起来BSP实现简单，在PS、现有主流框架中都被广泛支持。好处是算法在线性好，如果采用BSP进行分布式训练，初始化条件是给定的，算法模型是给定的，输入是给定的，不管运行100次、200次这样的算法都应该可以在线出相同的结果。劣势是快节点必须等慢节点，性能严重的被最慢者拖慢。

ASP优势是迭代速度快，不存在Straggler问题，劣势是牺牲了迭代质量，可能造成不收敛。SSP优势在BSP和ASP之间进行折中，一定程度上兼顾了迭代质量和迭代速度。劣势是需要对于Staleness Bound进行精细调节，在一些情况下收敛速度甚至弱于BSP。

数据/模型并行模式。数据并行是把数据切成不同的份，分别放到不同的节点上。如这里有三个节点，每个节点能到一个完整的模型实例，数据有100G，每一个切成33G，每个节点一份一份读，读完以后大家同步，同步完成以后训练，训练以后再读。这种模式也是目前最经典的训练，在以往数据量没有这么大，模型也没有这么复杂，大家都倾向于用这种方式进行训练。现在随着数据量变大、模型变大，可能大家开始考虑采用一种模型并行方式。

这两种训练方式优劣之处，进行五个维度对比：同步开销、GPU利用率、负载均衡、Straggler问题、I/O扩展性。

同步开销。对于数据来讲，每次迭代要进行同步参数量，就是N个模型的参数，这个参数会很大，一个VGG模型是582兆，训练4个就是2-3个G，如果带宽能力跟不上的话，仅通信就可以占很大的比例。对于模型并行传输只是每两个节点之间的边缘层，每个迭代只需要往外传几十兆的数据。

GPU利用率。这里讲GPU利用率有一个经常被忽略的问题，什么是GPU利用率？如果按照定义的话，有两个点要考虑，一个是利用率，一个是占有率。利用率，就是GPU只要有人用就被利用，利用率是百分之百，哪怕现在没有用满这个核。占有里就是GPU在用，可能这里有32个线程，只用了12个，占有率是50%。

实验。采用40Gbps网络，在4节点下训练VGG，可以看到尽管在这种情况下，GPU利用率依然很低，大部分情况属于空闲状态。但如果采用模型并行方式可以看到GPU利用率基本都有一个值，都是在用的，只是用的程度不一样。对比一下能够差多少，对于4节点来讲，在比较高速的网络带宽下，模型并行会比数据并行高1.77倍。

GPU占用率情况，对于一些经典模型，其实GPU占有率并不会很高，如图想说明的意思是在Batch Size为16个情况下，有大约一半时间GPU的占有率达不到50%，也就是说GPU相当一部分计算资源，硬件算力很高，但用不起来，这是目前机器学习的一个现状。

如果想把GPU占有率提高，只要增加Batch Size不就可以了，但是GPU memory又有问题。如果在数据并行下，Batch Size超过32，达到64，这个GPU m肯定会爆掉。但如果对于模型并行来讲，GPU memory constraints小很多。

负载均衡，模型并行是不如数据并行的。

负载均衡如果没有做好，如何调节负载均衡？就是Straggler问题如何解决，这一点模型并行比数据并行好很多，因为模型并行的负载均衡通过模型迁移实现，数据并行的负载均衡通过数据迁移实现。

I/O扩展性。

不管研究公有云还是私有云，研究机器学习时都在考虑买最贵的卡，买V100，就算给你一张很厉害的卡，算力很强，能否用起来是另一回事。有的时候买一张V100的卡，结果用不起来，相当于白花钱。但能否用起来这个GPU的算力，取决于在运算之前的数据预处理能力能否跟得上算力。根据我们跟微软今年合作的一个项目发现的一个问题，如果想充分利用GPU算力，需要给足够CPU的核技术预处理，否则GPU没有办法被打满。根据实验，基于NVCaffee进行训练，训练AlexNet模型，打满一块Tesla P100 GPU需要消耗-12CPU核，训练ResNet-18，打满P100需要消耗-7CPU核。

如果考虑I/O扩展性，模型模型不如数据并行。

综上所述，这五个方面各有优劣，本次比赛方案考虑数据并行不是最后的答案，模型并行也不是最后的答案，应该考虑混合式并行。

由于不同卷积层Batch Size并不需要一样，所以考虑把卷积层做了一个区分，通过三段式架构更好加速分布式机器学习。

新型加速技术的应用。

AI也好，机器学习也好，有三方面内容要解决：计算、通信、存储。目前存储还不是什么瓶颈，大家都在考虑计算和通信。

有一个很有意思的故事，上周美国凤凰城刚刚结束了高性能领域的学术会议，跟一些专家讨论，专家都是做HTC的，我说到底哪一部分目前是瓶颈？搞HTC的人说通信是问题，通信要好好解决，算力现在增长的越来越快，通信老是不如算力。但是再前一段跟搞网络的人聊，到底通信跟计算哪一部分更重要？结论又变了，通信没问题，我们有的是高性能网卡，实在不行200G网卡马上都要出来了。

大家各说各话，如果往前看一步，我认为通信是问题。以发展的眼光来看，在过去GPU算力提升35倍，但反观通信，五年前是1-10T，现在还是1-10T，再往后走计算还会发展的越来越快，通信很难跟上计算的步伐，由此得出未来想要加速大规模分布式机器学习应该在通信上发力。

新型加速技术的应用。

目前通信的瓶颈主要出现在Linux内核中，想要加速：

1.可以跨过内核，就是英特尔的方案 DPDK。

2.直接把内核处理逻辑下到网卡，也不走内核。

英特尔 DPDK。

优势：跨内核，用户态可以直接操作裸包。

问题：Polling开销，需要用户态实现拆包和封装逻辑。

RDMA。

优势：零拷贝，硬件实现拆封包逻辑。

问题：编程复杂，PFC拥塞控制问题。由于基于PFC，导致现在没有被大规模应用，虽然我们还在不断做改进。

未来发展

分为普适性和异构性。

DML架构和参数同步算法。

1.层次化的架构设计？

2.自适应的拓扑感知算法？

3.Serverless架构下的安全性问题？

这是未来云计算要面临的挑战。

参数同步模式。

1.迭代速度与迭代质量如何折中？BSP、ASP、SSP如何选型？

2.Geo-distributed场景下的参数同步？

3.FederatedLearning。

数据/模型并行模式

1.模块化。大家有一个装箱的过程，现在有多少节点，不可能每个节点进行参数同步，肯定要先分组，然后有效组织。

2.灵活并行度。没有必要一条走到黑。

新型加速技术的应用。

技术本身的革新。大家都在不断改进自己的技术，如果现在拿到就是一个残次品，是否通过改算法来更好使用这个技术，来把现有技术Bug进行规避。

MAXP-2019参赛体会。

非常感谢信通院和各位业界专家给了这么一次机会，本次MAXP大赛主要核心点在于创新性与包容性兼顾。

1.算法赛、FPGA赛、创新赛三个赛道并进。大家有只有喜欢的东西、擅长的领域，都可以在这里找到属于自己的舞台。

2.诸多跨学科作品涌现。本来参赛时以为只有计算机系和软件学院，没想到搞材料、搞生物、搞物理的都来参赛，而且很多作品令人眼前一亮，比如做3D成像的东西。

3.节奏短平快、内容紧张充实。我们比不上黑客马拉松一搞就三天三夜不睡觉，但对于学生来讲正好是符合的，大家可以用更类似敏捷开发的东西，用自己的业余时间每天网上迭代一点，也是挺充实的一件事情。

4.资源支持充分。我们初赛答辩完以后，在一周时间之内，不管百度还是滴滴，都开始跟各位选手进行联系，特别感谢百度云王老师给我提供充分的技术支持和资源支持。

个人建议。

MAXP=MaxPerformance，但本次应用类的作品仍然占主导地位。我认为系统性能层面的作品更值得鼓励，我们不应该只是单纯写300行代码，在我们系统底层有很多更需要解决的问题，怎么去让现有算法做得更快、更高、更强，这比拍脑袋想新的天马行空的东西好很多，这一点从本次结果来看，大赛做了正确的倾向。

愿景。希望MAXP2020年、2021年以及以后的MAXP能够吸引更多优秀的参赛队伍，迸发更多创意的作品；连接落优秀的企业，更好地产学研路线；不断增强在学术圈和工业界的影响力，早日走向国际化，这点并不遥远，前年清华举办过一个智能运维的比赛，去年这个比赛已经和斯坦福进行了合作，变成一个国际性赛事，相信MAXP今后也会成为一个亚洲地区的赛事，甚至国际性赛事，会早日走向国际化。

以上是我的演讲，谢谢！