高效共享GPU！浪潮AIStation突破企业AI计算资源极限_云资讯

对于AI企业来说，GPU等计算资源昂贵，如何提高资源利用率，保护计算力投资？如何解决资源抢占，保证资源使用公平合理？如何减少等待时间，提高模型训练效率……这些问题都关系着研发创新的进度。且看浪潮AIStation人工智能开发平台用三招“组合拳”打破计算力壁垒，加速企业AI开发进程。

某企业AI开发面临的问题

某企业有四台8卡GPU服务器供50位开发人员使用，典型的人多资源少。具体来说，有以下几大问题：

人均不足一张GPU卡，GPU使用需要相互协调，开发效率低；

每十多人为一个小组共用一个GPU节点，可能使有的小组资源空闲而有的小组却无资源可用，造成资源孤岛；

缺乏优先机制，重要任务无法得到及时提交；

在白天GPU卡几乎全部用于开发环境创建，开发人员只能在晚上提交训练任务，模型训练数量非常有限。

AIStation三招解决企业算力问题

AIStation是面向AI企业开发场景的人工智能资源平台，可通过资源配额、GPU共享、排队托管三招“组合拳”，智能化分配GPU计算资源，提高资源利用率，帮助用户提高开发效率。

首先，AIStation收拢分散的计算资源，提供集群式的池化管理，并设置资源配额策略，实现多用户公平均衡使用资源。

AIStation将开发用户划分为5个用户组，每个用户组10人，并根据业务需求设置每组和每个用户的使用配额，如可设置每组使用6张GPU卡、40个CPU核。并对每个用户的开发环境使用时长、同时提交任务数量进行限制。

其次，AIStation通过GPU共享策略，可以让多人共用一张GPU卡且互不影响。

AIStation统一管理4台GPU节点，将其中2个节点的16张GPU卡设置为开发资源组，用于开发环境创建，剩下16张GPU卡为训练资源组，用于模型训练。通过共享策略，AIStation可将开发资源组的每张GPU卡切分为8份，每份使用4G显存。这样原来的16张GPU卡相当于变为了128张卡。并且通过设置CPU超线程策略扩展CPU核数，满足50个用户同时创建开发环境的需求。用户也可以根据自己的模型设置batchsize和显存使用的大小。