“我聊的每一个人都表示对云感兴趣,所以我觉得现在的问题在于什么时候上云,而不在于上不上云这件事。”
—Cadence 云业务开发VP (DAC 2019)
去年9月在DAC(Design Automation Conference)大会之后,速石科技制作了一个全球半导体行业上云格局一览图,然后得出了两个结论:
1. 整个半导体产业链核心角色:EDA厂商/ Foundry/Fabless无一缺席,都已经开始上云的步伐;
2. 全球各大云厂商不仅积极拥抱半导体产业,甚至自己主导设计开发芯片,在产业链中扮演双重角色。
如果说去年速石科技的判断是全球半导体行业对云的接受度已经在跨越鸿沟的边缘,那上周ICCAD中国集成电路设计业2020年会结束后,我们认为国内半导体企业也已经跟上了节奏。
跟2019年相比:
今年有了几家云厂商的身影出现,关于芯片设计EDA上云趋势和落地实践给出了各自的答卷;
也有像恩智浦这样的公司分享了仿真上云经验,并且在今年全球疫情的现状下,正在考虑纯云模式来满足远程协同需求。
我们去年根据DAC会议Design on Cloud圆桌讨论整理了十个上云实践问题的过来人解答,有兴趣可以去回顾一下:
1. 上云的模式是什么?
2. 最开始,为什么选择上云?
3. 上云的挑战主要有哪些?
4. 你觉得EDA供应商准备好上云了吗?
5. 上云的缺点是什么?
6. 对于芯片设计,云厂商已经准备好了吗?
7. 在云上,一切都需要付钱。怎么控制云上的成本?
8. 你觉得在云上设计安全吗?
9. 目前为止,上云的成果是什么?
10. 对后来的上云实践者有什么建议?
今年我们升个级,来个——
EDA云平台49问
1. EDA云平台能够解决什么问题?
适配EDA工具使用需求。
大规模算力自动化智能调度。
海量多云资源提供弹性算力支持。
总之,让研发人员更专心做设计,帮助IT人员更好地管理资源满足复杂企业场景需求,最终缩短项目周期,提高公司竞争力。
2. 云上虚拟机的性能可以吗?
相当,并可以更好。
两方面原因:
1、云上的硬件更新快;
2、云上虚拟化性能逐步接近裸机。
3. 各个云之间的虚拟机性能有差异吗?
有。我们可以为用户提供专业建议。
4. 支持哪些云?
国内外主流云厂商我们都支持。
5. 多云有什么好处?
不会被某一家云厂商锁定,资源可用性更高。
多云可以大限度利用不同云厂商的不同优势,比如资源类型,比如产品价格,比如地域选择。
6. GPU资源也有吗?
云厂商上有的资源我们都可以支持。
7. 云上用的机型是超线程的?还是物理核的?
大多数云厂商支持开启关闭超线程。
8. 你们和超算有什么区别?云和超算有什么区别?
看这篇《国内超算发展近40年,终于遇到了一个像样的对手》。
9. 你们和云厂商有什么区别?
我们是从应用出发,为应用定义的云平台。
而云厂商主要在IaaS层,距离用户的实际应用还有非常长的距离。
在云的基础架构和应用之间,需要借助应用优化、多云环境支持等方式来满足用户需求。
10. 我直接和云厂商合作是不是就行了?
参考答案9。
我们已经对接了众多主流云厂商的API,可以用统一的方式方法完成自动化部署,简化用户使用云资源的方式,降低学习成本,帮助用户高效地用好云。
11. 你们跟云管理平台有什么不同?
我们更贴近应用,在云管平台之上。
具体可查看《灵魂画师,在线科普多云平台/CMP云管平台/中间件/虚拟化/容器是个啥》。
12. 支持哪些EDA工具?
支持主流EDA厂商工具,比如Innovus、Spectre、HSPICE、OPC Proteus、Calibre、VCS、Xcelium、Redhawk、PT 、StarRC 、Tmax2 、Skipper、ALPS等等。
13. EDA应用优化指的是什么?
根据特定用户需求自定义EDA Flow,规范化EDA作业流程,加速EDA多任务的调度。
用户在云端可选择的机型有几百种,配置、价格差异极大,我们能根据用户的EDA应用需求推荐最适配的资源。
14. EDA应用在云上能正常跑吗?
能。
15. License在云上能正常用吗?
能。
具体可看《EDA云实证Vol.1:从30天到17小时,如何让HSPICE仿真效率提升42倍?》
《EDA云实证Vol.4:国内大规模OPC上云,5000核并行,效率提升53倍》
16. 云上的EDA应用怎么部署?是不是每个软件CAD都要去配置?
我们协助用户完成云上EDA应用自动化配置,一次配置,以后自动启用。
17. 脚本每日都有变动,云上要增加工作量?工作脚本如何更新?
可以延续之前的使用方式,也可以使用我们提供的方式自动化完成脚本更新。
18. 云上EDA无缝衔接怎么做到的?
云上用户体验无差异。
19. 你们的自动化部署有什么好处?
关于我们在云端部署自动化模式VS传统手动模式间的巨大差异可查看:《从30天到17小时,如何让HSPICE仿真效率提升42倍?》
20. 支持哪些调度器?
我们支持Slurm/LSF/SGE/PBS。
在《亿万打工人的梦:16万个CPU随你用》里,我们基于这四家主流调度器:LSF/SGE/Slurm/PBS以及它们的9个演化版本进行了梳理和盘点。
21. 开源的调度器你们怎么提供商业支持?
我们是开源Slurm调度器的代码贡献者,特别是跟云相关的功能点。
我们提供Slurm配置/优化/调试/应用对接的最佳实践。
22. 你们就是个调度器吗?
调度器是我们平台的一个重要组件。
23. 你们说的智能调度是什么?
我们是基于用户策略的双层智能调度。
上层调度程序支持灵活的用户策略:
-基于位置
-基于性能
-基于成本
-基于团队/组织目标……
下层调度程序满足应用要求:
-基于Slurm/LSF/SGE/PBS的工作任务
-基于容器的K8S工作任务…
智能调度用户策略详情看这个:《生信云实证Vol.3:提速2920倍!用AutoDockVina对接2800万个分子》
24. 为什么要Auto-Scale自动伸缩?
省钱,省心。
我们的Auto-Scale功能自动监控用户提交的任务数量和资源的需求,动态按需地开启和关闭所需算力资源,在不够的时候,还能根据不同的用户策略,自动化调度本区域及其他区域的目标类型或相似类型实例资源。
所有操作都是自动化完成,无需用户干预。
划个重点,这里的关机对于成本的节约极其有帮助。
25. 数据怎么做到云上、线下同步?
我们有专门的数据传输工具,提高传输效率。支持全自动化数据上传,可充分利用带宽,帮助用户快速上传、下载海量数据。同时,利用fastone自主研发的分段上传、高并发、断点续传等数据传输技术,优化海量数据的传输效率。
也支持VPN/专线接入。
26. 很多PDK,就有几十T,怎么到云上,而且需要持续更新?
离线传输方式可以初始化传输大量数据。
很多PDK厂商也提供了在云上的访问方式。
27. 改变我们现在研发人员的使用习惯和体验吗?
基本没有改变。
我们支持桌面接入和SSH接入。
28. 任务和集群的区别是什么?
任务更适用于流程固定并且经常有运行需求的任务,全程图形化界面。
集群相对于任务,属于更高级的用法,用户可以直接SSH到云上的集群使用,可以直接进行应用的开发和调试。使用方式和本地无差别。
29. 我能直接创建云上HPC集群吗?
可以。
我们支持普通用户模式和高级用户模式。
高级用户,比如本身对应用工作流的理解和编程能力超强,可以不用走普通用户通过应用向导式提交的路径,可以直接根据自己写的脚本,通过Web浏览器选择新建集群,然后按需动态地在云端创建HPC集群,包括权限,计算资源,存储资源等。
30. 怎么监控、管理任务与集群的运行情况?
提交任务后,可以在监控界面中查看任务和集群运行情况。
31. 支持混合云模式吗?
支持。
我们支持本地资源不足的时候,自动溢出到云上。
下图是一个混合云模式架构图。
32. 增加一套云环境,对于IT管理会不会带来额外的负担?
通过我们可以在不增加负担的情况下对接多云,减少IT管理压力。
我们易用的自动化管理平台对IT人员来说很容易上手,对提升工作效率和资源利用率都有很大帮助。
33. 如何云上保护我们的IP资产?
可以延续公司原有的安全流程、工具,结合云上完整的审计、监控和权限管理功能。
我们有丰富的安全实践。
34. 云上云下的安全?
安全是一个立体的概念,包括系统安全、应用安全、流程安全、数据安全等很多方面。
云的基础架构和传统IT架构在安全方面并没有本质上的区别,依然是利用计算节点和存储资源。很多人觉得这两者之间存在差异,我们认为这取决于个人的认知。
35. 支持纯云模式吗?
支持,文末可以直接注册免费试用。
36. 关于选择哪种上云模式你们有什么建议?
从我们接触的企业看来,既有老牌企业从纯本地逐渐过渡到本地+云的混合云模式的,也有初创公司直接从云端起步,逐渐添加本地机器,最后形成混合云模式的。
对于国内企业来说,混合云应该是各种企业类型最终能接受的完成形态,既保留有本地的私密性,也时刻享有云端的灵活性。
37. 用云是不是很贵/便宜?
企业上云是否便宜取决于具体应用场景,云的成本结构高度依赖于自动化和智能化的运营能力,效率的提升带来TCO的降低才是计算云成本的正确思路。
参考《帮助CXO解惑上云成本的迷思,看这篇就够了》
38. 你们有优化成本的方案吗?
三个层面:
从应用适配层面,我们会在多云里选择最适合用户应用场景的具性价比资源;
从IT部署方面,通过自动化按需部署和资源实时监控管理进行成本优化;
从任务运行层面,我们根据用户不同策略进行智能调度。当以成本优先策略为第一优先策略时,资源选择以SPOT实例为主,并在满足用户成本要求的前提下使用OD按需实例来优化时间效率,相比时间优先策略,成本降幅最多可达67%-90%。
39. 跨国团队研发协同你们有解决方案吗?
跨国协同面临的IT挑战,一个是数据传输,一个是网络质量。
我们有支持多本地的IT一体化落地案例。
再来几个具体点儿的:
40. HSPICE任务能否在云端运行?
41. 云端资源是否能适配HSPICE任务需求?
42. fastone平台能否有效解决目前业务问题?
43. 相比传统手动模式,云端计算集群的自动化部署,有哪些好处?
具体可看《EDA云实证Vol.1:从30天到17小时,如何让HSPICE仿真效率提升42倍?》
44. OPC任务能否在云端有效运行?
45. fastone平台能否满足业务弹性资源需求,有效减少OPC运行时间?
46. License Server配置在本地和云端对计算性能/一致性/稳定性是否有影响?
47. fastone能否支持不同调度器SGE/Slurm?
48. 使用不同调度器对计算性能/一致性/稳定性是否有影响?
49. fastone平台的云端输出计算结果是否与本地完全一致?
具体可看《EDA云实证Vol.4:国内大规模OPC上云,5000核并行,效率提升53倍》
关于速石:
速石科技(fastone)为有高算力需求的用户提供一站式多云算力运营解决方案,基于本地+公有混合云环境的灵活部署及交付,帮助用户提升10-20倍业务运算效率,降低成本达到75%以上,加快市场响应速度。速石平台对药物研发/基因分析/CAE/EDA/AI等行业应用进行分析与加速,通过Serverless框架屏蔽底层IT技术细节,实现用户对本地和公有云资源无差别访问,产品包括:云上的SaaS平台、多云PaaS平台、软硬一体算力解决方案。