在极客眼中,做技术,是件浪漫的事儿。
因为它总是指向极致和探索。
在服务器设计者手中,产品就像被技术打磨完成的艺术品,被倾注了细心、耐心和想象力。
今天我们邀请到“绝不浪费一点空间”的浪潮Geek艺术家张海龙老师,来聊聊全球最高计算密度AI服务器AGX-2如何挑战空间极限。
“所有产品的设计,都是由繁到简,再由简入繁的过程,当我们透过现象看到本质,产品的架构也就慢慢浮现在眼前。”
Ⅰ.一个难题的八方需求
事再多,一件一件做
年,有句话叫做:"ABC"正在对"D"产生深刻影响。这并不是一句绕口令。
以A(AI人工智能)、B(BigData大数据)、C(Cloud云计算)为代表的新一代信息技术的兴起,推动D(DC数据中心)的变革。其中,AI正在以超出预想的速度发展。
随着AI服务器在数据中心中部署规模的增大,一方面会引发数据中心一系列变化,无论是内部设计还是整体布局。另一方面也对AI服务器计算密度提出了更高要求。目前AI服务器产生的热能是传统CPU服务器数倍,如果一个机架可以放十几台普通服务器,同样空间下就只能放两台AI服务器。
哪里有困难,哪里就有需求。
哪里有需求,哪里就有解决办法。
目标/
在2U空间内设计出一款同时支持8个NVLink互联或PCIe3.0接口的GPU服务器(命名为AGX-2)
初始条件/
2U机箱、总长度不能超过mm、需同时支持8*NVLink互联GPU或8*PCIe3.0GPU两种不同搭配、1+1电源冗余设计、电源功率为w、GPU模组必须有独立维护设计、实现GPU板/主板的单独维护性
需求模式
客户需求:安全稳定、方便维护、高端大气、物美价廉
测试需求:稳定强壮,满足所有测试需求
生产单位需求:组装方便,组装方便,组装方便!重要的事情说三次
产品经理需求:功能全部实现,交付绝不拖欠
采购需求:我们是成本的代言人…
DFX需求:模组方便拆装,螺钉种类和数量较少…
......
对于服务器技术人员来说,服务器架构设计是一个重点,也是一个难点。一方面要考虑服务器内部架构和外观。尤其是前者,包括CPU、硬盘容量、主板扩展功能、电源容量及冗余等,这些硬件的空间设计要充分考虑到兼容性、稳定性和扩展性。另一方面也要基于整个项目,做价格以及更多需求的考量。
一个起点,就是“八方需求”,难度可想而知。
Ⅱ.诞生于风暴式构思的架构
胆大心细,服务器空间艺术要领所在
在众多需求中理出头绪,需要先找到关键问题,然后重点击破:
2U产品,总深度mm,2种GPU形式,共用同一个机箱底座
强度满足带卡出货需求,相应机械测试无比PASS(机械冲击、包装跌落、裸机振动等)
维护方便、成本控制......
经过一次次头脑风暴的梳理,我们发现了此次设计的两个关键问题:电源位置和GPU模组设计。
√电源位置
如果按常规设计,2U机箱中两个电源会上下叠加摆放在机箱后部,但是这样会占用PCIe形式的GPU卡摆放空间。多种位置尝试后,我们启用了一种大胆的方案:将电源模组前置并放置在机箱两侧。虽然它增加了机箱侧壁的理线工作(需在机箱侧壁走两根强电电源线,把机箱尾部电源插座与前方电源模块连接),但完全解决了机箱内各模块摆放位置这一核心问题。
√GPU模组设计
怎么在如此有限的空间内设计出可支持8GPU的结构形式?这不是想出来的,而是算出来的。经过大量计算后,我们把PCIe形式的GPU卡按照每4个为一组,每组都采用共轭形式来摆放。而结果也证明了我们计算的准确性,这样摆放后机箱侧壁还分别能空余出2mm左右间隙。
这两个问题的解决让这款超高计算密度AI服务器,轮廓越来越清晰。
所有产品的设计,都要经历由繁到简,再由简入繁的过程,当我们透过现象看本质的时候,产品的架构也就慢慢浮现在眼前。
Ⅲ.无数意料之外造就的极致
纵然被虐千百遍,仍爱之如初
架构诞生后,接下来就是机构设计工程师公认最痛苦的环节:建模。
在将需求转化为实际的图纸过程中,总是会遇到各种各样意料之外的问题,在这个过程中,会感受到新增问题的绝望、想到方案的欢喜、以及下个问题正在路上的五味杂陈。
按照架构分析过程中确定的方案,将电源模组分别摆放在机箱前端两侧,然后是主板、风扇模组、Busbar等。最后根据计算结果,将4个PCIe形式的GPU卡分别摆放在固定支架两侧,每侧两个且两侧方向相反,在固定支架的侧分别设计一个Riser卡,用于GPU卡数据传输。同时,在固定支架前后两端分别设计一个提拉结构,完美解决了拆卸问题。
建模后,再利用有限元分析(FEA)技术对产品进行仿真分析,得出机箱的合理受力点、凸包分布情况和形状等。
最后,是一项具有视觉冲击力的工作:ID设计。作为设计工作的最后一环,它让之前的所有反复思量和推翻重建有了一个完美收官作品。
密度与性能的平衡一直是服务器产品所追求的一种境界,如何在保证性能不变的同时,提升硬件的单位密度成为考验硬件厂商设计功底的核心问题。而极限设计也是每个机构工程师不断追逐的目标,当空间利用到了极致,产品便像极了艺术品。
AGX-2目前是全球计算密度最高的AI服务器,2U空间内搭载8颗最强GPU的AI超级服务器,帮助AI计算性能提升可高达40%以上。现在它已经广泛用于金融、电子、科研等领域。
用技术语言,讲述极客式浪漫。我们下期见。