至强+傲腾可省50%服务器?看PayPal如何直面内存墙挑战!

通联网络是国内著名的虚拟主机和域名注册提供商。独创的第6代虚拟主机管理系统,拥有在线数据恢复、Isapi自定义,木马查杀等30余项功能.千M硬件防火墙,为您保驾护航!双线虚拟主机确保南北畅通无阻!

至强+傲腾可省50%服务器?看PayPal如何直面内存墙挑战!

2022年7月9日 企业邮局 0

人们常说,新一代的人工智能浪潮是由数据、算法和算力来驱动的。最近几年模型参数的爆炸式增长更是让大家看到了算力的基础性作用。

为了配合企业用户对于算力的强烈需求,当前的很多AI硬件(比如GPU)都铆足了劲儿地提高峰值算力,但这种提升通常以简化或者删除其他部分(例如内存的分层架构)为代价[1],这就造成AI硬件的内存发展速度远远落后于算力的增长速度。

因此,在遇到大模型的训练和推理时,用户总是感觉显存或内存不够用,这就是所谓的「内存墙」问题。

为了打破内存墙,人们想了很多种办法,比如前段时间大火的Colossal-AI项目就是一个适用于训练阶段的方法。在这个项目中,开发者高效利用了「GPU+CPU异构内存」的策略,使得一块消费级显卡就能训练180亿参数的大模型。

而在推理阶段,模型对硬件的主要需求就是加载模型的全部参数量,所以对算力要求相对低一些。一般对于计算密集型模型,我们可以采用INT8量化或者模型并行等策略,用多张GPU及其显存资源来推理单个模型。但实际上,还有很多工业界应用场景的机器学习或深度学习模型可以使用CPU与内存来做推理,例如推荐系统、点击预估等。

对于这些模型,我们除了内存容量上的诉求外,可能还需要考量异常情况下的数据恢复时间、硬件成本、维护成本等问题,这也对破解内存墙方案的选择提出了新的要求。

在工业场景下,海量数据、高维模型确实能带来更好的效果,但这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战。毕竟像推荐系统这样的模型,隐藏层大小可能就是数百万的量级,总参数量甚至能达到十万亿的量级,是GPT-3的百倍大小,所以其用户往往需要特别强大的内存支持系统才能实现更好的在线推理能力。

既然内存不够,那岂不是直接堆内存条(如DRAM)就够了?这从原理上是可行的,但一方面DRAM内存的价格不便宜啊,这类模型需要的内存又不是几百GB,而是动不动就冲上数十TB,而单条DRAM内存一般都只有几十GB,很少有超过128GB的。所以,整体算一下,不论是成本,还是在容量扩展上的能力,这一方案都不太容易被大家接受。

此外,DRAM内存还有一个问题,即数据是易失的,或者说:一断电就丢数据。有时候模型重启或者排除故障的时候,只能重新将权重从更慢的存储设备,如SSD或机械硬盘中加载到内存里,非常耽误时间,这对于在线推理业务来说是很难容忍的。

那么,除了添购&ensp

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注