传统上用于游戏计算机的高端图形处理器或 GPU 可以非常快速地乘以矩阵,但这需要成比例地增加能耗:我们必须在拥有数百甚至数千个 GPU 的服务器群中训练这些模型。举个例子,训练 GPT3 需要 188,000 千瓦时。这相当于驾驶电动汽车行驶 700,000 公里。而这还只是训练模型所需的能量,还不包括使用该模型所需的能量。随着数亿人使用该服务,我们可以预见到能耗将大幅增加。而且我们无法对这一点做出预测。实际上,能源成本可能要高得多,因为模型必须经过多次训练和再训练才能进行微调。例如,OpenAI 已经证实,它需要执行的计算次数每三个半月就会翻一番。
如何提高机器学习模型的能源效率?
有一些方法可以缩小机器学习模型的规模。例如,我们知道 GPT3 有 1750 亿个参数,但事实上这个 手机号码数据 数字是可以减少的。我们还应该改造大型模型,以考虑其使用方式,并调整其设计以优化能源使用。
在我们所谓的神经架构搜索(即人工神经网络的研究和设计)中,存在着权衡。今天我们的目标是在某些任务(如翻译)上取得非常好的结果:如果我们想要 100% 准确的结果,我们知道我们需要非常大的语言模型,但如果我们将准确率定在 99%,那么我们就可以真正降低它们的复杂度。所以我们需要在性能和复杂性之间达成妥协。
这个能耗可以测量吗?
我是 Carbon Tracker 开发团队的一员,Carbon Tracker 是一个 Python 工具,可以帮助我 什么是变更数据捕获 (CDC)?初学者指南 们监测和预测训练和开发深度学习模型的碳足迹。该工具自三年前推出以来,下载量已达 65,000 次,它的诞生源于人们对人工智能影响的具体数字的迫切需求。它让我们能够回答一些假设性问题,例如“在这次或那次迭代中,运行这个模型十年需要多少能源”。如今,出于竞争原因,一些公司不愿透露他们的语言模型是如何训练的。然而,科学 西班牙比特币数据库 和 IT 界可以研究 LLaMA 和 Stable Diffusion 等可访问的开源模型,以确保它们在能耗更低的机器上得到优化和训练。
至于硬件……?
硬件部署方式也可以改进:实际上,使用 32 位的计算通常只需 8 位即可完成,因此,您无需使用四个 GPU,只需一个 GPU 即可获得相同的结果,这对所需的能量有很大影响。数据中心会产生大量热量,也需要大量能量进行冷却。例如,在大学中心,处理过程中每使用一瓦,就会损失一瓦的冷却能量。因此,优化基础设施的使用空间很大。无论如何,私营公司都有降低成本的事实上的动机,这促使他们监控能源效率,尤其是因为能源成本……国际法与武装冲突联合系列:Janina Dill 谈比例原则评估
作者: 海伦·麦克德莫特 (Helen McDermott)
2016 年跨大西洋国际法与武装冲突研讨会上 我们联合撰写的博客系列的最后一篇,《评估比例原则:对合理指挥官的不合理要求?》——由Janina Dill(伦敦经济学院)撰写,现已在 Intercross上发布。