◆◆0

机器学习|使用AI为何如此耗电？

yuyuxi 2020-12-17 机器学习, 行业新闻 6,685 views

本月，谷歌逼走了一位著名的人工智能伦理研究人员，因为她对公司让她撤回一篇研究论文表示不满。该论文指出了语言处理人工智能的风险，这种人工智能用于谷歌搜索和其他文本分析产品中。其中的风险包括开发这类人工智能技术所带来的巨大碳足迹。据一些人估计，训练一个人工智能模型所产生的碳排放，相当于制造和驾驶五辆汽车在其一生中所需要的碳排放。

本文作者是一名研究和开发AI模型的研究人员，对AI研究中暴涨的能源和财务成本非常熟悉。为什么AI模型会变得如此耗电，与传统的数据中心计算有什么不同？本文将会探讨一下。

今天的培训是效率低下

在数据中心完成的传统数据处理工作包括视频流、电子邮件和社交媒体。AI的计算量更大，因为它需要阅读大量的数据，直到学会理解这些数据。与人的学习方式相比，这种训练的效率非常低。现代人工智能使用的是人工神经网络，它是模拟人脑神经元的数学计算。每个神经元与邻居的连接强度是网络的一个参数，称为权重。为了学习如何理解语言，网络从随机权重开始，并调整它们，直到输出与正确答案一致。

训练语言网络的一个常见方法是，从维基百科和新闻机构等网站上给它输入大量的文本，其中一些单词被掩盖掉，然后让它猜测被掩盖掉的单词。一个例子是 "我的狗很可爱"，"可爱 "这个词被掩盖掉了。一开始，模型会把它们全部弄错，但是，经过多轮调整后，连接权重开始变化，并在数据中发现了模式，网络最终变得准确。

最近的一个名为 "变形金刚双向编码器表示"（BERT）的模型使用了33亿个英文书籍和维基百科文章中的单词。而且，在训练过程中，BERT对这个数据集的阅读不是一次，而是40次。相比之下，一个普通的学说话的孩子在5岁前可能会听到4500万个单词，比BERT少3000倍。

寻找合适的结构

让语言模型的构建成本更高的是，这个训练过程在开发过程中会发生很多次。这是因为研究人员希望找到网络的最佳结构--有多少神经元，神经元之间有多少连接，学习过程中参数的变化速度应该有多快等等。他们尝试的组合越多，网络达到高精度的机会就越大。相比之下，人类的大脑不需要找到一个最佳结构--它们自带一个经过进化磨练的预建结构。

随着公司和学术界在人工智能领域的竞争，人们面临的压力是如何在技术状态上进行改进。即使在机器翻译等困难任务上实现1%的准确性改进，也被认为是重要的，并会带来良好的宣传和更好的产品。但为了获得这1%的改进，一个研究者可能要对模型进行数千次训练，每次都用不同的结构，直到找到最好的模型。

马萨诸塞大学阿默斯特分校的研究人员通过测量训练过程中常用硬件的功耗，估算了开发人工智能语言模型的能源成本。他们发现，训练一次 BERT 的碳足迹相当于一名乘客在纽约和旧金山之间飞一个来回。然而，通过使用不同的结构进行搜索--也就是说，通过使用略微不同数量的神经元、连接和其他参数对数据进行多次训练，成本变成了相当于315名乘客，或者整架747飞机的成本。

更大更热

AI模型也比它们需要的大得多，而且每年都在增长。一个类似于 BERT 的最新语言模型，叫做 GPT-2，它的网络中有 15 亿个权重。GPT-3，今年因为其高准确度而引起轰动，它有1750亿个权重。

研究人员发现，拥有更大的网络会带来更好的准确性，即使最终只有一小部分网络是有用的。类似的事情也发生在儿童的大脑中，当神经元连接首先被添加，然后减少，但生物大脑比计算机更节能

AI模型是在专门的硬件上进行训练的，比如图形处理器单元，它们比传统的CPU消耗更多的电力。如果你拥有一台游戏笔记本电脑，它可能有一个这样的图形处理器单元，以创建高级图形，例如，玩Minecraft RTX。你可能也会注意到，它们产生的热量比普通笔记本电脑多得多。

所有这些都意味着，开发高级人工智能模型正在增加大量的碳足迹。除非我们改用100%的可再生能源，否则人工智能的进步可能会与减少温室气体排放和减缓气候变化的目标背道而驰。开发的财务成本也变得如此之高，以至于只有少数选定的实验室能够负担得起，而他们将成为制定什么样的人工智能模型得到开发的议程的人。

事半功倍

这对人工智能研究的未来意味着什么？事情可能并不像看起来那么暗淡。随着更高效的训练方法被发明出来，训练的成本可能会下降。同样，虽然数据中心的能源使用被预测会在近几年爆炸式增长，但由于数据中心效率的提高，更高效的硬件和冷却，这种情况并没有发生。

训练模型的成本和使用模型的成本之间也有一个权衡，所以在训练的时候花费更多的精力来得出一个更小的模型，实际上可能会让使用模型的成本更低。因为一个模型在它的一生中会被使用很多次，这就会增加大量的能源节约。

在实验室的研究中，我们一直在研究如何通过共享权重，或者在网络的多个部分使用相同的权重来使AI模型变得更小。我们称这些网络为shapshifter网络，因为一组小的权重可以被重新配置成任何形状或结构的大网络。其他研究人员已经表明，在相同的训练时间内，权重共享具有更好的性能。

展望未来，人工智能界应该在开发节能的训练方案上投入更多。否则，就有可能让人工智能被少数有能力设定议程的人所主导，包括开发什么样的模型，用什么样的数据来训练它们，以及模型的用途。

关于慧都大数据分析平台

慧都大数据分析平台，将学习、推理、思考、预测、规划等能力赋予企业数据，让数据驱动决策，创造最高业务价值。

欢迎拨打慧都热线023-68661681或咨询慧都在线客服，我们将帮您转接大数据专业团队，并发送相关资料给您！