2023ESG全球领导者大会于9月13至15日在上海市黄浦区绿地外滩中心举行,本次大会主题为“可持续的经济增长、社会发展和环境保护”。以下为演讲实录:
大家好,我的名字是特伦斯·谢诺夫斯基,我是索尔克生物研究所教授,我现在也是美国加州大学圣地牙哥分校的计算机科学与计算机工程教授。
我今天想和大家聊聊使用人工智能促进可持续发展。
在我的下一页幻灯片上,你们能够看到,我们将主要聚焦于人工智能所使用的能源问题。
可持续能源现在已经成为了一个非常重要的议题,不管是对于美国,还是对于在世界的其他地方的企业。
除了使用可持续能源以外,我们还要考虑节约能源的问题,我们希望能够节约能源,以拥有一个更好的环境。
人工智能需要大量能源。事实上,2014年,美国的数据中心消耗了700亿千瓦时的能源,约占美国总用电量的1.8%。
在过去的七年中,这个数字还在不断增长,到2021年为止,已经增加到了2000亿千瓦时,占美国总用电量的5%以上。
人工智能的数据中心规模巨大,占地面积动辄达到10万平方米,内部拥有百万个核心。在世界各地有很多这样的数据中心,消耗着巨大的能源。
我们如何减少其所需的能源量?其中一种方法正是应用人工智能,
早在2015年,谷歌就应用了人工智能,将数据中心运行所需的能源量减少了50%,
数据中心需要使用数百万个核心运行程序、数据和分析,谷歌利用人工智能来平衡所有这些负载。
这样做已经极大地节省了资源,但是还是要用很多能源。
2018年,我出版了一本书,译名为《深度学习 智能时代的核心驱动力量》,在书中,我讲到当代基于脑结构的AI计算的起源故事。
几年前,它被翻译为中文,从其中,你可以看到人工智能的重大进展是从能够非常大的数据集中学习开始的。
让我们追溯到上世纪八十年代,这些学习算法刚刚被提出之时,当时的计算能力非常低,与今天的计算能力相比,计算量可以说非常非常小。
在多层网络中,存在中间层,我们也叫隐藏层。当时的算力只能支持一个隐藏层。隐藏层可以理解为连接输入和输出之间的神经元。
但是现在,这样的隐藏层我们可以拥有数百层,同时还可以有许多不同的架构,能解决许多更加复杂的问题。
在上世纪80年代。我们并不知道这些大型网络究竟能扩展到什么程度,以及扩展后它们的能力会如何扩展。
但我们现在知道了,许多人工智能领域的问题都可以通过这样的网络来解决。举一个例子。这是电视节目《星际迷航》里的一个画面。
在美国,这个节目非常受欢迎,在这个节目中,星舰企业号的舰长柯克手持一台语言翻译器,它是一种通用语言翻译器,可以翻译任何语言,包括外星语言。
在当时,这是科幻剧,但今天,我们都可以拿起手机,用它来在中文和英文之间进行翻译。
科幻变成了现实,这要归功于深度学习的表现。语言翻译是人工智能的圣杯。
这张图里,我们可以看到过去40年的时间轴,时间轴右边是我们对2040年左右的未来的展望。它显示了在20世纪,随着程序变得越来越大、需要解决越来越复杂的问题,编程成本不断增加。
而计算成本,图上写的是学习成本,但是学习需要的就是计算,计算成本在不断下降,直到2012年,两条成本线交叉了。
这个点代表杰弗里·辛顿和他的研究生们展示了他们如何降低从图片中识别物体的的错误率,他们将错误率减少了20%,这在当时是非常大的成就,他们是通过在包含2万种物品的2000万张图片的数据集上训练达到了这一点。
当然,自此之后,正如下一张幻灯片展示的一样,我们可以看到计算成本不断下降。而且这一方法的价值不仅限于我们可以运用这一方法解决更大和更难的问题,
还有同样的神经网络模型,能够用来解决不同的问题。我们只需要给它不同的数据集训练,神经网络就可以解决包括语音识别,图像识别和语言翻译在内的一系列问题。
然而,这一切在2022年发生了变化,就在不到一年前,去年11月,OpenAI推出了一个名为ChatGPT的大语言模型供公众使用。
这产生了巨大影响,因为这样的大语言模型可以与人交谈、回答问题、写短篇小说、诗歌,甚至可以编写计算机程序,
这些问题都是很难的问题,而同一个网络解决了所有的问题。这是一个拥有多种能力的工具,现在全球有许许多多的人都在使用它。
这些语言模型很特殊,因为首先它们是在非常大的数据集上训练出来的。人们在非常大的文本数据库上训练它们去不断预测下一个单词。
在最近的GPT-4中,GPT-4是在今年3月推出的,使用了来自网络和专有数据库的数万亿个单词的文本来训练。
训练完成后,它可以用于回答问题,也可以执行许多不同的自然语言任务。
在对这个网络进行训练的同时,顺便说一句,GPT-4花费了几个月的时间在这个非常大的数据集上进行训练,花费了1亿美元。
训练巨大的大型网络、巨大的语言模型是非常昂贵的,但一旦训练完成,它可以完成许多不同的任务,并且可以使用更小的数据集进行微调,使其在比如生物学、法律或医学等特定领域变得专业。
一个公司如果自己拥有很大的数据库,也可以被微调进大模型中,模型之后就能产出特定的专家数据集,可以被用于多种应用中。
现在让我们回头谈谈能源的事情。这张图显示了在不同的时期想要训练不同的网络模型所需要的计算量,从1985年,到我们能看到最右边是2025年。
我们可以看到这是一条对数增长曲线,这意味着计算量后期是在数十倍地增长的。左下角的NETtalk是我20世纪八十年代训练的一个神经网络,它能够读出英文文字,
这也叫做文字转语音。以今天的标准来看,它很原始,又非常小,对吧?我们的计算能力实际一直在指数上升。这被称为摩尔定律,每两年算力可以翻一倍。
我们可以看到图中,到了2012年,当杰弗里·辛顿解决了从图片中识别物体的问题后,大的神经网络的算力有了两个数量级的提升。
因为当时我们引入了图像处理器GPU来进行计算,因此原本每两年翻一倍的算力,现在三到四个月就能翻一倍。
在这个图的右上角我们可以看到,大语言模型从此项技术中获益匪浅。
这是因为图像处理与训练网络的向量处理非常相似。
训练GPT-3所需的算力,是训练NETtalk的10的12次方倍。上世纪80年代我们可以获得的算力和现在大模型所需的算力差距就是这么大。
下一张幻灯片中,我们可以看到GPU是什么样子的。图片里的是英伟达芯片,它包含7000个核心。每个核心都是一个处理单元,核心和核心之间可以并行计算。
从2022年11月到现在,英伟达的市值从2500亿美元涨到了1万亿美元以上,实现了四倍增长,如果您去年投资了英伟达,您将获得巨大的利润。
下一张幻灯片展示了芯片的样子。右侧,您看到的是英伟达最大的GPU芯片,上面有540亿个晶体管,这本身就非常壮观了。
但是与一家叫Cerebrus的新公司相比,则小巫见大巫。Cerebrus公司构建了一台定制的机器学习计算机,里面只有一个芯片,大小与盘子相当,上面有2.6万亿个晶体管。
这个芯片运行时必须采用水冷,单个芯片需要超过15千瓦的电力。但正如您在下一张幻灯片中所见,它具有很强的计算能力,比英伟达GPU强大1000倍。
它可以同时并行模拟120万亿个权重,这意味着同时模拟120个GPT-4。15千瓦的功率听起来似乎很多,但与超级计算机相比,实际上它更便宜。可以举个例子,
如果我们将64个这样盘子大小的芯片放在一起,它们一共会具有5400万核心,可以每秒进行10的18次方次的浮点运算。而超算的计算能力大概在每秒10的15次方的级别。
它的成本为1亿美元,功率为1兆瓦,它是使用了很多的电力,但当我们将其与世界上最快的超级计算机进行比较时,如下一张幻灯片所示,
这个超级计算机叫做前沿,它被放置于橡树岭国家实验室。它的计算能力只有每秒10的18次方次,只是我们刚刚假设用Cerebrus GPU组起来的超级计算机的四分之一,而前沿超级计算机功率为21兆瓦。
如果把两方面结合起来,GPU组建的超级计算机比前沿超级计算机要强100倍,这怎么可能呢?
原因是Cerebrus计算机是专门为训练这些大语言模型和神经网络模型设计的特定功能计算机,而Frontier计算机必须能够运行任何程序,所以没办法做到效率最高。
不过,即使专门设计的计算机,也仍然需要很多电力。那么我们将如何能够减少功耗,提高效率?
现在有一种新科技,叫做神经形态工程,最早在1989年由卡弗·米德提出,运行原理与大脑运行的原理一致。我们的大脑只需要20瓦特的能源就能够运行,
这比任何超级计算机,实际上,比任何电子计算机都要高效。它运行的基础是神经元进行模拟运算。
卡弗用的正是数字计算的所使用的芯片,但只在它们的阈值上运行,因此只需消耗毫瓦级别的电量,数字芯片正常需要用掉许多瓦特。
卡弗·米德后来证明,在接近阈值的情况下,芯片的物理特性,非线性的特征与神经元中的离子通道的生物物理特性非常相似。
这使得实际上这样的芯片模拟神经元非常高效。神经元之间靠什么通信呢?
它们靠神经元脉冲来相互交流,很显然我们也可以在电子器件中模拟这样的通信。
我们可以将很多个这样的模拟超大规模集成电路芯片连接在一起,让它们之间能够相互通信,这样就形成了一种非常好的混合计算解决方案。
这样的芯片群可以用来为许多不同类型的网络模型提供算力。比如,用于识别图像中的物体的深度学习网络模型,当然还有大语言模型。
为了让大家能够体会到这之间的差别,模拟超大规模集成电路芯片是如何工作的,我们可以来看这个芯片,它被设计来模拟我们人眼视网膜中的计算。
这个芯片由卡弗·米德的学生托比·德尔布鲁克发明,他给它起的名字是动态视觉传感器(DVS芯片),让我解释一下它是如何工作的。幻灯片左边是我们传统的基于一帧一帧的摄像头,DVS工作的原理非常不同。
首先,DVS如同我们的神经元一样,可以发出脉冲。我们幻灯片上举的例子是一个电影的一帧,一个男孩正在把一个枕头放到椅子上。
DVS芯片观察同样的这个场景时,注意,这里实际上只有几微秒,一帧是30毫秒。所以这是一个非常短的时间片段。
我们看右边的图,右边的图中每个点都代表一个脉冲,如果这个点是白色的,就代表这里的脉冲增强了,而如果是黑色的,代表脉冲降低了。
这样,我们一下子就能看出这个男孩的轮廓,也能非常容易地将他从背景中分离出来,因为背景是不活动的,没有脉冲的增强或降低。
我们可以看到上面有一些白的点,代表着男孩正在向右移动,而黑色则代表着男孩原本所在的位置。
这样,我们也可以很容易地计算出速度。因此,这张图包含着大量的信息,但它的形式与传统的图像非常不同。
我们的大脑实际上就是这样观察事物的。我们的大脑不会看到实际的画面,它看到的就是我们视网膜的脉冲数据。实际上,脉冲会一直向上传递,传过不同的视觉层级。
大脑实际看到图像的方式,与我们以为的大脑处理图像的方式,是非常不同的。我们会以为大脑是像摄像头那样去观察事物,不是的,我们是像右图这样观察事物的。
神经形态工程在过去三十年中,技术逐渐成熟。目前大概有37个初创企业在开发这项技术,用在不同的应用中。
机器人是其中的重要领域之一。这些芯片非常轻巧,能源消耗非常低,而且价格很便宜。人工智能想要减少能源消耗,这就是解决方案。
很明显,这项技术要比传统的芯片优越得多。这些初创企业中,将出现下一个英伟达。我在幻灯片中只列出了其中的五家。这些企业遍布全球。这将是人工智能硬件的下一个进步。
我写了一本书,一本新书来讲大语言模型,名字叫做《深度语言革命》,将由麻省理工大学在2024年出版。
它也将被翻译为中文。我的上本书《深度学习 智能时代的核心驱动力量》停留在2018年,这本书将接着上本书讲起。
人工智能领域正在发生巨大变化,这些变化发生得非常迅速,也很难预测它的发展方向,或者下一个新的突破将是什么,将可以解决什么问题,
但是有一点是确定的,无论下一个突破是什么,都将对我们的生活产生巨大影响。这就是《深度语言革命》要讲述的故事。非常感谢您的关注。