智造公社专访华为2012实验室-助理科学家-李博杰:AI就像原子弹,不能落后于人
(智造公社微信公众号文章,原文链接,非常感谢智造公社的精彩问题和整理编辑)
AI到底会对人类社会的技术和生活产生什么影响?
随着GPT4发布,大模型AI的性能再一次刷新公众想象,AIGC产出的内容越发真实、精致,随着数据清洗和训练的不断深入,AI对自然语言的理解能力也显示出了巨大的进步,从被动地接受数据“投喂”,到主动向世界发问,或许,科幻片里的“人工智能生命”已经距离我们不再遥远。
焦虑在所难免,“AI失业”在部分行业似乎正在真切上演。当地时间2023年5月18日,英国最大的电信运营商英国电信公司表示,将在2028年至2030年期间裁员4万至5.5万人。此次裁员将包括英国电信的直接员工和第三方员工,将使公司员工总数减少31-42%。目前,英国电信公司员工数量约为13万人。
英国电信的老板菲利普·詹森对外宣称,在完成光纤铺设、数字化工作方式、采用人工智能(AI)并简化其结构之后,将依靠更少的劳动力和显著降低的成本基础,“新的英国电信集团将是一个更精简的企业,拥有更光明的未来”。回看国内,一些互联网科技企业也显露出了相关的势头,尤其游戏公司的美术外包等岗位,堪称“重灾区”。
谈及这个问题,华为2012实验室助理科学家李博杰表示,公众的一些焦虑被媒体放大了,AI技术并非取代人类的洪水猛兽,反而,是解放生产力,塑造更多新岗位的浪潮,“比如说我们去看过去的工业革命,原来做农耕的人现在都要去使用机器了,他所需要的教育,以及对社会、经济和人们的生活生产方式变化都非常大”。
李博杰认为,在AI技术普及,成为一种新的生产工具以后,又会因应产生更多业态以及职业,“比如说有了电脑之后,就不需要抄写员在那辛辛苦苦抄东西了对吧?AI也是一样的,有些行业直接涉及人的,它没办法取代,比如说像服务业对吧?但有些很按部就班做固定模式化的东西,AI就可以简化很多的劳动”。
作为和AI密切相关的数据中心网络技术研究者,李博杰提出了许多对AI的看法和思考,下面,是智造公社主笔小智与李博杰的对谈记录:
AI早已普遍运用
小智:现阶段,咱们华为对于AI技术在帮助检测和预防网络攻击这方面,有哪些应用或者说尝试吗?
李博杰:这个是涉及到AI智能运维这一块的东西,所谓智能运维,就是根据网络的一些日志,去检测网络里边到底有没有攻击的情况。我自己没在做相关的工作,但是我听说其他的部门有做相关工作的,他们主要包括公有云,还有包括数据通信产品线,然后他们会做相关的一些事情,也有相关的一些产品。
目前AI做网络攻击检测之类的,一般来说不会用到大模型,大模型主要针对的还是一种人类知识的理解,针对图片或者自然语言文本,但是在网络攻击里边,它针对的是网络协议这样一些报文,实际上是非常的固定的模式,并不需要用一个特别复杂的神经网络之类的东西,早在大模型出现之前,应该说10来年前,从深度学习火起来开始,就有很多人就用机器学习去做各种入侵检测,还有流量分类等等的事情。
小智:AI技术的进步和发展,又对咱们网络中心这些设备的管理方面会不会有一些进步和改善?
李博杰:刚才你提的第一个问题是说安全的检测,其实除了用AI做安全检测,也一样可以通过日志去做故障的检测,甚至故障预警。比如说在数据中心里面,存在很多的灰度故障,它并不是说整个东西直接不通了,而是说它处在一个坏和不坏的边缘,可能未来一天会坏。
那怎么知道它会不会坏?一般来说,很多东西坏之前都有一个不再正常工作的阶段,比如硬盘,快坏的时候可能会发生坏道、访问延迟忽快忽慢。如果说一个GPU快坏的时候,可能就经常过热,这实际上是可以通过日志,再通过机器学习算法,去分析和识别到底它可能会有哪些问题,就是说可以提前检测到这些故障,并且把有可能发生故障的这些组件替换掉,就比出现故障以后再去替换会好很多。
尤其在AI的大规模训练上面,出现故障之后再替换停机的代价是比较高的,比如说AI大模型的训练需要1万张卡,如果有一张卡坏了,会使得这1万张卡的整个集群训练都停下来,需要把这张卡上的任务迁移到别的地方以后,找到一个地方安排好,所有卡开始重新做当前阶段的任务,一个故障的部件就会拖慢整体。
如果故障率比较高,比如每个小时都故障一次,假设恢复故障需要10分钟,相当于每个小时就浪费了10分钟时间在恢复上,而且规模越大,故障频率就越高,用在故障恢复的时间占比就越高,整体效率越低。所以说,最好的一个方法就是能够提前预测可能会发生故障的点,提前做一些规避和替换。
从某种意义上说,现在的AI集群就像是人类的第一台计算机埃尼阿克,由18000个真空管构成,每天都有真空管损坏导致停机,维护人员需要每天忙着更换坏掉的部件。历史上,更低故障率的集成电路取代了真空管。那么未来的AI集群是否也可能实现故障自愈呢?近期可以靠AI智能运维,远期我们可以思考新的材料和工艺,比如是否有可能让芯片像人脑的神经细胞一样自己生长出来,并且具有自己从物理上替换故障部件的能力?这对于芯片和AI的命运可能影响是很大的。
小智:咱们现在的网络国内的网络技术、数据中心网络的承载能力,是否足以支持让AI大规模地、普遍地进入到日常生活当中?
李博杰:这个肯定是够的,你这个应该相信。你看咱们国内有很多大厂,像字节它就超过10万张卡,我们华为的卡也超过上万张,然后阿里肯定卡也很多,他没有公开有多少张,但我估计可能也不下10万。
所以说实际上并不是因为大模型来了,大家才疯狂买卡,这样的话卡也买不到,肯定都是很早之前,在AI方面各大公司有就很多布局了。
实际上,国内每个(科技)公司都在它的关键业务里面用了AI,最典型的就是搜索推荐,所有的那些推荐算法,AI也是它的核心技术。然后搜索引擎,百度之类的,也都是用AI的方法去做这样一个ranking。
还有像阿里,它去做一个商品的排序,包括广告推荐这些,我们一般来说都叫做搜索推荐广告,搜、推、广三个都是一体的东西,其实都是用的这套技术。
华为的大模型布局:算力平台、垂直、ToB
小智:咱们华为的AI布局,更多会涉及什么方向?
李博杰:可以主要分为两个方面来讲,一方面是算力平台,我们华为的昇腾和鲲鹏分别提供了自研的AI芯片和通用处理器,还有面向AI和计算产业的解决方案。未来大模型一定会风起云涌,各家大公司和一些创业公司都会做大模型,而且由于中美竞争的原因购买NVIDIA的高端硬件已经存在一些限制,这时我们的算力平台一定会成为关键的基础设施。我们华为过去的发展是乘了信息产业大发展的东风,互联网和移动互联网把通信的管道撑大了;现在大模型又是一个把计算产业管道撑大的好机会。
另一方面就是大模型本身。我们这边搞的大模型,有可能不会是类似ChatGPT那种通用的面向C端的服务,直接给用户随便回答啥都行,更多的是想做一个比较解决特定场景下问题的,B端的服务。
比如说典型的,可以做一些财经领域的模型,这个模型本身可能是通用的,但是我不让它去回答各种各样乱七八糟的问题,比如说问他林黛玉怎么去倒拔垂杨柳是吧?它根本就不会有这些输入,它的输入就是一些特定领域的内容。
比如说让它去改造ERP系统,ERP系统里面它可能会询问过去10个月,某个部门入职一年以内员工的工资是多少,或者把过去10个月里边表现最好的员工找出来。用户再通过这样一个自然语言的方式,跟ERP系统进行交互,就可以大大简化原来需要鼠标多次点击才能完成的流程。
另外的话还有作为智能设备入口的语音助手,像我们小艺对吧,之前大部分的智能助手都是人工智障,基本上你问的、说的那几个字跟预设的模板稍微有些不同,就不知道该干啥了。那么用了大模型之后,他至少能帮你做很多事情,但它做的事情,仍然是局限于能控制的范围内。
大模型如何影响数据中心网络?
小智:大模型火起来之后,比如GPT3,它的参数规模就已经接近1,750亿个参数额,到GPT4参数规模更大,这种参数规模的膨胀会对咱们数据中心网络的要求产生哪些影响和变化?
李博杰:我觉得这是一个非常关键的事情,也是我目前在搞的事儿。
首先,像GPT3需要1,750亿的一个参数,实际上是需要很多卡一起做训练,去把模型训练出来。我们华为这边,盘古大模型其实也是几千张卡一起训练,然后做很大规模,上千亿参数的这样一个模型。
在这里边,主要分为两类的通信,一类是超节点,或者说机架内的通信。它可能是几百个卡,或者几十台主机,这样一个范围内,去做通信。这个时候在通信上面,需要的是极高的带宽,比如说现在NVLink,需要每秒钟900 GB的通信性能,对通信性能要求很高。
而在比较大的范围内,可以用其他的通信模式,通信带宽要求没有那么高,比如说扩展到机架之间的时候,比如说我有1万个GPU,它可能是分成20个cluster,每个cluster有500个GPU,500个内部是高性能的通信,然后每个cluster和每个cluster之间用的是InfiniBand技术去做通信。性能的话,一般目前是在20 GB每秒左右这个量级上面。
刚才你还问到大模型的发展和后续,可能会对网络的性能有怎样的诉求,可以这样说,模型越来越大,对网络的需求也越来越高。
比如假定在同样的一个集群上面,去训练1,750亿的参数的模型和1万亿参数的模型,假如这个模型结构比较类似的话,那么1,750亿的模型可能能做到通信和计算2:8,也就是通信只占20%的时间。
但如果是万亿级参数的模型,可能通信的时间要占到70~80%,也就是说大部分时间都花在通信上了,就意味着实际上计算的效率会降低很多——大部分时间,这些计算单元都在等待着通信完成,才能开始下一轮计算。
要解决这个问题的话,肯定需要更高性能的通信网络,我们华为这边也在搞这样的一个新型的互联总线,希望能把小规模的NVLink的总线和大规模的InfiniBand的总线融合起来,做一个新的总线标准,在大规模情况下仍然能取得比较高的通信性能。
小智:目前这个方向的尝试上,有一些进展或者说突破了吗?
李博杰:2022年,我们的轮值董事长徐直军在年报发布会上,就发布了我们的灵衢总线,一个对等架构,意思就是说我们GPU、CPU等各种不同的计算设备,都可以直接去互联,不需要经过CPU去中转的通信。这样就实现了刚才所说的,大规模下面仍然能取得高性能。
算力,制约AI的关键
小智:您怎么看国外用GPT4去分析GPT2的项目?
李博杰:我觉得这是非常关键的一个东西,我之前也看过这个工作,其实就是说有些人工智能它未来一定会去自我演进,这是很关键的一件事情。
之前有很多人在研究AI for science,就是说用AI来研究科学推进科学,主要是自然科学领域的一些发展。用AI去预测AI,这也是一件很关键的事情。比如说是不是有可能用AI本身去探索它的模型结构应该怎么创新,它的数据应该怎么获取,甚至说怎么去跟世界交互,把它的模型进一步加强。
比如说我们去想,人怎么去学习这个世界的?它实际上是人从婴儿期开始,就不断跟三维世界进行交互,获取响应,逐渐形成world model,但目前我们机器学习训练的方式,还是一个被动获取型的,都是人去输入一堆东西,不会主动去跟这个世界做交互。
未来,比如AI能够有机器人,去跟世界主动去交互、去探索,包括它有多个不同的感官,就是所谓的多模态,不只是文字,也有视觉、听觉等等不同的感觉,它就会形成一个更强大的模型。
小智:听起来更接近于科幻片当中的人工智能生命?
李博杰:我觉得这个真的是不远了,10年之内基本上就能够达成,除非有什么硬件上的,或者理论上的问题,使得我们真的做不出来。当然,现在没办法预测,我觉得最大的有可能制约这件事情发生的就是算力。我现在其实很担心的就是说,人类现在所有的算力,能不能支持人工智能生命这样的事情发生。如果有足够的算力,很多事都能搞。
为什么我自己感觉算力的制约因素会很大?你看我们计算机科学的发展,前几十年大家一直在想办法搞更高效的算法,比如说我们的数据库,如果要从里面查询一个人当前多少岁,把整个数据库几十万条记录全部扫描一遍,这个算法肯定是非常低效的,大家都会想说最好查一次就排查到那个人到底多少岁对吧?
但是我们看神经网络,它工作的方式就恰好相反,就是把所有东西都遍历一遍,每个神经元里面都存储着一定的信息,相当于所有东西都根据输入扫描过了一遍,最后再比较出来哪个是最优答案,然后把它输出出来。
在传统的数据结构、算法或者数据库里边,这种效率大家都认为不可接受,是非常低效的。但是正因为我们算力进展到了这一步,能够让它把所有的数据都过一遍,神经网络才表现出这么强的性能。
未来我们想让AI做的事情越来越多,除了生成一些文本,还想让它去处理视频、音频,它的数据量更大。假如说每个人要有一个智能助理,它又需要记录这个人一生发生过所有的事情,又是很大的一个数据量,据统计可以达到1 TB,如果都采用目前的神经网络这种模式去处理的话,实际上有可能我们算力是不足的。算力的限制,才是人工智能现在最大的问题。
算力最根本的限制,又是在于能源和材料,处理每一个bit,需要多少焦耳的能量,虽然从物理上还没有探到下限,但是目前我们能达到的芯片技术是有限的。现在所有的数据中心占据到人类能源的消耗已经在1%~2%左右,如果算上所有的电子设备,包括终端设备、通信设备,可能都已经占到接近5%了。人类的能源目前还没有很明显的突破,受控核聚变还没搞定,那就是说在算力的能源消费最大就是增加20倍左右,没有办法了。
所以说,目前能源和芯片技术所制约的算力能不能支撑得起这么大的一个需求,是一个很挑战的问题。在有限的能源下,就看半导体技术能否持续降低每bit算力的能耗了。我看最近萨姆·奥尔特曼(OpenAI首席执行官)提到他也投资了一个受控核聚变的公司,如果AI能够把受控核聚变搞定,完全就是一个新的世界了。
“AI就像原子弹”
小智:有一个最近探讨热度很高的问题,AI导致失业的焦虑您怎么看?
李博杰:我感觉的话是这样,AI会对社会的存在方式有很大的一个变化。
我不知道这一波AI能不能成为下一个工业革命,这个有点太大了,但比如说我们去看过去的工业革命,原来做农耕的人现在都要去使用机器了,然后他所需要的教育,对社会、经济和人们生活生产方式变化都非常的大。
相当于原来一亩地上需要一个人,每个人都在耕地,现在我弄了一个拖拉机,一个拖拉机可以搞100亩地,剩下的99个人就可以干其他事情,这就是咱们工业社会产生的一个根源。之前因为农业的生产率很低,所有人都要被固定在土地上面,就没有人去搞更复杂的一些事情,正是因为扩大了生产能力,很多人他可以干其他事情了,又产生新的产业。
小智:您认为AI应该是对生产力的技术解放?
李博杰:相当于有一些低级的职位不需要了,其实这个事也不用扯到工业革命那么远,比如电脑的出现也取代了很多职业对吧?
是不是有了电脑之后,就不需要人在那辛辛苦苦抄东西了?实际上AI也是一样的,有些行业是直接涉及人的,没办法取代,比如像服务业,但有些很按部就班,做一个很固定、模式化的东西,就可以简化很多的劳动。比如现在程序员还是一个专业程度比较高的职业,但是GPT使能自然语言编程之后,人人都可以做程序员,让机器自动化各行各业里面重复性的工作。
对失业大家也不用特别焦虑,AI最应该焦虑的事情是防止它被用来作恶。前段时间萨姆·奥尔特曼接受国会质询的时候,也是提这个问题,说要不要搞个核不扩散条约一样的东西,AI的能力如果达到一定的级别,就一定要受到类似国际原子能组织的监控。这个还是很关键的,假如说强大的AI落到一个恐怖分子手里边,实际上还是很可怕的。
小智:现在大家已经没有必要讨论要不要做AI,而是应该要讨论以后怎么管好AI?
李博杰:我自己感觉的话,控制它不再去做是不可能的,AI就像原子弹一样,一旦被发明出来,一定会有人做,你自己不做,只能落后于别人。
AI芯片里面电信号比人类大脑神经元的传导速度更快,AI芯片之间的通信带宽比人类基于语言的相互交流也快好几个数量级,因此未来AI的智能程度很可能比人更高。AI代表的硅基智能对比人类代表的碳基智能,就像是原子弹对比常规武器。人类今天没有毁灭,有赖于对原子弹的严格管控。我们能做的就是尽量约束AI用于善意的目的,让AI能够做好人类的助手,而不是像科幻小说里一样让人类被AI所奴役。
经受访人同意,文字内容有所编改
整理编辑:小智