跟基础模型公司做朋友——六叉路口 podcast
Podcast 原始内容:六叉路口的播客《研发岗位本身就要拥抱 AI,然后用剩下的时间疯狂做实验——对话华为第一批天才少年李博杰》
以下内容约 3.5 万字,为笔者根据播客内容利用 AI 整理。感谢猎手 Leslie 的精彩访谈和后期,2 个小时的时间一口气讲了个痛快,没有一段是重录的。也感谢 AI 能让我用一个下午整理完三万字的内容,并且用之前写的其他资料做了补充。
核心观点总结:
- 《她》和《黑镜》等科幻电影涉及 AI 的场景已经实现或接近实现,把科幻变成现实肯定会有巨大的价值。
- 模型能力处于快速上升期,小规模 AI 公司要跟基础模型公司做朋友,不要做在模型上雕花、套壳的事情。
- “20% 项目” 的创业成功率较高,根据日常工作和生活的需求先利用业余时间做兴趣项目,如果有泛化需求再扩展成商业项目,成功率较高。
- AI 应用的很多性能问题并不是模型问题,而要用基于第一性原理的系统优化解决。
- AI 行业大量工作未被发表或没有被开源,存在巨大的信息差。
- 现代社会信息差巨大,AI 跟用户交流多了,可以知道每个人的知识边界,推荐的效率会高很多,有助于抹平信息差。
- OpenAI o1 的强推理能力对模型在严肃场景下应用的可靠性很重要。
- 大多数用户的日常生活需求现在能力最强的模型已经基本够用,重点是降低成本;AGI 可能很昂贵,主要用于解决人类科学中最重要的问题。
- 有限的能源和芯片制造能力是 AGI 面临的重大挑战。
- 创业公司招人需要扎实的计算机基础知识、强学习能力、强自驱力。
- AI 辅助编程可以大幅提升程序员的工作效率,节约出来的时间可以用于探索 “20% 项目”,或者更好的工作生活平衡。
- AI 提升效率后,会带来更多的需求,使更多的需求变成现实,甚至独立开发者就可以完成之前一个团队的开发工作。
- 一个人的职业生涯是由一系列项目组成,重要的是每个项目都有影响力。不同的项目适合不同的方式,包括创业公司、小而美公司、社区、学术项目等。
全文:
猎手 Leslie:欢迎来到六叉路口,我是猎手。今天我们来聊聊研发相关的事,嘉宾是李博杰。博杰是中科大和微软联合培养的,华为第一批天才少年,在华为短短三年时间就做到 20 级的高级专家。2023 年 7 月,因为对 AI 的信仰,开启了大模型和 Web3 领域的创业。博杰,你先跟大家打个招呼。
李博杰:Hello 大家好,我叫李博杰,我是 10 年中科大的本科生,然后 14 年的中科大和 MSRA (就是微软亚洲研究院)的博士,19 年的华为的第一批天才少年,然后 23 年我是从华为出来,在跟同学一起创业。
猎手 Leslie:对,是的。所以这个第一个问题我就特别想问,就是你看,就是这个 19 年那个天才少年进了华为,然后这个可能两三年时间到 20 级,因为我在华为待过,所以我知道这个这个级别是很难的,对。然后就看起来都很顺利,所以就为什么就突然就创业了,对吧?就是因为其实你在现在这个阶段,你在一个平台里面,你还能这么快的晋升,其实一个非常难的事情。
李博杰:其实如果说一句话来说的话,创业我就是想体验一下不一样的生活,然后以及让 AI 能够更好的来普惠人类。
如果长一点的话,我可以讲一下我的故事,就是说最早的时候,就是说我什么时候从 AI 结缘。实际上我之前是做系统研究的,本科的时候我还是不懂 AI 的,但是我到了 MSRA 之后,MSRA(微软亚洲研究院)毕竟是中国最好的 AI Lab,大家都说是 AI 的 “黄埔军校”。我在这个地方虽然是做系统做网络的,但是也是耳濡目染了解好多 AI 相关的东西。但是一开始我并没有去学 AI 的算法,因为当时我们搞系统的好多人都觉得搞 AI 的就是有多少人工就有多少智能。为啥?因为当时 AI 确实还比较笨,所以他不能真正的理解自然语言,他只是说他能够去捕捉这些输入数据和输出数据之间的一些模式、一些规律关系,但他到底有没有理解,我们其实都打个问号。
我觉得就是 2017 年初的时候有一个讲座,当时就改变了我所有的看法。当时我在 MSRA,我忘了是哪个老师,他讲了两个电影,都是 2013 年的电影,一个电影叫做《她》(Her),然后另外一个电影就是《黑镜》(Black Mirror)里面的一集(马上回来)。
第一个《她》里面呢,现在我们可能大家都知道了,是讲了一种通用的人工智能助手,又能听又能看又能说,同时呢,又能够帮你去操作电脑,完成日常的任务。然后又能够给你帮你打电话,解决社恐人的难题,然后还能够为主人公提供情绪价值。当时就是男主人公遇到了情感问题,他跟他老婆闹离婚,正好 AI 成了情感的慰藉。后来,他就跟这个 AI 谈起了恋爱。
然后另外一个这个《黑镜》的那个,是讲了另外一个故事,他也是 2013 年的电影。女主角的老公不幸去世,但是她在悲痛中发现自己怀孕了。这个时候,正好她朋友给她推荐了一个 AI 数字分身,一开始是通过网络上的搜集来的语料搞了一个可以文字聊天的。后来呢,他就说可以升级到语音,然后他就上传了一些他自己的视频,变成了一个语音版。再往后,他甚至又有了视觉能力,然后甚至还花大价钱去订购了一个真人版,就是一个机器人,长的模样跟她逝去的男朋友一模一样。然后他们后来就这么一直生活下去了。当然这个电影里也说了一些比较深刻的一些伦理问题,就是说 AI 到底能不能替代真人,实际上还是很难去替代一个真人的。
这两个电影当时老师推荐我们去看,我回去看了以后,感觉触动就很大。当年 MSRA 也有很多研究,文本处理、语音处理这些东西,看起来好像技术也不是完全做不到,尤其是比如说像《黑镜》里面那个文本聊天,就是哪怕是 2017 年的时候 MSRA 的技术也足够做到那个事了。所以说我就当时我就想,能不能用我自己的这个聊天记录去训练一个,因为当时我也跟我的女朋友也分手了。我们有十万条的聊天记录。我当时就弄了那十万条聊天记录,我要看能不能训练出点什么东西。
但是我自己也不会 AI,然后而且我们组也没有显卡,因为我毕竟是搞系统网络的。当时正好有一个事,就是挖矿特别火,就是说当时正好比特币涨得很厉害。然后我就发现挖矿的显卡的价格涨得很快,我只要是买点显卡说不定还能赚钱。然后我当时就花了几十万,买了好几十张卡。当时还是 980 啊、1080Ti 啊,那些卡,就是很老了,因为毕竟是 2017 年了。我当时自己租了一个北京的地下室……
猎手 Leslie:你还在上学那个时候?
李博杰:对。那时候我还在上学,我实际上我是中科大联合培养,但是我大部分时间是在北京,是在 MSRA。然后我就找了个便宜的地下室,然后自己拉了根电线,因为那些机器消耗功率太大,普通电线撑不住。我还弄了一些风扇,要不然里边就成火炉了。我自己组装了一些机箱,把 GPU 塞进去。当然大部分时候肯定不是训练模型了,因为我也没那么多时间,大部分时间就是挖矿赚钱。最后我发现,把那些机器卖掉的时候,卖掉的二手机器赚的钱甚至比一开始买显卡的钱都贵,因为当时比特币涨得很厉害,所以即使是二手的矿卡都比正常出厂价贵,也赚了点小钱。
同时呢,我没事的时候也训练训练模型,但因为我自己的能力比较有限,我对 AI 还不太懂,所以只能弄点别人的模型上去,效果也不好。实际上我们也知道,2017 年的时候连 Transformer 都还没有,所以那个时候还是很老的一些 AI 模型,效果肯定不会很好。
后来,我就去了解了微软小冰的团队,因为微软小冰是很有名的一个 chatbot,从 2013 年就开始做了。我记得 2014 年的时候它请了奶茶妹妹做产品经理,当时就很火爆。微软小冰继承了很多能力,包括文本对话、语音、猜谜语、对联、写诗等,所以我就跟那个团队学了很多东西,至少对 AI 有了一点感觉。
现在又过了 7 年到 2024 年,发现之前搞不定的那些事现在基本上全能搞定了,因为现在的 AI 模型发展非常快。不管是语音还是文字,这些现在完全都不是问题了,就像刚才说的,不管是《Her》里面虚拟助理的场景,还是像《黑镜》里面那种数字分身的场景,现在都已经可行了,而且我们公司都有这个技术。
即使是那些现在还搞不定的场景,就比如说像黑镜里边弄了一个机器人,跟他的男朋友一模一样,这个我当时觉得说这个没 20 年肯定搞不出来。现在看起来的话,我不知道您了不了解具身智能,就是机器人,现在我觉得五年内估计也差不多了,因为具身智能一直发展也非常快。
所以说我觉得真的是一个非常好的时代,能把很多科幻电影里面的这些场景变成现实。就是我们之前看好多科幻电影,阿凡达也好,漫威也好,那些电影都涉及到很多物理定律或者机械方面的一些限制,短期内很难突破。但是说呢,唯有 AI,这些电影基本上现在要么就已经变成现实了,要么就是可能在短期的未来就能变成现实。所以说,我觉得现在的 AI 真的是一件非常令人兴奋的事情,因为科幻电影我觉得是代表了人类对于未来科技的向往。如果你把科幻电影变成了现实,那肯定会有非常大的商业价值。
猎手 Leslie:对,因为你刚刚聊到具身智能,就我觉得具身智能其实现在至少说比如在这个创业者里面或在投资圈里面,我觉得大家其实共识还不太一样,包括一些学者。就大家会觉得说,因为你除了大脑以外,你要有自己的这个身体,同时的话,其实你有部分控制的算法,但这个事情好像看起来并没有那么容易。即使你有非常强的这个,比如说像 Google 的 RT2 就是类似的东西。所以你觉得可能这是一个也许四五年左右的时间,但其实现在还有种主流的说法说可能也许十年以后,甚至时间更久。但是 Elon Musk 他可能给的时间线也是大概是在 2030 年。五年差不多了,大概可能是 100 亿还是多少机器人。你自己会相对乐观点,我能这么理解吗?
李博杰:5 年跟 Musk 的预期差不多啊。我也没有太乐观,我觉得 5 年就两件大事:一个是 AGI,AGI 就是 AI 的能力达到或者超越人类的普通智能智力水平;第二件事就是具身智能,类人的机器人能够变商用。
猎手 Leslie:但近一两年可能是 AGI。
李博杰:对,这两年可能 AGI 会快一点。具身智能这块我们公司不做,我也不太懂,我就发表一些暴论吧,我自己感觉它可能最难的东西还是在基础模型的延迟这个方面,因为现在的具身智能实际上用的都还是非大模型的东西,用的是传统强化学习方法来做控制的。然后大模型的话,主要是它的延迟还太高,所以说它很难达到百毫秒这种量级的一个精确的低延迟控制。但是现在模型的进展也非常快,对吧?这个可能我们一会儿也可以再展开去讲,然后就模型的延迟之类的这也是我们重点在做的一些东西。
然后另外一点就是机器人这一块实际上我感觉机械其实还比较 ready,因为我看好多机器人厂商他去做 demo 的时候,实际上弄个人背后在后边去做遥控,然后遥控实际上效果也挺好的。所以说我就感觉最后差还真的差在 AI,也就是 AI 搞定了,具身智能自然也就搞定了。
虽然具身智能我没有能力做,目前也没有打算 touch(涉足)这一块,但我觉得它的潜力真的非常大。刚才我们说,科幻电影里面 AI 的那一部分已经在变成现实的路上了,而剩下机械的部分、太空探索的部分,就是具身智能要干的事情,而具身智能的瓶颈目前看来也是 AI。
大刘(刘慈欣)的一句话对我的触动很大,“说好的星辰大海,你却只给了我 Facebook……从长远的时间尺度来看,在这无数可能的未来中,不管地球达到了怎样的繁荣,那些没有太空航行的未来都是暗淡的”。为什么世界变成了大刘所说的这样?去其他星球是几乎所有人的共同梦想,为什么资本都涌向了互联网和 AI,却没有那么多资本涌向载人航天?因为最近几十年,能源技术一直没有大的突破,宇宙的辽阔距离和强大引力成了人类肉体探索宇宙几乎不可逾越的障碍。
但是我们知道,信息的传递速度是光速,辽阔的距离也不显得那么遥不可及了。即使信息一定需要物质作为载体,具身智能也可能比人体更适合太空环境。我觉得,AI 正是把人类文明播撒到宇宙深处目前看来最可行的技术路线。如果 AI 能够把人类的智能承载在芯片里,并且能够自主生存、繁衍、进化,那么芯片何尝不是另外一种生命形式?生命为了适应环境,从海洋到陆地,形态上进化出了这么大的变化。适应宇宙环境又何尝不是生命的另一种进化?我并不希望地球上的人类被 AI 取代,但太空中和其他星球上的生命为什么一定得是人类肉体的形态?
因此虽然有些人说 AI 是泡沫,有些人说 AI 产品不容易赚钱,这些我都不在乎,只要我做的事情能够有助于人类实现科幻电影里面的场景,我就有非常大的 passion(激情)。
猎手 Leslie:你现在那个公司叫 Logenic?
李博杰:其实 Logenic 是我们最早的名字,我们早就不用那个名字了。
猎手 Leslie:所以我不知道这个能不能能不能讲。就是比如说你现在的公司就是是在做什么样的事情,然后你自己想解决一个什么样的问题?
李博杰:其实这个 Logenic 这个名字就是我和我 co-founder 就是思源一块想了个名字,但是当时我们没太想清楚做什么,先随便起个名吧。起了名之后,后来我们就是因为方向在不断改,然后改了方向之后就没有再用这个名字,因为感觉 Logenic 这个名字太普通,没有任何的具体化。后来,我们就换了一个更加 Focus 的名字,但是那个新名字一直也没有宣传,没有公开。
我觉得有一句话,雷军讲的挺好的,他就是说在创业初期不要去太大张旗鼓的去宣传创业者个人和这个公司的一些关系。为什么呢?他当时是说,人若无名,便可专心练剑。他讲的就是说他当时创立小米的时候,已经在金山创业成功过一次了,很多人对他的期待值非常高。他如果一开始又从个 MIUI 开始做起,从一个小的开始做起,那就可能会出现两个问题。
第一个,公司的团队会借助他的声望去做这些推广,这样的话大家一说雷军做的东西可能就是有两种反应。第一种反应是说雷军这么牛逼的人怎么就做出来个 MIUI 这么简单的一个 ROM?对吧?第二种反应是说雷军做出来的东西肯定很牛逼,我就无脑用。这样的话大家实际上是忽略了这个产品本身到底好还是不好,就不 care 了。
还有另外就是他自己有很多资源,那可能就是我直接买量,对吧?就现在很多基础模型公司也是这样,一个用户可能花个 15 块钱 20 块钱买个量,然后一下子哗的一下进来 1000 万用户,对吧?然后等到第二个月这 1000 万用户 95% 都走了。那这种事情其实我觉得就是除了浪费很多钱或者说方便融资以外没有太多的用途。所以说我们自己也没有去宣传这方面。但是我觉得可能这也是我个人的想法,也不一定好,因为大部分人还是走的这种快速起量的这一波,对吧?
猎手 Leslie:对对对,六小虎,对吧?就很激进了。嗯,那如果说这个项目可能目前在一个相对这个保密的阶段,那如果你往中长期看,也许三五年这个时间的时间,你觉得你自己参与这波创业,你想用 AI 去解决一个什么样的问题啊?
李博杰:在说我解决的问题之前,我觉得应该先说一下我对于我们这种小规模的创业公司该做什么的一个想法。
今年这一年,我觉得最大的一个认知就是,小规模的创业公司一定要去跟基础模型公司做朋友,而不要去做敌人。
所谓基础模型公司就是这种预训练基础模型的,比如说 OpenAI、Anthropic,或者您说的国内的六小虎这种。就是说这些公司它有非常大的资源,比如一次融资可能就是 10 亿美金以上的这种级别,然后它可以去探索 AGI。我们知道模型有个 scaling law,就是说模型越大,它的性能上限就越好。所以这些基础模型公司它就可以去探索 AGI,而我们这种小公司就很难去做这件事情。现在要做 AGI 的话,10 亿美金可能都不够,可能要 1000 亿、1 万亿美金才行。这种资源显然不是我们这种层级的创业者能够拿到的。如果你去跟他们硬拼这个模型的能力,就很危险。
还有一种情况就是,比如说我做应用,但是做应用它是在这个原来的模型基础上,包了一层。这种现象也很危险,因为经常看到一个基础模型公司,比如说 OpenAI 发布了一个新的模型,一下子又杀死了一大批创业公司。问题就是,你实际上是在跟他一个赛道上竞争的。很多人都说,每次 OpenAI 一开发布会,一波创业公司就死了。这就说明,这些公司做的事情实际上还是在跟基础模型公司做敌人。
但是我觉得,现在的 AI 还是在 S 型曲线的快速上升阶段,基础模型的能力是在快速提升。这个时候,如果我只是在它的基础上做了一点小的封装,做了一些小的工程上的优化……
猎手 Leslie:套壳?
李博杰:就很难有一个护城河,因为很快就被取代了。我自己就有这个很深的体会,因为我自己也犯过这个错误。
去年的时候,我们团队一开始就做了好多微调的工作,一个是语音微调,一个是文本微调。这个语音微调就是说,我们当时要做名人语音,比如马斯克、川普……
猎手 Leslie:郭德纲
李博杰:比如我要做郭德纲语音包,我就下载一堆郭德纲的语音,然后在这里边 tune 半天,以后它说话说什么都像郭德纲。但是这需要下载的语音非常高质量,如果是郭德纲还好,因为他本来就是一个相声演员。但是如果说是马斯克,他说话本来就吞吞吐吐的,再加上 YouTube 视频本来录制质量也不一定很高,那些下载下来的语音质量本来就不干净,经常就 train 崩了。崩了以后,还有很多的 corner case 很难解决,所以最后效果并不好。
这个事最后是怎么解决的呢?就是说今年有了新的模型出来了,它有一个零样本学习(zero-shot learning),意思就是说我只要上传一段一分钟的语音,你也不用管它有没有什么背景噪音或者说有没有打磕巴,都不用管。不管是什么样的语音,它都能给你模仿出来,甚至连打磕巴的那种情况都能模仿出来。
猎手 Leslie:我看字节也发布了这样的产品,效果还不错。
李博杰:其实开源的有些效果更好,比如说我比较喜欢的一家公司叫 Fish Speech,就是 Fish Audio 搞的这个东西,而且还是开源的,就是你可以直接上传一分钟语音,它就给你都弄好了。当然说也不是说做到完美,现在还有很多的改进空间,但至少来说就是基本上商业上可用了。
这是第一个微调的事,就是相当于是一个基础模型的改进,之前很多工程优化都没用了。然后第二件事情是文本的微调。当时我们就是相信一点,就是说我这个小模型,然后我做一点微调的动作。所谓微调,就是比如川普说话比较好玩对吧?那我想弄一个模型然后模仿川普说话,然后那我就找一大堆川普讲话的语料,然后他讲话就真的能做到川普风。但是做到了之后呢,问题是微调之后的模型往往会损失一些本来的能力,比如说他会模仿川普说话了,但是说呢,他可能连一个最简单的小学数学题都不会做了。它会有很多这种方面的问题很难解决。
然后还有包括就是当年的那个模型,比如说我们当时最开始做的时候用的是 LLaMA 1,就是最早的开源模型。然后包括我的 cofounder 在伯克利做的 Vicuna,Vicuna 应该说是第一个基于 LLaMA 的开源对话模型。但是当时因为基础模型能力差,那个模型就是对话 20 轮以后,经常就开始胡言乱语了,不知道该说啥了,这个也不是简单的微调能解决的问题。
但是现在的模型,同样的成本,就是同样是 7B、8B 的 level 的模型就没有这个问题。不管是国内的 Qwen 2.5 还是说海外的 LLaMA 3.1,或者说是现在 Yi 新出的 Lightning,都没有这种问题。所以说基础模型能力提升了以后,可能连微调都不用了,我只要是把人物的设定,比如说我把川普说话的一些东西,放到一个 prompt 里面,然后用现在最好的这些模型,比如说 Yi Lightning 也好,或者是 OpenAI 最新的 GPT-4o,或者是 Claude 3.5 Sonnet 这些,它全都能搞出来,根本就不需要你再做微调。
刚才讲了这么一大堆说可能有点啰嗦,想讲的一点就是说,我们做了这些微调,这些工程上的改变很容易就被基础模型的进步一下子就给冲掉了。那么这样的话相当于就是我们在做的是跟基础模型公司做敌人的事。
然后我就在想怎么去跟基础模型公司做朋友。我现在有两个角度的想法,第一个想法就是我们要去做一些系统的优化,就是说 OpenAI 或者 Anthropic 这些大厂它做的是模型内部的算法的改进,但是说它在系统外围就是比如说我如果是做一个整体的应用程序,它有很多模型之外的这些东西,后面我会讲到更多细节,这些东西是需要改进的。
然后第二件事就是,我觉得现在这些 AI,不管是模型还是产品,对用户来说还是大多数人都不知道的。而且很多即使是 AI 行业的从业者,对 AI 模型一些新的进展以及每个模型它的边界在哪里,什么情况下适合用什么模型,以及 prompt 怎么写等等这些事情,都没有一个很好的认识。所以说我觉得抹平信息差这件事情也非常关键。
猎手 Leslie:所以你未来可能是主要是围绕这两个方向?
李博杰:对,未来可能主要想围绕这两个方向做。
具体来说,第一件事情是基于第一性原理的系统优化。
我从本科的时候在 Linux 协会折腾系统,到博士在 MSRA 研究高性能数据中心系统,MSRA 给我做过一个专题报道《折腾系统,让它的性能提升 10 倍》,在华为我做的也是系统性能优化方面的工作。我有一个思考问题的习惯,就是基于第一性原理去想,根据硬件的能力,这个应用的性能应该是怎样的,现在又是怎样的,中间的差距是什么原因。第一性原理不仅是马斯克在用,谷歌的 Jeff Dean 大神也一直推崇这种思维方式。
很多人一讲系统优化,那就是 AI 的训练和推理优化了,这块也做的非常卷,可能很多人觉得训练和推理优化主要就是优化 CUDA 算子和设计新的 Attention 算法、position encoding,其实根本不是这么回事。系统里面值得优化的地方远远不只是模型本身。
我最近就有一件很感慨的事情,我们之前算了一笔账,用 H100 机器去 serve 70B 的模型然后卖 API,按照现在市场流行的 API 定价,最后肯定是亏本的。那这些做推理卖 API 的公司真的都在做亏本买卖吗?9 月份伯克利的社区版 vLLM 0.6 把性能一下子提升了 2.7 倍,原因是什么?其实之前的版本里面只有 38% 的时间花在 GPU 计算上,其他的时间都浪费在 HTTP API 服务器和调度,包括争抢 Python 的 GIL 全局锁上了。性能提升 2.7 倍的来源并不是 CUDA 算子,也不是 Attention 算法,也不是 quantization,反而是大家觉得最不起眼的 HTTP 服务器和调度。我跟几家公司的朋友聊,他们说这些优化他们内部早就做过了,而且他们还有一些目前 vLLM 社区版还没有做的优化,所以实际的推理性能比社区版是高很多的。
如果我们把目光不止局限在模型的推理,而是去端到端的看整个 AI 应用,就会发现,有很多对 AI 应用很关键的点,根本没有人做。
比如 API 调用的延迟问题,实时交互类的应用延迟非常重要,但是很多大模型和语音合成、语音识别 API 的首字延迟(TTFT)都很高。比如我很喜欢的一个语音合成的开源项目 Fish Speech,他们的服务器在美东,从美东调用的首字延迟只要 200 多毫秒,但是从美西调用就要 600 多毫秒。美西到美东 ping 一下只要 75 毫秒,美国数据中心的网速也都很快,合成的 500KB 语音理论上只要 5 毫秒就能传输过去,但为什么理论上美西的延迟不是 300 多毫秒,而是 600 多毫秒呢?一个原因是 TCP 的慢启动,另一个原因是连接建立过程中的多次握手。这些都是广域网优化里面非常基本的东西,只优化这些东西甚至发不出很好的论文,但 Google 和 Cloudflare 都没有做,也没有见到其他人做。
OpenAI API 也是类似的,在美西访问只要 400 毫秒的首字延迟,但在亚洲可能就要 1 秒,我们知道美西和亚洲之间的网络时延也就 200 毫秒,那剩下的 400 毫秒到哪里去了?其实还是连接建立的开销。OpenAI 其实是用了 CloudFlare 的服务,在亚洲接入的其实是 CloudFlare 亚洲接入点的 IP,那就说明即使像 CloudFlare 这么大的服务也还有很大的优化空间。而且这个 API 延迟是 AI 特有的吗?不是,其他的 API 也是这样的,这个问题从互联网出现的那一天就开始了,存在了几十年,学术界都知道解决方案,很多大厂内部也在悄悄用,但大多数人就是不知道。
另外还想分享一个例子是语音电话。去年底我们语音电话刚做出第一个 demo 的时候,延迟高达 5 秒。ChatGPT 最早的语音电话功能也是这个延迟水平。然后我们就分析到底是什么地方慢,比如 AI 算法,模型理论上一次推理需要多少算力和内存访问,跟 GPU 卡的性能指标一对比,理论上最快多少时间,往往实际的时间是 10 倍以上,那就意味着我们有 10 倍以上的优化空间。另外网络协议上浪费了多少时间,数据库访问浪费了多少时间,客户端上浪费了多少时间,都要一点点抠掉,就这样,从 5 秒到 2.5 秒、2 秒、1.5 秒、1 秒、750 毫秒,一直到现在可以做到端到端 500~600 毫秒,比我见过的任何其他家都快,而且只需要一块 4090 就能跑起来整个系统。
而且因为我们用了语音克隆领域最新的开源模型,AI 可以模仿任何人的声音,我可以用任何喜欢的人或者游戏角色做语音包,甚至还可以把川普和马斯克跟我拉到一个群里,我们三个一起聊天。这是 OpenAI 绝对做不了的事情。OpenAI 不是做不了语音克隆,是他的体量太大了,版权风险太大了,GPT-4o 只是因为语音类似 Her 里面女主角的声音,就被告了,如果所有名人的声音都可以随意模仿,那 OpenAI 肯定会摊上事。
这样优化到极致,又能模仿任何人声音的语音电话,成本不超过一个小时 3 毛钱,而 OpenAI 最新的 realtime API 是一个小时 120 块,只能用那几个固定的语音,端到端延迟还比我们的高。如果用 OpenAI 的语音识别、大模型、语音合成凑起来一个系统,也要一个小时 6 块钱,而且端到端延迟肯定在 2 秒以上。我用过 500 毫秒的语音电话之后,再去用 2 秒的,真感觉它是不是坏了。一个小时 3 毛钱意味着什么?我们在 B 站上刷一个小时的高清视频,B 站的带宽成本可能都不止 3 毛钱。我们可以去看看腾讯云、声网的 RTC 服务定价,就微信语音电话这种服务,对外售卖的价格也接近一个小时 3 毛钱。这意味着大模型的成本不再是问题,很多应用不需要再让用户付费订阅了,用互联网的模式就可以。
我觉得很多人,尤其是做算法的同学,只关心模型的效果指标,但不关心系统的性能指标。但真正业务场景中性能指标往往非常关键。比如很多做大模型 API 服务的公司都不重视 TTFT(首字延迟)这个指标,其实不仅是前面说的语音电话,AI Agent 对 TTFT 也非常敏感,比如现在 Claude 3.5 的 Computer Use 还比较慢,其他完全用大模型,能够操作手机和电脑的 RPA Agent 四五秒才能反应一次,这就是延迟的问题。具身智能的机器人现在控制上比较难直接用大模型,也是因为延迟的问题。如果一个应用端到端的只调用一次大模型,别的什么都不干,那首字延迟一秒可能还能接受。但实际场景中都是 Agentic workflow,单次的延迟这么高,总的加起来就很慢了。
什么是 Agentic workflow?举个最简单的例子,大家都在搞的 AI 搜索,Perplexity 可以 1 秒钟出结果,但大多数 AI 搜索应用可能要 4~5 秒。为什么这么慢?因为我要先把用户问的问题转换成几个搜索关键词,如果直接拿一长句话直接去 Google 里面搜,效果往往不好。这就需要调用一次大模型,比如我用 OpenAI 的 GPT-4o mini 吧,就要五六百毫秒。然后再去调用 Google 搜索,这块倒是挺快 0.2 秒就够,但 Google 搜索的 API 是有限制次数的,一天最多一万次,要是调第三方的就得三四秒。然后 Google 搜索返回的只是个链接和内容摘要,要获取网页全部内容,就得去下载网页,下载五六个网页又得 2 秒。最后才是调用大模型真正输出答案,上下文比较长,首字延迟一秒,总共算下来就要 4 秒。
那怎么做到 Perplexity 的 1 秒以内呢?首先可以本地部署模型,关键词提取、最后输出答案这块就快了不少。延迟的大头是下载网页,就是一个 HTML 文件,为啥下载要这么久呢?这块就完全是网络优化的东西,对大多数网站来说 0.5 秒足够了。这样整体就可以做到 1 秒以内。当然 Perplexity 可能是做了缓存,不一定是我这么做的,但我想说的是不做缓存也可以做到。像 Google 搜索第三方 API 慢的问题,其实也是他们的爬虫没有优化好,如果搞好了,并不比直接调 API 慢。所以刚才说了这么多,你看这里面有任何 AI 的东西吗?全都是系统优化的东西。
第二件事情是抹平信息差。
我发现很多我认为是圈内常识的东西,同样是圈内的一些人竟然不知道。比如一些人认为 Anthropic 是第一个做出 AI 操作电脑的,其实 AI 操作电脑和手机早就有了,RPA 都很多年了,Anthropic 只是把一个 7.9% 的 benchmark 做到了 14.9%,今天这个榜又被人刷上去了,而真人是 75%。
还有今年诺贝尔物理学奖的事情,很多人说,玻尔兹曼机跟大模型有什么关系?还有 GPT-4o realtime API 出来的时候很多人在试,说 AI 终于能打电话了,我就提醒他们说小心把账单给刷爆了。还有一些人不知道 Claude 3.5 Sonnet 是目前通用编程能力最强的模型。
AI 在抹平信息差方面可以有很多帮助。我们知道之前都是人找信息,比如网站、搜索之类的,然后是信息找人,就是推荐系统,现在 AI 可以为每个人生成独一无二的信息。因为 AI 跟你交流多了之后,就知道你的知识边界在哪里,这样推荐的效率就会高很多。
说到抹平信息差,我想起来一个在学校的时候参与的比较有趣的项目,USTC 评课社区,就是一个学生点评课程的网站。创办的原因就是我当时的女朋友不知道该选哪门课,完全不知道去哪里找相关信息,就想做一个网站让同学们分享课程经验。当时她就拉了我和我的室友一起开发这个网站,现在每个月有几十万访客。甚至一些同学从科大保研去了其他学校,说没有了评课社区这样的网站,就不知道该怎么选课了。这就是一个抹平信息差的例子。
我很遗憾的一点是之前做过的很多工作没有发表,或者发表了论文但没有开源。比如 FlashAttention 里面的核心思想,我们当年在 PLDI 2021 上发表的 AKG 自动算子生成器其实就是自动做算子融合、循环切分,在重新计算和存储中间结果之间取得平衡。我还记得 2019 年的时候我刚加入华为,我负责写的一个算子就是 softmax,为了给 softmax 算子做融合,就需要一个在线算法,我找来找去终于找到了 NVIDIA 2018 年发表的一篇论文,它提出了一个只扫描一遍数据就能算出 softmax 的在线算法,有了这个算法,结合 AKG 框架,就可以把前面的矩阵乘法和后面的 softmax 融合。但我当时连 Attention 是什么都不知道,我是不可能提出 FlashAttention 的。不过如果 AKG 当年开源了,社区用了,FlashAttention 就可能被更早地发明出来。
再如 RPC,其实我在华为做了一个非常高性能的 RPC 框架,前面我们提到那个美西和美东之间 API 调用延迟高的问题,我做的那个框架就可以解决。但这个工作并不值得发表论文,因为里面用到的技术都是学术界早就提出过的。只是现在没有一个好用的工程实现。也许各个大厂内部都有很多黑科技在优化,那就意味着这些黑科技被锁在保险柜里面了,其实构成了一种信息差。
还有我博士期间做的一些工作,比如 ClickNP,一个用高级语言在 FPGA 上开发网络功能的框架,当时只是一篇论文,但没有做开源。如果当时开源了,学术界用 FPGA 编程网络功能估计会简单很多。ClickNP 在微软主要是用于研究用途,不做 FPGA 研究之后,估计就锁到保险柜里面了。因此我觉得这是对人类宝贵的智力资源的一种浪费。直到今天,都没有一个能跟 ClickNP 一样支持用高级语言在 FPGA 上开发网络功能的开源框架,高校学生在 FPGA 上写网络功能要么用难写的 Verilog,要么用通用的 HLS 工具,并没有一个专门为网络编程优化的框架。如果开源了,会有很多人继续用,继续改进,哪怕有一天我不再在这个项目上做贡献,只要这个项目还没有被淘汰,仍然有其他人继续维护下去。
我觉得有很多信息差是因为大佬认为太显然了就没有细说,但是大多数人并没有看懂。比如 Transformer 论文里面其实有一个小字的脚注预示了 KV Cache 这件事,可能这些大佬作者们认为这是显然的事情,但对于大多数读者来说并不是这么一回事,因此 KV Cache 又被发明了一遍。
还有一些信息差是因为大多数人的注意力比较有限,一篇文章里如果讲了太多的东西,角落里的东西就没人关注了。微软研究院有个图灵奖得主 Leslie Lamport,分布式系统的奠基人,他就跟我们说,他最著名的那篇论文把相对论里面相对时空的概念引入到了计算机的分布式系统中,提出了逻辑时钟的概念。他在论文中说,用这种相对时钟可以对所有的输入消息确定顺序,也就可以实现任意的状态机,任意的分布式系统。但很多人跟他说在这篇论文中根本没有看到过状态机,让他都怀疑是不是自己记忆错乱了。其实我觉得就是因为逻辑时钟这个概念已经够烧脑了,大多数读者看懂逻辑时钟就觉得已经学到了很多,后半部分的状态机可能根本没认真看了。
既然大多数人的注意力是有局限的,这也提醒我们,不管是写论文还是做产品,都一定要切口足够 sharp(锐利),一句话能说清楚。否则藏在角落里的好东西是很难被发现的。一个产品经理就跟我说,最近火的好几个爆款 app 其实对应的功能字节的扣子里面都有,但扣子里面的 agent 太多了,用户一眼看上去不知道该干啥,反而流量还不如一个单一爆款。
我还有一个思考,抹平信息差其实跟商业的本质是背离的,商业就是要靠信息差,才有护城河。而且大多数人是懒于思考的,不愿意学习新的知识,因此抹平信息差对大多数人来说本身就是一种痛苦。因此很多一开始致力于抹平信息差的公司,一开始上面的内容是非常精品优质的,但发展到一定规模之后,都变得庸俗化,变成了消磨时间的东西。如果说在创办一个 Wikipedia 和创办一个抖音之间选择,我肯定选 Wikipedia。
猎手 Leslie:我有个问题,因为我之前聊了一些这个创业的同学,然后我觉得很难,就是因为大模型它会非常快的不断迭代去覆盖掉很多能力。你今天就又要在这里面去找这个方向,这个相当于是,我觉得就本身这个方法论就很难。就是我怎么在这么大的需求空间里面,我就第一个像你很清楚就说我要去做这个和做这个。所以这个会有一些你觉得比较好的这种方法,比如说我现在创业了,然后我肯定要想这个问题对吧?然后那有没有好的方法去我就定位一个可能可以搞的一个事情?
李博杰:您是说是我现在先定了个大框子说我要创业,然后现在好,开始找哪个地方我要做 AI 对吧?
猎手 Leslie:但我又不想别 OpenAI 一波然后我就没了,嗯,那我要做啥?就这个需求的这个事情会有一些方法论吗?你觉得呢?
李博杰:在一开始的时候,我也不知道该做什么,然后慢慢地探索,中间来回调整方向,也踩了很多坑。但是后来,我去和一些比较有创业经验的圈子里的资深人士聊天,也看了一些非常出色的人的访谈,比如扎克伯格、雷军等人。然后发现他们可能更推崇的是这种所谓的 “20% 时间创业” 的理念。什么意思呢?就是说,他们可能先利用 20% 的时间 part time 做了一个东西,然后发现这个 part time 项目很受用户欢迎,接下来就基于这个项目把它做大,成为一个商业项目。这种成功的可能性更大。最近比如说 Google 做的最火的产品 NotebookLM,它也是一个做播客的产品,它就是一个 Google 的 20% 项目。但是 Google 当时花了那么多钱、那么多人做了那么多的产品,但都没有这个……
猎手 Leslie:搬回来一城,是吧?
李博杰:对,搬回来一城,这是个 20% 项目。
这个事情从根本上来说是一个问题,大厂为什么难以创新?我们都知道自上而下创新和自下而上创新的区别。
一旦说我现在要创业,好,现在有钱,有人,都给你摆好了,然后你要在这里边找到一个钉子赶紧去搞,而且还必须能够 scale(规模化),对吧?这个时候有的时候动作就会变形,就是说我不知道该干啥,或者说我一想这个东西太小我不值得做,因为很多东西可能它 potentially(潜在)有很多市场潜力或者有很多用户,但是一开始你并不知道它有那么多需求。所以说,可能你一开始在讨论的时候觉得这个东西估计没几个人用,我就把它否掉了。
这个时候很容易收敛到的一些需求都是一些常见的需求,就是大家都能看到的那些常见的需求。最后又很有可能就是跟大厂去正面竞争,比如说我要做一个更好的 ChatGPT,或者我要做一个更好的 Siri,或者说我要做一个更好的基础模型,对吧?基本上就围绕着几项东西来回倒腾,那基本上肯定就是大厂正面竞争的赛道。
猎手 Leslie:嗯,比如说我今天是 DeepMind 的一个研究员,然后我说我要创业,那我理解就是说一开始那个方向可能是我自己的兴趣,或者说我自己本来就有一个痛点,嗯,那我就先去干这个事情。那就有点像精益创业一样,我就花一部分时间做 MVP 去运行,然后看一下结果怎么样,不行我再去微调,然后在未来可能慢慢越来越靠近我要做的那件事情,但不见得一开始我就全身心投入,对吧?所以它其实有一个过程,不是说有一个人一站出来就说我要做苹果,就把这事给干出来了。
李博杰:嗯,这个逻辑是对的,因为您看这个 Facebook 也是他在学校的时候做的,对吧?然后最早也是就是那个学生照片到底谁好看,对吧?然后 Google 其实也不是专门出来创业,他也是在学校先做了一个搜索引擎的算法,对吧?然后 Larry Page 他们再拿出来创业。包括很多其他的公司其实都是类似的。
除非是有一种模式就是 Copy To China,可以这么做。就是说别人那已经有了,对吧?然后我又拿过来复制,我有钱砸钱,然后买用户买量,这种我觉得可以。
猎手 Leslie:你觉得这件事现在可行吗?因为你看美团,然后包括阿里这种电商,其实原来是 copy ebay,就是当年移动互联网的时候好像可以。你觉得今天比如说我举例子,比如说招聘行业最近比较火的像 Mercor 2.5 亿美金的估值,还有像 Final Run 这些,我直接抄过来,直接在中国搞一个,你觉得怎么样?
李博杰:今天这种逻辑,我觉得也是成立的。那你说我们所有的其他基础模型公司不都是 copy OpenAI 吗?就不光是中国的,那你说 Anthropic 不也是 OpenAI 出来的人做的吗,对吧?所以说 OpenAI 是先行者,然后所有的人其他人都是追在他屁股后边跑的。但是呢,现在 Anthropic 看起来跑的有可能比 OpenAI 还快,对吧?这个也不好说,也不能说跑在后边的就一定就是 follower,对吧?
猎手 Leslie:如果复制到中国的话,就比如说 AI 这个事情,你觉得比如说我要做一些什么样的适配的事情?因为中国和美国不一样,用户的习惯也不一样。就比如 2C 因为 2C 和 2B 还不一样。你比如说我决定做 2C 的这个东西,我可能是要做一些微创新在里面,然后国内模型比海外又差一大截。如果我要干这个事情,就好像也就那样的感觉。国外和国内的这种环境不一样。一个是付费,另外一个就是人家的模型本来就比我们强很多,因为本质上 AI 产品,我觉得它底层模型其实是几乎是你的下限。所以感觉这个事情好像你也很难做出一个超过硅谷可能某一个同类型的应用的一个东西,我感觉是这样子。
李博杰:就是说你看百度,它搜索的效果也没超过 Google,对吧?但是百度还是在中国活的不错,对吧?
所以说,我觉得第一就是说模型在很多场景下是够用就行,实际上这个也涉及到我对未来的一个判断。就是可能我觉得 GPT-4 级别的模型,然后只要它的成本再降一降,就是现在已经有很快的下降的趋势了,那基本上就是在大部分的应用场景当中,其实它基本上已经够用了。因为现在比如说 GPT-4,它基本上就有点像一个文科生吧?那个文科生他的这些能力基本上你就正常的就一些写作呀什么的,就是日常都很好用。
但是说就是大家很多人没有用起来,我觉得主要两点:第一点的话是他的成本还比较高,然后所以说呢,很多地方他只能用个付费墙给拦住用户,比如说你只有付费了才能用最好的模型,不付费的用不起啊。然后第二个呢,就是说大部分用户习惯还没养成,就好像 iPhone 1 刚出来的时候,那可能喜欢电子产品的认为这个东西真牛逼,但大部分人还说还是我那个诺基亚好用,对吧?
猎手 Leslie:有一个 first adopter,用户习惯养成的问题。
李博杰:如果说它真的成本降到白菜价了,用户可以随便用了,那么,其实我觉得 GPT-4 级别的模型,对于大部分的日常场景实际上是够用的。这样的话,现在国内的大部分基础模型公司其实都已经到这个级别了。现在下一步就是要做的,怎么把成本降到白菜价的问题。
刚才说的还有一个路径是往 AGI 走的,AGI 走的其实我自己比较认同的是 Anthropic CEO 的一个看法。他最近发了一篇很长的文章,然后这篇文章里他就讲,未来 AGI 的模型一定非常大,可能会非常贵。但这样的 AGI 可能不是给普通老百姓用的,而是会有几百万个这种超级智能,就是这些智能比就是真人中的任何人都更聪明、更天才,它们组成一个天才国家。
这个所谓的天才国家是用来去解决人类科学当中最重要的问题,比如说就像这种医学,然后这个社会科学、自然科学、生物学,就是这些有好多它是需要大量的实验,但是人去做这些实验效率又很低。所以说,像医学还有包括自然科学、包括像这些一些生物学那些东西,进展都很慢。但是如果说有 AI 的时候,它可以 replicate(复制)非常多份,相当于有几百万个顶级的科学家天天给你做研究。所以说,可能未来的 50 年 100 年的科研进展能缩短到 5 到 10 年。就是 AGI 一旦达成,就是它预计的是 5 年之内达到 AGI,然后再给 5 到 10 年,好,就给我了 50 到 100 年的科技进展。
猎手 Leslie:所以说,他预期说是到了 10 年 20 年以后,人类的平均寿命可以预期到 150 岁啊。
李博杰:您估计也看到那个了,对吧?当然那个就是有可能有点乐观啊,但是我自己也比较认同这个方向,就是说我认为他可能就是那些模型,就是非常牛逼的模型,就是会非常贵。所以说,他就是给这些高精尖的这些科研的这个场景去用的。
猎手 Leslie:然后下一个问题啊,就是因为你刚刚提到的有些新的模型在不断迭代。然后呢,应用这事情就还是比较依赖底层模型的。然后我们最近也看到就是,不管是 OpenAI 是出于这个股东的压力,还是说他为了融资,他去发 o1,包括最近又流出来说可能 12 月可能要有猎户座,然后相比 GPT-4 有 100 倍的性能。包括你刚刚讲到其实 Anthropic CEO 说的这事情,这可能是因为它很复杂,需要融资,需要稳定团队,所以 Anthropic 的 CEO 说的那些话可能也是出于类似的考虑,需要对外宣传以获得更多关注和资源。你觉得这是一个比较正常的事情,还是说里面可能有一些炒作的成分?
李博杰:我觉得您说的有一些道理,肯定有一些是为了融资的目的。就像 OpenAI 一贯的思路是憋大招,等到一切就绪后一下子发布,但可以看到最近发布的实时语音 API 和 o1,都有一种未完成的研究工作的感觉。其实这些都是因为它可能需要融资一大笔钱,所以不得不这么做。包括 Anthropic 的 CEO 之前一直是相对悲观的态度,呼吁 AI 必须安全,他从 OpenAI 离开创办 Anthropic 的初衷就是要慢慢来。但现在他为什么突然换了一种乐观的调子?肯定是要融钱了。
我觉得确实存在一个根本问题,那就是做 AGI 需要大量资金。这也是为什么我不想和 OpenAI、Anthropic 硬碰硬,因为现在 OpenAI 用了几十亿美元,对 AGI 来说远远不够。有很多智库的分析报告显示,从 GPT-2 到 GPT-4,算力可能提升了 1000 到 10000 倍。如果到 AGI,可能还需要同样的级别的提升。
GPT-4 已经用了 10 万张芯片,再提升 1000 倍就是 1 亿张芯片,或者 10 亿张芯片。现在全世界的芯片制造能力和能源能力,如果需要 1 亿张芯片,所消耗的能源就已经超过了全世界所有数据中心的总和。但我们知道,人类的能源基本上还是线性增长的,几十年来可控核聚变也没有什么进展,你很难期望 5 年后能源突然增加 10 倍。所以,有限的能源和芯片制造能力是 AGI 面临的一个重大挑战。
那我就这么点能源,然后包括芯片的制造能力,芯片厂这个也是需要慢慢提升,这也很难。那它这个能力可能我觉得在这个也就是增长 1000 倍可能也就差不多到头了。那在这个 1000 倍的这个时候,我还能不能训练出 AGI 来?而且这就意味着需要 1000 倍的钱,现在原来是 10 亿美金,现在就是 1 万亿美金。那这 1 万亿美金,包括能源和芯片的开销,它就需要融很多很多的钱。所以说,刚才您说的 O1 这些,它肯定都是有这个目的,包括需要让全社会认识到这件事情很重要,而且它有这样的一个潜力去成为很重要的一个事情。
O1 这块聊到这,我就多说两句。就是说对 O1,我个人的一个看法就是说,其实我自己觉得 O1 它是一个非常大的一个突破,就是说包括业界很多人也都说它是一样是开启了一个新的范式。
第一个是强化学习,就是说他就是用强化学习的方法可以大量的补充这个训练数据的不足,因为之前我们都说这个 GPT-4 级别的模型已经基本上把人类社会的高质量文本数据都用的差不多了。那现在新数据怎么办?就是说如果让他随意生成,那只能是 “garbage in,garbage out”,对吧?这个很难搞的。那怎么办?o1 他的方法就是强化学习,就是当时 AlphaGo 那套训练方法,用 self-play 的方法。相当于他就是用数学和编程这两个有明确对错的方案,因为一定要知道它的 reward function 就是到底是对还是不对。那数学和编程正好是很容易判断对错的,所以说我就可以去让他生成无穷无尽的这个训练数据,这样叫做 post-training,但是 post-training 可能他的训练数据比 pre-training 还要多。那这样的话他的数据就可以无限的去扩展。
然后第二件事的话是就是说它的 test time scaling,就是说他可以在推理的时候用更多慢思考的时间然后去做这件事,这个也非常关键。也就是比如说我可能就比如给我一道数学题要求一秒钟内答出来答非常难,我也做不到,对吧?但是说就是因为一个 token 它实际上承载的背后是算力,它的思考时间是有限的。那我如果给它更长的思考时间,让它把这个中间的思考过程一步步的写出来,那么这样的话,第一是它可能会思考的这个准确率会提高很多。
就比如举个例子,就是之前那个模型 3.8 和 3.11 老是算不对它到底哪个大哪个小,那这个主要原因就是说你给我两个很大的数,让我一秒钟之内比较大小,我可能也会很容易犯错,因为那个是直觉。但是如果说你给我更多的时间,其实我是会有一个方法论,在这里一位一位地去比较,对吧?那就是现在 OpenAI 的 O1,它其实做法就是一位一位地比较,它把这个一位一位比较的这个逻辑显式地把它写到了这个这个 RL 的过程,以及 test time 的这个过程里。所以说,让它按照这个方法论去比,这样的话它就不会出错了。
这个事情我觉得非常非常关键,因为之前这个 AI 出错的这个问题,其实我觉得它是在大规模的商业应用当中不能正常用的一个很关键的因素。就是比如说,我就是在很多商业场景下,比如说一些 2B 的 case,然后比如说有些银行来找我们,说你能不能用大模型帮我算账。然后我说这个事现在搞不了,因为你算账算错一位都是很大的问题,然后现在的大模型准确率最多 90%,那这个达不到,想要的比人的准确率低太多。
第二就是有些是比较复杂的,我一直在做 agent 方面,就让我把稍微复杂点的动作,比如说它要一步一步的做,中间每一步成功率只有 90%,可能 10 步下来就只有 10% 了。但是如果说每一步的成功率有 99.9%,最后这 10 步下来成功率可能有 99%。就是说它是一个指数累加的一个过程。所以说一定要单步的准确率要足够的高,至少比人要高,这个东西才有用。所以说我觉得 O1 这个方向顺着走下去,是解决了一个 AI 能不能在严肃的商业场景下,这些高价值、高附加值的商业场景,非常关键的一点。
猎手 Leslie:所以就是 COT 这东西,你觉得它可能是一个完全跟之前的这个 Next Token Prediction 不一样的一个新的一个范式,对吧?
李博杰:它还是 Next Token Prediction。
猎手 Leslie:你觉得它还是 Next Token Prediction?
李博杰:对,它肯定是,因为它也是一个一个 Token,只是它把思考过程写出来了。我记得《人类简史》有一句话就是说,人类的思考是通过语言的方式进行的。其实这个 COT 就是这么回事,COT 就是把人类思考过程用语言的方式把它写出来。当然他的语言不一定是英语,不一定是中文,可能他自己的一种中间语言,但是说大家去用语言的形式来写,所以思考过程本质上也是数据。
猎手 Leslie:对,我突然想到一个问题,因为我就是,你觉得就是因为现在就是大家好像有个共识,2029 年对吧,或者是 2030 年,就是这个 AGI 可能比人类的智慧要一万倍的强。如果这里面有一些,我们叫黑天鹅的事情,你现在我们今天就聊的也不一定对,或者说可能也不一定对。聊的也不一定对,或者说可能也许到 2029 年咱俩再聊一聊,当时我们聊这东西预测对的还是错的。你觉得会不会有一些事情就导致这个事情不能发生的,就像比如在华为红蓝军要去做对抗,我就假想这个事不能发生。你觉得可能会是什么事情会导致 AGI 做不出来?
李博杰:我觉得好多原因可能都会导致。比如说第一个原因可能是就是说这个所谓的 scaling law,又是 scale 到某一个瓶颈之后上不去了,这是有可能的,对吧?大家知道 GPT2 到 GPT3 到 4 能 scale,但是到 5 还能 scale 吗?没有任何人知道,包括 OpenAI 内部可能都遇到一些困难。他们自己如果说 GPT5 早就 ready 了,他就不用拿这个 O1 来凑数了,对吧?所以说他肯定是 5 还没有训练到他想要的那么好的程度。虽然说他内部肯定有很多非常有意思的进展,但是他觉得现在可能还不方便公开出来跟大家去说。所以说这件事情就是说明确实有难度。
然后第二件事情就是说,比如说 scaling law 是成立的,一直在成长,但是说在达到 AGI 的 level 之前,人类的电力能源或者说是他的芯片产能已经耗光了,也就是那时候哪怕集中全人类的产能可能都做不到 AGI。总不能把地球表面全部给布满太阳能电池板再搞,对吧?
第三个可能就是说,投资人已经失去信心了,因为毕竟这件事不是一个人类生死存亡的大事,就是像我这种就是非常激进的这种所谓的 e/acc 派还是比较少的,大部分人还是很务实的。投资人说都到了五年了还没看到利润,他可能就不投资了,对吧?那可能就是因为人类还是很大一部分人很务实的,他就是发现不能在短期内投入获得收入,那他可能就会停止了追加更多的投资,这也是第三个可能。
那第四个可能呢,就是一些地缘政治的因素,因为就是说 AI 这个东西呢,有非常大的可能对人类有很大的威胁,这也就是为什么 Ilya 这帮人经常在提这个事情。那会不会到某一天他被认为是一种类似核武器一样的存在,就是说它真的出现了能够威胁人类的这种能力,因为它达到了跟人类相同的智能水平,那就意味着它可以自主的控制很多东西,可能一个管不好,就会直接把人类给消灭了,对吧?那会不会说是像政府或者是其他一些组织它会去约束它的发展?
我觉得这四个点都是有可能导致 AI 它可能不一定能达到 AGI 的。但是我希望这四个点不要发生,这也是整个行业的共识。
猎手 Leslie:因为你自己是做研发的,所以我理解其实你算法这一侧可能会相对少一点,工程多一点。然后你自己可能也许现在自己的公司你也要在招人,嗯,自己要选自己的团队。呃,我比较好奇就是你又在华为待过的吧?嗯,大体系里面就站在今天这个时间点,你你你自己怎么去定义一个研发的这个这个工程师或者说研发的岗位?你觉得这个人是一个好的研发或者说他的能力是 OK 的?嗯,你当年在华为或者说你今天你创业了,你对这个胜任力模型的定义会有没有什么不一样?
李博杰:我觉得是这样,首先有一个基础的能力是不管在大厂还是在创业公司都很关键的,就是说一定要有很扎实的计算机的这些基础知识。就是他要对计算机系统的这些基本概念要有充分的了解,以及说每一个模型也好或者说每一个系统的基本组件,比如操作系统、数据库这些东西,每一个东西能做什么不能做什么,他要对他的能力范围有很清晰的认知。这个是在哪都很重要。然后不一定就需要发过很多的论文,对吧?他可能做过一些足够多的项目,他也有这种工程经验就 OK。
然后第二呢,就是我觉得可能这个就是大厂跟创业公司不一样。那么大厂里面的话,可能就是说他就是说我可以是每个人做一个螺丝钉,我就 focus on 我自己做的这一块的这个 work。然后那我不需要说是有很强的学习能力,他也可以一直在里面待下去。当然,如果学习能力不强,他可能成长空间也有限。
在创业公司的话,我觉得非常重要的就是学习能力很强,因为创业公司它的变化是非常快的。就是每个创业公司在早期可能都会经常的 pivot 去换产品,所以说今天说我招了一个比如说 NLP 的,就是搞自然语言处理的,可能过了两天我去搞 CV 去了。那你说我 CV 的算法一点都不会,我不搞,对吧?那这个工程师可能就很难适应了。
猎手 Leslie:那么就是一定要很强的这种触类旁通的这种能力。
李博杰:然后另外一点就是,我觉得创业公司相比大厂来说还需要一个额外的能力,就是他需要很强的自驱力,就是 self-motivated。他一定要有就是不需要太多的管理,然后不需要太多的这种外围压力和 KPI 的压力,能自己知道自己想做什么该做什么,然后以及把这个工作高质量的完成。
因为我觉得就是我自己其实在这方面也吃了一些亏,就是因为华为的管理体系非常完善,然后到了创业公司之后所有东西都得自己来。然后我可能觉得说招一个程序员只要能干活就行了,然后我管理上面稍微管一管就行。但是发现的就是公司里面出了很多管理问题,就是因为华为他有个很大的体系,表面上是我管的那些人给他们打绩效,但除了打绩效之外他整个公司还有一套考核制度,考勤制度啊,还有一整套的 HR 制度啊,对吧?然后还有一整套公司文化,对吧?就是大家都几点上班几点下班,然后大家都坐在那加班等等,还有一些这个隐性的东西。然后,每个人都会按照公司的这一套规范,别的组这么做,我也要这么做啊。
但是说在创业公司的话,就是这个文化形成相对来说比较困难,就是我要去从零到一的去 build up 这样的一个 company culture。然后大家都要在这里面能够足够的 committed,然后能够足够的 self-motivated 去做这个事。如果说一个人他来这里的目的就是为了领工资的,那哪怕他的能力很强,那可能创业公司也不能要,因为这样的话会导致管理成本非常高。
猎手 Leslie:所以创业公司很难一开始说我去培养一个人,筛选可能会变成是最重要的事情。
李博杰:嗯,对,我觉得是这样的,就是实际上大厂好多也说,我记得字节好像说是,好像人是不能培养只能筛选,是吧?
猎手 Leslie:是字节说的,好像是这样的。
李博杰:我觉得可能好多大厂都是类似的,当然说可能校招可能还是偏培养一点,因为刚从学校毕业了,对吧?包括我们天才少年进华为,他有一个特殊的培养的 program,就是他也知道你一开始啥都不会,就是没有工程经验,所以说他一开始不会给你配一个几十人的大团队,肯定是先从 individual contributor 做起,熟悉公司的这一套流程制度文化,然后以及工程的一些经验。然后像我进来以后大概是花了半年的时间,然后才开始让我去真正带一个四五个人的小团队。然后那再从四五个人小团队再切换到新的项目,就十个人,然后直到我最后离开的时候是我直接间接的加起来带二十五个人的团队。
它也是一个慢慢培养的一个过程,在这个时候,就可以逐步的提高自己。比如从我从 individual contributor 是一层,然后再往上是带一个 project leader 是一级,然后是 leader 的 leader,它又是一个新的挑战,因为你需要做这个 indirect management,对吧?当然我现在还没有到更高的三层的这种级别,这个可能又有新的挑战。所以说我觉得这件事情还是非常 challenging 的一个事,这个是需要培养的。当然说如果是在一个成长期的公司,比如在创业公司,可能每个人都会经历这个过程。
猎手 Leslie:对,你看你刚提到三个能力:就是一个是专业的基础能力和素质,这个是需要的;然后第二个是说你要学习能力,触类旁通;然后第三个呢,就是你要有自驱力,有远见。可能这听起来好像挺简单,其实是一个很不低的一个标准,对吧?那非常高,非常高,满足这个要求的人很少,很少,很少。所以,我觉得可能它也是一个问题,就是说今天我要创业,大家可能都希望这样的人过来,嗯,那这样的人去哪里找?对吧?就我也不是在湾区,就每个人都想改变世界,嗯,然后有自信。那如果在国内的话,你觉得会有一些比较好的方法,会有一些这个渠道,你觉得比较靠谱的吗?
李博杰:如果还是说我自己的话,我不能说我找到了,因为我也没找到。我现在也没找到太多全部满足这三条条件的人,对吧?但是我听了很多大佬的一些访谈,我感觉就是大佬说了一句实话,就是说满足这样条件的人本来就很少,所以创业的失败率才是 99%。就是说创业成功的团队,就是你必须所有的条件都齐备才行,除了这个团队,还有包括有一些资源呀,包括创业的方向啊,还有时机啊,也都很关键。所以说就是创业成功率本来就很低,这件事也没办法强求。
那如何提高它的成功率呢?我觉得可能就是前面说的(20% 项目),要有一个看起来成型了的一个东西,已经有确实的用户需求了,有很多人喜欢,已经在一个高速成长的路上,大家都能看到它的潜力。这个时候我再振臂一呼说我要创业,然后这个时候能够招到一些跟自己志同道合的人可能性就比较大。假如说我是一张白纸,就两页 PPT,那别人怎么相信说你那两页 PPT 最后能变成一个 1000 亿美金的公司,对吧?这个很难,对吧?所以说你这个时候就很难吸引到靠谱的人。
猎手 Leslie:所以还是需要让他看见,或者说也许你最早期,比如说你现在的 partner 可能就是你自己很认识的很熟悉的,就有这个信任的,他知道你的这个水平在什么水平。
猎手 Leslie:我们看到 Cursor,OpenAI 等等都出了编程的工具,全球可能现在有个小几百万的工程师,也许有。然后就是 AI 来了,很多事情 Agent 去做了。那对于工程师来说,那他对他来说这个岗位本身这个变和不变的东西是什么?我觉得这个其实大家也比较关心,每天很恐慌说这个那我工作去哪了,大厂现在有点裁员。
李博杰:这里面的变和不变的东西,我觉得这个问题挺好的。其实就是说是 AI 来了之后,用不用担心失业,对吧?
那我自己感觉是永远不用担心失业的,为什么呢?AI 来了提升了你的效率,一定是带来更多的需求。就比如说我们这过去的几十年,从写汇编到写C,然后再写 C++,再到现在的 Python、Java 等等,每一次技术的进步都会带来新的需求,所以永远不用担心失业,反而程序员越来越多,整个 IT 行业越来越发达。为什么呢?原来可能我写汇编的时候,只有军方能付得起这个写程序的钱,所以它应用范围非常狭窄。后来到 C 的时候,就可以做系统软件,比如说像 Microsoft、苹果、Google 这样的一些很基础的公司。后来有了 Java、有了 PHP、有了 Python,对吧?这些语言,现在可能是一个小老板说,我可以到人才市场上招几个人,然后就可以把我的 idea 变成现实。
但现在也不是所有的 idea 都能变成现实。有一个段子说,就差一个程序员了,对吧?程序员很稀缺,原因就是 idea 很多,但是要找程序员是要钱的,所以开发 app 就需要很高的成本。比如说,一个 app,放在 10 年前一行一行完全手写,可能需要 100 万美金的研发成本。但是到现在,可能我雇几个人,如果是几个人都很熟练的使用像 Cursor 这样的一些 AI 辅助编程的工具,可能 10 万美金的成本就做出来了。
甚至有一些独立开发者,他自己水平比较高,一个人可能就搞定了,根本就不用再去找程序员。这件事情我觉得可能很快,两年之内就会发生,就是有一些很强的产品经理,然后他自己如果说能把自己心中的需求表述清楚,可能他根本就不需要程序员,他直接就是给 AI 说说,然后 AI 就能给他全部搞完。那这个时候,每一个人都是把自己的精力花在这个想需求、想我要做什么,而不是说再去把时间花在实现的细枝末节上。
Sam Altman 说未来会出现只有一个人的 10 亿美金公司,我觉得这是完全可能的。一个商业、技术都很强的人,如果善于利用最新的 AI 技术,做独立开发者也可能做到原来几十个人的公司才能干的事情。你看现在最火的几家硅谷 AI 公司,在做到 10 亿美金的时候,也就十来个人的规模。这些公司内部都在疯狂使用 AI,效率跟传统公司完全不一样。比如我跟他们开会,他们的 Zoom 里面往往还会进来一个 AI Notetaker,用 AI 自动做会议纪要。AI 会议纪要也不算是什么 rocket science(特别前沿的问题),现在腾讯会议官方都能做了,但大多数公司就是没有用起来。
因此程序员只要善于使用 AI,只要善于学习新技术,就永远不会失业,AI 肯定是把盘子越拉越大。
另外一点就是,原来那些做基础的,比如说我自己做 infra 系统优化很厉害,我是不是就失业了?我觉得不是,就是说不管在什么时候,它的底层的这些优化这些东西仍然是一个很高精尖的领域,AI 我觉得是非常难取代的。好像到现在汇编语言程序员都没有被取代,因为每个编译器里面或者每个操作系统,你都有一点很核心的那种高性能的,或者说它跟硬件打交道的代码,它必须用汇编来写,就取代不了。所以说它这个东西永远是有它的应用价值。
猎手 Leslie:因为我是外行,汇编语言它其实跟我们说的 Python 或者是 Java 它不是一个系统,是吧?
李博杰:它是一个很低级的语言,相当于你要告诉它,比如说从 A 寄存器到 B 寄存器把它挪过去,然后把 A 寄存器的值和 B 寄存器的值加到一起一起放到 C 寄存器。然后你想在一个计算机里边,就那八个寄存器,然后你要访问的内存地址从这个内存地址 load 四个字节到那个内存地址,就是它属于很低层的那个东西。所以说你想用这个东西,你想开发一个安卓 app,你觉得它需要多少工作量?对吧,你画一个界面需要动多少次内存地址?对吧,这个就是非常难编。
猎手 Leslie:所以现在的比如说像是 AI 的编程 Copilot,它做不了这个汇编?
李博杰:它也可以写,但是它可能没有办法像那些专业的优化人员优化那么好。他可能就是说,他能写一些基础的汇编。比如说,我要写个操作系统,我也可以用 AI 帮我写一个,但是他肯定没办法像 Linux 那样优化那么好。然后,比如说 AI 还可以帮你开发一个网站,他可以套一些设计模板,但是他肯定也不如那些专业设计师,比如说他肯定开发不出像抖音这么丝滑的一个东西。
猎手 Leslie:所以本质上,就是我作为一个这个工程师或者架构师,我不变的东西我理解就还是说你要去思考产品思考用户。但这个变化的部分可能是说,你你以前就是你可能需要多少个人日然后做一个事情,它今天就效率非常快提高。对,而且你必须要用这个东西,因为如果你不用的话,其实这也很难,就不用的话可能就被淘汰了。
李博杰:对,我觉得是这样,人的很多日常工作它其实都是花在这种细节上面。比如说,日常工作填个表格,我要去报销,然后我把发票一张一张的收集起来,对吧?现在这件事情 AI 基本上也能做。然后对程序员来说,那可能就是说写这种所谓的胶水代码,对吧。就是说前端给了一个接口一个文档,然后后端我要把这个文档里的接口一个一个实现,无非就是增删改查,对吧?用户增删改查,内容增删改查,对吧?就是这些东西需要消耗掉很多日常开发的精力。但是其实这些东西完全都可以用 AI 来代替。
然后如果说一个人完全不用 AI,那可能就是说他可能他的开发效率就比其他人要至少慢一倍以上。至少我自己用了 AI 和不用 AI,开发能力肯定是提升了一倍以上。
猎手 Leslie:对,所以有没有这种说法说,如果你真的是在拥抱 AI 这事情,然后你你作为一个这个这个研发的同学,那你的精力应该怎么去分配?就是比如说,我可能还像以前一样,比如多长时间在写代码,多长时间在研究产品用户,就有这种你的看法。比如说比例大概是什么样子?
李博杰:我觉得如果说对一个程序员,如果说他自己不想做转型做产品经理的话,他可能也没有必要太早的去过多关心产品用户。我就只要需要关心我怎么用这个 AI 能够尽快的把老板分给我的活干完,我觉得这件事就很重要。就是说,因为就比如说老板分了个活说是我要实现一个新的页面,然后原来可能我要一个礼拜的时间实现,但是现在有的 AI 可能我一天就搞完。这就是说,能够大大提高效率。提高效率后,剩下的时间也可以休息一下,正如您所说,也可以用来思考一些产品和用户相关的问题,从而提升自己在其他方面的认知。
猎手 Leslie:所以,主要还是以完成工程任务为主,对吧?
李博杰:我的感觉是,就目前 AI 的能力,本质上是把你的时间解放出来。时间解放出来后,我不需要去做那些 “体力劳动”,我可以去思考,做一些更有价值、更有意义的事情。
对于程序员来说,更有价值、更有意义的事情是什么呢?这其实是一个观点问题。我更喜欢类似于 Google 的那个 20% 项目的概念。我觉得,可能国内的话,因为现在 996 工作太忙了,所以大部分程序员没有时间去搞那种 20% 项目,所以整体的创新能力也比较差。但是,硅谷有一点比较好的就是,他们很多程序员有足够多的时间去搞一个 part time 项目,而且那边很多公司对这些事情也相对来说容忍度会高一些。像 Google 就是 20% 项目,它已经是一个深入公司文化的东西了。
我觉得很多创新实际上是自下而上产生的,在日常生活和工作中遇到了一些自己很难解决的、有痛点的问题,然后做了一个项目来解决这个问题。如果解决的方法很巧妙,自己喜欢用,同时这个问题本身又是足够有推广价值的,就是说有足够多的人也有这个需求,那它就是一个好的、有 PMF 的产品,可以推出去。但是这件事情我觉得很难是自上而下的去完全规划出来。所以,这就是为什么 20% 项目很有意义。我觉得如果以后用了 AI,很多程序员减少了工作时间,完成公司现有的工程任务的时间缩短了,那剩下的时间可以更多地去做一些自己感兴趣的项目。而且现在有 AI 的辅助,可能一个人就能用 AI 搞出一个 MVP,不一定非要招一个前端,招一个后端,再招一个设计师。
但是我们能不能把 20% 时间改成 20% 的人,让 20% 的员工天天不开发产品,就琢磨怎么创新呢?好多大厂的 AI Lab 就是这么干的,但大厂的 AI Lab 很少有成功的。为什么?我觉得这里很 fundamental 的一点是 20% 项目的创新是为了解决日常生活和工作中遇到的问题,不是凭空拍脑袋想出来的。如果搞 20% 的人天天坐在办公室里就想怎么创新,想出来的东西很可能只能发发论文,根本没有实际需求。
猎手 Leslie:所以,花时间做一些实验很有意义。所以,如果我现在在大厂做研发,AI 来了,我要去使用它,这可能涉及到一个学习适应和转型的过程。你有什么建议吗?因为我自己的感觉是,比如说我今年已经 40 岁了,可能就没有那么大的动力或者说我就不想学新的东西。但有些同事他可能想转型,但他可能没有特别强的动力学新的东西,但有些同学他可能想转但他可能没有特别好的思路,因为你刚好也在创业,所以你觉得你会给大家有些什么建议吗?更快地去拥抱 AI,让 AI 去赋能自己,就这个会有些什么方法或者说你觉得有些什么思路可以分享?
李博杰:我自己的建议就是首先就是多看一些别人是怎么用好 AI 的,就比如说网上,比如说像您这样的 Podcast,估计很多对吧,教人去怎么去用 AI 的,看看人家是怎么用半个小时就搞定了一个像模像样的一个小游戏对吧?然后知道原来 AI 该这么用。
其实包括我自己都是这样的。我之前到去年的时候,我一直都喜欢用 ChatGPT,我自己都是遇到一个问题,比如说想让他写一段代码,然后我就把他敲到 ChatGPT 里面,然后再弄一段代码粘出来,再粘到 PyCharm 这些 IDE 里面,但是这样的话就是效率比较低。
然后是什么时候我就发生这个改变呢?就是 Cursor 最近比较火的时候,基本上是今年四五月份的时候,我开始比较密集地使用 Cursor,因为当时有一个很强的模型就是 Claude 3.5 Sonnet 出来了,它的代码能力特别强。那在 IDE 里用和在外边就是 ChatGPT 里用,它有什么区别呢?因为 ChatGPT 它不知道你就外围的这些代码的一个 environment,所以说你问问题的话他总是问题是很局限的,然后他也没有办法直接帮你去修改现有的这个长篇的代码。但是呢,在 IDE 里面像 Cursor 啊或者是 GitHub Copilot 这样的 IDE 就完全不一样,因为他拿到的 context 是整个项目,然后呢这样的话你他一读那个代码就知道哪个地方该改,甚至有的时候都连定位到哪个地方需要改都不需要。有一个功能很强大,就是你只要填出来一个对话框,然后在里边输入你想干啥,他全给你搞定了。
当然说他复杂的需求都搞不定,现在模型的能力还是有限,你可能还要再改。但是 anyway 他基本上好多时候他能自己都能找到他什么地方该改之类的,不用人去就是费很多的劲去搞,所以说它是一种机器和人如何去合作,就是说如何如何去探索模型的边界,而且这个边界还是在不断去变化的,就是原来的模型差那可能是我需要人做更多的事,比如说我需要人找到哪一行代码该改,你去勾住,然后说改,然后才能改。那现在的话可能他自己就能看懂代码了,那就不用去勾哪一行代码了,就直接把需求告诉他就行了,那可能又是一种新的进步。
如果是一个几十万行的项目,它还没有办法一次都涵盖进去。所以说呢,我还是要去告诉他是哪个模块,就是说我因为我是真正懂这个项目的人,我知道我那个需求该改哪个模块,我需要把这个模块相关的那几个文件告诉他,然后他才能改好。说不定哪一天模型的能力更强了,连需要改哪个模块都不用告诉它了。
还有一个问题就是调试问题,现在的模型经常写出来的代码是有 bug 的,然后呢,我人还得给他调 bug,还得帮他修。以后说不定他自己都能调 bug 了,这个就又上一个台阶。
所以说我们每一个人学习,是要顺应模型能力的发展趋势。但是我觉得这里边有两个点:
首先,如果说是作为一个生产力工具去用,那一定要用最好的模型,不要去用差的。有的时候你用了一个差的模型,就好像说是我的第一部手机就买了一个很差的,比如说买了一部山寨机,然后我就可能就对这个手机的印象就不好,说这手机这东西真难用,对吧?但是如果说你第一个用的手机可能是苹果,那你可能就觉得这手机很好用,对吧?这就是说如果说你一旦一开始用了一个很差的模型,那可能就是对 AI 整体产生了个不好的印象,后边就没动力了。
然后那么第二个事情的话,就是要多看其他人是怎么用的。所以说我觉得像您做的这个 podcast 或者说很多做这些就是抹平信息差的这些工作是非常有意义的。
猎手 Leslie:所以可能首先需要有一些有些获得信息差的渠道,不管是听播客还是看 YouTube 上的视频,另外一个就是他自己得要去试。刚才你提到要用最好的模型,最好的模型是看评测成绩吗?还是我在哪能看到呢?因为我这现在 2C 的话,或者有一些产品的话在 Product Hunt 上面它会有排序之类的东西。还会有别的地方吗?如果我都没用过,我去哪找模型最好的地方?
李博杰:Chatbot Arena 是伯克利搞的一个学术项目,它做的其实是一个盲测的一个平台,就是说用户去上边去随机选两个模型去测试,但是你不知道谁是谁,然后大家在上面做 AB 的比较,然后哪一个更好,然后就形成一个投票。然后这些所有的盲测的投票,它会组织成一个排序的列表。然后现在的话,可能排的比较靠前的就是 OpenAI 的模型,现在国内那个 Yi Lightning,然后它就是便宜又好的。然后还有就是 Google 的,然后还包括 Anthropic Claude。
还有一些分类排行榜,比如说像刚才说的这个是总榜,然后但是如果是编程类的分类排行榜,那肯定是现在 Anthropic 的 Claude 是第一。也就是说,比如我做编程,我肯定是看编程的分类榜单。这种比较权威的国际榜单,肯定还是比较好的。从这个方面能看到模型,然后产品方面的话,我觉得就像刚才您说的 Product Hunt 就挺好的,因为一看编程这个分类,我估计大概率排在前面的可能就是 Cursor、Github Copilot、AI Devin,就是那个编程程序员之类的。
猎手 Leslie:还有一个问题是说,可能你你不太涉及这个问题,因为你自己其实大厂也是相对比较顺的,然后自己出来创业做自己喜欢做的事情。但事实上,其实国内我觉得很多这个从业的同学,就是大家可能还是会担心说,就是有一天被裁掉。那被裁掉有两种情况,一种情况是说我还干着,这种情况是我不干这事了。对,所以我不知道你自己有没有想过,或者说你身边有一些你觉得还比较成功的,就是比如说我今天研发这事情,我做了十来年,我不想做了,我做不过了。那如果我要去转型做其他的事情,你觉得会有些比较好的思路吗?就是你比如说可能做什么,这个成功的价值大一点对吧?
李博杰:我身边这样转型的人我觉得还挺多的,就是说有好多可能就是比我岁数更大一点的同学,他们可能确实觉得做了几年研发,然后觉得对技术可能没那么多兴趣了,或者说是觉得说做技术太累,天天 996 的太辛苦,然后我想更多的在这个 family 这方面,就是说 work life balance 搞得更好一点。那这种情况下的话,我觉得就是有几个方向。
第一个,我觉得对于比较聪明的人可能做量化是一个挺好的思路。量化就是跟着盘走,就是说你只要方法足够好,可能你也不需要足够一个很大的团队,可能就是你自己一个人或者说是我一个加入一个精英的团队就几个人,然后投入一点钱,然后你能赚钱就行。他唯一的目标就是在证券市场上面赚钱对吧?反正这个事情就属于比较封闭的一个东西,你也不需要去做什么运营啊、管理大团队啊这些很复杂的东西。也有好多我觉得挺聪明的人,在这个上面实际上是赚了挺多钱的。
但是说,这个事情是一个比较赢者通吃的,因为他实际上是跟世界上最顶尖的那些聪明头脑在比拼。如果说你觉得你自己的聪明才智不足以跟这些顶尖的人去比,那进去以后大概率就是当韭菜了。
猎手 Leslie:所以,如果你没有那么出众,最好还是选择其他方向。
李博杰:我自己感觉,产品和技术规划是两个不错的方向。因为如果从技术转型过来做产品和技术规划,实际上是很有优势的。比如,如果一个产品经理完全没有技术背景,他可能会提出一些不切实际的需求,因为他对技术的边界和能力没有认知。很多产品经理都遇到过这种情况。有时候,产品经理认为某个需求很简单,但实际上可能需要一年时间才能完成。反之,有些事情产品经理认为很难,但对于技术人员来说,一天就能搞定。所以,如果是一个技术出身的人,对技术的难度和复杂程度会有更好的把握,这对于产品经理来说是一个优势。
第二个方向是技术规划。一般来说,在一些大公司都有这种规划师或智库分析师,他们负责技术规划。如果是技术出身的人去做技术规划,肯定能够有更多的洞见,因为规划本身就需要预测未来会是什么样子。比如,现在让我预测未来五年 AI 会变成什么样,AGI 会不会出现,我能给你分析一大堆。但如果一个人连 AI 现在的模型都搞不明白,你让他去规划未来,就会存在问题。
除了这两个方向,其实还有很多其他的选择。比如开民宿、做教育等,都是不错的选择。尤其是教育行业,有很多人想把自己的知识传授给别人,但又不想过上 996 的生活,所以选择了这个行业。无论是基础教育、大学教育,还是互联网上的播客或卖课,都是不错的选择。我见过很多同学或朋友在这个领域做得很成功。
猎手 Leslie:你去年到今年应该也经历了很多事情,对于方向和团队都有了新的认识吧?我感觉你是一个比较喜欢思考的人,所以我想问你最近在思考什么问题?你现在可能还没有答案,但也许你就想找一个高人去聊这个问题。你最近在思考什么问题吗?
李博杰:我肯定有很多想问的问题。如果只允许我问一个问题的话,我会问:你觉得 AGI 能否实现,以及什么时候能实现?这个问题非常关键,它决定了 AI 的上限。
这一波 AI 是一路高歌猛进,直接走到 AGI,还是中间会有些曲折,就像上一波 AI 一样?比如 2016 年的 CV 模型,当时也是模型越大能力越强,但最后发现除了 CV 以外,这个模型别的都干不了,NLP 它不能处理。所以最后还是靠 Transformer 才统一了 CV、NLP。Transformer 会不会也有上限,有些事情搞不定呢?
但我觉得现在这一波有一个好处,就是至少它现在有了多模态能力,而且 OpenAI 的 GPT-4o、Claude 3.5 Sonnet 都有了不错的代码能力,还有推理能力 o1 现在也看到了曙光。这几个东西给大家的印象是,它们可能并不难,只要投入足够多的算力,有足够多的 insight 就能搞定。
甚至有人提出,不需要那么多算力,比如最近开复老师讲,他只花了 300 万美金就训练出了排名很高的 Yi Lightning 模型,可以大大降低成本。还有 o1 这个东西,OpenAI 作为先行者,花了大量算力去训练这个强化学习的东西,但我的 gut feeling(直觉)是,如果用对了方法,可能不需要那么多算力。你看 AlphaZero 当时自我进化的时候非常快,从早上的菜鸟到中午就达到了人类顶尖水平,到晚上就已经是人类望尘莫及的水平了。如果 feedback 的这个东西搞对了,有可能一个中小公司甚至一个学校就能搞出来一个可以媲美现在 o1 mini 的推理能力。所以这也是非常令人兴奋的事情。
猎手 Leslie:(AGI 能不能实现)这个问题目前确实很难解决,即使你与 Elon Musk 和 Sam Altman 讨论,每个人都有自己的看法。但这个问题又非常重要,尤其是如果你正在创业。模型的能力边界可能会影响你在布局产品时的判断和理解,所以这一点非常关键。
李博杰:因此我认为一定要跟基础模型公司做朋友,这是我前面就讲过的。如果你被基础模型公司视为敌人,最终可能没有基础模型公司愿意跟你分享信息,甚至连 API 都不一定愿意让你用,因为他们担心你的公司会取代他们。
但如果你成为朋友,可能会有很多公司愿意让你先使用一些内部未发布的东西,或者分享他们对未来的见解和正在做的事情。比如 AI 编程的 Devin 在 o1 发布之前就拿到了内测版,并且做成了 o1 的 showcase。Chatbot Arena 在 GPT-4o 发布之前就把匿名版的 GPT-4o 拿到竞技场上让用户去测试了。声网和 LiveKit 在实时语音电话的 realtime API 发布之前就已经做好了适配。
一旦你成为基础模型公司的朋友,你可能就比其他人更有先机,了解未来会是什么样子。而我们前面讲了,现在基础模型处于一个快速发展的阶段,基础模型能力决定应用能做什么,不能做什么。所以最好能与世界顶级的基础模型公司,比如 OpenAI、Anthropic 或者 Google 成为朋友。
猎手 Leslie:最近你最焦虑的事情是什么?
李博杰:最近我最焦虑的是,在走向 AGI 的路上,我能做什么,以及应该以什么方式来做这件事。
前面讲了很多,又是科幻,又是基础模型,又是应用,但 AGI 是全人类的事情,我一个人的能力是很有限的,那我应该做什么?我不想做在基础模型上雕花的事情,这样基础模型一进步,那些雕花的工作就全白费了。所以我觉得还是要跟基础模型公司做朋友,做他们生态系统中的一部分,比如我前面讲的系统优化、抹平信息差两个方向。这样我的工作才对 AGI 这件大事有点微小的贡献。
另外就是应该以什么方式来做。我记得我在 MSRA 实习时,前院长沈向洋曾经说过,他不在乎自己在学术界还是工业界,他经常在两者之间切换。他只关心每个项目是否足够有影响力,因为一个人的职业生涯就是由一系列项目组成,只要每个项目都足够有影响力就可以了。这件事对我触动很大,而且他当时也说,并非每件事都适合在工业界去做,也不是每件事都适合在学术界做,不同的事情有不同的做法。
我自己也跟很多人聊过,有一个很粗浅的认知,就是一件事可能有很多种不同的做法。
其中一种是典型的创业公司,拿了很多投资人的钱,一开始要筹集大量资金,追求做大上市。这种公司通常被视为最成功的典范,但它不一定适合每一个公司,尤其是不一定适合某些领域。因为在公司发展壮大的过程中,必然会涉及到商业现实和技术理想之间的矛盾,就像 OpenAI 过去一年发生的那样,许多人离职,这就涉及到技术理想与商业现实之间的妥协。公司做大了以后就不再那么酷,不再那么技术驱动了。
第二种可能的方式就是那种比较小而美的创业公司。作为小而美的公司,他们一开始就是一个小团队,甚至没有 VC 的投资,但是他们有一个非常明确的 PMF,解决了一个确实的问题,所以他们能自己赚钱养活自己。如果有一天这个市场足够大,他们可能一下子就可以再扩大规模,但如果没有这样的机会,他们就这样保持下去。
比如说很多人都喜欢所谓的 “9-6-5” (不加班的) 公司,其实在国内基本上只有两种:一种是已经成熟期的外企,另一种就是这种小而美的创业公司。他们可能可以更长时间地保持技术驱动和酷的感觉,内部技术氛围很好,因为他们没有太多的竞争压力,也能养活自己,所以不需要走得太快。这是第二种我觉得也挺好的一种思路。
第三种就是社区的思路。比如开源社区。比如 Linux 最早的时候,如果 Linus 要去找一个天使投资人说我做了一个类似 UNIX 的操作系统,你给我投点资吧,我估计不被赶出去就不错了。但是 Linux 通过社区的方法一点一点去滚雪球地扩大,而且它真的是一个开源操作系统,是有存在价值的,因为其他全是商业的。
这个开源就有存在的价值,但是开源项目有一个问题,就是一旦做大了,或者说不管是个人还是团队有了经济上的压力,就涉及到一个商业的问题:开源项目如何商业化?这又是一个挑战,因为好多开源项目的商业化处境都不是很顺利,主要原因就是开源社区的利益和公司的利益很难去平衡。我新做了一个东西,到底是弄成一个封闭的商业版用,还是说贡献给社区呢?这就很麻烦。
其实我自己就是观察这个最近的像 vLLM 就是一个很明显的例子。vLLM 现在还没有做商业化,但是好多公司他 fork 了 vLLM 之后自己做了很多优化。有一件事情我最后又很感慨,就是说 9 月份的时候刚发布的一个 vLLM 0.6 版本,它的性能提升了 2.7 倍。然后它 2.7 倍的性能,实际上主要原因并不是很 fancy 的一大堆优化,不是说优化一些算子什么的。它其实就是一个 HTTP server,浪费了很多的性能。还有一个是 Python 内部有个 GIL 的全局锁,然后还有这个就是在做调度浪费了很多性能。所以他把 GPU 利用率原来只有 38%,现在提升到很高,然后一下子性能就提升了接近三倍。我当时跟好几个大厂的人去聊,国内的国外的,他们都说他们内部早做过这种优化了,只是他们还没有贡献给社区。而且他们还说他们自己内部的那个东西,它的推理性能比现在开源版本的 vLLM 还会好很多。每个大厂内部都藏着很多东西,所以说这个东西就是,商业和开源总是有这样一个平衡的问题。
刚才说了开源社区,除了开源社区以外还有一些是非盈利项目,它可能不是开源但是说它也是这种类似的这种社区项目。比如像 Wikipedia 就是很好的例子,Wikipedia 它就是一个,比如说 Wikipedia 如果说一开始说我要做一个百科全书然后要融资,这个可能也很难融到资。但是它就是有它存在的价值。
然后第三个东西就是 Web3,其实也是社区项目很好的一个例子。比如说比特币是 Web3 的鼻祖,那你说如果说我要做一个去中心化的匿名的货币,然后我要去融资,这很难对吧?但是它就是有它存在的价值。那好多项目也是说一开始我就是以一个社区的方式去做,然后再以 Web3 的方式再去做一些融资,这也可能有一个好的成功。但是 Web3 的话现在有一个问题,就是说它这个领域里边有好多金融投机类的项目比较多。在这样一种鱼龙混杂的状态下,你的项目如果真的是技术驱动的,能不能从中脱颖而出,让大家知道你项目的长期价值,而不是说一个比特币涨跌的周期然后就给你搞没了对吧?这也是很挑战的一个事情。
对于社区类的项目,不管是走这三种路线的哪一种,都还比较困难。就是当然说这我觉得也是一个技术理想主义者可能喜欢搞的一个事情。
可能社区项目一开始是没有明确的商业价值,但是说至少有社区价值,有一个 public good,就是说它是解决的是人类的一个公共利益对吧?那如果说它这个东西我只是想自己玩一玩,我不知道它有没有用,那可能就是学术项目。学术项目实际上有很多大佬在做,也做的很成功。
所以说我觉得这就是四种不同的类型,不管是典型的创业公司,还是小而美的这种公司,然后或者说是社区项目,或者说学术项目,其实都适用于不同阶段,不同类型的一个项目。所以说,我自己实际上在思考的是前面所说的两件事情,我应该以哪个方式去走。所以这个也是在一个思考的过程中。
猎手 Leslie:好的,感谢收听本期播客,欢迎大家关注、点赞和转发。大家有任何想法也非常欢迎在评论区和我互动留言,下一期内容更精彩哦!