当所有人都去卷 Coding,我在做什么?
今天(2026 年 5 月 29 日)下午,我受邀参加了腾讯研究院余一主持的「AI 跃迁者」直播,跟她聊了一个多小时,直播间里最多的时候有一万六千多人在线。
这篇文章整理自那场对谈的完整转录。下面先把全文里我自己觉得最有意思的观点拎出来。
- 被高估的是”智能上限”,被低估的是”从环境中持续学习”
- 主流 Scaling Law 暗含”小世界假设”——以为有用的知识就那么多,学一次就够;但真实垂直场景里的知识根本不在训练语料里,所以更成立的是”大世界假设”:最强的能力是学习与适应,而不是死记硬背。
- 这也解释了为什么很多 Coding Agent 在 Benchmark 上分数很高,到真实场景却不好用。
- 当所有人都去卷 Coding,我偏要做”人与 AI 的交互”
- OpenAI 砍掉 Sora、Gemini 收缩多模态,国内几家也纷纷重注 Coding;做语音的则几乎都跑去做 B 端客服(Sierra / Decagon)。
- 我反共识地选了”客服的反面”——帮普通用户去和客服博弈、维权,并坚持自己训练语音模型。”我特别讨厌同质化竞争。”
- 语音是人机交互最自然的模态,正从”次要模态”走向”主要模态”
- 多数人把语音局限在接打电话、陪聊、配音这三件小事上;其实语音输入比打字快 3–5 倍,认知负荷也更低。
- 如果语音交互足够自然,人就不必困在办公室格子间里、用不健康的姿势长期打字——完全可以坐在海边、草地或家里独立办公。这不只是技术问题,而会从根本上重塑未来的工作形态。
- “有趣”和”有用”是正交的两个维度,而且会像钟摆一样来回摆动
- 有趣门槛低、容易病毒式传播,但上限低;有用更难,但上限高(对标每年 7–8 万亿美元的劳动力市场)。
- 现在顺应趋势先做”有用”;等 AGI 到来、人被从生产力里解放出来,”有趣”还会重新回归。我定义的 AGI 是:能自主完成 80–90% 人类在数字世界的日常工作,预计两三年内达到。
- Coding Agent 和人写代码,根本不是一回事
- 模型是”先想几分钟,再哐哐吐出几百行”;而人是先打个 sketch,再边写边跟环境(IDE)快速交互、持续 refine。
- 真正要解决的是两件事:Agent 如何与环境实时交互、如何从环境中高效学习(而不是靠上千次失败的 reward 才学会”工作时间再打电话”)。
- Evaluation 不是工程收尾,而是一种”科研方法论”
- 没有一套客观的评估体系,几百条规则的长 prompt / harness 根本不敢改,也无从判断哪些是该回滚的技术债。
- 语音评估比文本更难,需要一个和系统一样聪明的”模拟用户”;懂业务的人往往比只懂技术的人更适合搭评估,关键是把人的标准提炼成 rubrics。
- 可以外包思考和执行,但永远不能外包”理解”
- 招人我最看重理解力与泛化能力:看不懂 AI 产出的人,既没法做 evaluation,也指导不了比自己强的模型(weak-to-strong 在现实中极难)。
- 给 20 岁的年轻人:语法、各种 trick 这些 AI 都能干,真正稀缺、也最该培养的是 taste 与判断力。
- AI 已经是”数字员工”,但它的能力边界和人完全不同
- 现在一个组长指挥 5 个 Agent,就能干完过去 10 个人的活;我每天像管真人一样早晚听它们汇报、给它们派活。
- AI 工程执行力强、很少犯低级错误,但实时语音、GUI 操作、进入物理世界这三件事仍然很差——这恰恰是”人 + AI 协作”类公司存在的理由。
一、开场:从 AI Infra 到 Agent 创业
余一:这一期我邀请到的博杰,博杰先做一个自我介绍。这一期邀请是因为博杰对于 Agent 这边一直有持续的研究,很早之前他那篇说 Agent 到底有两个地位,到底是应该更有趣还是更有用,那篇文章是我看过对于 Agent 方向非常有启发,我也推荐过很多人的。
包括最近我非常关心的两个议题:第一,AI 能不能自我进化,我们所谓 AI 复利工程到底要怎么去做;第二,Pine AI 其实就在做到底怎么进行语音交互,而且是干着一件很脏的活,又涉及到 Agent 的主体性责任到底要怎么去划分。所以这一期我会觉得无论是博杰本身的研究、他自己的方向,还是公司在做的很多事情,我觉得都非常符合 AI 跃迁者的一个话题。所以第五期特别邀请到了博杰,我们一起各种深聊一下。请博杰你自己再补充介绍一下你非常棒的履历。
李博杰:哈喽哈喽,大家好,我叫李博杰。我之前是在 MSRA(微软亚洲研究院)和中科大联合培养的博士,当时主要在研究 AI Infra(基础设施)这个方向。后来 2019 年我是华为第一批的天才少年,主要做了两个项目:一个是在华为的深度学习框架里做了一个叫 AKG 的东西,是一个算子的编译器;再往后有一个叫 Unified Bus 的项目,现在也是昇腾 950 之类的万卡集群。
因为当时我们最早 2020 年启动这个项目的时候,不管公司里还是公司外的人,他们都说训练八张卡就够了,为什么要搞万卡?但是我们当时看到 GPT-3 的 paper,我们就觉得这种大规模的训练一定是一个很重要的事情,所以我们就做了一套既能很大规模、同时又很低延迟的这么一套互联网络的东西。
这都是很早的东西了。2023 年的时候出来开始做 Agent 方向的创业。之前我有做过一些 Web3,现在的话我在搞的是 Pine,就是在北美帮人去打电话、帮人去办事的一个 Agent。我们同时也在探索很多语音领域的一些新的方向。
二、十问十答:快问快答
余一:那我们还是一样,整个 AI 跃迁者系列在最开始都会有一个”十问十答”的快问快答。有很多东西我们可以留到后续继续去追问,但我们希望通过十个问题,更直观地看一下这些跃迁者关于自己、关于自己的业务,还有说更大的 AI 范式,他们的一些看法和锚点在哪。
每天与 AI:时间、习惯与 Token 消耗
博杰,现在你每一天跟 AI 待在一起多少小时?最大的一块时间在做什么?
李博杰:我大部分时间都是在跟 AI 聊天,就像跟您聊天一样。我每天指挥 5 到 10 个 Agent,就在跟它不停地语音聊天,指挥它干活。
余一:这 5 到 10 个 Agent 主要是些什么设定?
李博杰:基本上都是 Coding Agent,都是写代码的。
余一:因为 AI,你现在彻底改变的一个习惯是什么?
李博杰:我觉得最大的一个习惯就是跟真人交流越来越少,但是跟 AI 的聊天越来越多,这是最大的变化。
余一:你现在的 AI Token 消耗量是一个什么样的量级?主要消耗在哪?
李博杰:我基本上每天消耗 Token 可能是在 100 Million(一亿)Token 的这个量级。基本上主要就是 Coding,还有我跟它聊天本身,这个语音也要不断地产生 Token。
余一:所以第一部分是 Coding,第二部分是语音那块消耗的 Token。语音消耗 Token 是更加偏向于它在思考?
李博杰:对,就是你每说一句话,它背后肯定都有个东西得想,想了就消耗了 Token。
AI 带来的组织与业务变革
余一:第三个就是,你现在在做公司,你觉得站在公司的角度或者是商业的角度,你觉得因为 AI 必须思考的一个最大的变化是什么?
李博杰:我觉得必须思考的就是,在 AI 改变了人跟 AI 协作的范式之后,以及人的定位,可能在整个经济当中的定位都是不一样的。那么我们这个业务本身是不是应该按照 AI 的方式重新重塑一下,以及说它是不是应该做得对 AI 更加友好,而不仅仅是对人友好。
余一:这个话题也很有意思。到底是为 Agent 去设计产品,还是为人和 AI 去协作设计产品,这反而是创业者的机会。
第五个,AI 让你对于组织、业务或者产品做的最大的一个改变是什么?
李博杰:我觉得分几个方面。首先组织方面,内部的开会式协作越来越少了。基本上沟通进展这种事,我只要是问一下对方的 AI,我就知道进展是什么样的了,根本就不需要说是在口头去沟通进展。
第二个事情就是在开发的过程当中,其实越来越多的 Automated 的事情让 AI 去做了。相当于我越来越多地会把 AI 当成一个员工来去管,而不是说只让它去干一个很确定的、很窄的一个事情。比如基本上每天早上我起来的时候,都能看到我的 5 到 10 个数字员工,就是刚才说的这些 Agent 给我反馈的汇报。我看完这些汇报之后再给它安排下一步的活。基本上我都是把每一个 Agent 负责的一个相对独立的事情当成员工来看了。
余一:这块我们待会儿还可以聊些具体的。因为我在咱俩聊之前的两个小时,刚刚跟 AI 在互喷,说它的汇报做得不好。我也是每天早上收到一些它帮我做的 Morning Call,还有它昨天晚上有一个夜间监视模式,它昨天晚上到底做了些什么样的事情。但它尽是告诉我它做了动作,而不是结果。
李博杰:可以,这块咱们可以交流一下经验。
理想的团队形态与作战单元
余一:第六个,你的组织的 AI 匹配度,如果是 1 到 10 分,你打几分?
李博杰:我感觉的话能到 8 分吧。我觉得差的 2 分主要是因为现在对于一些比较前沿的场景,我觉得我们还没有探索出一个很好的跟 AI 能够很协作的方法。就是让 AI 去做 Auto-research 的话,我觉得相比真人来说,它可能有很多觉得很简单的地方它会一直在犯蠢。
余一:你心目中 10 分的理想团队可能是怎么样的?
李博杰:我觉得理想的团队就是每一个人都有自己非常好的 Sense,包括从产品到对技术本身的 Sense,以及说他能够有 Full Ownership。他能够从 0 到 1 地把一个事情,从提出想法到最后实现出来,最后到落地去验证闭环,包括从客户那里去闭环。我觉得这是一种未来理想的形态。
最好的就是像 Anthropic 这个样子,我有一个很深的一个技术底座,这个底座可能是需要 N 多人协作才能做出来的,但是上面长出了很多的超级个体。每个超级个体都可以基于这个底座去构建很多有意思的应用。
余一:我们最近要发一个报告叫“超级个体到超级团队”。里面我们是把团队分成了三种:第一种是超级个体为核心的,可能是一个创业公司,它比较强的人,无论是 AI 也好、组织也好,都是围绕他去搭建,帮助他整个能力的放大或者是个性化。
第二个就是网络协作型,里面的话比如基础设施,大家没有很明显的中心节点,没有谁为那个东西最后拍板,大家就像蜂巢式地去生长。
最后一个就是 Agent 是那个中心节点,人是围绕着 Agent 去构建的。你觉得你现在的团队更多的是偏向于哪一种形态?
李博杰:我觉得现在基本上首先有一些人是做 Frontier Research 的,那么他们可能就更加 Independent。原来的话,比如在传统的大厂里面,即使是一个 Frontier Researcher,他也需要配几个给他干苦力的员工,比如帮他洗数据的,或者说是帮他去搞一些实验环境搭建的。但现在来说这些苦力 AI 都能干了,所以他就真的成为了 Fully Independent 的 IC(Individual Contributor)。
另外一类是需要工程上协作的。工程协作的特点就是说,这些人之间其实是有非常紧密的协同的。这些人可能需要还是坐在一个屋子里,但是每个人的 Ownership 都比之前大很多。比如原来可能是一个 Team 十个人才能干成的一个系统,但是我一个人就把它干了。每一个人都能 Own 一个几十万行代码这种级别,而且是有一定技术深度的系统。
另外还有一类是对产品特别有想法的人。比如我们在硅谷有几个兄弟,他们之前是 YC 的 Founder,他们对产品形态很有想法。他就拿我们这一套 Agent 的技术,包括语音的技术和非语音的 Agent 技术,就可以做成各种各样想做的产品。
余一:那你们现在一个小组或者一个作战单元现在是多大的规模?
李博杰:我觉得是原来的 5 到 10 倍的一个缩放。原来 5 到 10 个人的 Team 能干的事,现在一个人干。当然我们整个 Team 一共 20 多个人,我们相当于传统组织里面可能是几百人的战斗力。
余一:有些会觉得其实一个项目可能三个人是一个比较好的、合适的、互相支持、具有稳定性的这种小的作战单元。你们自己会去分,比如我们要开启一个新项目,到一个稳定态的时候,它可能是一个什么样的小团队?
李博杰:我觉得是这样,首先每个人都有自己的责任田。比如有一个最终负责人,一个模块,简单举个例子,假如说我现在要搞 Agent 的记忆。Agent 的记忆就是所有的人要往记忆里面放东西,那必须都得是经过这个记忆的负责人去负责。不能说你放一块我放一块,最后就会形成委员会设计,就会非常混乱。概念的完整性还是很重要的。
但是有新的事情要发生的时候,我肯定是把已有的几个组件把它组装起来组成一个新事。比如现在 Pine 本身是在美国帮人打电话、帮人去扯皮去处理客服的事。假如说现在我们有一个人说,我要用它来做 User Survey(用户调研),那这个来了以后,我可能就要看一下我的语音 Agent 里面是不是要对应地做一些调整,我的知识记忆这个地方是不是要增加一些这个领域的知识库。然后再把做产品的兄弟、做 Marketing 的兄弟,这几个人一凑,就把 User Survey 的东西给推下去了。
最大的挑战与最坚定的判断
余一:第八个问题,在去打造 AI 原生组织的时候,你遇到的最大挑战是什么?
李博杰:我个人感觉最大的一个挑战其实是现在 AI 的能力还比较有限。我觉得它的有限体现在两个地方:第一是它所有需要跟人类世界去打交道的地方,它都是很差的。这也是我们这家公司为什么存在的原因。因为像 Anthropic 它是在做智能上限,可以说在 Anthropic 最终的那个终极梦想里面是没有太多人的。它假定的是说一帮天才的人和一帮天才的电脑。
但是普通人在这个世界里面是没有太多存在感的。我们做的这个事,我们还是希望更多的普通人能在未来的 AI 和人共生的世界里面有一定的存在感。也就是说我们希望能够处理真人在现实世界中遇到的这些复杂的事情。
这里边自然要包括从近到远的三件事:第一件事是 Audio(语音);第二件事是 Computer Use,如何跟这个物理世界去交互,就是 GUI(图形界面),不管是手机还是电脑怎么操作;第三件事是具身,这个就更远了。我觉得这三个它是循序渐进的,是越来越难的一个东西。所以我们先从语音开始做,Computer Use 我们也有一定的积累。
现在如果让 Agent 帮我去办事的话,它最容易出现问题的就是这三个问题。第一,如果 Agent 想跟人去沟通,这方面它就比它自己调用一些工具去干就会差一点。再往后,如果它涉及到用图形界面,它就更差。因为你会每次发现,比如让它自动去做 UI 测试,往往点得比人还特别慢,点得比人慢好几倍。同时它有一些很显然的 UI 设计界面布局的一些问题,它发现不了,必须得人才能发现。
如果物理世界那就更不用说了。现在一个 Agent 它有没有自己的身份?因为在美国办很多事情都要有一个真人的身份,比如人家问你你的生日是什么,那我们 Agent 说我自己生日是多少呢?这个事情没法解。所以这是一个可能要长期慢慢去解决的一个问题。
余一:第九个和第十个问题我一般都会连在一起问。第九个是问你到底觉得在 AI 时代什么被高估了,什么被低估了?第十个问题是你在此刻最坚定相信的那一件事是什么?
李博杰:我觉得这其实是一个问题。我觉得被高估的可能就是模型的智能上限,这件事可能被高估了。被低估的是什么呢?被低估的就是模型如何从环境中持续学习这件事可能是被低估的。
这里边有一个很经典的一个说法,叫“大世界假设”和“小世界假设”。大世界假设的意思是说,假定这个世界是非常大的,任何一个模型它都不可能说是把这世界上所有知识都囊括在里头。小世界假设是说,这世界上有用的知识就这么多,我只要把它全学会了,我什么都能干了,就不需要学好一次以后就再也不用学了。
大世界假设就意味着说,它最强的能力一定是学习能力和适应新环境的能力。而小世界假设就意味着说是,你只要一次学会,以后用不用再学新东西无所谓了。其实现在 Scaling Law 这件事本质上来说它是更倾向于小世界假设的。也就是它希望的是说通过模型的参数规模的 Scaling,能够把这世界上有用的知识基本上都学到参数里。这样的话,模型在后边去干活的过程中,我不需要学太多新的知识,我只需要去跟世界去交互完成这个任务就行了。
但是在实际我们去做很多垂直领域的事的时候,尤其是一些具体的一些事的时候,都会发现其实你的训练语料里边根本就不包括那个东西,它不是公开信息。所以这个小世界假设其实不完全成立。我觉得这也能解释很多,为什么说这个 Coding Agent 在这个 Benchmark 上跑得都特别高,但是你到了实际的应用场景里边又不太好用,都是因为这个原因。
余一:所以我觉得你对那个 AGI 相关的概念应该会比较感兴趣。
李博杰:对,因为我感觉大部分大模型公司还是在做智能上限。尤其是现在好多的公司都把 Audio(实时语音)这块都砍掉了。比如 MiniMax,它实际上最早它的产品是实时语音起家,比如星野之类都是非常好的聊天的一些产品。还有豆包,语音做得也非常好。但它的重点实际上是在交互的自然度,然后还有这种更偏有趣的方向。
在“有用”这个维度,怎么样才能叫有用呢?第一是它要有深度的思考,关键它要有脑子,然后它要有工具调用的能力,能跟世界去外部的其他工具去交互的能力。这些它本质上是一个思考能力。它这个思考能力和它这个有趣、跟人交互有意思,实际上是可以理解成是正交的两个维度。
之前大部分的语音类产品都在“有趣”这个维度上走,因为有趣这个维度相对来说是比较容易的。但是“有用”这个维度肯定是更难的,但它的上限也是更高的。所以我们是更多地是在往这个有用的维度上走。这就是跟现有市面上那些语音的一些产品的 Differentiation。
有用这个维度,现在像 Anthropic 的 Coding 之类的它也都是在往有用的维度上在走。但是它的有用又不是那种跟人交互的有用,它是在一个没有人的世界里的有用。可以理解成它是在一个纯 Digital 的世界里去调用各种工具、去访问网页也好,最后给你无人值守地完成一个任务。
但是你可以看到,现在不管是各种各样的 Benchmark,基本上它中间是没有人在参与的。我们想做的事情实际上就是说,在一个 Agent 要办事的过程中,它要去找这个人、找那个人,反反复复跟很多人去沟通的场景下,在这个情况下做到非常有用的。这也相当于我们自己的一个 Bet,一个比较长期的一个发展目标。
三、产品演示:Pine 是什么
余一:快问快答就结束了。我们进入到后面正式的,我们去聊像 Agent、实时交互。之前我觉得可以有一小段时间,你可以给大家稍微地去看一下 Pine 到底是一个什么样的产品,让大家有点理解。
李博杰:OK,那我就简单地 Share 一下。这是 Pine 这个产品,19pine.ai。进来以后就看到一个首页,就可以跟它一个 ChatGPT 一样的页面可以跟它聊了。我可以在这里边,它实际上有一个 Co-pilot,这也是我们最近刚上的一个功能。你可以去点一下 Speak,然后就可以跟它聊天了。
(Demo 演示环节)
李博杰:Can you hear me?
AI Agent:Yes, I can hear you loud and clear.
李博杰:Cool. So basically I have something from ElevenLabs. I just enabled the auto top-up from ElevenLabs, but it charged me $300, but it actually did not show up in my credits. So what can I do?
AI Agent:Wow, $300. That’s a lot to have disappear into the void without showing up as a credit. I’m not sure exactly how their system handles top-ups, but let me see if I can find anything out about their billing process or if there’s an issue. Did you get an email receipt or anything from ElevenLabs when it happened?
李博杰:Yeah, sorry, I typed my email address. This is my email address. You can try this.
AI Agent:Got it, I see the email correction. Actually, would you mind if I checked something? When it looks like we’ve attached to look into this ElevenLabs charge for you, it’s actually waiting for a few more details to move forward. Things like the date of the charge and the last four digits of the card you used. Whenever you have a second, could you hop into the app and fill out the form in the active task session?
李博杰:Yeah, could you help me navigate to the app? I don’t know the details.
AI Agent:Pushing that through for you. If you just open the Pine app on your phone, you should see an active task on the screen about the ElevenLabs charge. If you tap into that, there’s a quick form to fill out.
李博杰:Yeah, let me see. I’m typing into that. I don’t remember my support ticket ID. OK, I have submitted my form. Did you see that?
(Demo 结束)
李博杰:就是一个简单的演示。它后边就会跟 ElevenLabs 去发邮件什么的,那个就比较冗长了,我就不再这浪费大家的时间了。你可以语音跟这个 AI 来聊,聊了以后它会 Pop up 一个 Form。因为之前我办过一次这个事,所以它直接把那个 Form 又给我弹了一遍。我就填一些东西,它就会想各种的策略,它就会去真正去联系这个客服,比如发邮件,包括是用 Computer Use,以及打电话,帮你把这个事最终把它办完。我已经整天让它用它来办很多很多事,就是干这个。
四、Agent 的主体性:何时替用户决策,何时征求许可
余一:核心功能是不是就是我把语音交互,还有关于特别有优势、还有后面的,我知道你在做了一个快模型跟慢模型的实时的配合。这里面其实刚才看到了,我觉得挺有意思就是,你给那个 Pine 的定义是办事员。但就是属于这个办事员的标准也好,还有说你这一刻算不算是把决策权或者是相关的权利给它了?因为后面的部分就是你不参与了,就让它直接去对其他的人或者其他的 Agent。
李博杰:你这个问题非常好。其实这个也是当时困扰我们非常多的一个问题。我觉得我们应该是在业界最早地提出了 AI 跟用户反复提问的这个事的。你看在 2023 年初的时候,基本上像 Manus 或者其他这些新的 Agent,基本上就是你说一句话,然后它就开始给你干,一直往后干,最后当然它会 Deliver 你一个 Report。
但是如果我们的场景,你一下就能想到这肯定是不行的。因为你比如如果说对面的客服说,我现在不能给你 Apply 这个 300 刀的 Credit,但是我可以给你退款。那你说是我是直接就接受这个退款呢,还是说我就干脆就不干了还是怎么样?用户很有可能对于这 300 美金的退款也是不满意的。那么这种情况下我就需要赶紧去问用户,那就是说它要有一个弹窗,或者说打个电话,AI 会自动打个电话给用户问你接不接受这个退款。这是说在办事过程中有一些 Unexpected 的一些情况的一些处理情况。
有些明显觉得更好的,比如假如说对面客服说,我除了这 300 还能再给你 50 的补偿,那我也肯定要。但是如果说不一定是明显更好的,那它就要去再让用户去在中间去谈。
还有一个就是大家可以看到在刚才的这个页面里面,它其实是会给你很多的这些让你填信息。提前问哪些用户信息,这个也是办事的一个非常关键的点。也就是很多用户可能会觉得这个很烦,为什么要办个这个事还必须要这个信息呢?那是肯定的。比如我要去银行办事,那首先你得告诉我我银行账号是什么,我是谁。而且银行不可能那么无缘无故地就相信你,所以你还得证明你是你自己,所以还有大量这些信息叫 Authentication Information,要证明你是你自己。
这些东西都是我们需要提前预判到对方会要啥,然后去问用户的。这个也是我们非常重要的一点,就是它们会提前找用户去问这些信息。今天我觉得很多的 Agent 现在也都开始往这个方向走了。大家如果用 Claude Code 就会发现它问的问题越来越多。之前老版本 Claude Code 它不会问问题的,你说它它就给你往后干。但是现在经常是会弹出来一个框,然后问你是怎么选择,问 1、2、3 几个东西让你选。包括 Cursor 也一样,Cursor 应该是从去年开始就改成会问问题的了。
一个 AI 会知道自己什么东西知道什么不知道,然后知道哪些东西是可以替用户决策,哪些东西是需要请求用户进一步批准的,这个也是本身对它能力的一个考验。
五、”有趣”还是”有用”:Agent 的两条路线
余一:回到一个我们其实那篇文章是什么时候?2024 年你的那篇文章。因为刚才展示的场景都是一个非常面对我们身处为是脏活累活的一个场景里面,然后用 AI 去帮自己去做。2024 年那篇文章你当时有一个很重要的追问,就是两条路:往更有趣的方向走,还是更有用的方向走。其实到现在你在做的这件事情,你会怎么去看当时你的一些当时的疑惑,还有说当时觉得想不通的事情,或者是那个时候认为是错的东西,从现在回看你三年前的那篇判断?
为什么”有用”的上限更高
李博杰:我觉得那篇文章应该说它的整体的判断是没有问题的。因为有趣它一定是先于有用的。因为有趣它的门槛可能会比有用更低。这就是为什么比如在语音这个领域里面,最早的时候大家都是拿它去做像豆包这种语音聊天、情感陪伴,这个它其实不需要太多的智力。
但是像我们这种如果说是去做商务谈判,或者说是价格的谈判,或者帮你去跟商家去投诉,那这个时候它实际上是需要很高的智力的。因为它并不是简单把这些事重新说一遍就完了。
李博杰:对方如果说了一个东西,就像刚才说的一样,他要判断这个东西是对我好还是对我不好。如果是一个没脑子的 Agent,比如像我们 24 年底刚开始的时候,那个 Agent 没有脑子,那时候没有正式发布。原因是我跟客服说,我这有个套餐,这个好那个好,然后我们 Agent 马上说太好了,我马上就要。就是说如果不经过思考就直接回答,肯定会出现这个问题,那就没有办法做这种严肃的涉及钱的事情。
所以我觉得从有趣到有用,这是从语音 Agent 角度来讲。如果从文本来讲,大家最早是用 ChatGPT 问一些问题或者逗它玩,到后面才敢把更复杂的任务交给它去做。我觉得有用的事情,它的上限是更高的。或者我们从某个角度这么讲,为什么 Anthropic 要做有用的东西?因为它 target 的是一个每年 70 到 80 万亿美元的劳动力市场。也就是说,哪怕这 70、80 万亿美元的劳动力市场我能占掉 10%,用 AI 去替代掉,它就是一个每年七八万亿美元的收入。但是如果是有趣,你说抖音能不能做到每年七八万亿美元的收入?让每个用户每年给它交几千美金,只用来 kill time?这个事可能比较困难。Kill time 的东西更容易 viral(病毒式传播),但是它的上限是没有有用的东西那么高的。
钟摆效应:AGI 之后”有趣”会回来
余一:我觉得挺明显的,从今年下半年尤其是 Agent 还有 Computer Use 有一个新跨越之后,市场上的主流都在鼓励大家往有用的方向、往生产力的方向去走。包括今天发布的 Anthropic 的估值已经超过了 OpenAI 的企业级市场的一个情况,这在以前是无法想象的。但我自己有时候也会稍微自我反思,从我自己的使用而言,我觉得是不是太偏生产力了?而且生产力这一块人跟 AI 没法比,有一种既绝望又很辛苦的状态。因为你逼着 AI 有生产力,你也会很辛苦。反而最近可能还多往一些有趣的方向去探索,这过往也会成为一个小小分界,或者到了一定程度,大家会往中间再靠一点的状态。
李博杰:我也非常同意你的这个观点。我觉得人一旦到五年、十年以后, AGI 真的到达了,把大部分生产力的工作都交给 AI 去做了,人自然会把更多的时间用来娱乐。到那个时候,有趣这件事又会回来。也就是说它是一个像钟摆一样来回摆动的状态。比如我去中国的任何一个博物馆,可以看到博物馆里摆放的这些能证明当时时代文明里程碑的东西,其实基本上都是一些有趣的东西,不是有用的东西。你看编钟也好,壁画也好,唐三彩也好,基本上都不是特别实用的东西,基本上都是装饰性的。人吃饱了才有工夫想艺术。所以朝代兴盛的时候,王公贵族就有更多的心思去捣鼓艺术;大部分在战乱的朝代,大家就光忙着发展生产力,还吃不饱。我觉得生产力发展到一定程度以后,大家更多地去做一些娱乐性的东西,而且更多人的时间解放出来,其实是一个非常好的事情。之前我们也经常学过马克思的“必然王国”和“自由王国”,人满足了这些基本的生存所必需的需求时,才有可能去做一些有趣的事情。我觉得这肯定是非常有价值的。
余一:我很好奇,你现在明显很坚定地往有用这条路线去走了。我想知道到底是什么东西推动你走上了这个当时两条分叉路口,你很坚定地选择了有用的方向?
李博杰:其实我觉得是要顺应趋势。比如最早我 23 年刚开始做的时候,其实做了一些 NFT 的生成,那个就是纯有趣的,没什么用。但是那个时候以当时 AI 的能力,基本上就能做那个事。到现在的阶段,它确实可以做有用的了。就像 Anthropic 我记得在 25 年初的时候,其实是一个很低谷的时候。我觉得 Anthropic 某种程度上跟 Kimi 是有点像的,他们在 25 年初那段时间都是比较低谷的,因为那个时候基本上他们的 Thinking 模型都没有训练出来。Thinking 最早是从 o1 到 DeepSeek 的 R1 这么几条路过来的。但是当时 Anthropic 在 25 年初并没有 Thinking 模型,但是别家已经有了。当时我记得他去接受一个播客采访,那个主持人还在嘲讽他,说你要是模型搞不出来,以后做一个 Podcaster 或者 Substacker 也可以。所以当时 Anthropic 的压力是非常大的。但是到现在大家都说 Anthropic 很厉害,实际上也就是大家认识到了有用这个东西的价值。所以还是要顺应这个趋势,现在模型的能力在这个地方,我就肯定先做这个。什么时候会更多地回归有趣?大概是说 AGI 已经达到了,大家大部分人天天不用天天在办公室里忙着写 PPT 了,这个时候可能大家会出来有更多的时间去做一些艺术、做一些休闲之类的东西。
我如何定义 AGI
余一:你觉得 AGI 是一个非常——大家都在讲,但是定义都很不一样。你定义的 AGI 是什么样的?
李博杰:我自己的个人定义就是它能够完成 80% 到 90% 的人类日常工作。
余一:人类有定义吗?
李博杰:就是在 Digital World 里面的工作。80% 到 90% 数量的人类在 Digital World 里面的工作,它能 autonomous(自主地)完成,不需要人盯着就能完成。我觉得这个时间周期可能两三年左右就能达到。
六、创业反思与差异化竞争
从研究到创业:补上商业 sense
余一:其实到现在的 Pine 之前有好几段经历,你觉得每一段经历对于你现在去做这个产品还有选择,背后的那些留下来的影响,你每一段的强化学习里面留下来的最重要的那些代码和原则是什么?
李博杰:我觉得之前的各种经历给我更多的是能够让我更好地去增加一些商业的 sense。因为之前不管是在微软还是在华为,更多的是在一个偏研究的部门去做,其实是没有太多商业思维的。就是说这个东西做了以后,它到底能不能产生商业价值,我当时不太去想这个事。我当时更多想的是能不能写一篇论文,或者说能不能有创新性。但是很多时候商业价值需要更多的思考,这也是我开始创业之后开始更多想的一个问题。或者再反过头来想,如果我是站在现在的我,再回去做当时在微软或者华为做的一些项目,可能做法就会不一样。我会去 target 大项目里面不同的点,或者用不同的方法去做。这也是我通过自己的反思能够不断有的提升。
余一:如果你再回到那个时候,有一些研究的做法会不一样,你最想改变当时做研究的一个研究点或者是背后的方法是什么?
李博杰:比如像微软,微软当时做了很多研究,其实它在外界的影响力其实是偏小的。既没有变成产品,也没有开源。一个东西要么你就开源出去,变成一个公共的平台让大家用;要么你就做成一个产品,有商业价值,能赚钱。但是只是发表一些论文,既没有产品又没有开源,这个东西影响力是非常有限的。这是我当时不懂这些东西,现在我就会去改变这样的一种做事的方式。再比如像华为,我去做了一些东西,有些东西其实在整个产品的角度来说,还是一个非常小的一小块。我可能就会去 target 一些更有长期影响力的事去做。这些事可能都是我在创业以后,因为创业之后它不断需要被审视,不管是我自己审视,还是团队或者外界的人去审视,他们都会去看你做的这个事是不是真的会是一个很重要的事情。如果不是一个重要的事情,你一开始就不应该做。我觉得这是一个很大的不一样。
反共识:拒绝同质化竞争,做”客服的反面”
余一:我也比较好奇,因为我觉得这件事情对于个人而言、对于组织而言都比以前要难很多。太多可以做的了,你可以太多地去做你可能原来边界之外的事情,或者我把某件事情可以来回地以很低的成本去打磨。我很好奇你也好,你的团队也好,大家去做决策,觉得 OK 到了某个线了,我们不应该再继续打磨了,或者这件事情就不应该由我们来做,还是我们应该聚焦在哪里?你们是怎么做这个决策或者相关的行动的?
李博杰:我没太理解到哪个线是什么意思?
余一:我最近也比较关心,一个是包括个人也好,包括组织也好,其实选择不做什么是比以前更难、更重要的事情。另外一个就是张力管理,一个组织一定是同时要做它的确定性和探索性的两个事情。原来的时候没有冲突这么厉害,但是由于现在模型边界也好、能力也好都在变化,对于组织而言、对于个人而言,确定性和探索性的事情到底怎么去平衡,或者怎么去做选择或决策?
李博杰:我觉得我可以讲两点。第一个是一定要有自己 belief 的、反共识的东西,这是我一直坚持的。因为我这个人实际上是特别讨厌竞争的。我特别讨厌去做同质化的竞争,去跟别人做同样的事情。比如 Anthropic 说 Coding 很重要,好,现在大模型公司现在都要卷 Coding。OpenAI 说我 Sora 也不做了,卷 Coding。Gemini 说我多模态也不做了,卷 Coding。国内的这几个也是纷纷重注 Coding。当然这也没错,有可能他们有投资人压力或者什么的,必须要抓紧把这个 Coding 搞上去,卷这个指标。但是就我们来说,我们肯定不是卷 Coding 的,而且我们也没有能力去跟 Anthropic 去抗衡。但是我们就坚持人跟 AI 去交互这个地方,把这个地方做好。这其实是需要有一些差异性的思考。包括我去跟外面很多的大佬去聊,好多人就说文本是图片和视频的 10 倍上限,图片和视频又是语音的 10 倍,意思就是语音是最没用的东西,它可能是文本的 1%。那是不是我这个语音后面就没必要做了?所以我觉得一定要有这样的一种差异化的竞争,不能够说大家都说要做某个事情就都很卷。我周围的很多人是特别喜欢去卷的,做这种同质化竞争,但我不喜欢做这种事情。
第二个点是,Pine 这个领域不是我选的,是我们 CEO 选的。做语音的大部分人都在去做 B 端,最早的时候大家都在说我做一个像 Sierra 或者 Decagon 这样的做客服的。但是我们正好做的是客服的反面,我是帮用户去给客服吵架的。这个事至今为止就我们一个团队在做,其他类似的产品都是用人做的,有好多个存在 10 年的团队,都是一些中介公司,用人去做,但是用 AI 做的就我们一个。甚至还有好多人不相信我们是 AI 做的。他们说,用人做都做不靠谱,你的 AI 怎么可能做靠谱呢?
何时判断”可以做了”:紧跟基模主路径
余一:我觉得这点就很有意思。我前几天刚在跟 AI 客服吵架,吵得很恼火。都不是那种智能型的 AI 客服,是脚本感太重了,用了很蠢的 AI 客服。包括大家会有那个疑问也说得过去,我记得前段时间是有家公司爆出来,他们所谓的 AI 都是用人去回答。大家会觉得用 AI 去做这么现实导向的、甚至有很多强规划的事情,大家还是会觉得背后是不是有很多人的参与,或者本身就是人。你们当时选择这条路,一个说我不想去选可能很拥挤的赛道,我选了一个很特别的赛道,但是也会有一些当时的判断或者是阶段的跃迁。什么时候是那个阶段,你觉得这件事情可以做了?你们怎么想到这个方向的?
李博杰:其实我主要是看现在的基模型进展到什么阶段。同时我们也会跟模型公司的很多人去聊,知道模型未来半年、一年以后能够变成什么样,会往哪个方向上去走。那我自然就可以去做一个产品,就是会沿着这个模型发展的主路径去走。随着模型的发展,它的能力越来越强,同时我有一些自己的技术的护城河,能够不断在模型发展的垂直方向上再去发展。这样的话相当于模型在往上走,我在往右走,最后我们达到了一个合力,就是在右上角的一个位置,它是最长的一个板。我觉得这个是挺简单的一个逻辑。
七、Pine 的产品矩阵与目标用户
Copilot、接入 OpenClaw 与 Pine for Business
余一:这里会有两个问题。第一个问题是,我看到说你们那款产品应该是最近才正式对外去发布的?
李博杰:其实已经发布了一年了。我们 24 年 4 月份就应该是正式对外发布了。
余一:最近发的那个 Pine Assistant 是什么?
李博杰:我们最近有好多个新的产品,但是都是围绕 Pine 的。比如我们有一个叫 Pine Copilot,Copilot 的话是让你刚才我演示的那个,人跟 AI 可以持续地聊天,聊着聊着它就把你把事办了。之前的话我必须是敲字的,只能文字聊天,像 ChatGPT 一样。还有一个东西是说我能够把 Pine 接到 OpenClaw 里面。这个是过年的时候,OpenClaw 刚火的时候我就马上搞了一个,能够相当于把 Pine 的这个语音能力接到了我们第三方的各种 Agent 里面,让这些 Agent 相当于有了一个嘴巴,它就可以去聊天了。后面我们还有很多 B 端的一些业务。因为有好多的用户我们发现现在上来越来越多 Prosumer 的用户,就是他是专业的消费者。他过来了以后并不是让他去办账单的,同时是说让我帮你去往外打电话。比如有的是做用户调研 User Survey 的,有的是让他去做面试的,帮我去做技术面试的,还有一些是让做候选人的 Outreach 的,还有一些甚至是让我们帮帮去找投资人的都有,让帮帮给投资人打电话的都有。它是这种生产力场景的。这种用户后来我们就提取了一些共性,我们干脆做了一款新的叫 Pine for Business 的产品,前几个月也已经上线了。
为什么瞄准 Prosumer(专业消费者)
为什么要有一个这样的东西?因为我自己感觉很多的这种 Pro 的用户,实际上是生产力场景的用户,他其实是对于 AI 本身的不完美性是容忍度更高的。比如举个例子,普通用户如果你给我一个账单让我去降,他的期望可能是说账单一定要降下来。但实际上很有可能降不下来,因为对方的那个客服他不一定配合。一个人能办成,另外一个人这个事就不一定能办成,它有一定的随机性在里面,看那个客服当天的心情怎么样。所以有的时候用户就比较失望。但是 Pro 的话,他本来就是这些用户,比如我打出去 10 个 Outreach 的电话,其中有 5 个没人接,或者说有 5 个骂了一顿给你挂断了,这很正常。因为你本来就不能指望每个人都很配合你。专业用户他对于 AI 的不完美性会更容忍一些。另外一点的话,专业用户的付费和使用频次也会更多一些。因为他用这个是解决他自己——他可以是他自己脑子里边的这个换算公式是按照时薪来换算的。比如一个美国人一小时至少 10 美金,那我让 AI 帮我打了一个电话,我心里边就觉得我付 10 美金是值得的。这样的话给我们的 profit margin 就会大很多。
接受度与图灵测试:60% 已分辨不出
余一:我有个疑问。比如人我自己对于说给我对接的是 AI 客服,我会有一种天然的讨厌和很烦的心理。原来的时候你们的很多场景说去让 AI、让 Pine 去给客服打电话,刚才你提到的有一些账单、还有说一些协商、还有一些这种取消订阅,这都是你们之前有描述到的一些典型的场景。那个再去对接或者客服的反面,那些客服他们的态度是怎么样的?以及现在这个 Pine 的范围越来越广,给投资人打电话或者跟谁打电话,这些人的接受度或者是愿意配合的程度是怎么去提高的?还是说其实本身也还有差异性在里面?
李博杰:你问的那个问题非常好。其实比如给小餐馆打电话,它的接受度会比较差。因为比如小餐馆的环境本来就嘈杂,而且他们也很急,他们还在办别的事。所以你两句话说不清楚,他可能就给你挂了。甚至我当时我在美国的时候去给小餐馆打电话,有的时候我还没说清楚他就给我挂了,所以人都不一定能——他很急。但是如果说你给一个大公司的客服打电话,他们一般说很耐心,因为他本身背后是有个 SOP 的,有一个标准规范。你不能说是因为这个用户说的话说不清楚就给人挂了。所以他一般说即使听出来说你沟通的效率有点低,他也能忍受。所以他能够更多地忍受我们的一些不完美性。这个就是给大公司去交流的话,它就会更加容易去做一些。
当然还有一些看你的和对方的这个相对地位。比如我要去求职,和我作为面试官,这就是不一样的。如果我用 AI 去面候选人,你不面也得面,因为你要不然你就别来了。当然说我们也会用一些方法保证候选人的体验比较好,比如有可能拉一个真人上来,真人先给你寒暄两句,然后 AI 去问后面的技术问题。但是至少他不会说因为有个 AI 来面你,所以他就不来了。但是如果反过来,如果你是一个求别人办事的,那你这个时候如果人家听出来你是个 AI,那可能就不太好。
余一:所以其实并不是在于说我们现在把重点放在说这个人为怎么去骗过人的角度,而是说我选择合适的、你愿意接受、你跟你交流的是 AI 的场景去做的深耕,而不是说我怎么欺骗到人说这其实不是 AI,这其实是真人。
李博杰:其实大部分情况下它是能骗过人的。我们在 60% 的情况下都已经能够通过图灵测试了。基本上我们自己去测的话,比如让对方去判断两段录音,哪一个是人,哪一个是 AI,基本上我们能够做到 6 比 4。也就是说大概只有 20% 的情况下,这个真人是能够区分出来我们是 AI 在打还是人在打的。所以大部分情况下他其实是区分不出来的。
余一:这个跟你们最开始做的时候,这个数据的变化有多大?
李博杰:变化还是非常大的。最开始的时候基本上每通电话都能听出来是个 AI。即使是那些超级有耐心的客服都给你挂断了,因为实在沟通效率太低。比如举个例子,咱俩人在聊天,你这一直在“嗯、啊”,然后再说“嗯”,发出一点声音,我可能我就停了,我就说我不说了。还有一个很讨厌的是报数字,比如我这儿说我的银行卡号是 1234 5678,1234 你那儿顿了一下,然后 AI 开始说话了。因为 AI 它不管,它当时那个说话的时机是完全根据语音来的。音量一落,然后它马上开始说。你一打——就是你说了任何一个字,然后它就打断了就不说了,这个就感觉非常地机械。这个都是我们后来通过大量的工作去解决了。
八、Agent 的下一步:长程任务与持续学习
余一:这个我留在第三部分详细地聊一聊。我觉得语音交互是一件非常有意思的事情,包括到底怎么判断现在语音的一些技术到底进展到了一个什么样的状态,我觉得都有很多可以聊的。我们回到前面的那些任务。一个是我挺好奇说你现在对于 Agent 现在的进展,你也说了跟各大实验室的研究员都有很密切的关系,我们可能提前预判 Agent 下一步的方向是什么,提前去做一些准备,等模型往前。在现在而言的话,你对于 Agent 下一步的去走的方向的预判,以及正在为这件事情做的准备是什么?
Long-horizon task:无人接管的工作时长
李博杰:我觉得如果是从大部分的前沿实验室在做的事情的话,我觉得主要是两个事。第一个事的话是 long-horizon task,让 Agent 能够在人不需要接管的情况下持续完成的时间越来越长。比如之前是可能只能做一分钟,那就是单文件级的修改。后面是一个小时,一个小时那可能就是项目级的。再往后的话,比如现在我能够让它做到天级的,就是十几个小时这个量级。但是十几个小时它不是 AI 一直在转,它很多时候它是在等外部的系统。比如它在运行的一组测试用例,等这个测试用例跑了几个小时出来结果,然后再自己去迭代。但是这个就要求它对于必须具备 auto-research 的能力。再往后走的话,比如一些 verifiable rewards,也就是说如果比如我就是写一个编译器,这种比较简单的。因为编译器这种事它属于一个你编译出来有结果对就是对,不对就是不对,而且有大量的测试用例可以验证的对错。对于这种基本上它能够持续地干上几天甚至上星期都是可以的。AI 的能力它会越来越强,然后持续干得越来越长。
而且大家可以想,其实这个时候 AI 的能力其实是比人要强的,就是它的持续工作、无接管工作的情况下更强。因为咱们假定,首先 AI 在单位时间内完成的事情的量一般说是比人要更多的。假定它的环境都是有 CLI,不是点那个 computer use 的 GUI 的情况下,它其实比人是快 10 到 100 倍。所以它一天能干的事基本上相当于一个人差不多小半年能干的事了。
余一:人其实并不是长程工作的生物。番茄钟也好,还是什么时间块也好,大家会说 AI 只能长程工作一个小时吗?人如果很专注的情况下,长程专注工作一个小时已经挺难得的事情了。
李博杰:是啊,我还有另外一个 point,人在没有外部反馈的情况下,其实很难持续工作很多天的。什么叫没有外部反馈?就是没有领导、没有同事、没有真实客户的反馈,把自己关到屋子里,独立研究一个课题,或者独立打磨一个产品。你觉得你能坚持多久不放弃?你看创业的最牛逼的人坚持 10 年不放弃,或者说《红楼梦》披阅十载增删五次,这就是人的极限了。人最多就是在 10 年没有外部反馈你能干 10 年。但是像我可能没有外部反馈我就坚持不了 10 年,坚持一年可能我就要放弃了。大多数人可能一个礼拜没有领导给你安排下一步的任务,你就不知道该干啥了。我觉得大部分的人可能真的能持续工作的时间没那么长。这是我的第一个 point,就是这个模型再往前演进第一个很重要的点。
Continual learning:从环境中学习的三条路线
第二个点是模型它在自主学习,或者刚才说的 continual learning,持续学习的这个能力其实越来越强。现在有很多种方法来去做持续学习。比如现在如果保持我现有的模型不动的话,模型参数不动的话,最简单的方法就是我用 prompt。Prompt 本身可以反复地迭代、prompt 学习。前段时间 Jiayi Weng 也发了一篇说我不断地让 AI 自己去修改自己的 prompt。还有我可以让它放到知识库里面,把这些经验存到知识库里,这也是一种很多学习方法。包括 user memory、knowledge base 基本上都属于这类技术。当然现在还有一些是说我能够让 AI 自动地从环境里面把这个环境里面的信息 distill 到参数里面,去做参数化的学习。这个就是包括现在各种各样的 on-policy distillation 这些新的技术都是这么做的。在我们实际来说的话,基本上这三种技术都会用。不管是在 context 内的,还是说像 prompt,或者说像在 knowledge base 这种的,还是说我是直接在模型参数上面去做后训练的,都会去做,而且不同的方法也适用于不同的。当然说一些 frontier lab 他们也会去在去探索一些更先进的一些方法。能不能说在一个通用的一个方式能够学到这个在没有任何 reward、没有一个仿真环境的情况下,能够还能让它学到这个参数里面,这个事当然说就是更难的一件事情了。
自研小模型 vs 调用闭源大模型
余一:我刚好看到一篇论文,就说一种方式,其实你用 8B 的小模型,你把某些流程直接训成这个模型的参数,它的准确率和稳定性可能比你用 scale 也好、或者直接去控制大模型反而更便宜和更稳定。对于你而言的话,刚才谈到了三条路线,但是从你去打磨产品或者在这个阶段而言,哪一个其实是用的更多、更有效的?
李博杰:其实它是取决于我们用在不同的模块。比如有一些模块它是需要智能上限的,在智能上限的地方那你肯定要用闭源的模型。但是闭源的模型你是动不了它的参数了,所以你就只能是在去采用这样的一个外部的方式,通过去调优它的 prompt,或者去调优它的这样的一些外部的 harness 的代码,或者说去调它的知识库里面存的这些信息、存的这些知识。这是对于前沿模型的做法。但是如果说我有我自己的模型,比如有些场景可能前沿模型反而不行了。比如在语音的时候,如果我说话你要在几百毫秒内反馈,那我调一个 GPT-4o 也好、或者说调一个现在 GPT-5.2 也好,基本上它的延迟都会在三五百毫秒以上,它就会非常慢的。所以它的延迟实际上是不够的。这个时候就得我们自己的模型。我们自己的模型,那肯定我们就要针对这个场景去做后训练。
余一:就是针对它不同的需求,对吧?比如有些场景下我们需要更低的延迟,有些场景下需要更高的智能,那它的做法就会不太一样。
九、评估体系(Evaluation):AI 应用最难的地方
余一:我还挺好奇的地方,就是另外一个关于模型,我观察到的,无论是我们自己的跃迁者还是最近的时候看到的很多看法,就是搭建自己的评估体系和测试体系,大家会觉得这个反而是在应用里面最难、最痛苦的地方。
然后我一直想问说,你们自己是怎么去看待这个问题,怎么去搭的?然后里面其实有哪些如果是还没有开始搭的人会忽略的一些坑点?第二个呢,其实我也很好奇,因为你们其实是真正完全面向真实的场景,真实的人,乱七八糟的边缘的情况都有。有哪些任务其实看起来很简单,但实际上你是觉得是非常能测出 Agent 能力,或者是说这个 Agent 背后无论是模型的能力还是它的工程的能力的事情呢?
Manus 的启示:评估系统支撑快速迭代
李博杰:我首先回答您的第一个问题。其实我觉得这个事是非常深的一件事情,就是 evaluation 非常重要。然后我自己觉得 Manus 技术上非常强的一点就是在它的 evaluation。比如说去年 3 月份的时候 Manus 刚发布的时候,大家可能都说它最厉害的是这个产品能力,运营能力之类的。但其实它的技术能力是非常强的。
其中专门在 evaluation 这个地方的话,其实他们是每一天能够去迭代好几版,甚至超过十版的 prompt。当时我们是做不到这一点的。就是说为什么它能够不停地去改这个 prompt,而且那肯定向着更好的方向去改,肯定不可能越改越乱。那就是因为它有一套非常完善的 evaluation 系统。
这套 evaluation 系统呢,又是从之前 Monica 时代继承过来的。也就是它在之前做 Monica 的时候就继承了很多很牛的 evaluation 的东西。然后到了 Manus 的时候,我就把这个 prompt 的修改,然后我要修复线上的 bad case,然后我就直接用这些 evaluation 的例子去回测,然后就能上线,非常快。
语音评估的特殊难点:实时与模拟用户
然后我们也是基本上到去年年底,才建立了整个比较完善的 evaluation 系统。因为我们语音的这个 evaluation 的话,相比文本来说要更难一点。因为语音它是一个实时的概念。也就是说你要去 evaluate 一个实时说话的人,你得先有一个能实时说话的人。是不是这个逻辑?
余一:对。
李博杰:就是说你得有点像说你要去 evaluate 一个文本系统好不好,现在我们都比较流行用大模型作为 judge。那么你必须得有个 LLM 来模拟用户。我们也是,其实做对模拟用户还挺难的。比如现在有一个挺火的 benchmark 叫 Tau-Voice,它那个模拟用户其实就是一个很笨的用户,不仅反应慢,还经常出幻觉。
但是真正我们内部的这样一个 benchmark 的话,其实它是一个跟我们一样聪明的 Agent,然后它按照这个脚本来去跟它聊,然后来看有什么情况。然后另外当然还有一部分的 evaluation 是那种静态的。就是说比如前面我告诉你说了 100 句话,然后现在到这一句了,现在问你第 101 句话该说什么。这个就是跟模型训练的时候大家看到这些东西是比较类似的。
所以实际上我觉得如果你把 evaluation 做好了,那么自然来说去训这个模型就是很自然的一件事情。当然很多情况下我可以选择不训,因为外面的模型已经足够好了,我没有必要再花时间在训这个玩意。但是如果当外面的模型在很多情况下不够好的时候,我就可以去训。
新模型未必更好:评估决定要不要自研
比如举个例子,就是像我们这个语音的场景,刚才也说了,因为它跟智能上限来说的话,它可以理解成在某些程度上它是两个 orthogonal 的东西。所以说一些模型其实在我们这个领域的表现,反而是一代一代越来越差。简单举个例子,就是 Gemini 3 的表现可能比 Gemini 2.5 在某些场景下可能反而还差。
余一:为什么?
李博杰:原因就是说他们虽然也具备这种跟人对话或者多模态理解的能力,能力没丢,但是有可能它在最后去训练这个模型的时候,它的最主要的训练目标肯定是它的 coding 和 reasoning 的能力。但是它在语音这个方面训练目标在它里面就非常弱。
所以说有可能导致的是新版本的模型在这个 task 方面比旧的反而还会更差。所以说这就是为什么在有些时候 SOTA 模型搞不定了,我们反而要搞自己的。就像您刚才说的一个 8B 模型,经过一个简单的 post-training,有可能达到的效果会比我去用一个 SOTA 的模型再加上一堆 prompt,就是 skills 会更好。
那这个可能的原因就是因为这个模型在这个领域它一些 skills 还没学过,那它这个做的当然就不会特别好。
余一:这一点挺有意思的。它的很多场景跟你们很类似,你们最开始那个场景什么车险、保险之类的,他们也是属于在这些领域里面有大量的问答集,还有一些轨迹拿去训,然后那个效果,它给出来的数据我就觉得 maybe 我可以试一试,终于可以上手,因为 50 美金,你玩一个小小模型或者研究类的小模型都可以是可能的。所以对你而言的话,你会建议比如一家公司到了什么时候,你觉得它是一定要去搭自己的评估系统,以及怎么来开始搭它的评估系统?以及什么情况之下你会建议它训一个模型试一试,maybe 是一个很好的选择?
评估是一种科研方法论,不是可有可无
李博杰:我自己感觉这个 evaluation system 它不是一个可有可无的东西,它是必须的东西。因为 evaluation 系统的搭建本身,我觉得不只是 evaluation 这件事这么简单,它更多的是一种方法论,是一种内化在脑子里面的思想。这个其实我觉得是最重要的。
它实际上是一种科研的思想。因为如果好多人他是这种传统的做工程的思想,他觉得我工程的东西只要把它东西搭起来,能 work 了,然后测试简单的几个测试用例过了,那这个事就结束。但是这个是针对这种传统的工程系统的。但是不是针对 AI 系统的。
因为 AI 系统任何的东西都是概率性的,它是不可能完美的。而且它的这个技术也发展非常快,它不停地会涉及到选型的问题,就是涉及到选哪个模型作为基模这种问题。所以说在这个时候,它一定是需要根据外界的反馈,然后能够去量化地去测试当前的这个系统它的能力怎么样,并且去不断地有一个飞轮能够改进。
它是一个方法论。就是说如果说不具备这个方法论的话,就很有可能是说我把这个东西大概搭了能用了,随便测几个 hello,然后感觉它也能说话,然后就觉得差不多了。然后那等到后面如果有 special case,你还敢不敢改?尤其是里面的那个规则,如果说几百条,大家如果去看像 Claude Code 或者什么的,它的 prompt 都特别的长。
那这个时候你敢不敢改得动?实际上没有 evaluation 系统的支持,它基本上就是搞不动了。这是我觉得第一点。然后第二个问题就是您说的要不要训练小模型。我觉得这一点的话主要是取决于说它所做的这个事情是不是在基模重点训练的 task 上。
比如如果是做 coding 的话,我觉得大概率是没有必要自己训练小模型的。因为基模现在的训练重点就是 coding。
余一:已经很好了。
李博杰:但是如果说它的这个做的这个事情,比如是要给你实时交互,然后或者说比如是要陪聊,或者说像您说的那种法律之类的专业领域,可能基模有些数据它根本就不全。
那这个时候它可能自己训练一个会效果更好。现在比较好的一点是现在 AI auto-research 的能力都很强。所以说你比如一个 8B 的模型,我花不了多少钱,弄一块 GPU 我就能实验了。因为我搞一些数据,搞过来,然后先大概试一下,然后让 Claude Code 帮你去作实验,迭代几轮,都是效果效率很高的。
余一:你们去搭那个评估系统,刚才谈到说其实有个 Agent 模拟人去聊天,那个 Agent 背后那个模型是什么?
李博杰:也是我们自己的。就是说相当于就是我们自己的两个 Agent,相当于就是在反复聊。
余一:关于前面的那个评估,我觉得最近觉得这件事情非常重要。因为我自己也在搭自己的小的评估模型,就是研究的评估模型。然后属于到底什么是好,什么是不好。就是品味吧,到底怎么把品味交给 AI,我觉得它到有的时候除了评估而言,除了很明确的是与否、对与错,还有一些就是 70 分和 75 分、80 分和 85 分。
以及面对不同的人,那个好与优秀与良好之间很微妙的那些差距。我觉得都是之前的评估的那些系统不会有的。就像你说的,之前的评估就是是就是是,否就是否,下一步就是下一步,它没有那么多混沌跟模糊的阶段。我就很好奇说,对于去做好一个评估系统的话,是到底选数据非常重要,还是说它是一个融合在一起,还是我应该有一个专门的团队、专门的人去搭这个事?他们需要怎样的人才有可能比较好地帮这家公司或者这个系统搭一个好的评估体系出来?
Rubrics:把人的标准提炼成评分细则
李博杰:我觉得这最关键的可能得有一个 rubrics,就是一定不能让模型自己自由发挥。比如举个例子,就是假如说你给模型一篇高考作文,问它写得好不好,那它的评估结果肯定是一个很随机的。但是,如果你把高考作文的评估标准告诉它,说从哪几个方面评估,每一个方面 1 分、0 分、2 分分别代表什么样子,再给它一篇范文,它大概就知道该怎么去弄,就会好很多。其实我们这个评估也是一个道理,不管是做语音评估还是做 general 的这些 Agent 评估,一定要把人的这些标准提炼成一些 skill,在 evaluation 里面就叫做一些 rubrics,然后让它按照这个来打分,这会比较好一点。
懂业务比懂技术更适合搭评估
余一:所以懂业务、懂业务的专家在搭建评估体系时,可能比懂 AI、懂技术的人更适合做这件事。
李博杰:对,我自己特别推崇一个观点,就是在 AI 这个领域,最好是一个人既懂技术,又懂业务或产品,这样是做得最好的。如果是一个单纯只懂产品的人,他可能会不知道模型能干啥,所以他会设计一些功能,模型干起来会很别扭,这个产品肯定也不好用。如果是一个只懂模型但不懂业务的人,他可能会把一些学术界的 benchmark 直接搬过来,但这实际上并不解决问题。举个简单的例子,比如 coding,如果你只把学术界的这几个 benchmark 搬过来,它只会给你一个问题,都是定义特别清晰的问题让你干嘛。但它跟用户在实际场景中用的根本不一样,因为用户实际场景中很多时候是很模糊的需求,比如“帮我开发个网站”,那这个时候它该怎么办呢?最好的方法是它会问你几个问题,说你应该这么开发还是那么开发,先跟用户讨论清楚了再开始干。还有一些情况是,这个问题可能根本就没有开放性的答案,或者它是无解的,那我这个 AI 是在那儿吭哧吭哧干半天,最后告诉你一个幻觉呢,还是说我应该诚实地说我就干不了?这就是像 Claude Opus 4.8 它也重点去优化这个诚实性的地方。这些东西其实都是学术界的 benchmark 里面没有的东西。
回滚与技术债:靠客观指标决定取舍
余一:还有一个问题,也是偏向于我自己在用或者是观察到的。有时候你的优化并不是往好的地方去做优化的,你可能优化优化发现这个东西经常会回到第一版。这种回滚以及刚才也提到的模型本身的进展也是比较快的,有很多你之前做了工程化的手段,快速地就变成了技术债务。你们是怎么做好这种“我探索但我有回滚的机制”,以及假设 AI 一定快速地往前走,哪些东西会变成技术债务,我怎么去处理?这一块你们怎么做的?
李博杰:像这一块我觉得最关键还是要靠 evaluation。就是说一定得有客观的指标,你才能说这个东西是不需要的,可以去掉。比如举个例子,假设我之前有一个说模型有时候不调用工具,然后我要加一个东西,模型如果没调工具,它又没到一个什么特定的结束条件,我就强制再给它塞进去,让它再重新再执行一遍,看它能不能强制调工具。那比如像这种事,我在什么时候就可以说把这个东西拆掉了呢?那我肯定得有专门针对模型工具调用的准确率,以及它的那个模型工具调用的 format 错误的情况,得有一个 benchmark。这种时候我才能说确切地,比如 99.9% 可能都能够正确地按照正确的格式调用工具,那我就不用再在这个 harness 里面加这个对应的东西了。不同的模型能力是不一样的,比如 Gemini 3 它的工具调用的能力相对来说就是格式错误的概率就比较高,但是像 GPT 和 Claude 格式错误率就低一点。
哪些”简单”任务最能测出 Agent 能力
余一:刚才前面也聊了很多关于评估的内容。我很好奇,在你们去做 Agent 的时候和语音交互的时候,有哪些问题其实外界可能会觉得很简单,但其实这件事是非常能够测 Agent 或者是交互这一块本身的智能度或者是交互能力的?
李博杰:其实这种问题非常多。我随便举个例子,比如就问一个 1024 乘以 1536 等于多少。我就问这一个问题,基本上就能测出来这个 Agent 到底里面实现的效果怎么样。因为首先第一,这个东西如果说是用大部分的模型,它没办法在一个 token 内得到正确的答案。所以如果是一个不带 Thinking、不带 CoT 的模型,它肯定是很难很快地回答正确答案的。但是如果它后面接了 Thinking,但是又没有其他的机制能够去降低延迟的话,那就意味着它肯定是要等候一秒,然后才能给你告诉这个答案。那做得比较好的 Agent,可能它会先让你说“让我想一想”,或者说“让我开始计算”,然后再往后算,算出结果以后再告诉你。所有这种类似需要 Thinking 或者需要工具调用的,比如或者说我问你一下“英伟达的股价这两天是涨了还是跌了”,它一样看它的反应。如果它等了好久,那它这个流畅性或者交互性这块就会扣分。但是如果它没等好久,没调工具就直接瞎说,或者直接说我不知道,这个就更不行。所以这种很容易测出来的。
十、”办成事”:真实世界的复杂性
真实案例与收费模式
余一:我很好奇,像现在 Pine AI 可以非常自豪地说我其实是一个帮大家办成事的 Agent。我会好奇的地方是,你们怎么定义“办成事”?以及什么样的情况你觉得说,我们好像是可以对外去声称是达到了多大的准确率,还是说有某些场景你们跑出来就是我们可以帮用户办成这个事?
李博杰:那其实办成事的会非常多。随便举一些例子,比如我记得一个挺有意思的,当时有一个人给我们上传了一个 9000 多美金的一个账单,他是做手术。做手术的时候说当时是有费用多收了,但是他实际上就是说我不想付那么多钱。我们就给他去分析这个账单,账单里面用的都是医院内部的一些代码。所以我们又去打电话给医院,去让他们必须提供州政府当时公认的那些代码,再去比对政府公认的一些定价的一些名录。最后发现它其中有一些项它就是收多了,比如麻醉费收了两遍。我们就拿着这个又去跟它扯皮,中间又要交换一些文书之类的,还要涉及到签字什么的。大概扯了一个多星期,最后医院同意说把这个账单减免成 4000 多美金。这一下就帮用户省了 5000 多美金,把这些乱收的钱就给减下来了。
余一:这一块,这个 case 你们的收款是完全按照订阅走的,还是说我既然是办成事了,我就应该从办成事里面的那个收益里面做抽成的方式?
李博杰:当时我们那个是按照订阅走的,因为那个用户是个长期的年费订阅用户,所以说就没有给他做额外收费。但是如果说他不是订阅的方式,就要收 20% 的按抽成的费用。还有一些比较有意思的情况,比如像有一个用户当时是在一个酒店住,酒店里他跟他老人一起在住,住完了之后老人就犯了哮喘。他就怀疑是酒店不干净,因为当时他拍了照片,就说这个酒店里面那个空调里它是有很多脏东西,不干净。他就投诉那个酒店让它退钱或者是赔偿,酒店一直不答理。然后让 Pine AI 干,Pine AI 一开始也是各种方法去联系这酒店,酒店也一样都不回复,不理睬。然后我们就收集了好多的证据,这是 AI 自己决定的,不是人决定的。就是 AI 自己的去跟这个用户讨论对策,然后说决定说我要去向政府去举报这个酒店。收集把那些照片证据都收集上来,起草了一堆法律文书,然后直接弄到当地的那个政府的管卫生的那个部门了,Health Department。然后卫生部门直接去酒店去检查,确实发现有这个问题,就把酒店给查封了。后来我们去做 user survey,去调研那个用户,包括甚至去问那个酒店是不是真的关门了,说酒店真的关门了。就是因为这个事,不仅给用户拿到了赔偿,同时还是把酒店都给查封了。这种也就是帮用户去伸张一些权利。
余一:我觉得这挺有意思。我之前问过肖宏,我说你那个“Wow”的时刻,觉得我是真的做一个 Agent 出来的那个时刻是什么?有手有脚的那个时刻是什么?对他来说好像是它要干什么,然后想尽了一切办法,明面上都不行,最后是它主动地去找到了邮箱,要给工作人员去要优惠还是什么之类的东西。他觉得哇,这是属于说会在你明面上的办法以外找到了新的办法做成事情,是他的 Wow 时刻。所以对你而言,Wow 的时刻是 Agent 为了拿赔偿直接跟人一起把这个要赔偿的地方投诉到倒闭,是你的 Wow 时刻吗?
李博杰:对,我自己感觉这些其实我觉得跟肖宏说的那种是很像的,都是这种人都没有想到该怎么办。因为如果是我,我可能联系不上这酒店我也就吃哑巴亏了,我还能咋办。但是 AI 想到了别的办法,它能投诉。甚至还有一个 case 是用户投诉 Airbnb 住的民宿,最后投诉到 Airbnb 的 CEO 去了。然后是他们的一个高管去回复的 Pine 的邮件,最后把这个用户的赔偿要到了。
人机协同:何时替用户决策,何时征求许可
余一:这里面会涉及到挺多挺有意思的地方。一个是前面你也提到了,我刚才听到一个词,就是这个过程其实是跟人类一起商量着走的。前面你也提到了说,打电话去可能提交一些表,遇到一些边缘的情况,其实一定要跟人去获得许可再往下走的。所以它并不是一个大家想象当中的 Agent 完全独立自主,它的整个设计还是一个人机协同的状态。所以我就挺好奇,在你们的设定里面,你们给 Agent 的标准是什么时候可以替用户做决定,发挥它的智能,什么时候需要去跟用户商量?这个东西是智能程度都交给 AI 了,还是说我们背后也是有一套相关的机制让这些事情……因为我觉得完全交给 Agent 其实离办成事,至少目前为止还挺难的。你们这一块是做了一些什么样的事情或者标准?
李博杰:其实这个事就是完全交给 AI 了。但是不是说让 AI 全自主地去决策,而是说当它不放心的时候,把这个事 offload 给用户,问用户这个事该怎么办,然后你从这几个可选选项里面去选择。就像你在 Claude Code 里面写代码,有的时候它会问你说,你是要这么改还是那么改,是要做更大的改动还是更小的改动,其实是一个道理。实际上首先 AI 对一个事情的风险,以及对方提出的这个方案是不是 100% 达到了用户原始的诉求,是不是一定对他有利没有坏处,它是要有判断的。那这件事判断相对来说是容易的,AI 也是可以做得比较不错的。但是说在有一些可选选项,不一定是一个选项比另一个选项更好的时候,这个时候就需要去征求用户的建议。这里面其实还有一些更复杂的东西,涉及到用户的一些偏好。比如说有些用户对于一些很简单的这种情况,你不要反复问我,我不差钱,比如差个 50 美金你自己想办法,你觉得哪个好就哪个干了。还有用户是锱铢必较的,他说差一块钱都不行,我说了必须要降到 1000,那你给我降到了 1001 也不行。那么当用户表达了自己的偏好之后,我们会把他的偏好记到系统里面。这样的话,AI 在去判断这件事是不是该去询问用户本身时,也要去参考用户的偏好。
Harness:从案例中提炼规则,约束 Agent 行为
余一:有一个问题,我们在用 coding agents 的时候,经常都会有一个问题是它会动不动地把你的一些东西,不经你允许就给删掉了或者是乱改了。如果是面对真实世界,你们又很多时候是跟钱或者是很重要的事情有关,这一块我觉得如果失败的话,用户的那种状态可能会受冲击是更大的。这个来自真实世界的复杂性和很多完全没有想到的边缘情况,怎么去应对?有没有让你觉得很头疼的案例,有没有让你们觉得“哇,这个错怎么能犯”的这种 case?
李博杰:这个主要就是靠 harness 方面。
余一:有没有让你觉得很头疼的案例?
李博杰:哎呀,很多。我讲一个很早期,就是我们在内测阶段的时候,一年多以前我们内测的时候有一个 case。当时是这样的,用户让我们去帮他把信用卡的年费减免一下。然后我们就跑去跟客服吵架了。客服很生气,客服就说:“这个就不能免年费。你要是想免年费只有一条路,就是你把这个信用卡给取消掉。”我们的 Agent 就说:“取消就取消。”然后他们又吵了一段时间,最后就真把这个信用卡给取消了。用户很生气,用户说:“你没有经过我的同意怎么就把信用卡给取消了呢?”因为那信用卡本来也是需要一些条件才能办的,是一个比较高档的信用卡。后来我们为了避免类似事情的发生,在 harness 层面做了很多东西,给它加了一些规则。这些规则很多是用模型去判断的,它会判断说在这些东西上面是不能违反的。而且这些规则大部分不是人写的,它是由过去的案例里面提取出来的一些东西,比如涉及到财务的,涉及到一定要去取消服务之类的。还有刚才说谈判的问题,实际上我是拿威胁取消作为一个谈判手段,那么这种事情实际上是比较危险的。在大多数情况下,我不能拿威胁取消作为谈判手段。像这些东西都是我们后来一点点去做的,这就是 Agent harness 这一点。其实在去年早期的时候,harness 这个概念还没有,当时我们也不叫 harness,我们就说在模型外围加一些小模型,再加一些规则之类的。有些人听起来就很像一个 hack。有些人就说,随着模型能力的提升,你这些东西肯定都会被丢掉,所以没用。确实有这样的反馈。但是我们就觉得,现在的模型就这样,我也干不了别的,没有办法保证它 100% 遵守我的这些规则。那怎么办呢?今天我们也知道了,现在像最厉害的 Claude Code 里面,一多半代码都是 harness,都是这些模型的约束,还有行为规范之类的。其他的商用 Agent 里面,很多也都是类似的,它会有大量的 harness。现在 harness engineering 也成了一个词了。其实我们这些做这个领域的人,基本上都会一点点去探索,让 Agent 要能正确地工作,它不仅仅是模型加上几个工具这么简单,还有怎么去约束它的行为,让它不去作危险的事,让它尽量少去犯错之类的。
十一、语音交互:理解、生成与交互
为什么少有人认真做语音
余一:我之前看过你一个分享谈到,你现在的语音交互后面反而用了一个把快思考和慢思考分别给了不同模型。这个我们可以放到后面再聊。在语音这一部分,因为时间有点紧张,我得赶紧把语音的地方也问了。现在的话,刚才也提到 Pine 以及现在的语音交互这一块的优化、进展、研发。我想问一下,你对于现在的整个……因为我自己对于语音模型的进展是非常不满意的。因为图片也好,视频也好,都会看到不停地有进展在发生。可能也就是最近 Thinking Machines Lab 有出一个所谓实时交互的语音模型(interaction model)。之前也有一个叫做 Kyutai 之类的,说实时地去识别你语音里面的情绪和未谈之意。但是那家好像很久也没有出新的产品了。Thinking Machines Lab 的那个好像也只是属于偏原型的方式给大家去做展示。这里面为什么呢?以及难点到底是在什么地方?还是说像前面说的,大家判断这一块价值不太大?但我觉得语音,包括最近你看有很多大家习惯于用 Ray-Ban Meta 都是用语音来表示,以及语音里面所蕴含的非常多非常个性化的东西。这里面我有一些奢望和挺多不解的地方。
李博杰:我觉得你说的这个观察其实也是我有时感到很 confused 的地方。为什么这个行业里面大部分的人不干这个事?这是我比如有的时候去跟 Sierra 或者 Decagon 他们的人聊,发现他们用的语音架构也是很原始的。他们还是在用传统的 VAD + ASR + LLM + TTS 的几段式方法。一些新的方法甚至也不去试,而且他们融了那么多钱,他们也不训自己的模型。所以有的时候让我感觉挺 confused 的。但是从大的角度上来讲,我自己感觉现在大部分做语音的人,是把语音的应用场景局限在那几个场景:第一,他可能是觉得能够接电话、打电话;第二是能够跟人去做闲聊、情感陪伴类的;第三就是 podcast,做这种视频配音。基本上这三个一想,这个领域就不大。
语音是人机交互最自然的模态
但我个人其实更看好的是把语音作为一个机交互的接口。我之所以从 24 年开始就一直在搞语音相关的东西,原因也是我自己感觉语音实际上是人机交互的一个非常自然的接口。但它不是唯一的接口。如果我不允许用 GUI,不允许看图形,只说语音,这个可能也不太合适。我觉得正常的人机交互应该是一个多模态的形式。可以理解成 AI 给人去传递东西,简单的 confirmation 最好是通过语音,说一句话就说清楚了。但是更复杂的信息可以通过 GUI 的方式,现在有一种叫做生成式 UI,就是 Generative UI,人的视觉接收信息的速度比听觉快很多。
但是人给 AI 去输入东西,其实语音是比文字在大多数场景下都要好很多的做法。相比打字,说话是要快三到五倍的,我自己是做过这个实验。所以说呢,就意味着如果你是通过纯打字的话,它实际上会丢掉很多你本来想说,但是没有时间去写的一些内容。但是如果通过语音去讲的话,它可能会讲得更舒服一些,而且对人的认知的负荷其实也会更低。因为你去打字的话,其实你的手还要动,它要多调用一个器官。所以说从这个角度来讲的话,人去通过像 Typeless 这些软件,我直接去给它语音输入进去,实际上我觉得未来是一个很大的进步。我们自己也会在这个领域去进一步去探索一些新的人机交互的方法。
语音交互可能改变人在格子间的工作形态
我希望通过我们这些探索转变的一个观点是,语音通常被认为是一种次要模态,就是只有当人们没办法坐在电脑前,比如健身、做饭或者开车的时候,才不得不去用它。但是大家可以想象一下,如果语音交互变得非常自然,它其实是可以变成一种主要模态的。而这种转变,又会从根本上重塑我们现在的工作形态。
我经常去不同的公司交流,然后我就发现大部分的公司,包括我之前待过的那些大厂,基本上都是开放办公区,每个人就坐在一个小格子间里面。在这种环境下,你用语音去交流是非常不方便的,因为你一说话就会吵到旁边的人,所以大家就都习惯了打字。由于长期打字和久坐,很多人就得了腰椎、颈椎方面的病,甚至到最后不得不去用站立办公桌。我自己觉得人本来就不应该生存在办公室的格子间里面。只是因为目前的电脑交互依赖键盘这种很低效的输入方式,才把人逼到了格子间里面,用一种其实并不健康的姿势在工作。
其实人本来是可以坐在海边、坐在草地上、或者在露营地,只要有网络,通过语音就能很好地去工作的;或者你在家里有一个安静的、独立的办公室也可以。我们刚才也提到了,未来人跟人的直接沟通可能会越来越少,而人跟 Agent 的沟通会越来越多。在这种趋势下,远程办公、或者说在一个更舒适的环境里去独立办公,其实就会变得更加现实。
所以我觉得,人机交互的进化并不仅仅是人和机器之间的一个技术问题。如果这件事真的成了,它是会彻底地重塑人类未来的工作形态的。
从电影里的想象到现实:我们这代人的责任
所以我觉得这件事是一个 potentially 比刚才说的那三种语音应用场景更大的一个事情。我觉得很多电影里对于人机交互的一个未来的设想。比如大家可以想象一下大家看过的关于 AI 的电影,你是见到这个人物是在这打字呢,还是在这用说语音呢?我敢相信大家不管是《Her》里面的 Samantha,还是《Jarvis》,你很少看到打字,打字一般都是在输密码,一般说很少是你再跟它用打字来传递命令。
还有包括我不知道大家有没有看过 Apple 在 1987 年的时候,当时的 CEO 叫 John Sculley,当时已经有一个 demo 叫做 Knowledge Navigator,就是知识导航员。那个一个超级老的一个视频,大家可以自己去看那个 Knowledge Navigator 五分钟的一个视频。它实际上就是人基本上不用打字,通过语音加上生成式的 UI 来跟 AI 去交互的。所以我觉得,只是说所有的不管是电影导演还是 Apple 的那些非常牛逼的产品经理都已经想到了这一点,只是因为当时的技术所限实现不出来。
我觉得我们这代人的责任就是把这个事实现出来。所以说我觉得这就是为什么我会去坚持做这件事。包括我当时 24 年的时候就在讲说要做这个《Her》,我看 Sam Altman 当时也是 24 年 5 月份,当时那个 GPT-4o 的目标就是要做出个《Her》。但是到现在看起来他由于被迫去搞智能上限,又去做 coding 去了,所以他那个《Her》那个事可能又无限期搁置了。我个人是这么感觉的。所以我感觉还是回到刚才说的,我不希望所有人都去做这个同质化的竞争,还是希望有一些人有自己的一个坚持,然后能够真的是把这个人机交互这件事把它做好。这就是我自己的个人的一个 belief。
三个象限:理解、生成、交互的现状
余一:你这里面其实我也很好奇,第一个是中午我们也讨论了理解、生成和交互其实是三个课题。我想了解就是说这三个方向现在在语音这一块的主流的路线和能达成的效果现在是一个什么样的阶段?哪一块是走得比较靠前的,哪一块是其实正在遇到了很大的卡点,是一个什么样的情况呢?
李博杰:我觉得您这个问题非常好。首先所有做语音的里面应该大部分是去做生成,就是 TTS。因为做 TTS 就跟做配音,然后 ElevenLabs 主要靠 TTS 一年几亿美金的 ARR。但是理解呢,相对来说现在做得最好的那肯定是 Gemini。Gemini 它多模态模型,它一开始训练的时候就是用多模态去做预训练的。所以说它的理解能力是最强的。比如我一般说我们内部的 evaluation 都是用 Gemini 去做离线的理解。就是你扔进去一个小时的音频,让它分析一下根据我的 rubric 分析它有没有这些互相打断的问题,有没有什么说的反反复复说同一件事捣不清楚的问题,基本上 Gemini 能给你弄得挺好的。所以这个当然我们自己也是没能力做这样的模型的。
理解、生成、交互三个能力里面如果一定让我选一个,我觉得那肯定是理解能力最重要。比如人家说了一个专业领域的专业名词,你能不能听懂?大多数语音识别模型不了解这个领域,肯定会听错。
还有一个交互,交互更多的是考验延迟的问题。也就是说我为什么不能直接拿那个 Gemini 模型用到我们线上去直接用不就行了,它的理解能力那么强。它的主要原因就是说因为你理解一个小时的音频它可能花了一分钟,但是你不能说线上等到用户说完一分钟以后你再开始说话。
所以说它必须要有足够低的延迟。足够低的延迟就意味着你必须把前面理解的这些东西做成一个比较压缩的一个表示,然后它能够去快速地去响应。交互的前提也是必须要理解,但是它对于实时交互的理解和对于智能上限的这种理解还是不完全一样的。
我觉得就是理解、生成和交互可以理解成三个象限都要做。但是现在生成的其实是现在最成熟的象限,所以说我们在生成方面基本没做什么。我们的重点就是在理解和交互这两个象限上在做。
速度与智能的取舍
余一:我有几个问题,一个是属于说像 OpenAI 现在的,我的感觉就是属于它的交互的速度确实上来了,不需要你等很久,但你明显感觉到背后是一个很浅的模型。所以这个速度和智能是一定要做一个选择的吗?第二个是属于你会看到人在说话的时候,其实也有提到说它不是一个像 AI 吐字一样完整的,它有的时候是边说边想,然后甚至说完了又往前去纠正我前面说的对不对。这里面都存在着很大的问题,就是技术上的难度都是说跟模型可能本身原来训练的方式,你刚才说实验室的那个理想化的方式是不一样的。你们的方案是用快思考加慢思考吗?还是说现在的状况又比较不一样了?
李博杰:我觉得您这个问题问得非常深的一个问题。我们先从这个问题的第一性原理来去思考这个问题。就是说咱们现在想这个 coding agent 跟人写代码是不是一个回事?我感觉它不是一个回事的。就是你比如 coding agent,它是先想了好几分钟,然后再给你哐啦哐啦哐啦给你输出几百行的代码。但是你想哪个人写代码是这么写的呢?除非是这个代码是我早就背过的,比如冒泡排序,我可能直接写下来。否则人写代码肯定都是先写一个 sketch,先写一个大纲,然后再里边一点一点往里填。
所以说人它实际上并不是一个说是在脑子里边空想很久,然后再突然出一个结果的做法。而是说它是不断地跟环境在交互的。那环境是什么?环境是 IDE,就是你看到了这个屏幕。所以说人它实际上不断地去跟环境交互,人的 attention 是非常有限的。就是人为什么需要 GUI,就是图形界面?因为人的 attention 基本上就只能看到你眼前的这几千个 token,就是这几千个 token 的这张界面上的字。但是 AI 能一次看一百万个 token,那是 AI 的特长。但是人呢,对于人来说它是它的一个局限。
但是人的这个局限,它实际上并不是一个劣势,它实际上它有可能它是强制的说你必须是通过跟环境不断地去交互,一个快节奏地去交互,然后能够获取反馈,进一步去 refine 的行为。所以说人是一个什么呢?是一个 continuous learning 能力极强的一个东西。就是说人之前没学过开车,我几十个小时就学会开车。但是你同样的那么多的用例,你把它放到 RL 里面它是不可能 work 的。因为你在 RL 里面首先第一它就需要有一个能够 batch rollout,就是你必须有一个稳定的环境,然后能够反反复复去做 rollout,然后还要有个 reward 在那等着,告诉你说是对还是不对。
那你想学开车的时候,是不是说人需要说一定要给它开到沟里面,然后这个 reward 等于零,好,然后你能回过来才能够改进你的行为?人不是这样的。因为人是在不断地去 evaluate 下一步这个世界会发生什么变化。然后这就是所谓世界模型的这样一个思想。然后再根据这个变化跟你的预期的判断,这个叫做奖励预测误差。意思就是说你预测未来是这样 A 这样,然后结果实际发现奖励是 B 这样,你发现它俩不一样,然后你从中就学到了东西。
所以说它这是一个就是人这样一个快速交互的一个做法。但是现在的模型是怎么样的?比如在现在我们所有的这个模型都是像 DeepSeek-R1 这种训练范式。DeepSeek-R1 实际上本身不是为了做 agent 来训练的,人家是为了做 reasoning 训练的。它是为了解决这个 reasoning 是说我给你一个特别复杂的数学问题,然后哐哐哐想很久,然后解出来。但是这个数学问题它是跟外界世界是没有关系的。
然后但是我们现在做所有的 agent 训练又都是沿着之前这个做数学题的这个思路在往后走,相当于是把多轮的一轮数学题变成了个多轮的 agent。但是我自己感觉呢,这里边一定要有不一样的这个范式。我们自己也有一些新的一些方法。就是说这个像 OpenAI 我觉得当时它就说了这个 AI 有五个阶段。第一个阶段的话是它的一个 chat,然后第二个阶段是 reasoner,第三个阶段是叫 agent。
那就好多人都问这个 reasoner 和 agent 有什么区别呢?我看到最常见的一种解释是说 agent 它是说跟世界是有交互的,是多轮的,然后 reasoner 就是单轮的。但是我觉得它不是这么简单。就是说这个 agent 它从世界中学习信息的方法一定不是简单的说是通过最后的对和错这么简单,它一定要从环境的交互当中去获取信息。这个说得可能有点太学术,我举个最简单的例子就很容易明白了。
就比如说我们这个 Pine 去给用户去帮人打电话办事。然后一打通电话,然后对面告诉你说,好,现在不是工作时间,然后你等到工作时间了再给我打。工作时间是周一到周五早上 9 点到晚上 6 点。正常一个人的话,应该是说他第二个电话他就知道该在工作时间打。但是如果说我们现在 AI 你要去训模型的话,那大概率它会是打 1000 个电话,失败很多次,然后最后它终于学会了,哦,我该在工作时间给你打电话。
所以说这就是现在它这个模型训练的时候,它这个 reward 的效率非常低。那么我们去解决的话,就是通过很多方面去解决。第一个的话是说模型训练本身,我们去通过让它去就是对这个未来的环境有一些预测,让它样本效率能更高,这是模型训练这块的事。然后还有就是我们有一些东西的知识就可以直接通过知识库的方式去表达,不一定非要把它用模型参数的方式表达。那么这又是一种方法。
那么其实通过各种各样的这些方法去结合的话,其实是能够让这个 agent 能够从环境当中快速地去学到一些知识,然后同时的话用这些知识能够指导未来的交互,能够让它的交互变得更加自然。这些东西其实我觉得你看一串就串起来是一串的。就是说它解决两大核心问题。第一个问题的话是这个 agent 怎么跟环境实时交互,而不是说每交互一步它就要想很久,然后再开始再多一点交互。第二个这个问题呢,是说 agent 怎么从环境中学习知识。这两个其实本质上来说它还是一个类似的一个问题。
然后同时这个问题的话,不仅是在这个语音的方面能够去应用,其实未来在很多其他的场景下也能应用。比如像 Computer Use。就是大家如果说用过 Computer Use,就是用过这种操作 GUI 的、操作电脑的这些 agent,那么就会发现就是它操作一步时间都很长,这个前面我也讲过。那你让它打做一个打一个动作的游戏,对时间有要求的游戏,它怎么打呢?
你想人是怎么打?人实际上是这样,它实际上是有两个系统在运行。一个系统它是在不断地在接收外界的这个反馈。比如我现在有一个敌人来了在跟你射子弹,你赶紧要把他打死,或者我赶紧躲起来。这是说几百毫秒内的一个本能的一个反应。然后第二,人还有一个后台东西,它在运行一个慢思考,它在思考说是我应该下一步长期的应该做怎样的一个规划,然后去解决这个更长期的问题。
那如果说你只有一个快思考的模型,会导致的结果就是说你只能去做这种被动的躲避,但是没有办法做任何规划。但是如果说你去做一个只有慢思考的模型,你就会导致说是你就第一个子弹就把你打死了。这个 Computer Use 跟语音的实时交互问题其实是一样的。然后甚至是未来比如到具身智能也是一样的。
单体智能与群体智能
余一:所以之前我记得有一篇文章说 AGI 可能不是单体的 AGI,是一个群体的 AGI,然后大家实现了这个方向目标。
李博杰:对,就是群体的那个可能是另外一个问题,它是指 multi-agent。就是说如果说一个 agent 的社会,然后里面有很多的 agent,如何让它发挥超过一个 agent 的能力,这是另外一个事情。我刚才讲的那个是说还是一个人,就是它从外界看来是一个统一的一个脑子。但是说它这一个脑子是不是只是一个 Transformer?我觉得是不一定的。
十二、管理 Agent 与 AI 原生组织
余一:OK。然后回到其实你前面提到非常多的,就是说怎么从经验里面去做学习,然后高效的经验里面去做学习。然后这里面我其实会比较好奇的一个,前面你当然会解释说我怎么通过相关的方式帮助 agent 去处理得更好。其实对于人而言,包括我自己从去年开始就花了很多时间去调我自己的个人的 AI 的工作流。就是跟 AI 的 agent 协作的时候有很多会与不会,或者是说现实的标准它还没有去学会怎么让它去做学会的这个事情。但我很好奇就是说你们的很多训模型的方法是不是也会沉淀到公司的管理里面?或者假设你们对于公司的管理已经是一个人加 agent 的模型。作为一个好奇你自己的 AI 的这种经验主义是怎么沉淀给你的 agent 的?然后第二个是属于说过去那些训模型或者做产品的,然后沉淀在公司的管理里面,或者是公司的包括知识库啊,还有说这种相关的工程里面,有哪些会跟之前特别不一样的做法?
训模型的思想反哺管理
李博杰:其实我觉得训练模型这件事其实是能够给人非常多的启发的。我觉得就是比如有的时候我会思考人的行为是什么样子的,就能从这个 RL 的理论里面得到非常多的启发。因为我之前没学过这个东西,然后我在 23 年之前实际上没有碰过模型训练。但是,我后来学了这个模型之后我就感觉,哎,这个模型里面好多的这个学习的方法好像跟这个人还是有很多相似之处的。
就比如现在我听说有一个说法,是说现在要招什么样的人呢?是要招做过小部门 leader 的人。为什么呢?因为现在一个人他要指挥五到十个 agent,然后来并行工作。然后呢,那如果你没有并行指挥多个人的这种经验的话,你有的时呢就会陷入说我指挥一个 agent 我就已经脑子就已经精力就过载了,我指挥不到五到十个 agent。或者说他就没有办法很好地去设置一个人和 AI 的工作的边界。要么就是人太多的关心的太多的 details,然后就把你的时间全占满了。要么呢就是人啥也不管,甩手不管给它一个很模糊的需求,然后或者说它出的结果我不验收,结果导致就是说它会越来越偏离你原来的目标,最后会有一些很明显的问题你没有发现,导致一些更大的问题。
那么说这就是如果你之前对跟真人的管理经验,那么说管理多个 agent 的时候可能也就能避免类似的问题。就是说首先第一能够学会就是在不同的人、不同的 agent 之间去划分时间片,去做 multiplexing。第二是能够更好地去描述我的需求,也更好地去验收和监控它的 agent 的进度。
异步协作:像开源社区一样工作
余一:像工作的,现在也会有一些就是为 agent 去搭的那个工作的平台。你们现在的一些基建方面有一些根本性的一些变化吗?
李博杰:我觉得是挺大的变化的。因为说之前其实我们好多的这个信息都是存在人的脑子里边。那么这样的话就是反正我什么不知道我找人问一下就行了。但是现在的话我们可能更多的东西就是要给它放到文档里,就有点像是开源社区这种工作文化。比如现在我们这个人他实际上是可能在全世界十个城市,然后好几个国家,然后可能三个时区。就是不同的时区,然后有不同的人。那这个它怎么去协调呢?如果说大家都要在共同的一个时间都要开会,那基本上这事是没法干的。
所以说就一定要依赖这种类似开源社区的那种异步沟通的方式。这个实际上也是一个很大的一个变化。然后同时这种方式也是更利于 AI 的。因为说我有什么问题,我第一个想到的不是去问这个人,而是说我去问他的 agent。然后我去问他的 agent,他的 agent 能看到他的所有的工作的这个上下文。那么说如果他的 agent 能回答得挺好了,我就不用再去麻烦这个人了。所以说这就是我觉得很多时候一个新的一个工作模式。
AI 已经是”数字员工”了吗
余一:你去年 4 月份做的那个分享,我中午又重新看了一遍,觉得依旧非常的受启发。但你里面有一个当时有个论调说当时的 AI 还没有办法成为真正的数字员工进到企业里面。你现在呢?
李博杰:现在我觉得是它能做一些比较简单的一些工作了。比如就是比如回复一些客户的一些问题。那如果说这个问题不是涉及很复杂的问题,或者说不是那种技术很深的那种问题,它直接去根据我公司内现在的这些知识库直接做出回答,是没有问题的。然后就算是他那个问题是他自己没法回答的,他也可以说是从知识库里边导出来一些相关的东西给人一个参考,人再根据这个参考再去回答,也比说人什么都没有,然后直接就去回答它的效率要高很多。
所以说我感觉这就是比如就有点类似于说是这种整天处理客户问题的这种职业,可能以后就是直接用 AI 就行了。可能只要留下几个特别处理疑难问题的这种客户经理,再加上后面的技术支持团队就可以。然后那技术本身,就是我们每个人管理带宽也就大了很大很多。因为之前比如可能是就是假如说是 24 年没有之前没有 AI 编程的时候,那可能就是我们现在每个人的工作都得有十个人的一个团队,然后一个小组长管着十个人。现在我们就改成了一个小组长管五个 agent,把原来的十个人的活都干完了。其实就是这样子的。
余一:但你的论调还是属于说现在的阶段还是属于说 AI 在大部分情况还是没法做数字员工,只有说在这种知识库极度的丰富,然后可能面对的情况也是可预测的,比如像客服啊还有这种这种领域是可能是 AI 的员工最先入场的地方。你会判断说哪些特征里面或者从这个再往后演一步,哪些可能是下一步 AI 的员工会入场的地方?
李博杰:其实我觉得现在这个 AI coding 它已经是员工了呀。比如我给它一个任务,然后我每天早上听它汇报一次,然后给它安排点活。然后等到它中午干得差不多了,然后我再汇报再让它汇报一次,然后我再给它安排点活。然后那下午晚上基本上每一个 agent 我一天就指导它四五次。然后晚上睡觉的时候让它干个大活。然后那这个我觉得就是个人的员工啊。就是说你想跟人的员工干活它不也就这么干吗?
余一:对。
李博杰:所以说我觉得它就是一个岗位了。因为它 24 小时都在干,而且呢它是给你用这种反馈进阶的方式,而不是说等到你一直盯着那个 agent 的 trajectory 在一点点看它下一步调了什么工具,我肯定不是这么去干。
管人 vs 管 Agent 的最大不同
余一:你会觉得管人跟管 agent 最大的不同是什么?
李博杰:我觉得就是最大的一个不同,就是说这个 agent 和人它的这个能力边界是不一样的。也就是人的大多数情况下呢,它是理解能力比较差。也就是说是大部分的人,比如我能招到的人,可能水平很多是不如我那么强的。那么他们可能是之前没有见过一些东西。比如简单举个例子,你给我去用一下这个 on-policy distillation 这个算法实现一下,帮我把这个模型重新训一下,看看相比原来的那个 GRPO 性能有没有提升。
好,然后跟他说了以后,然后他可能去搜 Google GRPO,然后一会儿 Google on-policy distillation,然后实现,实现个一个礼拜。然后一个礼拜之后最后告诉你没有提升。然后我再去看,怎么可能没提升呢?一看来,原来他这个 trace 的生成,就是生成那个数据有问题。他会犯很多低级的错误。但是说如果是个 AI 的话就不会这样。
去年我曾经招了几个实习生,让他们实验几个我的想法。当时他们实验了好久,也是定期给我汇报,然后每次都给我一些 negative result,就告诉我这个不可行,那个不可行。然后我到今年,然后我用这个 AI,就是用 Claude Code 然后去试,然后发现基本上都可行。就是说基本上到最后的结论都是 positive,都是 work 的。
所以说这个就是在具体的工程实现上来说那肯定是比真人要强的。然后呢,然后那么第二个第二个这个问题是什么呢?就是说但是它 AI 它弱的地方往往呢是这个就是你人意想不到的地方。就比如呢它可能是说你过去一个月之后反复过去一个月给它反复强调的事,然后它现在的忘了。因为它可能没有记到 memory,或者说它记进去了但是 memory 没有捞得进来。所以说因为模型的 context 问题它忘了。然后你要反反复复地跟他说。
然后或者说甚至我手工的人帮去修正它的 memory 都是有可能的。那么这这些这就是说人的长期记忆其实是比 AI 要好很多的。然后还有一些情况呢是说比如涉及到 GUI 的。就是说去有点涉及到图形界面,这就回到刚才说的就是 AI 干不好的三件事嘛。第一实时语音交互,第二用图形界面,第三然后就是机器人涉足物理世界了。
然后凡是涉及这三的,基本上 AI 都特别拉胯。然后你比如举个例子,就是说如果涉及到说是让 AI 说是你帮我注册个小号,帮我注册个微信小号,然后帮我把这个登录好了试试。或者说我现在开发了一个 iPhone 的 App,然后呢你给我说你给我装到这个 iOS 设备上,然后帮我试着点一点看看那些东西有没有问题。然后经常是我让这个 AI 鼓捣了半天,我们自己有 Computer Use agent,它给你装上这些都没问题,因为装上这个事是用命令行能干的。
但是说呢现在说微信需要扫码了,然后干不了了,没办法了。然后它怎么着都没办法自动去完成这个扫码的工工具。或者说即使不是像扫码这种故意就是防 AI 的,哪怕就是我自己开发的 App 你帮我试着点点。然后它往往呢就试着点几下,然后它觉得,哎,这应用太好了,然后什么工作都挺好的。但是我一看这个按钮都歪到姥姥家去了。然后这种这种东西它是没有这个就是它跟人的这个差距还是比较大的。
所以说我觉得这就是为什么像我们这样的公司是有必要存在的。因为我觉得未来的这个世界呢,它是不可能只有 AI 的,它还是得有人的。那么说人和 AI 的交互一定是一件非常重要的事情。而这个呢又是现在的基座模型训练里面并不是很重视的一件事情。
十三、给创业者与年轻人的建议
余一:OK。这里面就延展了两个问题。一个问题就是属于像你们现在招人最看重的是什么?第二个呢其实就是我们在开始的时候问的时候,这也是我一直在思考,就是说为人和 agent 协作的那个市场才是属于创业公司的,那个所谓的 all-agent 的这个市场可能其实更多的是属于大公司的。
招人最看重”理解力”
李博杰:首先先第一个,就是说这个招人的时候看重什么。其实招人的时候我更多的是看重他的这个理解能力。然后就是我觉得 Andrej Karpathy 当时有一个很知名的一句话,他就叫叫说是你可以外包你的思考,但是你不能外包你的理解。那就是说如果你看不懂一件事,那你就没法做这件事做出合合理的指导和决策。实际上这个事是非常常见的。
比如就是比如我之前是在微软研究院嘛。微软研究院雇了好多图灵奖。然后但是这些图灵奖的基本上他的这个图灵奖的成果都是在进微软之前取得的。但到了微软之后,他并没有取得图灵奖级别的成果。那一个原因是什么呢?就是说给图灵奖的这些人打绩效的人,他并不是搞技术的人,他不懂,他没法 evaluate 这些人的这个成果。所以说他就会也没法给合适的指导。
也就是说是这个 evaluation 这件事其实是个非常难的事情。之前那个像 Ilya Sutskever 在 OpenAI 他说 weak to strong,就是一个弱模型能指导一个强模型。但在实际当中这个事是非常非常难的。如果你什么都不懂,你怎么去做 evaluation 的,你怎么去看懂那个东西到底对不对呢?那么其实你比如现在这个做基模的公司,那有些家人搞成有些家没搞成,其实呢也跟这一把手自己懂不懂有很大的关系。那你如果一把手不懂,然后大概率就是底下的人就会瞎干,然后或者会导致一些外行指导内行的一些情况。然后那这个就干不成。
所以说这个就是理解是没法被取代的。所以说就是你知道这些 AI 员工实际上对你的要求是更高的。那如果你自己都看不懂人家 AI 说的这些东西,那你自然就没法指导,只能是不断地就是说哎你怎么你该怎么办呢?就有点像像老师指导像学生请教老师一样了。我看到好多人用 AI 是这么用的,就是说 AI 说了一堆,然后呢然后然后人说哎继续干吧。然后呢 AI 说这干不下去了。然后我就然后人就跟他说一下说你你觉得该怎么干呢?然后 AI 说啊我觉得该这么干。然后然后人就说好你继续干吧。就感觉是变成了一个不断地这个 PUA 催工的。要不然的话就是说你现在是一个这个 L7 级别的一个高级工程师的,我给你招进来的话是按照这个定级的,你应该自主决策,自己想好该怎么干,不要再问我。
余一:PUA skill?
李博杰:这个都是开玩笑的。实际上这么用那个 AI 的效果是不会太好的。就是说你是没法用出来就是超出 AI 这个本身的能力的。也就是你必须得自己能看得懂 AI 生成的东西,然后它必须就是能先理解才行。所以说这也比如我们自己在面试的时候经常就喜欢这样子。我也不让你写代码了,我就是跟你聊天,这么坐在这聊天。如果是视频聊天的话,那我就要求你把眼睛闭上。把眼睛闭上是防止你去在旁边开个 ChatGPT 在那作弊。然后就是说我就跟你聊。然后我如果问了一个问题你三秒钟没有回复,那说明说是你对这个知识的理解可能还没有内化。但是说你可以经过 30 秒的思考,思考完了之后你要能回答那说明你的这个泛化能力很强。就是你之前虽然没用过这个东西,但是说呢你通过其他领域的知识能够把这个泛化的问题解决出来,这也说明你很强。但是说就是如果你对我说的这些问题都没有理解过或者没有听说过,甚至说有一些是连名词都没有听说过,那大概率就是说这是不行的。所以说我觉得这个就是理解和泛化的能力是最关键的。这是刚才我说的第一个问题。
创业公司 vs 大公司:物理世界与 Agent 世界
然后针对您刚才说的第二个问题,就是说我未来这个去大公司和创业公司,然后哪一种是说是人和 agent,就是 target agent 的世界和 target 的人的世界,哪一个会是什么样?其实我自己感觉的话,像这种 startup 或者说其他的这些公司,可能是 target physical world 是更合适的。因为 physical world 相当于是它是更复杂的,有更多 legacy 的东西。然后呢同时 physical world 里面也有很多的这个各种各样的它这些 rules 和 harness。就是说比如有些事你 90% 的情况下能做对都是不够的。然后你必须要能够 100% 的情况下都不能犯一些特定类型的错误。那这个时候就一定需要去模型外面的东西去搞。因为模型光干靠模型很难做到 100%。所以说这个就是外部的公司这个所需要的。
但是我觉得呢也不能说这个创业公司在 agent 里面就没用。因为说在 agent 的世界里面其实也有很多很重要的。因为现在就是 agent 逐渐地也在走向自主性。也就是比如它会有自己的 identity,它会有自己的手机号,会有自己的一个名字,然后会有自己的一个邮箱,然后会有自己的一个支付手段,它可以自己掌握一些这个这个钱包。它自己拿着这个钱包,然后它可以去付钱去买自己需要的东西。比如它可以自己付 token。那么当它的自主性是在逐步提高的。那么这个时候呢实际上这个 agent 在一些重要角色上面,比如像您之前提到一个说它会不会把我自己的所有文件突然全删了。这个也很重要。也就是它实际上也是需要很多很多的这种,尤其是涉及到真实世界的支付或者雇佣。就是一个 agent 可能雇了很多其他的 agent 去办事。或者说一个 agent 说不定还要雇一个真人去办事。因为它要去完成一个物理世界的事,那它要雇一个人。
余一:现在我有看到两种就是那种众包平台,一个是 Agent 的上面去接人类的调研,现在有些调研是这么做的。因为它有你的上下文,它就比普通的一些调研可以更便宜或者更相关。第二个不是有一个外包平台是 Agent 发单,人类去接单抢单去做,已经出现了这两种新的形式。
李博杰:对,我也看到过,比如 Rent a Human 这种。我感觉这个可能在未来是很大的,而且有很多问题需要解决。它不是一个纯模型的问题,更多可能是一个经济学和社会学的问题。比如你雇了一个人,如果这个人干得不好,怎么去 dispute?这里边就涉及到非常复杂的一些事情了。
押在上面、尚未验证的判断
余一:OK,我们时间也基本到了。我们就以”跃迁者”最后的两个固定性问题结尾。跃迁者最后的两个问题,一个是说你现在其实把时间和钱押在上面,但是还没有被验证的那个判断是什么?
李博杰:其实我觉得最大的一个判断,就是说 AI 个人实时交互这件事是不是一个很重要的事,以及它是否一定需要一个模型以外的东西去做。因为现在也有一种思路是说,我做一个足够大的端到端的模型,它里边把世界所有的输入都用实时的方式把它 tokenize 之后放进去,包括它跟世界所有的交互的输出也用 token 的方式去输出。这可能也是一个很好的方法,而且很多人都认为这可能是到模型达到智能上限以后,它自然会演进出一些多模态的能力,只要再加一些数据就行了。
我觉得这个说法也是完全 make sense 的。但就目前来说的话,至少我还没有看到一个既能够做实时交互,又能够做深度的思考,又能够把理解生成这些东西都放到一个模型里边全都做好的。这可能是一个终极目标,但是不知道什么时候能实现。所以在这个之前,相当于这是我的一个 bet,就是通过一些工程的手段,能够让这个效果尽早地能够商业落地。这是第一个 bet,也是刚才说最大的一个 bet 了。
给创始人与 20 岁年轻人的建议
余一:第二个问题其实是比较,前面的问题是一个很未来的,第二个也是给别人的未来。因为你自己之前也给自己的团队说 AI 原生的程度、AI 的准备度打 8 分。那么对于现在有很多想要去做 AI 变革的创始人和创业者,你会给他们做的一个建议和提醒是什么?外加你的身份,如果你是包括给现在的 20 岁的年轻人提的一个建议或者要提醒他们的一个坑是什么?
李博杰:首先第一个,我觉得还是理解、思考和执行的问题。你一定要自己理解,思考和执行可以外包给别人。我觉得这是做所有的事情,不管是管理人还是管理 Agent,其实都必备的一件事。因此,作为一个创始人,他一定要足够地理解 AI 能力的边界。比如模型什么事能做,什么事做不好,以及这个模型未来一年会往哪个方向演进。其实这件事并不是虚的东西,你只要找几个懂行的人聊一聊,或者看一些公开的高质量的访谈或者高质量的论文之类的,都能看得懂,大部分都是公开的信息。
余一:那我多问一句,你最近非常建议大家一定要看的论文和报告是什么?
李博杰:其实我自己的话,比如像一些硅谷的一些比较好的一些访谈,就是针对这些一线的 Frontier Lab 的访谈,都是很值得听的。比如像 Dwarkesh Podcast,它里边很多期的内容都非常好。还有张小珺的一些访谈,我觉得讲得也挺好的。
论文方面,我觉得没有说一两篇能够说是足够颠覆性的,因为这种论文实在是太多了,每一篇论文里边都有很多东西,这就只能是靠自己一点一点地去看去积累。可能更多地还是要找懂行的人去聊天,要保持自己在圈子里。我觉得自己在圈子里和圈子外其实有很大的区别。因为如果说不在圈子里的话,就会发现自己的思想很多时候会出现很多的 drift。这也是为什么 Andrej Karpathy 最近选择回到 Anthropic,对吧?
余一:我看到你的说法,用词是“回去备课了”。
李博杰:对,我感觉他是回去备课了。他前段时间接受了一个访谈,他就觉得他在外面这几年,感觉他对模型内部的工作原理的思考理解就越来越少,对模型的前沿的认知就产生了越来越多的漂移,所以他觉得是时候回去备课了。
我觉得这件事其实对于不管是做应用的,还是做各种方面的创业者,虽然不一定要到基础模型公司去备课,但是一定要去多去接触这些东西,多跟做模型的人去聊,这样的话才能知道这个模型的能力边界在哪,它是怎么做出来的。最近我也听说了一些原来的一些互联网型的公司,原来是不做自己的基础模型的,但是现在开始做自己的基础模型之后,它内部这些不做模型的部门,其实它对于整个模型的 AI 的认知也发生了很大的变化。就是因为它通过做模型这件事本身,它就会反哺这些其他领域的,就是你之前不做的时候就不可能知道的一些事情。这是第一个点。
第二个点就是刚才您说的针对 20 岁的一个人的建议。其实这个也是我觉得很多人在 debate 的。我有好多朋友是在做教育的,比如在学校里当教授、当老师。他们就会说,我给学生布置的大作业,学生都直接无脑喂给 Claude、Cursor。Claude、Cursor 干完以后,结果打分只能给他打满分,没办法,干得很漂亮。但是这个学生到底学会没学会呢?那大概率是没学会,因为他根本就没看。
所以这件事就意味着说,传统的这种只是通过作业或者写代码这种方式来去作为 validation,对于人有没有学会的 validation,它实际上并不是特别好的一种评测标准了。同时,人原来做的一些事,比如我现在去学习很多编程语言的那些细节语法,或者记住各个库该怎么去用,记住各种 trick,比如我要实现一个 CSS 动画的什么样的效果应该怎么去写,这些 trick 的东西可能对于人来说越来越不重要,大部分 AI 都能干得了。
但是人更重要的东西,是他能够去做这个 taste 和 judgment。也就是说他要有 taste 判断说这个东西到底是一个好的还是不好的,它长期来说有没有价值。这件事的前提又是你能理解,所以你要有自己足够的这些基础知识。基础知识不是不需要学了,但是它需要学,需要搞懂概念。搞懂概念之后我能理解它,理解它之后我可以逐渐地去培养我自己对这个事情的一个判断力和什么事重要、什么事不重要。
我觉得这件事可能是在未来的这些人类跟 AI 协作当中更重要的。因为未来的可能最底层的执行工作,后面都是 AI 去了。那么人所做的事最重要的就是价值的判断,以及他要创造他自己想做的东西。我觉得现在这个社会大部分人其实是没有自己真正想做的东西的。如果说没有这样一个外部的 reward,比如你的领导,那基本上大部分人就在家里边躺平了。没有领导没有钱,基本上就躺平了。所以如何在未来 post-AGI 的这个时代,让大部分人自发地能够想到自己想做的这个事,而且能从 0 到 1 地把这事能够做下去,我觉得是一个最重要的一项需要培养的能力。
结尾
余一:非常好。之前我看评论区里面也有人问博杰很多的文章、自己提到的那些文章在哪都能看到。博杰是一个非常开源的人,你的那个域名是 01.me 对吧?
李博杰:01.me,对。
余一:欢迎大家可以去看。这一期的回放,腾讯研究院马上大家可能就会在直播回放里面看到整个的回放。关于这场分享的一些相关的整理,我们其实也还会继续地把它整理成文章发到我们腾讯研究院的公号里面去。
也有人问说下一期,目前的话 AI 跃迁者调研是我们持续在做的一个系列,就会找市场上的超级个体和我们觉得非常具有代表性的产品以及公司一起来聊,一起来聊这些来自于一线的产品跃迁、模型跃迁、人的跃迁,还有生产工作方式的跃迁。也非常感谢大家周五下午,目前我看有大概快有超过 1.6 万人一直在线上听我和博杰。
也欢迎大家,未来 AI 跃迁者系列我们也会考虑把它做成播客的形式,目前我们在尝试的过程当中。未来也会有各种各样的方式能够让大家以更全面的方式去听到。包括 AI 跃迁者调研的有很案例,我们后面也会有报告。包括下周一会发一个从超级个体到超级团队的报告里面,也会用到了一些我们 AI 跃迁者调研里面总结出来的东西。也欢迎大家持续关注,关注 Pine,大家可以去体验一下。他们是有订阅套餐的,可以试一试这种能办事的 Agent 到底长什么样子,看一下能不能给大家一些新的冲击,能意识到说未来可能 Agent 跟人的协作关系是怎么样。我们这一期的 AI 跃迁者调研就到这里啦。谢谢博杰,谢谢在场一直听我们两个人交流的朋友们,我们下周或者 maybe 下下周我们再见。
李博杰:谢谢余一。
余一:拜拜。