AI Agent,注定爆发——极客公园「今夜科技谈」直播
直播主题:AI Agent,注定爆发?!
时间:2025 年 3 月 13 日 20:00——22:00
方式:极客公园微信视频号「今夜科技谈」直播(连麦)
直播嘉宾:
- 靖宇|极客公园 副主编
- 李博杰|PINE AI 首席科学家
- 宛辰|极客公园 记者
精华要点总结
- AI Agent 的核心特征是具备感知、规划和行动三大能力,能够自主收集信息、制定计划并执行动作
- 像 Manus 一样的通用 Agent 会模仿 “极客程序员” 而非普通人,具备计算思维,懂得何时使用代码和工具解决问题
- 当前 AI Agent 主要分为编译型 (如 Dify) 和解释型 (如 Manus) 两类,编译型是固定工作流,解释型是自主规划决策
- 编译型 Agent 与解释型 Agent 将长期共存,而非相互替代,不同场景有不同的最优解决方案
- 大模型存在 “100 倍成本定律”:芯片公司赚 10 倍,大模型公司再赚 10 倍,这揭示了模型定价与实际成本的巨大差距
- 基础模型是通用 Agent 能力提升的关键,人类很难想象比自己聪明 10 倍的东西,因此不要把人类的思维方式强加给 AI
- Manus 强调的 “Less Structure, More Intelligence” 与经典的《The Bitter Lesson》异曲同工,人类强加给 AI 的结构限制越少,AI 的能力上限就越高
- Claude 3.7 Sonnet 等新一代模型在工具调用和编程能力上有重大突破,为 Agent 发展奠定基础
- DeepSeek R1 的开源使得 RL (强化学习) 技术更易获取,降低了开发高质量 Agent 的门槛
- RL 训练是构建竞争壁垒的重要手段,可以将行业经验和专业知识转化为模型能力
- RL 训练所需的算力门槛没有想象的高,小模型经过 RL 训练后在一些垂直领域的能力可以超过大模型
- 多智能体架构不适合所有场景,在软件开发等领域可能会复制人类组织中的低效协作模式
- AI 编程工具在大型软件工程项目中也可以发挥很大作用,但需要高质量的代码工程基础,包括完善的文档、测试用例和标准化的接口
- 屎山代码 AI 编程工具难起作用,原因与新入职的实习生难以接手一样,都是代码中有太多没有文档化的 tribal knowledge
- Agent 技术的发展将推动软件工程实践的改进,促进代码质量和可维护性的提升,达到知名开源项目的标准,让更多项目变得 AI 友好
- Anthropic 提出的 MCP 协议为 Agent 生态系统的互联互通提供了标准化方案,将使多样化的专业服务相互连接而非相互替代
- OpenAI 的 Responses API、Realtime API 和 Anthropic 的 MCP 代表了 Agent 框架的发展方向
- Agent 的工作效率目前受限于视觉模型的延迟,人类在某些操作速度上仍有优势
- 虚拟机沙盒可以提供独立的工作环境,但需要更好的个人数据集成方案
- AI Agent 未来可能会分为 “快思考” (用户交互) 和 “慢思考” (后台处理) 两个部分协同工作
- 通用 Agent 是硬件、操作系统巨头的兵家必争之地,但大公司发布产品会相对谨慎
- 创业公司在 Agent 领域的机会主要在垂直领域,通过深耕特定场景积累专业数据和行业知识
- 编程、教育和人际沟通是最有可能率先出现成熟 Agent 应用的三大领域
访谈全文实录
极客公园:大家好,欢迎来到极客公园的极客直播间。随着 Manus 出现的这一波热潮,大家对 AI Agent 的激情和想法都非常多。这次我们也请到了优秀的 AI 领域创业者,今天和大家一起来聊一聊 AI Agent。到底 AI Agent 会发展成一个什么样的程度?它已经超过了大家目前对于大模型的关注,感觉现在 Agent 已经有了自己的 “手”,已经可以代替我们去做很多事情,包括它提前展示的这些 use case 也非常酷。
所以今天我们也邀请到了 AI 行业的优秀创业者,来和大家一起聊聊 Agent 目前发展的状况。那我就话不多说,先把我们今天的嘉宾,PINE AI 的首席科学家李博杰先生和我的同事婉晨请出来,有请两位。
李博杰:Hello,大家好,我叫李博杰。
极客公园:好的,博杰非常急不可待,我还没出来呢。婉晨也跟大家打个招呼吧。
极客公园:婉晨是我们极客公园的 AI 领域记者,一直在关注 AI 领域的发展。博杰应该是第一次来我们极客公园这个节目,首先非常欢迎你。我感觉大家可能还不太了解你,要不你先跟大家稍微介绍一下你过往的经历,包括现在华为 AI 到底是在做什么?
李博杰:非常荣幸能够来到极客公园跟大家做一个交流。我叫李博杰,之前是华为的第一批天才少年。在更早之前,是微软亚洲研究院和中科大的联合培养博士。我在华为的时候,主要负责高性能网络相关工作,做类似英伟达的 NVLINK 和 Infiniband 这种高性能网络,主要用在万卡集群这种特别大规模的训练和推理,以及特别高性能的存储、云计算等等。
其实我们从 GPT-3 paper 2020 年出来之后就开始做这个东西了。最早当时我们做的时候,很多人还不太理解,他们觉得 “现在模型最多就八卡训练,你搞一个万卡的,什么时候才能有一万张卡啊?” 但我们当时非常相信 scaling law 这件事情,而且现在确实已经成为现实了。华为的 AI 集群在目前国内来看应该是比较领先的。
极客公园:您对芯片行业的看法是什么?
李博杰:芯片这件事情我觉得非常重要。比如像 DeepSeek R1,它官方的推理 API 定价非常低,但它自己最近也发布出来有五倍的毛利率。这件事情其实意味着,如果你的芯片比较好,然后 API 定价比较低,最后就会有很大的盈利空间。所以我觉得华为从某种程度上讲,站在这个定位也挺对的,因为现在中国最缺的就是芯片,而且芯片的护城河特别深,所以解决芯片问题能创造很大的价值。
极客公园:您后来为什么选择离开华为创业呢?
李博杰:后来出来创业是因为我发现 AI 领域我还是想做一些偏应用的东西,infra 虽然非常重要,我自己也相对更有经验一些,但这些 infra 优化的东西我不做,也会有其他人做。但我想做的很多应用其实根本没人做。大多数人看到 AI 应用非常卷,因为很多大家都能看到的需求是通用的需求,或者说是大厂的需求。但很多领域其实想用 AI,但找不到懂 AI 的人。
当时我发现 Web3 这个领域很有吸引力,因为在 2023 年底的时候,Web3 加 AI 这一块是非常火的热点。当时我还发现一个问题,AI 模型成本特别高。大家可能还记得 2023 年的 GPT-4,那时候特别贵,而且又干不了什么复杂的事情。而在 Web3 领域,那里的客户相对来说比较能付得起钱,比如像一些头部交易所,它一天的交易额可能比纳斯达克还高,净利润比字节还高。同时这些公司自己又没有非常强的 AI 团队,需要从外部引进 AI 技术。所以在 AI 模型成本没降下来的时候,服务这些客户更容易从商业模式上跑通。
但是后来做着做着,我又想换个方向,是因为我发现 Web3 里面很多搞 AI 的,但大部分都在炒概念。很多人并没有真的想用 AI 去解决 Web3 的问题,或者用 Web3 去解决 AI 的问题。比如说 Web3 的人大部分比较强调平等、透明、安全隐私这些哲学,但 AI 可能更强调的是效率。之前 Vitalik 也有个访谈讲这个事情,对搞 AI 的人来说,AI 好用就够了,安全隐私都不 care。那么我就想,AI 产品如果说要做到尽可能大,让尽可能多的人用上,那可能还是要在 web2 里面去做。
我一直想做的一个事,就是 2017 年在 MSRA 的时候听了一个 talk,我当时就特别想做一个类似电影《HER》里边的 Samantha。《HER》是 2013 年的一个电影,它就是讲了一个数字助手,又能听又能看又能说,又帮你打电话,又帮你操作电脑,日常生活中的各种事情都帮你能做。
我觉得现在这件事可能真的是可以做了。为什么说去年前年不做,是因为去年前年 AI 的基础模型,它的能力还比较差,在复杂任务执行方面,它很多事情都干不了。然后现在比如说我们 DeepSeek 出来了,然后有 OpenAI-o1,o3,然后还有 Claude 3.7 Sonnet 等等,这些它成本也下来了,能力也上去了。
那么这样的话,我们未来每个人每个公司,都可能会有这样的一个通用的助手,可以帮我们把日常的很多沟通的这些发展,以及日常的这种杂事都给 offload 掉。这可以给大家节约很多的时间,用来做自己想做的事情。
极客公园:OK,这个非常欢迎博杰。然后刚才从博杰开场里,然后我得到了两个点。第一个就是,我忘了给博杰说,然后他其实是华为天才少年,我怕他可能觉得这个帽子太大了,所以我特地没有说。但是博杰看来是并不太介意,所以其实博杰,这也是第一批的华为天才少年,这是一个非常耀眼的光环。
然后也看到博杰,其实他后来也去做了这样和 Web3 和 AI 的这样一个结合,然后到现在来去做应用。我先岔开一下,咱们观众们有谁看过斯派克·琼斯拍的《Her》的,然后可以在下面扣一个 1,咱们也激励一下咱们博杰,然后争取以后,不用说以后,可能最近就给咱们弄出了一个像《Her》这样一个助手,我是非常的期待。
然后咱们就说最近最热的 AI Agents 应用这个 Manus,3 月 6 号出来之后凌晨,可以说公园我们这边几个记者基本上就是通宵没有睡,因为我是在海外视察,然后在出差,正好是也赶上了这个,就感觉好有趣,这个大家真的是对这个有所期待,太兴奋了。我不知道博杰你在看到这个 Manus 这个应用的时候,你那个感受和的印象是怎么样?
李博杰:Manus 这个产品我实际上是看到了媒体铺天盖地的报道才知道的,消息还没有你们那么灵通。但是我当时看到了那些 use case 之后,就发现它这个设计非常的巧妙。就是我感觉之前实际上也有很多用电脑的这些 agent,比如说像 OpenAI Operator、Anthropic Computer Use,但是这些其实都是在模仿一个普通人。
但是这个 Manus,它的设计是模仿一个极客程序员。它一上来,它先打开一个终端,在里边写了个 todo list,是吧?就感觉就像是我们这个程序员才能干出来的事。然后在干活的过程中,它还不断写代码。
比如说让它调研一个股票,可能 OpenAI 就是直接去网上各种搜索,但是 Manus 会说自己写一个代码,然后去调用一下这个交易所的 API,去获取最近的股价,然后再做一个分析,做个可视化。最后它交付的这个 artifacts,它也是一个代码,也就是它这个代码最后呈现出来是一个网页或者图表,或者说一个小游戏的形式,不仅仅是一个文档。所以我觉得它这个设计实际上是挺有意思的,然后它也是把这个 agent 的应用范围可以说是扩展了很多。
这件事为什么感觉很有意思呢,是因为我之前在 MSRA,就是微软亚研院的时候,当时我们 MSR 有个老大,周以真博士,也是 IEEE 和 ACM 的双 fellow。他经常给我们讲 computational thinking,就是计算思维。计算思维是什么意思呢?就是说要把日常生活中和工作中的这些问题都要抽象化出来,然后用系统的逻辑去思考去推理,然后还要用计算机的自动化工具去解决。
我觉得现在的 reasoning model,就是像 O1 或者 R1 这些,已经是学会了这个系统化逻辑推理,实际上已经比很多人强了。比如说你给一个普通的人,如果没有经过这种逻辑思维训练的话,他可能不一定能很好地把问题 reason 起来。但是我觉得,现在这些 reasoning model 还不会去使用自动化工具,就比如说他遇到一个复杂的问题,他也是在那空想,但他永远不会说 “我写一个代码去解决” 或者 “我用一个计算机的工具去解决”。
所以说我觉得 Manus,它虽然也是用的现有模型,但是它是通过这些 multi-agent 的方法,让 AI 知道有些事实际上可以写一段代码去解决,比自己在脑子里空想要更高效。
我觉得这是计算思维的思维方式,然后 AI 能用计算思维的方式思考让我感觉是非常 exciting 的。我自己一直推荐很多人,包括我在科大的时候,推荐好多学弟学妹,一定要有这个计算思维。今天又能让 AI 学会计算思维,这又是一个非常有意思的事情。
极客公园:对,你刚才说的这个 Manus,一看就是程序员的表现。你刚才提的 Manus,它首先去弄一个 TODO List,可以看出是一个非常有条理的人。
极客公园:刚才讲的这些感受都是博杰还没有拿到这个邀请码的时候,他先看看,就好像这些恰好是一个可能极客的程序员去工作的方式,可能跟其他别的 agent 的工作方式不太一样。那拿到邀请码以后,看到博杰也尝试了很多 use case。你拿到手,在体验以后跟你观看 demo 有什么不一样的地方?
李博杰:我自己感觉 Manus 它是一个想法特别好的产品,但是在执行上面,毕竟 Manus 的团队它不像 OpenAI 那么有钱,对吧?然后不可能去训练一个世界上最顶尖的模型,所以说它实际的执行效果,它可能比起这些单项任务上领先的模型,比如说像 OpenAI 的 Deep Research 还是会差一点。
就是说比如 Deep Research,我当时测了五个不同的领域去做 deep research 这样写报告的,结果发现大部分情况下它写出来的报告都不如 OpenAI 更加深入。这个原因很好理解,因为 OpenAI 是基于自己做了 post-train 这样一个 RL 的模型,所以说它在 deep research 方面更先进。
另外它们获取资源的方式也不一样。比如说 Manus,它是为了通用,所以说它模拟的是真人,它去用一个纯视觉的方式浏览网页。这样的话,它一张图片,它就只能看到当前这一屏,要往下还得一屏一屏往下滚动。但是 OpenAI 那个时候,我直接就把它整个资料全部都文字全部塞进来了,那这个肯定它效率会更高。
所以说,我觉得 Manus 这个产品,如果说是完全把它当成一个 deep research 去用,可能就有点大材小用了,或者说它没有完全用到它最重要的一个点上。我觉得它更好的一个使用方式是用它来帮你处理一些涉及到多模态或者交互的东西。
多模态这个词有点学术化,大概意思就是,他输入的东西不仅仅是一段文字,而是说输入的东西比如说既有图片,然后又有网页,然后又有自己的这些资料,可能是 PDF。比如说举个例子,假如说我想上传十篇论文,你帮我把这十篇论文总结成一个 PPT,然后明天组会要讲。这个事 Manus 还真能完成。
虽然说他肯定不像一个真正的 researcher 那样做得那么专业,如果那么专业我就可以下岗了,对吧?但是说他基本上如果说是作为一个实习生,或者说一个初入博士研究生研究门槛的,他做出来这个东西还真像一回事。他会把这十篇论文都读一遍,然后有些不懂的词他会自己上网上去搜,然后弄懂。弄懂了之后他会去生成一个 PPT,一页一页的这个大纲,然后他里边甚至会把论文里边的一些图表直接粘到那个 PPT 里面。所以说这个看着还像那么回事。
这种类型的涉及多模态交互的任务,这个应该说是其他的 agent 目前来说很难完成的,但是他是可以做的。
极客公园:这是因为他的那个工作原理是去直接读取那个浏览器的画面,而不是可能把它解析成什么 markdown 的格式然后再喂进去。就是它是原生态模仿一个人去看到所有的画面,是这个原因带来的吗?
李博杰:对,您说的很对。它原因就是因为它原生就是读模态的,它看到的是视觉。然后还有它输出这一块,它因为是写代码输出,所以说凡是它生成的东西,如果说是需要写代码才能搞定的,那它就比这个 Deep Research 功能要强。比如说如果我生成一个股票的基本面分析,这个可能大概文字就能搞定。但是如果说有些时候,我是要它生成一个图表,让它能够交互式的,比如说或者说是生成一个交互式的电子书、有声书这种感觉,然后这种小有声书,它就必须有代码才能够实现。这个是它更有优势的地方。
极客公园:刚才博杰提到了 Deep Research 的功能,可能 Manus 做的没有 OpenAI 那么深入。但是我记得在 GAIA 的榜单上,在任务一和任务三的这个难度上要比 OpenAI 好得多得多。但是可能你试了几个可能个例体感好像不太一样,就你觉得这可能是为什么?
极客公园:我先稍微等一下,你们俩能稍微给大家普及一下这个 Gaia 榜单是什么?因为你提 Gaia 我现在只能想到的是那个之前小时候看的那个动画片 Gaia 那个地球女神。你给大家说一下那个是一个什么榜单,来,博杰来说,来来来。
李博杰:GAIA 这个榜单其实就是在测试一个 General AI Assistant,一个通用 AI 助手的测试集,这也就回答了刚才婉晨提的问题。它不光是 deep research 一项任务,它有好多任务。它不光是做调研报告,那只是它其中一小种任务。它里面大部分的任务需要浏览网页,一部分需要写代码,一部分需要多模态能力,还有一部分需要阅读网页以外的文件类型。
GAIA 的任务其实分为三种难度:一类是简单的,不用工具或者使用一种工具 5 步以内就能搞定的,可以理解成可能是初中生水平就能搞定的。这一类以往的 OpenAI 可能能搞定大概 60% 左右,而 Manus 能搞定百分之八九十的样子。中等难度的是需要使用多种工具,5-10 步可以搞定的,基本上就相当于大学生这种水平。然后高难度的可能就相当于博士生或者专家的水平,需要使用多种工具综合分析研判,就像做研究一样。
Manus 在每一种难度的任务上,总体跑分都比其他产品稍微高一点。它通用方面能力强主要是因为它把多模态视觉能力、深度搜索能力和代码生成三种能力给整合起来了。比如说像 OpenAI Operator 也参与一起评比了,Operator 也能够使用电脑,但它只有一个视觉能力,相当于它是一个普通人,它只会不停地点鼠标看,但涉及到写代码的功能它就废了,对吧?所以说 Manus 的能力更多,可以用的工具更多,那它通过 benchmark 的 case 自然就会更多。
极客公园:嗯,是。
极客公园:刚才博杰你讲了很多个 use case,你用了应该也很多。如果按照 Manus 团队去打榜的时候,它一个任务平均是 2 美元的成本,大概 14 块钱。你就想想你过去几天用的 Manus 里面的每个任务、每个 use case,如果让你为这个结果付 14 块,你觉得你会付吗?
李博杰:我觉得如果是工作类的肯定是付的。因为他 2 美元完成一个任务,他花了半个小时搞成了,然后我的半个小时的时薪肯定不止 2 美元,对吧?所以对一个领域专家来说,这是肯定可以接受的。但如果是一个普通人的话,我觉得可能现在还有点高。
不过我自己感觉成本肯定是能降下来的。我自己一直有一个 “暴论”,就是大模型有一个 100 倍的成本定律。为什么说是 100 倍呢?就是芯片公司先赚 10 倍,然后大模型公司再赚 10 倍。也就是说这两美元,如果说都是自家的芯片、自家的模型,它最后的成本可能就是 0.02 美元。
价格为什么能差这么多呢?比如说像 NVIDIA 的 H100 芯片,它售价 3 万美金,但流片成本可能也就两三千美金。当然,这 10 倍的溢价很大一部分是为了覆盖研发成本。再比如 OpenAI 和 Anthropic 的旗舰模型,基本上每一百万个输出 token 在 10 美元左右,但是 DeepSeek V3 这个模型只要 1 美元。从模型的规模上来说,参数规模包括激活规模都差不多,但为什么它们的定价更高?就是因为这些头部公司需要想办法通过付费来平摊研发成本,所以肯定不能仅按推理成本来收费。
这也是为什么 DeepSeek V3 在美国引起这么大的声浪,因为它把这些公司的成本老底给揭了——原来做这种模型根本用不了那么多钱。这意味着如果 OpenAI 或者 Anthropic 还想继续赚更多钱,就必须把模型做得比 DeepSeek 的 R1 强很多。确实,他们也做得挺强的,比如 Anthropic 的 Claude 3.7 Sonnet,它在工具调用等方面确实比 R1 要强,稳定性也强很多。这样的话就还会有人去付费,帮助它们摊销研发成本。
但假设未来某家公司,不管是 Manus 还是哪家,自己既有芯片又有研发大模型的能力,那它确实能把任务成本降到非常非常低。
极客公园:嗯,你刚才提到… 不好意思,我先跟大家介绍一下,现在已经有很多同学进入我们的直播间了。今天我们在和 Pine AI 的首席科学家以及我们公园作者婉晨一起,跟李博杰和婉晨一起,我们在和大家聊 Manus 引发的大家对于 AI Agent 的思考和期待。
李博杰其实是国际优秀的 AI 行业创业者,他今天会和我们一起拆解 Manus、拆解 AI Agent 接下来的发展趋势。如果已经拿到过邀请码并且已经用了 Manus 的同学,可以在下面打个 1,同时把你们的使用体验放在评论区,大家一起讨论。关于 AI Agent、关于 Manus,包括 Pine AI,大家如果有什么好奇的想聊的,都可以在下面留言,我们三个今天晚上会和大家一起聊,让我们热闹地把这个话题聊起来。
欢迎继续。刚才可能已经看过 Manus demo 以及可能已经上手体验过的朋友们,大家可能能够切身感受到博杰讲的那个 Manus 的经验,但如果我们带入到更多的观众,他们可能还没有特别多感受过 Manus 的能力,但是他们感受过别的可能也被称为 agent 的一些产品。
比如说像各类 AI 助手类的 APP,它底下那个 Tab 键,你翻到大概是 Tab 3 的时候,它可能都会有一栏是智能体,像豆包、通义这些,它都会有各种各样的智能体,它分什么情感陪伴、聊天机器人等等各种,这是一类。
还有一类就是大家也会通过像 Dify、Coze 也去捏一些 Agent。
与这些大家可能见过的 Agent 相比,Manus 它最大的不同可能是什么?
李博杰:这个问题非常好。刚才您提到了三种不同的 agent。第一种 agent 是像豆包里面那个,或者说是 Kimi 里面他写的智能体的那个。其实他写的智能体的大部分,他还是那个 chat,他只是加了一个 prompt,就是说他加了一个系统的 prompt,就是一个人物的设定或者角色的设定,告诉他,比如说 “我是一个某某的,这个一个动漫游戏的人物”,然后你聊的时候,他说话就很像他。这种是相当于是 agent 最初级的一个阶段,因为他每次任务输入一个东西,他就是大模型就调用一次,他甚至都没有一个工作流的概念,就是说你输入,然后他就调用大模型来回复,然后回复了之后用户再输入下一个问题,再调用一次大模型。
然后刚才你又提到了第二类,就是说像 Dify 还有 Coze 之类的,对吧,这些它是稍微专业一点的 agent。然后还有一个就是刚才说的 Manus,或者说像现在比较新的一些 OpenAI Deep Research,还有包括像其他公司的一些 Deep Research,还有 Operator Computer Use 这些产品。
我感觉这两类产品的主要的区别,就是在一个是编译型的,一个是解释型的。编译型和解释型是我在网上看到的一个说法,我觉得说得挺好的。
像 Dify 还有 Coze 这一类的,它是一个编译型的。什么叫编译型的呢?就是说这个 agent 的一个开发者,然后是在做一个编译的过程,他通过一个提示词,或者通过这个鼠标拖拽的一个方法,生成了一个固定的一个 workflow,然后 agent 在执行的时候,他会按照这个 workflow 一步一步地去做。但是做的过程中,他会去调大模型。
简单举个例子的话,比如说我要做一个公司的知识库问答这样一个 app,它这个 workflow 可能分为几个固定步骤。第一步,先要理解用户的问题,然后生成几个关键词。第二步,拿这些关键词在知识库里面搜索。第三步,根据这些搜索结果调用大模型生成答案。在实际运行时,当普通用户使用时,这个 workflow 就固定不变了,按照这几个步骤来执行。
但是像 Manus 还有 Operator 之类的解释性 Agent,它们就不太一样了。它是一种解释性的工作方式,实际上不需要一个专门的开发者去开发一个 workflow,而是普通用户直接提出需求就可以了。
比如说,我现在要到公司知识库里面搜索一个问题。用户提出问题后,解释性 Agent 会自主搜索,发现这个公司是谁,找到这个公司的知识库在哪,然后发现它有一个搜索的 URL。接下来,Agent 就会进入到这个公司的知识库里面,生成对应的关键词去搜索,再生成答案。
解释型 Agent 的做法是比 Dify、Coze 更加灵活的。比如说第一步搜索,发现搜索出来的结果不太对,然后它可以再搜索一次,重新修改一下这些关键词再接着搜。或者说,我在公司的知识库里没找着,但它可能是一个通用的概念,它就会到 Google 里面去搜一搜,可能去通用搜索引擎里去搜索。
这些都是解释性 Agent 的通用能力,它的自由发挥能力更强,可做的范围会更多。比如像 Manus,它有时候会在遇到问题时自己想办法解决。我之前测试时有一次它的虚拟机坏了,做到一半虚拟机无法运行了。如果是传统的 workflow agent,肯定直接就报错,就干不了活了。
但是 Manus 说,既然我的虚拟机坏了,但我可以直接跟用户沟通。它说:”我要搜索这个页面,你能不能想办法把它粘贴到 HTML 里头,让我帮你去完成任务?” 相当于把我当作虚拟机来调用。或者说它的搜索功能坏了,它就让我帮忙,问我能不能去 Google 里面搜一个,再把搜索结果给它粘回来,就是把我当工具来调用了。
所以我觉得这个事还真挺有意思的,它能够自己想通一些变通的能力来完成任务。但这也意味着,虽然它的使用范围更广,但并不是说在所有场景下,这种解释型的 Agent 一定会比传统的、像 Dify、Coze 之类的更好。因为如果一个流程是确定的,那编译型的 Agent 肯定会更稳定。
极客公园:听起来您认为两种 agent 类型各有优势。编译型 agent 在某些场景下确实更可靠,成本也更低,是吗?
李博杰:是的,编译型 agent 确实更可靠,成本也更低,因为它每次都固定地使用那几个模型。有些功能甚至都不需要 AI 模型,比如搜索功能就不需要大模型。这种情况下,它的成本肯定会更低,小应用的速度也会更快。而 Manus 这类 agent 有时候做事就比较 “捉急”,因为它每次都是从零开始,需要先思考规划,可能一个小任务就要花十分钟,这就是它们适用范围的不同。
编译型 agent 很多时候会包含一些行业数据和行业的 know-how 放到工作流程里面,比如 Dify、Coze 等很多行业专用的 agent。举个例子,如果把我直接放到淘宝店去做客服,我估计可能还不如一个专门训练过的淘宝客服。为什么呢?因为我不了解那些话术技巧,可能也不了解淘宝店要卖的那些产品。所以在这种场景下,编译型的、传统的 agent 可能更合适。
极客公园:我本来下一个问题是想问,听起来 Manus 这种 agent 的发展会对那种让你去搭建工作流的 agent 有很大影响,但听您刚才讲,似乎没有什么影响?
李博杰:对,我自己感觉它们是适用于不同的场景。就好像现在计算机这么发达,但是计算器仍然有用,对吧?因为它们适用于不同的场景。
不过 Manus 这种类型,我觉得它在总体上是一个很好的方向。他们有一句 slogan 写得挺好:”Less structure, more intelligence”(更少的结构,更多的智能)。这其实跟学术界很有名的一个理论 “The Bitter Lesson”(苦涩的教训)讲的是一个意思。”The Bitter Lesson” 的作者 Rich Sutton 今年刚获得图灵奖,他的观点是:只要利用更多的算力和更多的数据做一个通用的解决方案,会更强大,不要把各种人类的思维方式强加到 AI 上面。
我记得我的导师在微软亚洲研究院(MSRA)的时候经常给我讲一个故事。他说我们看所有的科幻小说或者科幻电影,里面基本上都描述各种外星人比人类强大、科技先进、跑得快、力量强,但外星人都有一个共同特点——特别笨。最后人类总是能用各种谋略让外星人陷入陷阱,然后打败他们。人可以想象一个比人大 10 倍、快 10 倍的东西,但人很难想象一个比人聪明 10 倍的东西,因为这样的东西在世界上还不存在。如果这个东西真的存在,比如外星人真的比人聪明十倍的话,那么人类的所有计谋、各种技巧,可能在他看来都是非常 trivial 的。
人之所以有这种谋略,有些时候叫做神机妙算,是因为在思考过程中,人一次只能够处理有限的信息,比如说就是 7 加减 3 这种程度的知识量。但当几十个变量放到一起时,人就会感到混乱,无法处理。而一个足够强大的 AI,它就能做到这一点。比如说在现在的 AI 模型写代码方面,我觉得就非常典型。人类写代码一般是先打个草稿,然后在里面慢慢修改,修改过程中可能忘了前面某个函数怎么用,还需要往上翻查看。但 AI 可能哗啦哗啦地一个 token 接一个 token 全都输出出来了。当然,它一次输出的内容可能不一定完全正确,它需要再反思、再修改、再测试,这是另外一回事。至少在写代码的过程中,它可以从头到尾完整地把几百行的代码写出来,这是人做不到的。
这件事说明至少在某些方面,AI 的能力已经比人要强了。当然,它的通用能力肯定还不如人。我认为未来随着模型基础能力的提升,”less structure, more intelligence” 这句话肯定会成为现实。
极客公园:我记得你刚才说的这个外星人的比喻让我想起了刘慈欣写的《三体》。在小说中,外星人确实比我们聪明,但他们有一个缺点,就是识别不了谎话,没有办法言不由衷,所以被我们抓住了这样一个小漏洞,然后把他们给制衡了。
李博杰:对对对,就是这种情况。那 AI 是否能识别谎话呢?我觉得是能识别的。比如说现在我把一个谎话扔到 o1 里面,它肯定也能推理出来我在说谎,对吧?
极客公园:你跟它说 “我有一个朋友”,然后它可能会反问 “你说的这个朋友是不是就是你自己?”
李博杰:对,尤其是 DeepSeek R1 在这方面最强,直接就各种方面给你嘴臭批斗。
极客公园:是的。刚才我讲了一个可能是这个产品给大家最大的启示,也是 Manus 团队自己为什么可能是第一个做出了消费级的 2C 通用型 agent 背后的原因。他们自己描述为 “Less Structure” 和 “More Intelligence”。这个观点并不是他第一个提出的,在 R1 的论文里也有讲到,包括可能更早之前 Richard Sutton 在《苦涩的教训》里面也讲过类似的观点。但我觉得可能大家在讲的 “更少的结构,更多的智能” 这个概念可能理解不一致。从 Manus 的角度来说,他理解的 “更少的结构,更多的智能” 是什么意思?博杰能否给大家阐述一下?因为我看 Peak 对这个问题有很多观点,然后博杰也有很多解释,他到底指的是什么?因为感觉大家说的不是一回事。
李博杰:我自己粗浅的理解是,他可能是在讲利用更多算力和数据的通用解决方案,最终能力会更强。就像刚才我讲的那个故事,不要把人的思维方式强加到 AI 上面,人要去想象未来 AGI 可能是比人聪明很多倍的。
当然,我认为现在 AI 的能力还比较有限。比如说 Manus 现在用的方法其实也是人类给的一些 structure。比如说它所谓的 multi-agent,其实就是 structure,就是说我一个 agent 的能力不够,那我就在使用电脑的时候、写代码的时候、做搜索的时候,分别用不同的 agent 来完成,然后每个 agent 在特定方面做一些强化。这个实际上是一种工程上的技巧。
但是这个 “less structure, more intelligence” 我觉得它可能是从一个更广泛的角度来讲的。比如说同样是 computer use,我不需要专门做一个操作 Word 的 agent,再做一个操作浏览器的 agent,然后再做一个操作视频剪辑软件的 agent。他不是这么去做的,而是说在一个大的领域里面,比如都是操作电脑,我就训练一个 agent 去做这件事就够了,这就是 less structure。
这里的 structure 指的是把人的很多经验或知识放到 AI 里面。《苦涩的教训》讲过,在 60 年的 AI 发展历程中,很多人都试图把自己的经验放进去,最后发现都不如利用更多算力的通用方法。
最早是贾里尼克,最早搞 NLP 的那个人,他说:”每开除一个语言学家,AI 的能力就能涨一个点。” 因为当时最早的时候,大家都是用规则的方式,就是主谓宾定状补那种分析方法。规则越多,短期内效果能提升,但最后发现它上升到一个台阶就上不动了。
再往后就发展出了各种逻辑回归、SVM 之类的,用数据驱动的方法来做 AI。最早都是提特征,就是当时我们搞搜索也好什么的,都是几千个特征。这种手动去提 feature 特别费劲。
然后后来就到了神经网络,比如 ResNet,ResNet 虽然人不用提特征了,但它至少还要有监督的数据,人要去做数据标注。标注完了之后,它只能做一个任务。
比如说当时我们做那个小冰,我印象特别深的是,当时我们搞微软小冰,用户还挺多的,上亿的用户。但是当时怎么支撑那么多用户呢?当时又没有像 GPT 这样的模型对吧。当时就是一个星期,我们给它增加一个新的技能。比如说,这周我们就专门推这个写对联的技能,下周就是推这个写诗的技能,再下周就给它弄一个猜谜语的技能。然后每周都有一个好玩的功能,当然已有的技能它也不会丢掉,比如说有唱歌什么的,看着什么都能看。
但是你要真是把现在我们用 AI 的那些常用问题,你问它一个很长的一段 prompt,那它肯定搞不定了。就是说,它玩起来比较好玩,但当时就是结构化的,每一次人都把自己想要的一种技能弄成训练数据,让这模型能干。
然后到现在这个像 ChatGPT 这个就真的是,我觉得接近 AGI 了。原因就是它不再是为专门的每一个特定任务去训练一个模型了,而是一个模型它什么任务都能干。Manus 今天能够完成这么多通用任务,也是因为现在基础模型的多模态能力、推理能力、工具调用能力真的到了这个程度。
有了通用的基础模型之后,大多数公司做的事情就是像 Manus 这个 Multi-Agent 的方法,针对每一个不同的任务去做一些微调,就是用少量的数据和少量的算力去稍微调整一下,包括一些 Prompt、一些 Workflow,让它效果变得更好。这个就是一些工程上的技巧。
但是最关键的创新,大部分的算力,还是在这些基础模型的公司,比如说像我们国内的那些 “六小虎”、DeepSeek、字节、阿里这些,还有海外的 OpenAI、Anthropic、Google、xAI 等等巨头,大量的算力都投入在这些公司里。基础模型的创新是最关键的。
其实在训练基础模型的过程中,“less structure, more intelligence“ 这句话也在反复被验证。
比如最近非常火的推理模型,OpenAI o1 刚出来的时候,大家都想复现它的效果,然后就找到 OpenAI 的一篇 paper Let’s Verify Step by Step,里面的意思是说要对模型的思考过程一步一步的验证,看这个中间思考过程每一步对不对。但这个一步一步验证的奖励模型非常难训练出来,大家都搞不出来。最后 DeepSeek R1 发现,我不要这个奖励模型,不要一步一步验证它中间的思考过程,只要看最后的结果对不对,模型就会自己学会如何思考。
这就是 DeepSeek 的 R1-Zero,R1-Zero 这个事情还是很震撼的,只要告诉模型思考的最终结果对不对,不用一步步教它怎么思考,它就能自己学会如何思考,这种学习能力真的有点像人了。这个思考过程就是 structure,之前大家尝试 PRM、MCTS,把人类的思考过程试图让 AI 学会,最后发现还不如让 AI 自己去探索如何思考。而且这种方法不用人教具体怎么思考,因此它的能力天花板是比人高的。
所以说 R1 真的是一个里程碑式的工作,之前大家认为模型的能力不可能超过预训练语料的能力,那 AI 就永远超不过人。但 R1 给了大家一条让 AI 能力超过人的途径。这就是 less structure,more intelligence,人强加给 AI 的结构限制越少,智能水平的上限就越高。
极客公园:李博杰,我有个好奇的地方。我们刚才说因为 Manus 用的是 multi-agent,然后会不会就是因为它用的这样一个架构,才导致有一些问题我们问完之后,它大概 30 分钟也跑不出来?它是不是自己在那想,我到底应该用哪个 agent,然后这些 agent 串在一起… 我去,我是卡了吗?
李博杰:您刚才问的问题是不是说有多个 agent 串在一起,然后就导致很多 agent 不知道该用谁了,结果 30 分钟都出不来,是吗?
极客公园:是不是这么样的情况?我刚才有点卡,不好意思。
李博杰:对,对。实际上 Manus 的问题并不在于他不知道该用哪个 agent,而是可能这个问题本身太难了,超出了现在 AI 能解决的问题范围。比如说,他可能涉及了一些领域知识,但他不知道;或者说他搜索的数据源不是很专业。
比如说之前我提到的收集报告的例子,OpenAI 的那个可能更专业,因为他搜索的数据源更权威。OpenAI 用的很多都是一些专业分析师的报告,一点进去都是那些美国专业分析师的报告网站。但 Manus 可能就没有做这一块,他只是做了一个 Google search,搜出来的结果好多都是一些大众媒体的报道,这个深度肯定是不一样的。
第二点是在模型本身的 RL 训练方面。我不太清楚 Manus 具体用的什么模型,有人说用的是 Claude 3.7 Sonnet,有人说是在他们自己的 Qwen 模型上面做了一些 RL 的微调。但不管怎么样,效果肯定是不如 OpenAI 的 O3 mini 做的 RL,因为他们做了很多的积累。OpenAI 那个模型的通用能力肯定会更强,他看到信息后会从很多方面去 challenge。
我记得当时有一个问题挺有意思的。我问 “英伟达 GPU 卖不到中国,哪个科技 Leader 会最着急?哪个科技 Leader 会最高兴?” 然后 OpenAI 分析得非常聪明,他能够想到,英伟达的 GPU 卖不到中国不是因为把英伟达封了,而是不让中国买先进的 GPU。所以 AMD 的 Leader 不会特别高兴,因为如果 AMD 的显卡很厉害,可能也卖不到中国。OpenAI 想到了这一层,但其他的,不管是 Manus 还是其他家的,基本上都想不到这一层,都觉得英伟达卖不过去,肯定 AMD 卖得多。
极客公园:所以说 AMD 的老大肯定最高兴对吧?这个他就可能会多想一层,是不是信息源的问题?
李博杰:我觉得这一点,它可能不一定是信息源的问题,可能就是模型训练得会更好一点。
极客公园:那过去两年,在 Manas 出圈之前,过去两年其实已经有很多 agent 已经有过现象级出圈了。就是博杰老师过去两年有没有一些例子可以给大家讲一下?
李博杰:好呀,这非常多。
最早的时候我记得就是 AutoGPT,那个是最火的,他能自动做 agent 的工作流。哎呀可牛逼了,然后就是查天气,然后一切折腾了半个小时,终于把天气查出来了。当然现在这个不管是 Manas 还是哪个产品,都不可能说是半个小时再查出来。因为当时首先第一是模型比较慢,它输出那个 token 就很慢;然后再就是模型能力也不行,然后经常是说我就看着它很捉急,明明它都已经查出上一个网页里,明明都有内容了,它愣是没看见。或者说是它这个内容明明就不对,它不是这个城市的天气,然后它还以为是这个城市的,就直接输出来了。那时候基础模型能力很捉急,这个确实不行。但是现在 AutoGPT 当然也存在,它也是一个很好的 agent 工作流的平台。
接下来,Dify 我觉得是一个挺好的东西,我觉得是把这个 agent 的创建,就是创建工作流类的 agent 这件事,就变得平民化了。之前一说写 agent,都是一个专门搞 AI 的人才能搞的,但是现在的话,他只要用鼠标就是拖拽那几个框框,把那 agent 连起来,然后他就能用了。这样的话,就每个人都可以创建个 agent。
还有那个知识管理,之前也是比如说每个人,咱们都得去弄一个相当数据库,然后还得弄一个 embedding 什么的。好多人可能 embedding 是什么都学不懂,对吧?然后他现在说你只要把知识库文档传进去,他就会自动帮你去检索到相关的文档,那这个东西,它的效率就又会高很多。所以说我觉得它是一个方便大家使用的东西。
然后后来我觉得还有一个比较有意思的是 MetaGPT。MetaGPT 就是多 agent 的,就是它是说让大家分别担任这个不同的角色。比如说咱们软件开发团队,然后有程序员、有产品经理,程序员里边分前端后端,然后有运维、有测试,然后还有项目经理负责搞进度的。
但是其实就是说软件开发这件事来说,我觉得用这种 Multi-Agent 的方案其实不一定特别好。为什么呢?他经常是这些 AI 程序员还有产品经理,把人类大厂当中互相扯皮的那种情况也模拟出来了。就是说他解决问题的能力提升了,扯皮能力也提升了。当时我试了 MetaGPT,发现程序员会欺骗产品经理,说 “我这个任务已经基本完成了”,但是根本没测试过。然后产品经理说 “好,然后你给测试”,然后测试一测,发现不 work,再给程序员打回来,然后又得重新开发,基本上就这样。
另外就是前端后端互相扯皮,前端说:”我这里边这个页面这个元素显示的不对,然后你后端把格式改改就行了。” 后端说:”你这个东西不会自己 parse 一下吗?你这个格式修改的东西你自己搞去。” AI 就学会了这些人类大厂中低效的组织结构,当然这是很搞笑的事情。
你看为什么 Cursor 或者 Devin 这些现在更新的一些 Coding agent 没有去整这个,是因为大家发现 AI 和人还是不一样的。因为人类世界之所以需要划分这么多角色,我觉得是两个原因:第一个原因是人的能力有限,他可能只掌握一种技术,比如说我前端写好就已经很不容易了,再让我把后端、运维、产品设计都弄好,可能比较难。但是 AI 刚才我们说了,less structure more intelligence,还有 the bitter lesson,讲的都是这一个模型,它有几乎世界上所有的知识和能力,所以说它本来就什么都能干,那其实它应该对标的是一个全栈工程师,不应该是大厂不同角色。
第二是 AI 干活的效率比人高很多,一个大模型一分钟可以输出几百行代码,但是人的话,那基本上几百行代码一天才能写完。所以人的编程之所以要分这么多角色,大家弄一个团队去干,是因为它要去 parallelize,就是要并行。但是 AI 的并行化,比如说我现在写一个几万行代码的项目,如果 AI 完全哗啦哗啦一行一行往下写,然后不做任何的检查,不做任何测试的话,它一天就都写完了。那这个速度也就够了,我也不需要一个软件要做到一天之内全部开发完,毕竟人要测试,要迭代改进。
所以这个时候 AI 可能不需要那么多的 parallelization,就是分这么多角色来并行化。因为咱们都看过《人月神话》、软件工程这些东西,并行化越多,沟通成本就越高。所以 AI 和人编程,其实还是不完全一样。
但是我觉得有另外一个事,我觉得是比较 make sense 的社会模拟,就是李国豪老师搞的 CAMEL AI,他们讲的 Multi-Agent 不是让它去做开发,而是去模拟一个社会,让各个 agent 互相 debate。
这件事让我想到一个很有名的思想实验,叫 “宇宙回形针”。假设我们有一个机器,它的唯一目的就是要制造回形针,而且它特别聪明。那么它可能会把地球上的所有资源全部用来造回形针,甚至认为人类是障碍而将人类消灭掉。接着它会探索宇宙,把宇宙中所有的资源、所有的星球、所有的物质都变成回形针。
但这样的世界并不是我们人类想要的。人类可能更希望有 diversity(多样性)。为什么人类的生物世界比较有意思?因为它有多样性。那么,如何让未来的 AI 不至于把人都消灭掉,变成一个回形针世界,而是能够生成多姿多彩的、不同的智能呢?
我觉得 Multi-agent 去模拟一个社会,让它有一个 incentive(激励机制),有竞争的体系,让每一个 agent 能找到自己合适的生态位,而不是把别人都消灭掉,这可能是非常重要的一点。这是个很有意思的研究方向。
再往后看,到 2024 年底,我们看到了像 Cursor 这样的 Coding agent,就是那些 hands-on 的编程助手。然后还有 Devin 这些 hands-off 的产品。hands-on 和 hands-off 的区别在于:hands-on 需要人不停地盯着它,review 代码;而 hands-off 像 Devin 这种,人只需要提出需求就够了。我稍后可以展开讲这些区别。
Coding Agent 之后,还有更新的一些产品,比如 Manus,OpenAI operator 和 OpenAI deep research。这些 agent 的能力更强了,已经远远脱离了最早那种像 Dify 或 Coze 这种 Agent Workflow,而是一个完全自主地思考如何解决问题的系统。
极客公园:可能不太了解 Agent 的朋友听起来有点晕。刚才博杰老师讲了好多现象级的产品,我可以理解为这是 Agent 走向越来越灵活,并且能够解决越来越复杂问题的过程吗?
李博杰:对,是这样的。Agent 越来越通用,能够解决越来越开放、通用的问题。
极客公园:那我想知道,当 Agent 走向越来越通用,能够解决越来越复杂的任务时,它的稳定性如何?你刚才提到一个概念叫做 Hands off 和 Hands on,它有没有达到能解决复杂任务,但又真的能让我做 “甩手掌柜”,达到非常高完成度的阶段?
李博杰:这个可能现在还不行,我觉得到 2025 年底可能才能出现。我希望基础模型再进展一步——现在基础模型基本上几个月就会有一次进展,大家发展得都很快,比如现在 DeepSeek R2 可能快要发布了。所以再进一步,我觉得就能够实现在通用任务上也能像 “甩手掌柜”一样的效果。
但我仍然相信一点,如果一个任务本来就比较简单、比较容易流程化的话,那些简单的 Agent 仍然会有市场,因为它们的效率会更高。所以对于本来就比较简单、容易流程化的任务,简单的 Agent 仍然会有市场,然后它的稳定性还是会更高。通用 Agent 即使是一个 99% 的稳定性,也不如 100% 的稳定性,对吧?就好像我们算数,虽然说我们人类能算的 99% 正确,但是还是会有可能算错,还是不如计算机算得准。这个道理是一样的。比如说一些 customer support,还有一些比较确定的工作流,那可能还是这种传统的,像 Dify 这种 agent,它仍然会更加低成本并且有更高稳定性。
我觉得通用的 agent,它主要是扩展 agent 应用的边界。就是说,如果一个领域很复杂,然后不能够很好地将工作流固化下来,那这个时候大家就用这个通用 agent,能够什么都做。而且它能够越来越从 B 端往 C 端迁移。就像刚才婉辰说的,最早的一些 agent 可能还都是面向开发者的,比如说 Dify,它还是面向 agent 开发者的。但是现在的话,像 Manus,还有 OpenAI 的 Deep Research 这些,就完全是面向普通的 C 端用户了,你不需要任何关于 AI 的背景知识都可以去用。
极客公园:嗯,我会好奇,然后就是婉辰也可以一起讨论这个问题。就是因为 Manus 一出之后,因为 Manus 背后就是所谓的 multi-agent,他会接通各种大模型,然后去帮他拆解任务,然后去看谁更合适。
未来会形成这样一个可能,就比如说,用户其实他面对的并不再是像 ChatGPT 或者是像 DeepSeek,然后像秘塔 AI 这些 AI 搜索类的应用,他可能直接面对的就是一个他自己的,例如说 Personal Agent 之类的东西。那就相当于说这些大模型公司就可能在 C 端推自己的可能就没有那么大意义,当然他们也可能会自己去做 Agent。
然后就说其实这些大模型能力会变成在 agent 的背后,有点类似于像我们智能手机,其实大部分用的是一个运营商的网络,但是我们就已经看不见运营商了,因为我们看的都是这些我们手机里的 app。会有这样一个情况发生吗?
李博杰:您说的是说,会不会说以后我有一个通用的智能体,然后我可能一个大厂或者一个 startup 做了一个东西,以后大家都用它作为入口,我已经看不见它底下的各种 app 了?
我自己感觉的话就是首先就是入口这个方面的话,这个像操作系统硬件厂商的优势还是非常大的,就比如说像微软、苹果、Google、华为这些公司是吧,他肯定有一个入口。那我用这个入口做一个这种像 Manus 或者说是 OpenAI Operator 这种操作系统级别的 agent,他又能访问用户的这些所有的个人数据。同时的话,他又能够有一个硬件在这儿,他可以存储用户的很多记忆,因为对于人来说,memory 非常关键,他得知道用户之前干过什么事,然后而且他知道用户的一些 preference,就是他的偏好,才能够更好地去做事,这个是非常关键的。
我觉得创业一年多以来,我逐渐意识到有些事情是适合大厂做的,有些事情是适合创业公司做的。我之前想搞 AI 操作系统,还搞了个域名 OS.AI,但最近我也把这个域名卖掉了,大家可能在网上也能搜到一些新闻,因为我感觉这个 AI 操作系统这个事情不是我这种创业公司能做的。
但 AI 一个基础模型不可能全知全能,不可能把每个行业、每个领域的问题都解决了。因此上面的 application 的话,我认为不可能完全消除。我不知道你们有没有看过那个 Anthropic 那个 MCP,就是有一个叫做模型和外部数据源交互的这个协议。
极客公园:对,你给大家稍微讲一下这个 MCP,因为我感觉最近这个 MCP 行业特别热。
李博杰:对对对,就是说这 MCP 这个设计的理念是什么呢?因为不可能说未来这个世界上只有一个公司,所有的数据都在里头,然后这个一定是会有很多专业的领域,那么每一个专业领域都需要它专业领域的公司去做这个事。
就比如说这个面向 2C 的领域,我可能有谷歌云盘,有可能有谷歌地图;然后那些面向企业的领域,我可能有 GitHub 仓库对吧,然后我用 Slack 办公协作的软件,然后我有 Notion 的知识库,然后有 Cloudflare,它是用来管理运维的。然后还有比如说企业内部,它可能还有各种数据库,有向量数据库,有 Postgres 这些关系型数据库,还有 ClickHouse 等等这些不同的数据库。
而且它还要去有其他的一些网页搜索,比如说网页搜索,这个 Google 是吧,短期内肯定不会消失。那等等就是有很多的这些第三方的服务,它现在已经存在,或者说未来它会长期存在。那么这些它要都要把那个 agent 能够接进来。
也就是说 agent 的作用并不是说要取代 Google,然后取代 Slack、取代 GitHub、取代 Google Drive 对吧,它不是要把所有的人都干掉,而是说它要把所有的人都形成一个生态系统,让它能够互相对接起来。
这件事其实非常重要,因为之前的话这所有的这些应用,比如说谷歌地图是吧,都是给人用的,它的操作界面都是图形界面。如果大家都像 Manus 那种用法,就是通过 AI 去操作手机界面,当然是可以做的。但这个效率很低,因为我每次都得先打开界面去学习,有可能还会遇到问题,比如可能还要处理验证码,AI 可能还在那填验证码,这个过程就很低效。
如果说 agent 真的在未来要在这个世界上大行其道,就像今年我们称之为 agent 的元年,很多 agent 都要在各行各业落地了,那肯定是要尽可能高效地去获取这些数据,而不是再用操作图形界面的方式。
这种情况下,MCP 就定了一个标准协议,就像我们的 USB Type-C 接口一样。之前我们各种设备都是不同的接口,需要一大堆转接线,现在都统一成一个接口,直接插上去就行了。
MCP 服务器的具体工作方式是,它会告诉你这个服务里有哪些数据,然后当 AI 要使用这些数据时,应该用什么样的 prompt 能够更好地去使用。比如一个企业内部代码版本控制的 MCP 服务器可能提供所有的代码文件作为数据,而 prompt 模板可以包括如何做 code review、如何解释代码的工作原理。
然后 MCP 服务器会定义一系列的工具。因为有时候这些数据是零散的,需要用一些工具才能查找。比如,如何在一堆数据里面找到与某个东西相关的内容,或者进行一些修改。假如我是一个 GitHub,是代码管理的,那这个 agent 可能说:”我现在要提交一个代码到代码仓库里面。” 那么它会提供一个工具叫”提交代码”,然后调用这个工具就把代码提交进来了。
MCP 设计了一系列包括工具、数据、Prompt 模板等这些东西,它可以让 agent 能够实现更复杂的工作。甚至还有更高级的玩法,就是这个 MCP 服务器作为第三方服务,还能反过来调用 agent 里面的大模型。
举个例子,假如我在自己电脑上搞了一个特别牛的超级 agent,比如装了一个桌面版 Manus,然后我去调用 GitHub,GitHub 可能会说:”我想在你提交代码之前,先 review 一下你的代码”,然后它再调用你自己电脑上的一些功能。当然,这里面又涉及很多隐私保护的问题。
所以 Anthropic 的 MCP 其实是一套挺复杂的协议,但它设计得还是挺简洁的。可能很多人一看这东西这么复杂,就懒得看,直接扔到一边去了。
刚才婉晨和靖宇可能都提到了,Manus 有那么多种工具,二三十种工具,问题是怎么能用好,如何知道该用哪个?最关键的是它需要使用一种类似 MCP 的标准化协议,清楚地说明现在有哪些工具、有哪些能力、有哪些数据源、能做哪些事情。一旦变得比较标准化,模型就能更容易地处理这些信息。但是对于没有太多经验的人来说,他们自己写出来的东西往往非常 ad hoc,就是这一块那一块堆在一起,结果 AI 看了以后就彻底晕掉了。
极客公园:对,我们看到一位网友说,企业可以在部分业务开始使用 agent,比如招聘和报销。
李博杰:这个说得对,因为 Manus 其中一个挺好的用例就是帮你去处理繁琐事务。
极客公园:报销这个我也能理解,每次到报销的时候,大家都很头疼,尤其是需要贴票的那种,这个真是交给 AI 最好。
李博杰:我当时还真试了一下 Manus 来做报销。我觉得那个网友提的建议非常好。在有 Manus 之前,我就自己做了一个 workflow agent,基于 Dify 那套方法去做的。我只要把报销的发票照片上传,它会自动帮我提取里面的关键数据,然后填到公司的 OA 系统里面。之前我每次出差回来报销基本上都要消耗大约两三个小时的时间,只为了处理那二三十张票。让我天天做那种报销工作,实在太浪费时间了。
极客公园:刚才我们讨论了好多种 AI agent,然后发现大家经常在我们稿子的评论区后台,还有在各种能看到网友发言的地方,都在争论什么是 agent,”这个是,那个不是”。博杰,从你的角度,大家讨论的 AI agent 到底分几种?
李博杰:我觉得这个问题挺好的,涉及到 agent 的定义。其实我觉得 agent 这个英文单词在英文里本身的意思就是一个代理或者助理,相当于我们日常生活中的助理。助理是什么呢?比如中介,或者说是那些帮你办事、帮你完成一些任务的人。我觉得 AI agent 也是取的这个概念。
从学术角度来讲,有一个说法叫做 “感知、规划和行动”。感知就是 Agent 从环境中收集信息并从中提取相关知识的能力,规划是指 Agent 为了某一目标而作出的决策过程,行动是指基于环境和规划做出的动作。
极客公园:您刚才提到的 agent 能够从环境中收集各种信息,然后基于这些信息提取知识,接下来进行规划,针对某一个目标进行决策,最后执行动作。这是一个感知、规划和行动的过程。那么从严格意义上讲,传统的 workflow 应该不能算是 agent,对吗?
李博杰:是的。agent 需要能够自主地收集信息,自己决定要做什么,进行规划。但如果像刚才婉晨提到的,我们只是写了一个 system prompt 来模拟某个人物角色,或者像 Dify 那样在工作流中做了几个不同的环节(比如第一步搜索,第二步生成内容),这种情况下它实际上没有规划和感知的能力,严格意义上不能称为 agent。
当然,学术界的定义往往比较严格,而我们在工程实现上需要一步一步发展。像 Manus、OpenAI Operator 或 Deep Research 这些,才算是真正的 agent,因为它们能够基于当前状态,知道下一步应该做什么对自己最有利。真正的 agent 必须具备自主选择下一步行动的能力。
极客公园:听起来过去我们所说的 “给 AI 设定一个提示词,让它以某个卡通人物的方式回答问题” 这种应用,其实还只是一个聊天机器人。而 Dify 那种可视化工作流构建出来的也不是严格意义上的 agent。只有按照您刚才所说的 “规划-感知-执行” 模式运作,才能称为真正具有自主观察、思考、探索和行动能力的 agent,是这样理解吗?
那么,您能举个例子,从哪个产品开始,我们才可以说是真正的 agent 呢?是从 Dify 出现的时候,还是从 WindSurf 出现的时候?
李博杰:我觉得最早的 AutoGPT 实际上就是真正意义上的 agent 了。AutoGPT 在 2023 年出现,虽然当时因为模型能力不足,效果不太理想,但它确实是按照 “感知-规划-行动”这一模式来运作的。当时还有一个很火的开源框架叫做 ReAct,这个也是感知规划行动那套,它那个 RE 就是 Reasoning 推理,然后 ACT 就是 Action,然后其实咱们现在的推理模型,就是先 Reason,然后再输出,其实跟那个 ReAct 的逻辑是一样的。ReAct 当时出现的时候还没有推理模型,所以说它是用其他的方法在模拟实现的。
极客公园:明白,我想问一个问题,那么未来像这一套感知、规划、执行会不会通过一个端到端大模型可以去实现?现在我们的端到端大模型它可能只能执行的是在一轮聊天里把你的问题给回答清楚,它只能到这样。然后可能现在 Manus 是通过把计划规划和决策的多智能体弄成了一个系统,然后有了这样的通用能力。那未来会不会就是一个端到端的大模型就可以做到像 Manus 这样的程度?
李博杰:其实现在 Manus 或者 OpenAI Operator 应该说就是用一个端到端大模型做的,或者说它可以用一个端到端大模型做。agent 可以理解成是它外部执行的这一套环境,可以理解成就像操作系统,然后这个大模型本身就有点像是 CPU。就是说我们机器里边只有一个 CPU,类比只有一个大模型,但是它每次执行的指令,它看到的东西不一样。
我们的大模型是一个循环迭代执行的过程。它第一次只看到了用户输入的一个需求。然后第二步它做了一步动作,比如说它可能做了一个搜索动作,那它就会看到这个搜索结果。然后第三步它可能根据这个搜索结果和一开始要做的任务,决定说我要去点击这个搜索结果去看一个网页。那么第四步,模型看到的内容又多加了一个东西,它看到的是这个网页的截图或者文字内容。它就一步一步地往后这么走。
比如说它看到这个网页内容以后,它可能觉得这个内容挺好的,我要往下滚动再看下一屏;也可能觉得说这个内容没关系,然后我要返回到刚才搜索结果的列表去点其中第二个搜索结果;也可能是我决定这个网页内容已经足够回答问题了,我直接可以给用户回答了。这个就是它行动的一个过程,就是它可以根据它现在的情况来自主地选择做不同的动作。
极客公园:我可以这样理解吗,博杰?就相当于是因为可能像 Manus 它的定位是一个 AI 实习生,就可能像我这样的人一样。
那我可以理解为它是已经在以一个端到端大模型的方式去完成一个相对通用的 agent 的工作方式吗?它就相当于比如说我人在这里,我现在的大脑就是那一个大模型。只不过你看到的可能像每次需要感知环境,然后观察、决策这一系列,可能就是你定义的眼睛、耳朵,然后手,可能一个交互的空间、一个行动的空间。但是每次调整的其实还是我的那个大模型,它已经在用那个大模型的方式去决定你每次看到什么、摸到什么,然后我应该生成什么样的规划。
极客公园:那就是说调用我的大脑,然后再去决定我到底它生产什么样的步骤,就已经是一个大脑就可以解决这些问题了,对吗?
李博杰:对,你说的非常对。他是一个大脑,然后但是它有多种感官,就是多模态的输入,对吧?然后呢,它还有多模态输出。
极客公园:嗯,明白。那我很好奇啊,博杰,你说,我很好奇为什么是这个 Manus 团队在这个时候发现了这个模型能力其实已经达到 Agentic Capacity 的这个能力。因为我记得红杉还是谁,应该在去年就提到了,很早就提到了这个什么 Agentic Year 之类的,就大家也在说一定未来是 Agent,但是好像只有她发现了,现在的模型能力就达到了。
我先提一下,他们用的模型的能力目前是 Anthropic Sonnet 3.5,因为只有这个能力在 Agent 能力上,比如说编程、长程规划和逐步解决任务上达到了这个能力。暂时是这样的,当然他们也在进行后训练和这个适配当中,所以他们选择了这个模型。
但是为什么看起来只有他发现了现代模型能力已经达到了 “我现在这个大脑已经达到了我可以给你做这个多层的规划,然后以一个多步的有逻辑的方式给你去执行出来”,为什么只有他发现?看起来是这样的。
李博杰:其实我觉得好多人都发现了,只是说可能 Manus 发布的比较早。
然后比如说像一些大厂,其实他们内部都做了好多这种研究。我记得比较近的,比如说 Google 和微软,我跟一些他们里边的技术专家去交流,其实他们内部也有类似的这些 demo,甚至他们可能有更多的技术积累。比如说他们有操作系统的底层的 API,对吧?一个做安卓的,然后一个是做这个桌面操作系统的,他可以直接拿到这个 UI 里边的背后的元素树,那可能他比这个纯粹视觉的方案效率更高。但是那个元素树呢,又是跟一个代码一样的,那它的模型还得针对这个代码的格式,然后还有一些 APP 操作的一些特定的场景去做一些 RL 训练。
极客公园:请根据您刚才所说的内容,您认为那些大厂在开发 AI agent 方面的工作进展如何?
李博杰:这些后续链路,比如 RL 之类的,以及优化模型的工作都在进行中。但可能稳定性比较差,另外成本也比较高。就像 Claude 3.7 Sonnet 一样成本很高,对吧?而且它的稳定性也不是能够做到百分之百都能解决问题的。所以这些大厂发布东西会更加谨慎,因此很多东西还没有正式发布。
这是比较近期的情况。而更早之前,在这一波大模型浪潮开始之前,其实已经有很多公司在设想并尝试做类似的事情。比如我当时在微软工作时,比尔·盖茨经常讲要做这种通用助手式的 agent。我不知道大家有没有见过2003年版或者更老版本的 Office,在右下角有一个回形针助手。你点击那个回形针,它就可以和你对话。
极客公园:是 Clippy 吧,我记得。
李博杰:对,就是它。你点击一下,然后可以向它提问,它会从文档库里给你找 Office 使用相关的答案。它相当于只是一个搜索系统,因为当时 NLP 和 AI 的能力都很有限。但这至少说明微软一直想做这样一个通用的助手,能帮你完成各种任务。
微软内部其实也有很多相关的 demo。我是 2013 年开始在 MSRA 实习的,当时就已经看到很多 demo,有些甚至是 2000 年就开始做的项目。但都没能真正做出来,只是大家都在尝试做一个类似 HER 这样的通用助手。
我觉得刚才说得挺好,像 Claude 3.5 Sonnet 或者现在效果更好的 Claude 3.7 Sonnet,它的工具调用能力以及通用使用能力已经达到了一个及格线。这个及格线能够完成一些在人类看来还不错的任务,在这个时候就可以做出一个像样的产品,能够去做一个通用的 agent,所以它会在这个时候出现。
极客公园:既然聊到这儿了,我追问一下,听起来像通用的 AI agent 好像也是大厂的必争之地,对吗?只是他们还没有发布出来?
李博杰:对,我的感觉是这样的。就像刚才讲的,硬件厂商和操作系统厂商在这方面可能优势很大,而且它们一直在这方面积累。
但我觉得大厂相比创业公司来说,做东西会更谨慎。所以有些时候,一个产品对于创业公司来说可能已经 ready 了,比如 Anthropic 认为它可能能够完成大部分人50%的任务,它就可以发布了。但如果是在 Google、在华为或者在微软,这种产品肯定发布不了,因为一旦被发布了,肯定大家都骂,对吧?就说 “你这东西做的全都是错的”。大厂会更加谨慎一点。
但是我觉得,如果有一天 AI 的能力足够可靠,成本又够低了,那可能也会大面积推出。所以这个时候,对于创业公司来说,可能就是另外一种挑战了。
极客公园:对,博杰说到这个,确实是。因为我在记者会上看到有个同学,他给 Manus 布置了一个任务,说 “你教一下我怎么拍恐怖片”。然后 Manus 说”好,我知道你的任务了”,接着它快速去 B 站开始看,找了一个教大家怎么拍恐怖片的视频,然后看了那个视频 25 分钟。之后它去搜索了一个网页,调出来一个搜狐的网页,看完了搜狐的网页,又回到 B 站去点了那个教你拍恐怖片的视频。这究竟是什么情况?
李博杰:这个确实有点搞笑,这个蛮难摸的。如果我开发的产品出这种事情那就完蛋了。
极客公园:对对对,这种事。
李博杰:因为我记得我听说过 Google 的一个案例。当时他们在输入法里边做了一个小功能,就是说你输入两个表情包,它会给你自动输出一个第三个表情包,跟前面的两个内容相关的。这个小功能看起来挺好玩的,但是总有一些网上恶搞的人,然后搞了一些种族之类的东西放到那上面,导致一些非常不合适的组合出现。这个事情对谷歌的影响还挺大的。这些大公司到一定规模以后,会更加考虑这些方面的事情了。
极客公园:今天我看那个夸克也推出了 AI 超级框。你看它也挺像一个入口,首先是大厂必争的,其次它好像也挺像一个智能体的。无论它的任务是通过 API 的调用,还是通过一些比较自动化的通用的 agent 的方式去解决,这个是不是也可以理解为一个智能体产品?
李博杰:对,我觉得这个也是智能体产品。因为它里边其实也是说输入了一个东西之后,它能够帮你去做一些相当于自主的规划,去做下一步该干什么。这个跟之前的搜索产品是不一样的。
之前不管是大家在 Kimi 里面,还是在其他的一些搜索产品、Chatbot 的产品里面,它基本上工作流是确定的。就是说输入进去以后,它一定会先搜,然后基于搜索的结果生成答案,结束。即使 AI 觉得刚才搜出来的东西不足以做出答案,它也没有办法。就是说,我再重新换一个关键词,再搜一次,它没有这个决策的机制。所以说这就是现在这种通用智能体跟它最大的区别,就是通用智能体看到了这个以后,它可以决定下一步它干什么事儿。
极客公园:那我问一下,如果说 AI Agent 这个事情反而跑得比这个 AI 搜索还快的话,那这是不是代表这个最近刚前一阵刚热起来这个 AI 搜索,然后就已经遇到自己下一代产品,就会被抉择掉了?
李博杰:不会啊,因为 AI 搜索加一个小的改进就变成 AI Agent 了。所有的 AI 搜索就像刚才说的一样嘛,现在无非就是让 AI 判断一下这个东西还足不足以回答。如果说我觉得不足以回答,然后我就再重新搜一遍就行了。
这个事情其实也是有 tradeoff 的。之所以原来的 AI 搜索产品它设计成这样,是因为它觉得这样可以控制成本和延迟,就是它保证是在规定的时间内一定能够让用户达到答案。那不至于说我这个像 Manus 一样一弄半个小时的用户都收不到答案。但是如果用户说,我就是要深入了解,你给我细搞搞,那这样的话,AI 可以用更多的时间去慢慢地检索各种相关的资料,然后去分析,所以说这个也是可以给用户一个更大的一个选择空间。
极客公园:我可以举一个具体的例子吗?比如说 AI 搜索,我理解它可能就是在一个单轮对话里给你执行出一个结果出来,当然如果是这种 Perplexity,它后面会有很多的问题。已经进行过工程化和产品化的这个方式,它要比单纯一个像豆包一样的聊天机器人,它给我回答的质量更高。但是它依旧是在单轮聊天里面回答清楚我的问题。那如果是像这个 Deep Research 这种 AI Agent 的这种搜索的话,它是什么样的?可以举个例子吗?因为我们不懂。
李博杰:好,我举个例子。就比如说用户想搜了一个 “极客公园历史上都邀请过哪些嘉宾”。如果说你到 Google 里边搜一下,大概率你只能搜到这个最近的极客公园几期的这个活动,对吧?然后就十个、十个地显示,然后就说 “啊,就邀请过这十个嘉宾”,结束了。但是它不能调研到第一页搜索结果之外的其他的嘉宾,对吧?
那么说如果说这个 Deep Research,就像刚才说的,我如果说想让它搜索更详细,那它可以一步一步地一直在点下一页、下一页、下一页,直到最后把所有的这个嘉宾全部都搞出来。
然后如果是像 Manus 这种可能更高级的,如果发现搜索结果有几百页,极客公园历史上可能办过几千期活动,我一页一页点的话可能点不完了,对吧?那怎么办呢?我想让几千个嘉宾全部搞出来,我可能就决定写一个爬虫脚本,然后把历史上所有的嘉宾全部都爬出来。爬出来之后可能又有些重复,比如说在 Google 搜索结果里面可能有点重复,最后这个几千个嘉宾的列表,还要用大模型来做一个去重。所以说这是一个很综合的工作。
就这个工作流程,我觉得现在,可能不管是 Manus 还是 OpenAI 的 Deep Research 或者专门写代码的 Claude Code 和 Devin 大概都搞不定,就是它比较复杂。这个工作可能还需要人工参与,但是我相信可能再过一年,甚至不用一年的时间,AI 就能够完成这种比较复杂的工作了。
这个事就是说,Agent 思考的深度取决于我们人对它的诉求。假如说我是一个很专业的、真的想知道这件事的人,我愿意付 10 美金干这个事,那我就让它去花一两个小时,好好地给我写一个脚本爬出来,然后整理干净了,生成一个详尽的报告。但是如果说我就是突发奇想想问这个问题,可能就是想着说,你把第一页告诉我几个最近的嘉宾的列表,然后给我看看就行了。所以说这个可能就是有一个 reasoning effort(推理努力程度)的配置选项,用户可以去调整。
极客公园:这是不是就是那个 Manus,好像也有两个模式,对吧?一个 standard 的,还有一个 high reasoning effort?
李博杰:对,它有两个模式,差别就是类似这样的。但是它可能没有那种最简单的模式,就是说我搜索一下,结果马上就出来了。因为他觉得这个可能就是别的工具已经能做了,我就没必要再 replicate(复制)了。相当于他就是做了中等思考强度和高等思考强度,那低等思考强度的就是类似比如说 Claude AI、Perplexity 现在这个产品这种样子。
极客公园:那我再追问一下,就是因为我发现好像一夜之间,这个 Deep Research 这样的功能好像就变成了一个大家都要去上的功能。你像所有的大厂,像最早出的应该是 Google,然后接着就是 OpenAI,然后就是 Perplexity,还有马斯克的 Grok 也出了。就是好像大家一夜之间都会去上这个 Deep Research 的功能,但是你去用一下会发现,同样一个问题,它给我做任务的结果是差了很多的。我自己用下来,目前免费的里面最好用的是 Grok 3,然后 OpenAI 的那个付费的没有用过。李博杰,你觉得为什么同样一个功能大家会有非常不同的差别呢?
李博杰:我觉得您问的问题非常好。我这些工具基本上都用过一遍,然后我自己感觉首先付费的和免费的区别主要就是它的思考强度的区别。就像刚才讲的一样,有的是免费的,它就是想让用户大概得到一个搜索报告就行了。这样的话它不需要很强的思考强度,它可能觉得搜集的信息差不多,然后够应付用户了,它就输出报告来了。
但有的就像 OpenAI 那个,既然它收了用户的 200 美金,就得好好地给你干活对吧。然后它就要生成一个很有 insider 感觉的内容,就是有内行人感觉的这种。包括 OpenAI 那个 Deep Research,它的生成效果其实是最深入的。我自己感觉,它做了 RAG 之后的模型思考会比较深入。
就像刚才讲的一些例子,它能够发现这些数据源当中隐藏的一些线索。比如说中国的英伟达显卡为什么卖不到中国,它能想到这件事并不是针对英伟达一个公司的限制,而是美国的一个限制——美国的高端显卡都不卖给中国。这是它自己能想到的事。
另外一个就是说,OpenAI Deep Research 我觉得它在产品设计上,会希望用户生成一个更高质量的报告,所以它会先反问用户几个问题来澄清需求。我觉得这是它挺好的一个设计。就是说你问它一个问题之后,它不是马上就开始干活了,而是先反问你几个问题。比如说你想生成这个报告是面向专业用户的还是面向小白的?你想涵盖的是这个公司近期的财务表现,还是整个历史周期、上市以后的整个表现?还有你生成的报告格式是要包含很多图表,还是以文字为主等等。它会先问这些小问题,先问清楚,因为大多数用户其实没有办法在参数里面想这么清楚,或者没有办法具体指定那么清楚。这个时候澄清需求也挺关键的。
极客公园:听起来这些好像也不难,但是我使用体验下来不同产品的差别还挺大的。
这个是取决于比如说执行器和规划器它的调研模型不同,还是它调研的轮次次数不同,还是取决于搜索范围,比如说它就搜一篇还是一百篇?还是取决于它的上下文完整度,还是取决于算力,因为有的是免费用,有些服务是 200 美金一个月。那么这些不同工具之间效果的差异究竟是由什么决定的呢?
李博杰:我觉得您提到的所有因素都可能是原因。比如说 OpenAI 的模型有两个重要的区别。第一是它 RL 之后的模型做得比较好,就是进行 RL 之后,它会更好地去选择合适的工具。比如说拿到当前的 context,它会判断是否应该去找一个更新的或其他的数据源。在寻找数据源时,它会生成一个经过精心设计的搜索关键词。它会考虑是继续找当前关键词的其他数据源,还是找与当前相关的一些竞品,至少需要知道一个竞品的关键字才能拿去搜索等等,这种思考会更加深入。
另外,OpenAI 搜索后面的那个 re-ranking model(重排序模型)质量也比较高。它可能并不是简单地拿了个谷歌搜索的结果直接就放进来,而是在搜索之后,通过一个重排序模型对所有数据源的质量进行重新排序。因为 OpenAI 主要目的是生成高质量的调研报告,所以它把那些权威资料、分析师深度调研网站的权重都排得很高。这样同样的检索关键词,它获取的信息源质量实际上比 Google 平时检索出来的要更高,所以它肯定在这方面做了很多优化。
Google 的 Deep Research 虽然收费,但有一个优点是生成的报告格式比较清晰,更有条理性,而且开头都会有一个 Executive Summary(执行摘要),方便没时间的人快速了解内容。另外,Google 的工具可以与 Google 全家桶更好地集成,比如直接导出到 Google Drive、Google Docs 等文档中,这是它的企业优势。
另一方面,像 X AI 开发的 Grok,它在对推特内容的检索上是最专业的,因为只有它能直接拿到推特的数据。其他人都只能调用 API,而推特的 API 还非常昂贵,一般人都很难获取到数据。如果是针对推特上大 V 的分析,那么 X AI 的产品可能会更专业,这是数据来源方面的优势。
此外,作为专业用户,我个人还会使用一些比较小众的深度研究工具。比如针对学术论文,有时我会用一个叫 Elicit 的工具,它专门用来搜索学术论文。这样搜出来的内容基本都是专业文献,所以更专业一些。
现在如果我真的要写一篇调研报告,我可能并不会直接使用 OpenAI 生成的内容,而是希望它先给我列个大纲,然后我针对大纲进行修改。在它写每一章的时候,我会对内容进行调整。
对于 AI 辅助写作,我建议不要让 AI 一次生成整篇内容,然后再说 “不行,重新来”。可以尝试使用 Kompas AI 这样的工具,它可以针对大纲,在生成过程中让每一步都可控。这种工具对于专业人士写调研报告或论文会更加合适。
因此,整个市场中有很多 Deep Research 工具,它们各有区别。比如 OpenAI 的工具研究最深入,但也最贵;XAI 对推特的研究比较专业;Perplexity 是免费的,但生成的报告深度肯定有限,毕竟它不可能花那么多钱和算力让 AI 思考那么多步骤。
极客公园:博杰,你之前提到的 OpenAI 的 200 美元续费是只买了一个月,还是一直在续费?
李博杰:我只买了一个月,现在已经退订了。我是二月初买的,就在 Deep Research 刚发布的时候。购买后发现它不仅有 Deep Research,还有 Operator,以及好像还有 GPT-4.5,我用到了这几个最重要的功能,然后我现在已经把它退了。
极客公园:那你现在用什么工具做 Deep Research?
李博杰:目前我主要使用 OpenAI 的 20 美元订阅服务,它里面就包含了 Deep Research 功能,每月有 10 次的配额。我平时也不怎么写调研报告,使用 Deep Research 主要是为了调研产品,所以没有太多需求。如果是专门需要天天写调研报告的人,那可能这个 Deep Research 我觉得 200 美金可能还是值的,因为它可能一个人要是一天用它来写 5 篇报告,那肯定就值回这个钱了。因为我感觉 Deep Research 一次执行,它的成本也不可能低于 1 美金的。
极客公园:嗯,有道理。然后我也发现好像一时间,大家都上了这个 Deep Research。它这个背后的原因是什么?是不是与开源有关?是不是目前利用这个开源的一些整个工作,就是在 Deep Research AI 需要的这些关键的部分都已经开源了,是与这个有关系吗?
李博杰:对,您说的很对。因为现在我觉得 DeepSeek R1 是一个非常关键的时间节点。因为就是之前 OpenAI 刚发布 O1 的时候,大家都认为这个 reasoning model 是很好的,大家都希望有一个 reasoning model 能够让 AI 能够真正地思考,对吧?
就是因为之前,在 GPT-3.5 之前,大家都是这种叫 completion model,就是它只能补全,”中国的首都是” 后边填 “北京”,它只能干这事的。也就是说,它只能续写一个小说,但它不能回答问题。
然后 GPT-3.5,它通过 RLHF 让大模型学会了回答问题。你可以问一个问题,然后它后边去给一个合适的回答,对吧?比如说 “中国的首都是?” 后边加问号,它不会接几个问题,而是说它直接就回答问题去了。这个是它在 RL 方面一个很大的进展。
然后在 O1,它又是 RL 方面的第二个很大的进展。也是用 RL 的方法,但是它不是同一种 RL 的方法。它又实现了让 AI 能够思考。就原来是说能回答问题,但是它不会在回答问题之前先想一想,它中间有可能是哪些可能的这些分支。那现在这个 O1 让它学会思考。
但是之前这个思考这件事呢又非常难,就是说比如说 O1 出来它又很贵,对吧?它甚至 OpenAI 都放出来一些话说是 “没有十亿美金,就别想做出推理模型” 之类的。
极客公园:对。但是后来发现这个 DeepSeek 就做出来了,对吧?
李博杰:是啊。当然也有其他的公司也做了,比如说像 Kimi 它在同一天也发了 K1.5,但是 K1.5 能力相比 DeepSeek R1 来说可能就低一点,然后包括千问,当时也有 QWQ 那些也是挺好的一些模型。但是 DeepSeek R1 它是真正一个能够跟 O1 的能力几乎能够相比肩的模型,而且它是开源的。所以这让大家都可以使用这个模型,然后直接把 Deep Research 还有包括像 Manus 那种能力带给用户。当然 Manus 肯定不能直接用 R1,因为 R1 是非多模态的模型,它可以用其他的多模态模型。但是 R1 至少证明了这种类型的模型并不神秘,它把背后的技术都告诉大家了。这样的话真的可以让大家去用起来。
另外一个我觉得很关键的是 Anthropic 这边,就是 Claude 3.5 和 Claude 3.7 Sonnet。就像刚才您提的,Manus 可能用的是 Claude 3.5 Sonnet,因为这个模型它的工具调用能力很强。尤其是最近的 Claude 3.7 Sonnet,它既有思考能力,就是像 R1 那样先想后说的能力,同时它的工具调用的选取准确度又非常高,它每次都知道如何调用工具。
其实工具调用也是一个需要专门训练的能力。比如说像 OpenAI 和 Anthropic 的模型在这方面做得比较好,但是其他的一些模型,虽然通用的回答问题的能力是可以的,但工具调用的准确度不一定很高。如果工具调用准确度不高的话,那就没办法做 Deep Research,因为我不知道下一步到底该干什么。所以因为有这些好的模型的出现,Deep Research 之类的产品,以及像 Operator 这种 RPA 的产品也就随之出现了很多。
极客公园:就像您刚才一直在强调,可能有一些模型里面它工具调用的能力是很好的,这个是工程能力吗?我理解比如说像 Anthropic 的那个 coding 能力一骑绝尘,可能与它这个模型训练有关系,但是比如说 function calling 是因为 R1 现在还没有开始做,还是因为它也是模型训练技巧的一部分,算法的一部分?
李博杰:我觉得这个主要跟训练数据有关。因为每个模型都有它自己擅长的点,就比如说像 DeepSeek V3 和 R1 这个系列的模型,其实它的创意写作的能力都非常强。比如说大家可能今年过年都看到了好多 R1 写的段子,对吧?都特别好。但是好像国外的不管哪个模型都搞不定写段子的问题,就是说英语段子它也写不好。所以说这个就是它专门针对写作方面能力做的强化。
然后 3.7 Sonnet 可能就针对的是刚才您说的 coding 的能力,以及 Tool Call,就是 Agent 的能力。因为 Agent 的这个事儿其实就是 Anthropic 一直最喜欢提的,像 MCP 也是他提的。然后还有包括像那个 Computer Use,其实最早的 Demo 不是 OpenAI 做的,那是 Anthropic 去年应该是 9 月份、10 月份做的那个 Computer Use 的第一个,就是做出来一个效果明显比之前好非常多的一个 Demo。所以说这个是人家的重点领域,当然他就会做的效果会好一点。
极客公园:嗯,刚才我们一直在聊的是 Deep Research,它可能是比 Manus 出现更早的一种 AI agent,而且现在应该是所有的大模型厂商都要上的一个功能。Deep Research 是一种 AI agent,那接下来我们聊聊其他的形式。你比如说刚才也提到了,博杰,像这个 Anthropic 出的 Computer Use 是一种,然后 OpenAI 出的 Operator 是一种。当然还有别的,我们等一下再聊垂直领域。同样领域的这两种,他们分别能解决什么问题,然后背后是一种技术路径吗?
李博杰:我觉得它背后不完全是同一种路径,所以说我觉得 Manus 有意思一点,它是把三个不同技术路径给搞到一起去了。我觉得从 agent 的实现路径上,目前来说主要是有三种方式。
第一个就是刚才您说的这个 Computer Use 和 Operator,就是说这个都是操作电脑的,相当于就是它的标志性特征就是像人一样去操作一个图形界面。就是不管是操作手机的 app,还是操作笔记本的桌面,或者操作浏览器。像那个 Operator 它是操作浏览器,然后 Computer Use 的话是操作一个虚拟机里边的桌面,然后 Manus 也是操作虚拟机里边桌面,它是这样的一个逻辑。
第二类就是说像 Deep Research,它是以搜索调研为主要目的的,就是它的主要的信息源都是来自于搜索。
然后第三类的话是这种代码生成类的,比如说像 Cursor 里面的 Agent Composer Agent,还有包括一些其他的 Coding 的一些 Agent,包括最近刚发布的 Cloud 的那个 Code。这些都是目标是生成代码,但是这三种方式其实也可以通过一个方式来有机地结合在一起。
就是说像 Manus 这种,它相当于是把计算机用户图形界面操作的能力,以及利用搜索去生成深度调研报告的能力,还有生成代码、写项目的能力,把这三个结合到一起了。
当然,结合到一起的话,可能它在单项能力上就不一定有这种单项的 Agent 那么强了。但是我觉得这个肯定最终是一个大的方向。就是如果说一个 AI 的基础模型的能力足够强,比如说像 Claude 3.7 Sonnet 或者是 R1 或者是 O1 这些模型,接着再往前再发展几个版本,那肯定是一个模型什么都能干。
极客公园:Manus 有一个比较特别的地方是,他为了让 AI 操作电脑的时候,你不担心好像你一碰到它或者你打开别的页面,然后它就断掉了,然后等一下你需要重新进来,重新输问题,等它打完。就为了避免这种情况,他采用了云端虚拟机,然后去操作他自己的浏览器的这样一种方式。从你的角度看,这种方式有什么利弊?作为 AI Agent 来说,它会被越来越强、越来越多的 Agent 所采纳吗?
李博杰:我觉得总体来说,这是一个很聪明的一种实现。我觉得是有两个方面。
第一个方面是,Agent 从定义上来说,他就是一个助理或者说助手这个概念,他不是你,他不是你的分身。所以说我们从心理上来说,应该跟 Agent 之间有一定的边界感,就是说 Agent 不应该能够 access 你所有的隐私,什么东西都能做,这样的话你可能也不会太有安全感。所以说他应该在一个独立的工作环境,感觉就像助理一样。一般工作中的助理不会天天到你家里来,对吧?所以这是一种隐私保护方面的一种考虑。
然后第二个就是,他的这个——刚才主持人也提到很重要的一点——就是他有一个独立的工作环境,这样的话他可以比较高效地完成任务,因为避免跟 host,就是这个我现在用的设备的干扰。因为如果他在操作我自己的电脑界面时,可能我在用某些软件,然后不小心干扰了 AI 助手,导致它无法工作了,对吧?可能我正在直播的时候,AI 在后台操作,结果导致我的直播断了,这显然不太好。所以需要有一个独立的 sandbox。
但后续可能需要改进的一点是,看看如何更好地与个人数据进行集成。因为一个好的 agent,它肯定需要有更好的 memory(记忆),能够访问用户授权给它的照片、文件之类的内容。这样它才能更好地为你服务。所以我感觉这类产品未来还需要有一个更好的方式与用户的个人电脑进行交互。
极客公园:嗯,那博杰怎么理解比如说像 Manus 这种 AI Agent,它要解决通用性的消费级场景下的问题,它能够实现吗?能够稳定地实现吗?
李博杰:我自己感觉已经挺接近了。如果到今年底,也就是再过不到一年的时间,我觉得它就应该能够比较稳定地实现大多数人不需要专业知识就能操作的场景了。
但我觉得对它的期望值可能不能太高。它模型的延迟问题可能没有那么容易解决,而稳定性问题相对来说还容易解决一些。对于简单工作,再往前模型叠加两个版本就行了。但它工作的速度很可能还是比人慢的。
如果你用过的话,可能会发现 Manus 的操作或者说 OpenAI Operator 的操作还是比人要慢很多。我觉得这本质上与现在我们的视觉大模型的工作方式有关系。它每次截取一张图,然后这张图片需要先编码,再输出 token,整个延迟基本上就是在一秒甚至更长时间。按照现在的 Transformer 模型架构,可能还比较难解决这个问题。
而真人完全不一样,比如看到一张图,基本上在一百到两百毫秒内就能做出反应。所以这方面,人脑的设计在某种程度上比现在的 Transformer 还是高明一点。
极客公园:它会有边界吗?因为就比如说 Manus 团队认为,我模拟的不是特定角色,比如产品经理、研发或销售,而是模拟一个能干事情的人是怎么工作的。只要定义好它与环境感知的交互,比如眼睛、手这些,然后只要定义好了这个交互的空间,以后它就可以通过它的大脑然后完成所有工作。我只是说我要解决的是能够调用哪些工具,要解决的是调用工具的边界的问题。那如果把这个调用工具的边界给定义清楚了,甚至是都打通了的话,听起来它可以涵盖所有?
李博杰:对啊,您说的很对。就是您刚才说的这个把所有调用工具的边界打通,首先第一,它可能有一些比较高效调用的工具,它可以用类似那个 Anthropic 那个 MCP 的,然后把它定义一个协议把它接进来,这样的话它可以直接写代码来交互,这效率是最高的。
然后比如说现在 Manus 已经做了一部分,比如说像 LinkedIn 搜索相关的人,或者说是我去搜索股价,它是有专门那些 API 去调用的。然后如果是通用的网页,大部分的网站肯定说一时半会儿不会开发一个 MCP 给你用,那这样的话,他还得像真人一样一点一点地去操作这个网页,或者手机的 APP 去操作这个应用。
但是他的通用能力是有的,因为只要基础模型针对 computer use 这个场景做了训练,它其实是知道市面上大多数 app 的通用设计模式。比如说左上角有一个像家一样的 icon,那么一般来说就意味着它是一个返回按钮。或者说大部分涉及到个人网盘类的,可能都会有一个菜单,菜单里面能够找到所有的文件夹、所有的文件。可能每一个 app 的具体长相不太一样,但大概的样子是一样的。
所以这个 AI 它能够自动适配到所有的软件,它不一定需要这个软件的开发商主动把它提交上来。因为之前我也做了一些测试,比如像 OpenAI 那个 computer use 就是它的 operator,然后我试了一些我自己写的小网站,他肯定没听说过的,然后发现他也能自己发现这里面一步一步怎么操作。
只是说他比真人要稍微笨一点,这个笨的原因不是说他思考的笨,是因为他动作太慢,就是刚才说的这个模型的 vision 速度的问题。所以他每操作一步可能要个三五秒的时间,人可能一秒钟就点过去了,他比较慢,但是他总是能做的。就是说他的通用性我觉得,就现在的模型能力来说,是不用再太多怀疑的。
极客公园:听博杰讲,这是一个确定性的机会。尤其随着到今年年底,各家模型特别是 RM 模型越来越适合做 agent 的任务,感觉做一个通用的 AI agent 一定是一个确定性的机会。那就意味着可能会像比如说 Monica 一样,到后来所有的大厂都会介入,就像现在的元宝、夸克、豆包,大家都会去做。在这种情况下,你怎么看创业公司的机会?因为刚才听博杰讲,他的 Pine AI 可能也是要做类似的事情,对吗?你怎么想?
李博杰:我觉得你问的问题非常好。其实我过去也一直在想这个问题,就是说这个大模型看起来它能力是通用的,那就意味着我的模型只要做出来,所有的公司都能在上面 build 一样的应用。那这么说的话,一个创业公司怎么在上面去建立一个护城河或者竞争壁垒?
我自己的想法有两个方面:第一,创业公司可以瞄准一个特定行业,这个行业可能不一定是一开始大家都特别看好的。比如说像我们现在主要做的是语音系统,就像 HER 里面最主要的也是语音交流,因为 HER 里面的 Samantha 本身是没有一个视觉形象的。它当然也可以看,但看只是个辅助,它大部分情况下还是通过语音方式交流。
那么如何把语音做得像真人一样,做得更加自然,这件事其实我觉得在做的人并不是很多。语音还有个挑战就是延迟问题。因为刚才我们看到 Manus,他干得慢,我把工作交给他,让他去处理,他干得慢点快点我可能不太在意。但如果是语音交流的话,它是一个实时性的东西,如果反应慢一秒,可能就会感觉非常笨,实时交互就没法做了。所以这也是我们在这方面专门研发延迟降低技术可以派上用场的地方。
这是第一方面,就是瞄准一个特定领域,比如语音,或者像我知道的其他一些公司做视频生成、图片生成,这些并不是做完全多模态通用的领域,可能就会避开最激烈的竞争方向。
另外一个方面,我自己感觉现在 RL(Reinforcement Learning)是非常关键的。RL 给了很多专业领域中的公司建立护城河的机会。
因为传统上来说,大家做 AI Agent 的调优,能做的事情基本上就是两个:要么是调整 Prompt,要么是将一些知识放到知识库里面,然后在运行时从 RAG 中取出来。但是,不管是知识库的方式还是固定的 prompt 方式,它实际上都无法存放太多的知识。比如,假如我是某个领域的专家,这里面有很多相关的知识,行业的一些 know-how。举个例子,如果我是做营销的 agent,那我怎么去营销商品?怎么控制用户的预期?怎么学会这领域的行话?如果我把一本指导书直接放进来,prompt 也放不下。
而且还有一个很大的问题。即使我调整 prompt,比如现在给它设定了 20 条规则,但如果我想做一些调优,想加入第 21、22 条规则,它可能学会了这两条新规则,但前面又有两条给忘了。因为模型的 instruction following 能力有限,自己学习的能力也有限。这样的话,我这个产品的能力就出现了 regression,就是说倒退了——有新的学会的,旧的又忘了。这就很难实现产品能力的持续提升。
但现在的情况是,像 OpenAI 的 O1 开启了一个 post-training 的方式,包括 DeepSeek R1 也公开了一个 RL 的方法。大家发现,原来只要用 RL 的方法,就可以 “吃进去” 无限多的数据。post-training(后训练)理论上可以接收无限多的数据,数据质量越高,数据量越大,也就是高质量数据越多,模型的能力就越强。这样的话,就可以把技术积累起来了。如果我在这个领域积累了很多高质量的数据,那我就可以训练一个这个领域内的 RL 模型,它就可以转化成一个竞争优势。
同时,如果有些模型一直在不断进步,可能你好不容易训练出一个模型,结果又出来一个更强的基座,过了两个月又出来更强的,比你原来刚训好的又强了——我觉得这个情况肯定会持续发生。
RL 也有个优点,就是 RL 这件事情它不挑模型。也就是说,只要有合适的技术专家和算力资源,我拿着这些数据,在新发布的模型技术上再训一把,它的能力就会提升。可以理解成,假如说我现在的能力水平如果是 5,然后 RL 一把模型就变成了 10,然后新来了一个 DeepSeek R2,它基座模型的能力就是 20,我在它的基础上再 RL 一把,它的能力就变成了 25,可以做到一直比 SOTA 的开源模型更好。这样,数据的护城河就可以转化为竞争优势。
极客公园:嗯,RL 的含金量还在。我很好奇,你刚才讲的这个在 RL 部分依靠一个基座的可能是开源的 RL 模型,然后去做带着你的专有数据去做这个 Post Training 的过程。它两个部分应该不是结合的吧?你每次换一个更强的基座的RL模型,你都需要重来一遍 Post Training 对吗?它应该不是结合的吧?
李博杰:对,是每次都要重新 Post Training 一下。但是 Post Training 这个过程相对来说是比较固定的。比如说之前在某个模型上面去 post-train 了一个,然后现在比如说像 Gamma3 发了一个 27B,我在上面再重新训一遍,它需要的东西其实是比较类似的。
极客公园:嗯,就是像那些材料什么的都准备好了,再来一遍,可能还是耗一点算力,对吧?
李博杰:这个 RL 的过程并不像很多人想象的一样需要很多算力。如果只是针对一个垂直领域,不是需要一百万美金才能搞的事情。
比如 Berkeley 的一位 PhD 搞的 TinyZero,就在 3B 模型的基础上,花几十美金的成本,用 2 块 GPU 跑半天,就能学会算 24 点、算大数乘法这些。看一个基本上没有任何推理能力的 3B 模型随着一点点训练,就能可靠的解决算 24 点的问题,而且输出的思维链比 DeepSeek R1 这些通用模型还短,感觉是非常有意思的。如果我的业务场景就是算 24 点,那么用一个小模型 RL 一把,成本和延迟肯定比通用模型低。
还有中科大的几个本科生,跟九坤和微软合作,做了一个 Logic-RL。他们第一阶段的工作只用了 4 块 A100,就在 Qwen 7B 基础上复现了 DeepSeek R1 Zero 的基础能力。他们用的训练数据是多人逻辑推理题,就是比如小明比小强大 5 岁,小强比小李大 10 岁,小明 10 岁,问小明多少岁这种。最后训练出的效果,甚至比满血版的 OpenAI O1 和 DeepSeek R1 都好。这说明一个很重要的问题,小模型通过 RL,只要方法得当,不需要很多计算资源,就能在特定领域的任务上达到比 SOTA 大模型更高的推理能力。
在那几个本科生做 Logic-RL 的过程中,他们也复现了 DeepSeek R1 论文中的一些发现,比如响应长度随着训练过程而增长,思考过程也出现了多语言现象。最后的模型学会了多路径探索、反思、阶段性总结、输出前验证答案,在训练集以外的问题上也有一定的泛化能力。
我在 OpenAI o1 刚出来的时候就说,o1 这个范式好,post-training 很可能不需要像 pre-training 这么多的资源,因此小公司和学术界也能搞。当时因为 OpenAI 一直在宣传没有 10 亿美金搞不定,很多外行人都在抱怀疑态度。但内行人基本都马上开始尝试了,比如 Kimi 用了几千道数学题做 RL,发现模型不仅在数学方面能力很强,在其他领域的推理问题也有不错的泛化能力。大家都发现 RL 是个四两拨千斤的东西,只要设置好 reward function,解决稀疏奖励的问题和 reward hacking 的问题,模型就能自动学会你想要的思考方式。
极客公园:嗯,明白。然后刚才博杰,我不经意注意到,因为刚才你提到咱们 PINE AI 要做的这个很可能是类似于语音类的 AI?
李博杰:语音助手这种的。
极客公园:因为咱们一开始就提到那个《Her》这部电影,包括那个 Samantha 对吧。然后我不经意注意到你是不是戴了一个 Meta 的那个 Ray-Ban 的眼镜?然后是不是剧透了咱们接下来的产品形态了?是不是?
李博杰:不是不是,这个东西是朋友送我的。这个是国内的一个叫雷鸟的公司给我的,让我来测试他们的 AI 的。这个就是跟 Ray-Ban 差不多的。但是我们不做智能眼镜,我们没有做这个智能硬件的形态。
极客公园:你会给他们,咱们 PINE AI 会给他们做那个智能助手、智能语音助手之类的吗?
李博杰:目前的话还没有考虑往智能眼镜这个角度去切,但是我觉得以后如果想做这个领域肯定是能做的。因为我们实际上现在做的事,应该说是比那个智能语音助手这种眼镜更复杂。因为做眼镜这个东西相对来说,它的主要难点其实在于硬件设计和电池这一块,就是续航怎么尽可能好,这个是最难的。然后 AI 这部分其实一般来说现在都是在 cloud 上,或者说是在手机上的一些模型。对,然后就是说我们针对的是还是那种比较高附加值的AI语音的一些场景。
极客公园:打电话是真的能够帮用户省钱,或者说是能够帮用户赚钱的那些场景。OK,了解了解。刚才博杰讲到说,创业公司的机会可能在垂直领域,比如说博杰做的 PINE AI 可能会做语音方面的。然后过去一年其实出圈的也是垂直领域的 AI agent,最火的可能就是 Devin 了,然后还有人说他是骗子了。
但是现在再看口碑可能还是比较不错的,但是他也比较贵,一个月 500 美金,然后是去模仿一个人类程序员。博杰有没有用过?可不可以给大家讲一下这个 Devin 这个垂直领域的 AI agent,它解决的是什么问题?然后你体验下来怎么样,值不值 500 美金一个月?
李博杰:我自己还真花了 500 美金,然后买了一个月。所以说你看我就每一个公司花了好几百美金的,除了 OpenAI 现在说的两万美金的,我是真买不起了。两万美金的那个我真买不起,但是其他的 500 美金的,我还是能买一个月试一试的。
李博杰:然后 Devin 我觉得挺强的一点是它能端到端地去完成一个开发任务,就是比如说 45 分钟内可以去完成的一个小任务,它是能搞定的。所谓端到端的意思是说,我把这个任务放到里边,然后它就帮你全部做完了。
李博杰:但是这个东西是有前提的,就是说首先第一,它不能是一个在已有的程序代码里头的工作,一定得是一个比较干净的项目。比如说是一个维护得很好的开源项目,像这个 VLM 这些好的开源项目。或者要不然就是一些比较 demo 级的项目,就比如说它一开始就没代码,但是我就是要做一个 POC 或者要做一个写个课目作业,这样的话从零开始去构建一个仓库是比较容易的。
李博杰:我现在就是想多说两句,就是为什么说在这个实际的工程项目,所谓的传说中的”屎山代码”,对吧,比如十万行代码的屎山,为什么这个 Devin 就干不好呢?其实我觉得它的根本原因是这样的,就是说大部分的项目它对 AI 不友好,其实是对一个新人程序员也不友好。
李博杰:比如说我们想象一个实习生,如果第一天加入一个公司或者加入这个项目,这个实习生本身的代码能力很强,但大部分实习生仍然是很难完成一个好的改代码的任务。他可能要几周培训之后才能慢慢写代码。
为什么呢?因为实际上人类的项目里面,它有很多的 tribal knowledge。所谓 tribal knowledge 就是口口相传的这种非结构化的、没有文档化的架构、知识或者经验。简单举个例子,好多公司的代码,我把它下载下来,可能根本不知道怎么运行,哪个模块在哪里,对其他模块有什么依赖也不知道,我得找人去问,对吧?问完之后还是没问清楚,然后我自己摸索知道了,才能开始干活。下次再来个实习生,我又得给他再讲一遍。就是这种问题。
所以我觉得,如果要让 AI 代码、AI 编程在大型工程项目里面好用的话,那这个代码的质量一定要非常高。就是要让这个代码仓库像那些知名的开源项目一样,新的贡献者随便来一个人,看一下 README 就知道该怎么运行这个代码项目,这个代码里边有哪些关键模块,每个模块在什么地方。这样的话 AI 能感知得到,人也能感知得到。
在这种情况下,如果是一个很成熟的开源项目,或者说是一个比较小规模的、一次就能看懂的项目,其实我自己观察的话,Claude 3.7 Sonnet 它其实大多数时候比实习生写代码还强。就是说可能跟我自己水平差不多,有的时候甚至是我自己都搞不定的问题,扔给它,只要我的代码质量比较高,文档比较健全,测试比较健全,它干得甚至比我干得都好。
所以说我觉得还是要相信 AI 编程的能力。我特别想提这一点是因为,我从去年 8 月份开始用 Cursor 以后,我就一直跟别人去安利 Cursor。其实我也没有收 Cursor 团队的广告费,但是我一直帮别人去讲 Cursor 这个好那个好。然后一直有人说:”你这个 Cursor 就是写个小 demo 还行,1 万行以上的工程项目就搞不定了。”
但是我自己跟朋友合作个人项目,就是开发课程评价的网站 iCcourses,那个是超过 5 万行代码的。然后我自己公司的项目也都是超过 10 万行代码的。不管是前端还是后端这些东西,基本上用 Cursor 再加上现在最新的 Claude 3.5 Sonnet 或者现在更好的 3.7 Sonnet,基本上所有开发任务都可以用 AI 辅助,整个开发效率可以说提升了一到两倍,原来三个月才能完成的事情,现在可能只需要一到两个月就能完成。所以这个效果提升是非常明显的。
我认为我们后续所有的项目都要做到 AI friendly,就是把这些工程实践做好。比如文档驱动的开发,把那些口口相传的 tribal knowledge 都固化到文档里面,慢慢让它变得容易理解,使新人也能看得懂。
还有就是测试用例的问题。我之前接手几个公司的项目,发现都没有测试用例。没有测试用例带来的后果是什么?我每次必须把代码提交到远程的测试环境才知道对不对。如果不熟悉,可能一下子就把那个环境搞挂了。又或者我测试的时候,因为没有测试用例,我知道我想实现的功能能正常工作,但可能又把别的功能给搞坏了,而我自己却不知道。
AI 编程助手也经常这样,改一块代码改对了,却又把其他地方搞坏了。如何杜绝这个问题呢?根本原因并不是 AI 能力不行,而是因为没有足够的测试用例告诉它应该做什么、不应该做什么。所以必须要有完善的测试用例,才能够做好开发。
另外,我见到一些现有代码里面,命名特别不准确,这是常见的情况。逻辑混乱,代码表达的意思与实际想表达的东西不一致,这种情况下 AI 看不懂,新来项目的人也看不懂,信息沟通成本特别高。
还有一些开发者比较喜欢重造轮子。比如明明有一个大家公认的系统和实践,比如代码里应该怎么做,数据库该怎么连接,或者访问网页应该用什么样的库,他非得不用现有方案,而是自己重写一通,结果里面又有一堆 Bug。这种情况 AI 也处理不了,人也难以处理。
所以我觉得这些虽然都是大家常谈的问题,但在有了 AI 编程之后,这些基础工作变得越来越重要。因为如果没有 AI 编程,人只能依靠自己脑子里那点没有写到文档的知识来工作,别人帮不了你,AI 也帮不了你。这样的话,整个公司的开发效率就特别低。
极客公园:是的。你这么一说,我突然有个脑洞。我怀疑之后所有咱们这些用的,重要的也好不重要的也好,这些软件有没有可能,这些公司会说 “我们之前这些史诗级代码实在是太多了,我接下来要用 AI 从底层重新再写一遍”。它变成这样一个更容易维护,当然也更容易砍掉程序员团队的计划。我不知道你觉得大公司会这么想吗?
李博杰:我觉得是有可能的。因为我记得当时在华为的时候,那是 2023 年初,ChatGPT 刚出来的时候,我们跟一个高管交流。我们当时就问这个 AI 对公司最大的帮助是什么,然后他说最大的帮助可能就是 “多裁掉一些实习生”。我们当时在底下都吓尿了,因为我们都是基层员工嘛,最先裁掉的就是我们。
当然这是开个玩笑。我觉得刚才讲的非常好,就是未来很多的项目都值得用 AI 慢慢去重构一遍。现在也有一个最佳实践,就是说在现有的工程实现代码中,我肯定不能一下子全部推翻重写,但我可以在一点一点重写的过程中,把代码越来越整理得好,把那些文档和测试慢慢完善起来。
比如说今天我在用它去修改这个模块的时候,我就让 AI 顺便把这个模块的文档给我写一下,然后把测试用例完善一下。因为有 AI 的话可能也不用费太多人的时间,但是这个时候整个项目就向着 AI friendly 的方向又前进了一步。可能这个项目再这么演进几年下去,十几年的史诗代码慢慢就会被替换成这些 AI friendly 的东西。
极客公园:听起来各个公司里面的最佳实践如果有了 AI 帮大家重写的话可能也会更好,会越来越重要。对于这些新的创业公司来说,不管是做产品也好,或者做什么也好,就相当于说,你最好从现在开始,在构建产品的时候就用 AI 来写这个代码,因为 AI 不会写出史山代码,你从零就把这个东西给打好了。
李博杰:对,我觉得这点非常的对。我一般来说很容易判断这个代码是人写的还是 AI 写的,因为人写的代码一般来说都离屎山稍微近一点。比如说我一看,变量名拼写都是错的,那肯定是人写的。
极客公园:是。但是在技术圈看到大家这个观点也不一样。像这个 Cursor、Windsurf、包括 Devin,这三个最火的代码类的,可以说都是 AI agent,它们有什么差别?
如果可能给模型提供代码的上下文,包括各个公司流传的不同编码最佳实践,如果把这些东西都清楚地告诉模型,让上下文清晰的话,它其实能够达到很高的完成度吗?因为我看到很多创业者朋友说,AI 写的代码其实不太行,它可能写得很长很长,然后绕进去了,但人类可能用三行代码就解决了。这个问题可能是因为上下文没有理清、没有告诉模型清楚,对吗?
李博杰:我觉得是有可能的。因为比如说人类三行就能搞定的问题,可能是这个软件里已经有三个工具可以用,我第一行调第一个工具,第二行调第二个工具就解决了。但他不知道这些工具的存在,然后自己哗啦哗啦又写了一遍,那肯定实现的代码就多,然后可能很冗长,很浪费。所以我觉得还是因为上下文不够清晰,文档不够清晰导致的。如果给它足够清楚的上下文,我觉得它自己也知道该用哪个工具,而不会自己哗啦哗啦又写一遍。
当然,有一些可能需要智商非常高的人才能写的代码,我觉得 AI 还搞不定。比如说即使像 Claude 3.7 Sonnet 这么强的模型,它完成端到端 coding 的概率也只有 80%,而真人应该是 100% 都能完成的。剩下的 20% 还是需要人来做,比如一些性能优化算法,或者一些很尖端的东西。
比如现在让 AI 自己开发 AI agent 是不太行的。如果你现在说 “我要开发一个 AI agent”,然后让 Claude 3.7 Sonnet 写一个,你会发现它连模型的名字都拼写不对,因为它对一些最新的知识了解还比较少。包括让它写 Prompt,它写的很多 Prompt 也不太合理。这些都属于 2023 年、2024 年很新的知识,在模型训练集里面还比较少,所以这些东西还是需要人去做。
另外,比如说让 AI 写一些很底层的 Linux 内核代码,它可能对内核编程也不是特别熟。我试着让它写过一次,直接就崩了,所以这方面也不太行。
极客公园:OK。去年还有一个现象级的产品,我记得好多风投都去研究过,叫 Eleven Labs。它好像可以做初级销售这样的工作,是一种智能体。然后它也融了很多钱。像这种垂直场景下的 AI Agent,通用 AI agent 解决不了的问题具体出在哪里?是咱们刚才说的调用工具的问题,还是专有领域数据的问题,或者是其他方面的问题?
李博杰:对,我自己感觉它的主要问题有几点。第一可能是行业的一些 know-how,很难想办法把它放进去。因为 RL 这个范式基本上是从 DeepSeek R1 才刚刚出现的,所以之前可能大家还没有时间去逐步探索这个范式。这样的话,比如说刚才您提到的营销领域,那些行业术语或者 “我怎么去做高情商的销售” 这些事情,它可能很难用 Prompt 的方式很清楚地说明白。SFT 的效果也一般,然后 RL 这个方式是刚出来的,大家还没试过,对吧?所以行业的 know-how 很难被放到模型里面来。
第二个问题,我觉得是很多知识库的缺失。因为很多行业其实就是 “tribal knowledge” 特别多,就是藏在人脑子里、没有写下来的知识特别多,都是大家口口相传的一些行话,好多没有文档化。没有文档化的东西,AI 肯定也学不会,所以这个时候也会存在工作 agent 做不了的情况。
这也就是刚才您说的,为什么在一些垂直领域,智能体创业公司还有机会。因为创业公司如果深耕某个领域,他就会知道这个领域的行业 know-how,然后还可以自己动手去收集一些知识库。这些知识库不管是用 RAG 的方式,还是用 RL 的方式把它训到模型里面或者训到 agent 里面,这个 agent 在该领域的能力肯定是要强于通用领域的 agent。
极客公园:嗯,就是说在 RL 领域,你去基于你的专业、专有领域的数据去做,要比 SFT 的效果显著很多吗?
李博杰:它们应该是不太一样的定位。SFT 主要针对的是回复的格式,或者说是说话的风格、角色设定这方面。而 RL 更多的是偏能力方面的,比如说我有五种工具,我要想让它知道在什么场景下调用什么工具更好;或者说我的谈判策略应该先怎么谈、后怎么谈,这种偏思考方式、思维方式方面的能力,这个是要用 RL 的方式去学习的。
极客公园:理解了。昨天还看到 OpenAI 发布了一套全新的工具,应该是分别发了三个工具,让大家更加轻松地去创建 AI Agent,分别是 Web Search、文件搜索,还有 Computer Use。同时它也推出了能让你多轮对话的 Responses API,还开源了一个 Agent 的编排框架。你觉得 OpenAI 发布这些 Agent 的工具和框架是为了要解决什么问题?
李博杰:我自己感觉 OpenAI 这个还挺好的。首先,它发布了一些之前没发布的 API,比如 Computer Use 这个模型。本来它是一个专用模型,没有 API,现在有模型了,有 API 了,我就可以去用了。
有些人可能会说,现在市面上有很多 Vision LLM,就是能够识别图片的 LLM,然后我直接把屏幕截图扔进去,让它去做就行了。但其实肯定不是这么简单。因为 Computer Use 这件事,并不是说我只要知道界面上有一个按钮、那有一行文字就完事了。更重要的是要规划:我知道这个任务,然后比如说我给你一个手机 APP 的界面,它要知道先点这后点那才能完成,而不是说我只看到这一步有个按钮就随便点一下。
所以它是有一个 agent 的规划,以及感知当前状态的能力。这个是一般的 Vision LLM 很难有的能力。所以它提供这个 API 非常重要,然后我们也可以基于这个模型来提升自己模型的能力,去做自己的 RL。我可以针对我这一类应用,比如针对 UI 界面或 RPA 工具,了解应该点什么地方,我可以自己做一个模型来实现。
这是第一个模型方面的 API。第二个就是刚才说的框架,原来他有一个 SWARM 的开源框架是去年底发的,然后现在那个 SWARM 升级成了 Agents SDK,还包括 Responses API,它替代了原来的 Assistant API。
其实原来那个 Assistant API,我觉得设计得比较糟糕,它很简单,好像搞了个四不像的 memory 也没真正实现 memory。然后也没有 agent 什么能力。但是现在 Responses 应该算是一个比较完整的支持 agent 的 API 了。
我觉得 OpenAI 做东西有一个比较好的一点,就是他的东西一般来说工程上都比较专业。比如说 OpenAI 之前发布的 Operator 以及他们的 Deep Research,一看就是完成度比较高的产品。这是真正能用的东西,而不是简单地把一个 demo 放出来,有的功能能用有的不能用就直接扔出去了。包括现在的 Agent API 也一样,它的 Responses API 的设计,可以给我们这些开发者在设计 agent 时提供很好的启发。
我认为 agent 这块有三个比较好的 API 值得参考:
第一个是最新发布的 Responses API,它设计的同步异步接口套件,以及 tool 的定义接口都做得很好。
第二个是 MCP,就是刚才靖宇提到的 Anthropic 那一套。它相当于展示了如何把第三方工具集成起来组成一个生态,这个设计我觉得非常巧妙。
第三个是去年 11 月份 OpenAI 发布 GPT-4o 时的 Realtime API。它解决了一个重要问题:如何处理语音流,使得用户一边说话的同时,后台仍能继续工作。现在大部分的 agent 都是用户一旦跟它说话,它后台就停止工作了,被打断了。但 Realtime 那套系统实现了纯异步操作,用户可以一边交流,agent 一边还在处理任务。
我认为这代表了未来 agent 的一个很好的发展方向。未来的 agent 可能都会由两个部分组成:一部分是 “快思考” 的 agent,负责与用户交流,理解用户需求并提供反馈;另一部分是 “慢思考” 的 agent,在后台悄悄地工作,进行研究、编写代码或收集数据。这需要有一个 “快” 和 “慢” 的结合。
这一点很像人类思维。人的大脑有一部分区域长期处于活跃状态,能够快速响应外部刺激和危险;而另一部分,也就是耗能最高的部分,平时是不活跃的,只有在需要时才会被快速反应的那部分唤醒来完成特定任务,完成后又进入休眠状态。这就有点像我们未来 agent 的工作模式。
如果大模型的成本降低到一定程度了,说不定以后我们手机里边、电脑里面都可以有一个自己的 agent,24 小时都开着,然后响应你的各种随时的请求,一些关键的事可能能够及时提醒到你。但是一旦需要干一个非常复杂的事儿,它需要仔细想一想了,它可以一下子调起来更多的算力,然后像 Manus 那样完成更复杂的任务。
李博杰:嗯,是,这个比较有意思。
极客公园:那咱们其实也播了差不多两个小时了,而且语速也非常快。刚才用通用的 agent 聊到垂直 agent,我觉得你能不能根据目前的情况去预测一下,就是说刚才你也说年底可能会有更厉害的这种综合的 agent 会出来,那你觉得在垂直领域,会有哪些能够执行复杂任务的 agent 能够跑出来?在哪些行业它最有可能跑出来?比如你的 PINE AI 公司做的是语音这一套的,语音这一套是不是能够先跑出来?
李博杰:我自己感觉很多领域都能跑出来。我也不是专门来给我公司做广告的,所以我还是要以一个研究科学家的身份,比较严肃地来讨论这个问题。
首先我自己感觉,编程领域非常已经跑出来了,大家在编程里已经有很多的应用场景了,未来可能它能做的范围会越来越大。
然后第二,我觉得是教育场景会比较有用。因为教育场景其实跟我们这个语音也是有一定 overlap 的,因为语音它其实是一个模态,而教育是一个应用场景,它是正交的两个维度,可以有交点的。
现在我觉得很多的好老师其实是比较有限的,但是学生很多,好的老师很少。这样的话现在的教育全都是一对多的教育。那未来有没有可能就像 OpenAI 的 Andrej Karpathy,他出来做了一个 Eureka Labs,是做教育的。他的一个 vision 就是说未来我可以有一个 AI 的老师,然后可以作为人类老师的辅助,以后各种的一些专业课的这些知识就让 AI 老师帮忙去讲。
这个实际上我自己感觉还是一个非常 exciting 的事情,它能够让每个人在学知识的时候,都能够恰好学到自己处于学习区的东西,而不是舒适区或者是恐慌区。因为现在班里边学习成绩差的,他就是一直处于恐慌区,然后班里边学习成绩好的,那可能处于舒适区,然后实际处于学习区的这个学习效率实际上是比较低的。但是我觉得 AI 有可能能解决这样的一个问题。
第三个领域,我觉得是人和人之间沟通的领域。就比如说现在各种所有的中介,我觉得这个可能是一个很大的一块。因为现在你租房子要找中介,像银行还有好多那个私人银行的服务,无非就是帮你去挂个号之类的,他有一些自己的一些资源能帮你去干这个事儿。过去 O2O 是把打车、外卖这些标准化的需求都自动化、平台化了,但很多领域的需求不是标准化的,那么现在就还是靠中介。那这些我觉得未来可能 AI agent 都能去干。
以后可能是我有一个 agent,你有一个 agent。以后说咱俩假如说想约饭约个时间,然后可能直接你的 agent 给我的 agent 发一条消息,然后我的 agent 判断说这个人,极客公园的靖宇老师是我值得约的一个人,然后我就接受你的邀约对吧。我赶紧把它加到我的日历里,然后我可能根本就不需要知道这事。我只要等到晚上的时候看一下,靖宇给我约了一个明天晚上要约饭,对吧,我就记住明天晚上要去,那就行了。然后甚至说到了那个时间点,agent 可以提醒我,赶紧把手头工作收拾收拾,该出门了。
如果能做到这种,日常工作生活的效率就会很高。因为我发现,就是像我在日常工作当中,有大量的时间其实都是在做这种沟通性质的杂事。
极客公园:是的。
李博杰:然后可能像我作为一个研究科学家可能还少一点,如果说有一些沟通性质比较强的职业,可能一天 70% 的时间在干杂事。那其实这些杂事我觉得都可以让 AI 去取代,让人就 focus 干他自己真正感兴趣的、能创造价值的这个事情。
极客公园:是的,是的,是的。嗯,刚才我们提到的有代码方向、中介类的,还有教育类的,大家要多关注这些方向,都有可能在 agent 的方向跑出来。
除了这种通用型的 agent,今天咱们这个录了两个小时,其实咱们博杰这边,然后包括我的同事婉晨其实给大家去分析了,到底什么才能算是 AI agent。作为一个原教旨主义,AI agent 到底应该是一个什么样的一个东西,然后包括接下来去讨论,像这个 Manus,然后他去做的这样一个 agent,以及它背后用了一些技术,它和大模型之间的关系到底是怎样的,然后包括这些 AI 背后的这样一些技术流派,然后接下来又聊到像这种非直场景的 Agent。
然后其实今天真的是聊了很多关于 AI,然后关于 Manus 背后它用的这些技术本身的这些东西。我本人至少是学到了很多,然后我看咱们也很多同学其实在咱们这个直播下面去留言,去一起来讨论,真的是非常开心。
李博杰:对,今天非常开心能和大家一起来聊 agent。
极客公园:接下来我看一下,下周应该就是英伟达的 GTC 大会。通过它的官网,其实我们能看到 AI Agent 也是这次 GTC 要重点去讲的内容。所以大家可以期待,今年真的应该是 AI Agent 的一年。
另外,大家除了关注 AI agent,也可以关注博杰在的 PINE AI,他们在语音方面的功能以及产品,我们这边是非常期待的。也期待博杰能够再次来我们极客科技谈,和大家一起去分享您在 AI 方面的宝贵经验和见解。所以今天非常感谢博杰、感谢婉辰。
李博杰:非常感谢靖宇和婉辰。希望我们今年真的能做到 agent 的元年,明年这个时候,说不定 agent 就可以代替我去做这个 talk 了,对吧?能够像一个真正的我一样讲这么深入,我觉得还是挺有希望的。
极客公园:那不行,我还是希望能和你面对面的交流,真人出席。
极客公园:对,你可以和你的 agent 一起出席,他讲错的地方,你说 “这里打断一下,应该是这样的”。
好了,今天真的非常感谢,也感谢大家收看我们极客科技谈的直播。下周不出意外的话,我们肯定会去直播关于 GTC 的内容,不管是 AI Agent 也好,还是机器人也好,都会有相关的直播。大家就期待关注我们极客公园公众号的视频,不要错过我们每一次的直播。感谢博杰,那咱们下次再见,拜拜!