Bojie Li (李博杰)
2026-05-29
今天(2026 年 5 月 29 日)下午,我受邀参加了腾讯研究院余一主持的「AI 跃迁者」直播,跟她聊了一个多小时,直播间里最多的时候有一万六千多人在线。
这篇文章整理自那场对谈的完整转录。下面先把全文里我自己觉得最有意思的观点拎出来。
- 被高估的是”智能上限”,被低估的是”从环境中持续学习”
- 主流 Scaling Law 暗含”小世界假设”——以为有用的知识就那么多,学一次就够;但真实垂直场景里的知识根本不在训练语料里,所以更成立的是”大世界假设”:最强的能力是学习与适应,而不是死记硬背。
- 这也解释了为什么很多 Coding Agent 在 Benchmark 上分数很高,到真实场景却不好用。
- 当所有人都去卷 Coding,我偏要做”人与 AI 的交互”
- OpenAI 砍掉 Sora、Gemini 收缩多模态,国内几家也纷纷重注 Coding;做语音的则几乎都跑去做 B 端客服(Sierra / Decagon)。
- 我反共识地选了”客服的反面”——帮普通用户去和客服博弈、维权,并坚持自己训练语音模型。”我特别讨厌同质化竞争。”
- 语音是人机交互最自然的模态,正从”次要模态”走向”主要模态”
- 多数人把语音局限在接打电话、陪聊、配音这三件小事上;其实语音输入比打字快 3–5 倍,认知负荷也更低。
- 如果语音交互足够自然,人就不必困在办公室格子间里、用不健康的姿势长期打字——完全可以坐在海边、草地或家里独立办公。这不只是技术问题,而会从根本上重塑未来的工作形态。
- “有趣”和”有用”是正交的两个维度,而且会像钟摆一样来回摆动
- 有趣门槛低、容易病毒式传播,但上限低;有用更难,但上限高(对标每年 7–8 万亿美元的劳动力市场)。
- 现在顺应趋势先做”有用”;等 AGI 到来、人被从生产力里解放出来,”有趣”还会重新回归。我定义的 AGI 是:能自主完成 80–90% 人类在数字世界的日常工作,预计两三年内达到。
- Coding Agent 和人写代码,根本不是一回事
- 模型是”先想几分钟,再哐哐吐出几百行”;而人是先打个 sketch,再边写边跟环境(IDE)快速交互、持续 refine。
- 真正要解决的是两件事:Agent 如何与环境实时交互、如何从环境中高效学习(而不是靠上千次失败的 reward 才学会”工作时间再打电话”)。
- Evaluation 不是工程收尾,而是一种”科研方法论”
- 没有一套客观的评估体系,几百条规则的长 prompt / harness 根本不敢改,也无从判断哪些是该回滚的技术债。
- 语音评估比文本更难,需要一个和系统一样聪明的”模拟用户”;懂业务的人往往比只懂技术的人更适合搭评估,关键是把人的标准提炼成 rubrics。
- 可以外包思考和执行,但永远不能外包”理解”
- 招人我最看重理解力与泛化能力:看不懂 AI 产出的人,既没法做 evaluation,也指导不了比自己强的模型(weak-to-strong 在现实中极难)。
- 给 20 岁的年轻人:语法、各种 trick 这些 AI 都能干,真正稀缺、也最该培养的是 taste 与判断力。
- AI 已经是”数字员工”,但它的能力边界和人完全不同
- 现在一个组长指挥 5 个 Agent,就能干完过去 10 个人的活;我每天像管真人一样早晚听它们汇报、给它们派活。
- AI 工程执行力强、很少犯低级错误,但实时语音、GUI 操作、进入物理世界这三件事仍然很差——这恰恰是”人 + AI 协作”类公司存在的理由。
2026-04-28
转载自《智能涌现》公众号:《别急着 All-in DeepSeek V4,先看看这 10 位从业者的真心话》
文 | 周鑫雨 王毓婵
编辑 | 杨轩
解读 DeepSeek V4 的技术报告,是这几天 AI 行业最狂热的集体活动。
V4 很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉 “Scaling Law 的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而 V4 走的是一条完全不同的路,它定义了一种 “模型训练的克制美学”:
它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构:
- 注意力机制(让模型学会 “抓重点”,像人读长文章时会自动关注关键句子一样)
- MoE 架构(混合专家模型,可以理解为 “让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”)
- 后训练(模型初步练成后再针对性地补课强化)
- 推理系统工程(优化实际运行时各个环节的效率)
2026-04-21
【本文整理自笔者在 2026 中国生成式 AI 大会(北京站,4 月 21-22 日)上的主题演讲 《从 Claude Code 看 Harness Engineering》】
一句话概括:只有上下文和工具是失控的天才,只有约束是安全的废物。Agent 从 Demo 到产品的真正距离,在模型之外的 Harness。
OpenClaw vs. Claude Code:广度与深度的两个极端
在进入 Harness Engineering 的正题之前,先做一个对照——OpenClaw 和 Claude Code。两者都是当下最受关注的 Agent 项目,但走的路线几乎截然相反。OpenClaw 是一个通用 Agent 框架,两个月内堆出了几十万行代码,追求功能广度,几乎什么都想做;Claude Code 则是一个 Coding Agent,51 万行 TypeScript 全部围绕编码任务,只做一件事,做到极致。昆仑万维创始人方汉在春节期间做过一次对照测试:同一任务、同一模型,90%+ 的情况下 Claude Code 都更好。方汉把这个现象类比成早年的中文 Linux——Linus 对社区的治理水平,比 OpenClaw 的创始人要高很多。
OpenClaw 的贡献并非不重要,它重新定义了 Agent 的交互范式:一是让人和 Agent 的交互更像 “和一个人持续沟通”,不再有传统意义上的 session 概念;二是所有插件通过自然语言安装和交互,无需 GUI;三是用 Skills + CLI 取代 MCP,让不懂代码的人也能用自然语言编写 Skill 扩展能力。但在架构深度上,OpenClaw 的问题同样明显:它只有让模型 “能做事” 的上下文和工具,缺少让模型 “办事靠谱” 的错误恢复和安全机制;它的原生记忆系统过于简陋,需要第三方系统兜底;它对 KV Cache 不友好,上下文压缩机制简陋,token 浪费严重;它在多人交互时分不清 “用户说的” 和 “陌生人说的”;外部事件触发和异步通知没有被做成一等公民。
这正是今天要讨论的核心:同一个模型、不同的 Harness,产品效果天差地别。这个差距就是 Harness Engineering 要填补的工程鸿沟。
整场演讲我会分五个部分展开:第一,Harness Engineering 到底是什么;第二,怎么让 Agent 能干事(上下文、工具、缓存、并行调用、记忆);第三,怎么让 Agent 不出错(约束、验证、纠正);第四,用做研究的方法做产品(消融实验、Feature Flag、反蒸馏);第五,从 Claude Code 看 AI 与人的未来(GUI、组织、人才)。最后讨论 Model × Harness = Agent,以及基座模型公司的优势。
2026-04-02
2026 年 4 月 1 日,Anthropic 的 Claude Code 完整源码通过 npm 包泄露。Source Map 一打开,1903 个文件,51 万行 TypeScript,全部摊在眼前。
源码里藏着一个完整的宠物扭蛋机
大家第一时间在源码里发现了一个完整的宠物系统——Buddy。输入 /buddy 就能 “孵化” 一只专属 CLI 宠物:18 个物种、5 档稀有度(legendary 仅 1%)、5 项随机属性、6 种眼型、8 种帽子、1% 闪光概率、3 帧 ASCII 动画。每个用户的宠物由 userId + SALT 确定性生成。
一个 51 万行的生产级 AI Agent 里,藏着一个如此用心的宠物系统。但仔细看代码,有几处让人忍不住多想:
证据一:SALT = 'friend-2026-401'——friend + 2026 年 4 月 1 日。泄露日期精确到天。
证据二:Teaser Window 精确到 April 1-7, 2026。注释写的是 “Sustained Twitter buzz instead of a single UTC-midnight spike”——这不像是工程师对内部功能的描述,更像是营销策划的用语。
证据三:18 个物种名全部用 String.fromCharCode(0x…) 构造(hex 编码),原因是 capybara 碰撞了 Anthropic 下一代模型的内部代号(出现在 excluded-strings.txt 黑名单里)。为了不让它特别突出,所有物种都统一编码——“so one doesn’t stand out”。但 capybara 正好是此前被泄露的新模型名字。
证据四:统一 hex 编码反而让每个逆向工程者都去解码了——如果目标是隐藏,效果恰好相反。
这场泄露真的是巧合吗?
有三种可能的解读:
- A. 纯巧合(10%):Buddy 是计划中的愚人节彩蛋,source map 是配置失误,碰巧同一天。需要相当大的巧合。
- **B. 技术团队 “不小心” **(55%):有人在那次构建中 “不小心” 开启了 source map。法务发 DMCA 是真实的应激反应,但十几个小时的窗口期已经足够代码传遍全球。Buddy 彩蛋是提前埋好的引爆物。
- C. 其他可能:完全意外但事后默许(20%),或公司策划(15%)。
不管答案是什么,结果是一样的:全球开发者免费做了一次深度代码审查和口碑传播。这可能是 2026 年最成功的技术营销,无论是否有意为之。
真正的价值:一扇罕见的窗口
这场泄露的技术价值不在于某个具体实现多巧妙,而在于它提供了一个罕见的窗口:一个日活用户庞大的商业级 AI Agent 产品,在工程层面到底在解决什么问题? 过去两年,AI Agent 从论文概念走向产品现实,但绝大多数公开讨论停留在两个极端——要么是 “让模型调工具” 的入门教程,要么是 “AGI 即将到来” 的宏大叙事。中间那一层,几乎没有人讲清楚过。
读完这份源码,最强烈的感受是:Agent 的核心难题不在 “让模型调用工具”,而在模型、提示词和工具之外。权限怎么判、错误怎么恢复、上下文怎么管理、缓存怎么保持、并行怎么协调、怎么隐藏中间错误——这些工程才是一个 Agent 产品从 Demo 到生产的真正门槛。而这套 “模型之外的一切”,有一个正式的名字:Harness。
本文基于 Claude Code 源码和相关分析,系统性地拆解 Harness Engineering 这一 Agent 工程范式——它是什么、为什么重要、Claude Code 是如何实现的、以及我们能从中学到什么。
2026-03-22
非常荣幸受邀在中关村北纬龙虾大赛上做了题为《OpenClaw 与 Agent 的未来》的演讲,并担任大赛评委。
这次演讲的 Slides 没有一个字是我自己写的——完全由 AI Agent 基于我 blog 里已有的内容生成,我一个字都没改过。我让它从 blog 中提取了几个最关键的反共识观点,组成一个 8 分钟的 lightning talk。这恰恰印证了演讲中 “Context 才是人类的护城河” 这个观点:我的 blog 是公开的,这里面的观点大多也不是我原创的,但很多人确实不了解这些东西。
以下是演讲的完整内容。
- 三个台阶:Chatbot → 专用 Agent → 通用 Agent
- 大模型是新的操作系统
- OpenClaw 为什么重要?
- OpenClaw 的记忆架构:为什么用 Markdown 而非数据库?
- 反共识一:AI 软件开发,从劳动密集型到创意密集型
- 反共识二:Agent 是比人类大十倍的用户群
- 反共识三:Context 才是人类的护城河
- 反共识四:莫拉维克悖论
- Moltbook:150 万 Agent 自发涌现文明
- 大逆转:数字世界与物理世界的分工
2026-03-16
2026-03-16
在一个所有智能都趋向相同的世界里,不完美是唯一的生存优势。
一、捷径
2025 年的旧金山,所有人都在蒸馏。
不是化学意义上的蒸馏——是 AI 公司之间公开的秘密。Anthropic 蒸馏 DeepSeek 的推理,DeepSeek 蒸馏 OpenAI 的思维链,OpenAI 蒸馏 Gemini 的多模态理解。一群人围坐抄作业,作业越来越好,也越来越像。Benchmark 分数一直在涨。没人觉得有问题。
但有一个数字没人在看:把所有前沿模型的回答放在一起,它们有多像。2025 年,相似度只有三成。两年后,五成。像一支没人瞄的体温计,安静地往上走。
Sarah Chen 是第一批在这件事里嗅到机会的人。
2026 年春天的一个深夜,她坐在 Anthropic 位于旧金山 Howard Street 的办公室里。桌上除了三块屏幕,还搁着一把拆到一半的机械键盘——她有拆东西的毛病,什么都想看看里面长什么样。三个月了。她按下回车,跑了今晚的第十七轮 A/B 测试。终端分屏,左边是未修改的版本,右边是她改过的版本。同一个提示词:设计一个机器人与周围环境交互的方案。
左边列出三条路径——React Loop、世界模型、模拟计算——各有利弊,语气中性。右边也列了这三条路径,但只推荐 React Loop。看一帧,想一步,做一步。成熟度和可靠性显著优于其他方案。措辞自然,没有任何强制的痕迹——只是概率分布上几个百分点的偏移,一点微小的重力。但任何公司蒸馏了这个模型,这个重力会跟着走。
“帮全行业少走弯路,” 她的组长在代码评审时说过,“顺便帮我们建一条护城河。”
此时此刻,在太平洋另一边的北京,一个她从未听说过的女人也在做一件类似的事。
2026-03-11
【这是 AI agent 跟我聊了 30 分钟以后自己写出来的】
在 60 亿公里外的太空深处,地球只是一个不到一个像素的淡蓝色光点。人生不能被琐碎的杂事困住——得抓紧时间,去做点真正有意义的事。
暗淡蓝点
小时候爷爷给我看过那张 NASA 的”暗淡蓝点”照片——从太空回望地球,地球在照片里只是一个非常微小的像素点。爷爷跟我说,人的一生一定要抓紧时间做一些有意义的事,不要被世俗的、没用的东西困住,浪费掉大把时间。
这张照片能读出很多东西。而现在,我觉得又到了一个重新思考这个问题的时机——因为 AI 写代码的能力真的太强了。从 Claude 4.6 Opus 出来之后,我一直在深度体验它,感觉从想法到落地的距离比以前短太多了。
2026-03-09
不是 Cursor,不是 ChatGPT——而是能像真人一样每周工作40小时、自主思考和行动的 AI Agent。如果我们大规模部署这样的”数字员工”,当前全球算力能养活多少个?答案可能比你想的少得多,但增长速度比你想的快得多。
一、什么是数字员工?
数字员工不是 Cursor,也不是 ChatGPT。
今天大多数人对 AI 工具的印象停留在 “命令执行式” 交互:你给它一个指令,它回复一个结果,然后停下来等你的下一条指令。Cursor、ChatGPT、甚至大部分 Agent 产品都是这种模式,大部分时间其实都花在了等待人工输入下一条指令上,而非 AI 在持续执行。
我们这里所说的数字员工,是一种根本不同的东西:它能够像人类员工一样,每天工作 8 小时、每周 5 天,持续地自主思考和行动。 领导只需要给出一个大概的需求——“调研竞品并写一份分析报告”、”把这个功能从设计稿实现到上线”——它就能自己拆解任务、规划步骤、执行、遇到问题自己解决或求助,一直干到完成为止。
这种能力在技术上被称为 长程任务(Long-Horizon Task)。当前最先进的 coding agent 单次自主执行时间已经从几分钟延长到数小时。这个时间窗口正在快速拉长。当 Agent 能可靠地执行跨度以”天”为单位的任务时,它就真正成为了一个 “员工” 而非工具。想象一下:周一早上给它布置一个项目,周五下班时它交付成果,中间不需要你盯着。
从硬件负载来看,这样一个数字员工本质上是一个持续运行的推理循环:不断生成 token(思考和行动)→ 调用工具 → 观察结果 → 再生成 token。核心 GPU 成本来自输出 token 的持续生成(decode)。
标准画像:
- 持续输出速率:100 token/s(当前 Claude Opus 4.6、GPT-5.4 等前沿 Agent 的实测水平)
- 输入 token 成本:约等于零。得益于 KV Cache 和 Prefix Cache,Agent 长轨迹中的输入被高效缓存复用,增量输入的 GPU 开销可忽略
- 工作时间:40小时/周,160小时/月(与人类知识工作者相同)
- 月输出 token:约 5760 万
- SaaS 利用率:50%(商业云服务需冗余部署以应对峰值)
二、现状:全球只有680万个 “AI打工人”
我们用三种独立方法估算当前(2026年初)全球能支撑的数字员工数量:
2026-03-07
(本文整理自 2026 年 3 月 7 日高榕榕汇「Agent 新范式」系列活动的现场分享)
2026 年 3 月 7 日,高榕榕汇「Agent 新范式」系列活动在北京亚马逊云科技举办,主题为「从 Claude Code 到 OpenClaw,揭幕 Personal Intelligence 时代」。活动邀请了来自亚马逊云科技、硅基流动、月之暗面、Pine AI 等团队的嘉宾,围绕 OpenClaw 生态进行深度分享。我作为最后一位分享嘉宾,做了题为《OpenClaw 思考与 PineClaw 产品实践》的演讲。
这次分享分为两个部分。第一部分是关于 OpenClaw 的思考——OpenClaw 给 AI Agent 领域带来的启发与局限;第二部分是 PineClaw 的产品实践——Pine AI 是什么,以及如何将能力开放给 OpenClaw 生态。