Bojie Li (李博杰)
2025-11-14
【本文是笔者在 首届 FAISys’25 (The 1st Frontier AI Systems Workshop) 的受邀报告。】
【以下内容为根据英文 slides 自动生成的中文翻译,建议阅读原始 slides】
大家好,非常荣幸在 首届 FAISys’25 做报告,今天我分享的主题是 Self-Evolving Real-Time Agents: Think While Listening, Speak While Thinking, Learn While Acting (自我进化的实时 Agent:边听边想,边想边说,边做边学)。
我是 Pine AI 的联合创始人和首席科学家。目前我们 Pine AI 的业务是通过 AI 打电话和操作电脑,帮助用户处理日常事务。比如帮助用户砍价、取消订阅、投诉维权、获取赔偿等。我们已经为用户节省了超过 300 万美元,成功率达到 93% ,平均为每位用户节省 270 分钟的时间。
从经验中学习,代表了机器学习的根本挑战。当前自主 AI Agent 在实际应用中面临两大核心挑战:与环境的实时交互,以及从经验中学习。今天我将介绍我们在这两方面的技术突破。
两大核心挑战
挑战一:实时交互的高延迟
实时语音 Agent 必须像人类一样在 1 秒内响应,但传统架构使用推理型 LLM 会引入 2-10 秒的延迟。
VAD(语音活动检测)的挑战:
- 必须等待 500-800ms 的持续静音才能确认用户说完
- “嗯哼”这样的回应词会被误判为打断
- 丢失了声学信息(情绪、环境音)
ASR(语音识别)的挑战:
- 没有上下文导致高错误率(邮箱、姓名、电话号码)
- 缺乏世界知识导致转写错误
LLM 的挑战:
- 被迫等待,无法边听边想
- 无法边想边说(5-10 秒的沉默)
- 说话时机(turn detection)判断差(何时该说话/保持沉默)
挑战二:从经验中学习
模型很聪明,但不熟练——就像顶尖毕业生缺乏实际工作经验。
固定模型无法学习:
- 无法从成功的轨迹中学习
- 无法从失败的轨迹中学习
- 部署后参数冻结
大世界假说(Big World Hypothesis):
世界太大,无法预先编码所有知识:
- 业务流程是动态且非公开的
- 验证信息因公司而异
- 服务规则不断变化
- 预训练知识不足以支撑部署
2025-10-24
强化学习之父 Richard Sutton 说,当前的大语言模型是一条死路。
这听起来令人震惊。作为《The Bitter Lesson》的作者、2024 年图灵奖得主,Sutton 最相信”更多算力+通用方法必胜”,按理说他应该对 GPT-5、Claude、Gemini 这些大模型赞不绝口。但在最近的访谈中,Sutton 毫不客气地指出:LLM 只是模仿人说什么,而不是理解世界如何运转。
这场由播客主持人 Dwarkesh Patel 组织的访谈引发了激烈讨论。Andrej Karpathy 随后撰文回应,并在另一场访谈中展开了深入探讨。两位大师的争论揭示了当前 AI 发展中三个被忽视的根本问题:
第一,小世界假设的迷思:我们是否真的相信,一个足够大的模型能够掌握世界上所有重要知识,从此不需要学习?还是说,现实世界符合大世界假设——无论模型多大,在具体场景中仍需要不断学习?
第二,持续学习的缺失:当前的 model-free RL 方法(PPO、GRPO 等)只从稀疏的 reward 学习,无法利用环境给出的丰富反馈。这导致 Agent 在现实世界任务中样本效率极低,难以快速适应。
第三,Reasoner 与 Agent 的鸿沟:OpenAI 将 AI 能力分为五级,从 Chatbot 到 Reasoner 再到 Agent。但很多人误以为,把单轮 Reasoner 变成多轮就是 Agent。真正的 Agent 与 Reasoner 的核心区别在于:持续学习能力。
本文将系统梳理这两场访谈中的核心观点,并结合我们在 Pine AI 开发实时 Agent 的实践经验,探讨如何跨越这道鸿沟。
2025-09-28
Unified Bus 的协议文档终于发布了。协议最初的设计大多数是四五年前的工作了,我也有两年多没有继续做网络互联方面的工作,但今天读到这本 500 多页的文档,还是倍感亲切。
与大多数协议文档一样,UB 文档介绍了 Unified Bus 协议的大量细节,但很少涉及它设计背后的思考。作为曾在早期参与 UB 项目的一名小兵,介绍一些我个人的思考。今天产品化的 UB 可能与我们当年的设计有诸多不同,因此不要把本文作为权威指南。当成段子看就行了。
为什么要做 UB
要理解 Unified Bus (UB) 诞生的必然性,我们必须回到一个计算机体系结构中的根本性矛盾:总线(Bus)与网络(Network)的割裂。
长久以来,计算机世界被这两种截然不同的互联范式划分为一个个孤岛。
- 在孤岛内部(例如一台服务器或一个机箱内),我们使用总线技术,如 PCIe 或 NVLink。它们是为紧耦合系统设计的,设备间共享着统一的物理地址空间,通信延迟可以做到纳秒级,带宽极高。这是性能的天堂,但这个天堂的疆域极其有限——总线的物理距离和可连接的设备数量都受到严格限制。
- 在孤岛之间,我们则依赖网络技术,如以太网或 InfiniBand。它们为松耦合系统而生,擅长将成千上万的节点连接起来,具备超强的扩展性。但这种扩展性是有代价的:复杂的协议栈、额外的转发开销、微秒甚至毫秒级的延迟,都让网络的性能与总线相比,存在着数量级的鸿沟。
这种”内外有别”的架构,在很长一段时间里是行之有效的。然而,一个幽灵开始在计算机世界上空盘旋——Scaling Law。
大约 10 年前,深度学习领域的研究者们发现了一个惊人的规律:只要持续增大模型规模、数据量和计算量,模型的性能就会随之可预见地、持续地提升。这个发现彻底改变了游戏规则。曾经被认为是”足够用”的单机 8 卡配置,在动辄百亿、千亿参数的巨型模型面前,瞬间变得杯水车薪。
此时,一个清晰而迫切的需求摆在了所有系统架构师面前:我们能否推倒总线与网络之间的这堵墙?我们能否创造一种统一的互联,既拥有总线级的编程简易度和极致性能,又具备网络级的超大规模扩展能力?
这正是 UB 的核心使命。它不仅仅是对现有协议的修补或改良,而是一次彻底的重构。UB 的目标,是构建一个真正的”数据中心计算机”(Datacenter-scale Computer),将整个集群的异构算力、内存、存储无缝地连接成一个统一的、可编程的整体。在这个愿景中,访问一台远程服务器上的内存,应该像访问本地内存一样简单自然;上万个处理器协同计算,应该像在一块芯片上一样高效。
2025-09-12
最近,阿里千问团队发布了 Qwen3-Next 模型,这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破,特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。
Qwen3-Next 三大突破:
- 混合注意力架构:3层线性注意力 + 1层传统注意力,结合 DeltaNet 的 Delta 规则思想
- 超稀疏 MoE:512专家仅激活11个,80B参数仅激活3B
- 100+ tokens/秒推理速度:通过 MTP 机制达到国际先进水平
核心价值:以 1/10 的计算成本和 10 倍的 token 处理速度,实现超越 32B dense 模型的性能,对标 Gemini 2.5 Flash。
2025-09-08
非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。
📰 官方报道:【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破
演讲资料
- 🎬 演讲视频
- 📖 英文版幻灯片
- 📖 中文版幻灯片
演讲概要
1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。
第一朵乌云:实时交互的挑战
当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:
语音交互的困境
- 串行处理 vs 实时需求:必须等待用户说完才能想,想完才能说
- 快慢思考的两难:深度思考需要10+秒(用户失去耐心),快速响应容易出错
- 技术瓶颈:每一步都在等待(VAD检测、ASR识别、LLM思考、TTS合成)
GUI 操作的 “最后一公里” 难题
- Agent 操作电脑比人类慢 3-5 倍
- 每次点击都需要重新截图、思考(3-4秒延迟)
- 存在”莫拉维克悖论”:模型”知道”做什么,但”做不到”
2025-08-18
【本文基于图灵社区 AI Agent 实战营首次直播内容整理,Slides 链接】
开发一个属于你的 AI Agent,就从这里开始。本文不仅系统介绍了从零构建通用 AI Agent 的基础技术路径(如上下文工程、RAG 系统、工具调用、多模态交互等),还涵盖了快慢思考、多 Agent 协作等进阶技术。通过 9 周的实战项目,逐步掌握 Agent 开发的全生命周期与核心进阶能力。
本课程于 8 月 18 日首次直播预告,将于 9 月 11 日正式开始上课。每周课程约 2 小时,涵盖下面的所有基础内容和进阶内容。当然,每周仅仅花 2 小时听课肯定是不够的,还需要花时间动手编程实践。
实战营核心目标
开发一个属于你的 AI Agent,就从这里开始
🎯 掌握核心架构与工程能力
- 深度理解 Agent 架构: 系统掌握
LLM + 上下文 + 工具的核心设计范式。 - 精通上下文工程: 掌握从对话历史、用户长期记忆到外部知识库 (RAG) 和文件系统的多层次上下文管理技术。
- 掌握动态工具调用: 实现 Agent 与外部 API、MCP Server 的可靠集成,并能通过代码生成实现自我进化。
- 构建高级 Agent 模式: 设计与实现快慢思考 (Mixture-of-Thoughts)、Orchestration 等复杂 Agent 协作模式。
💡 建立系统化开发与部署认知
- 理解技术演进路径: 洞悉从基础 RAG 到能够自主开发工具的 Agent 的技术演进路径。
- 掌握 Agent 全生命周期: 具备独立完成 Agent 项目的设计、开发、使用 LLM as a Judge 评测与部署的闭环能力。
- 构建领域知识: 通过法律、学术、编程等多个实战项目,积累跨领域 Agent 开发经验。
- 知识体系沉淀: 参与共创《深入浅出 AI Agent》书籍,将碎片化知识系统化输出。
9 周实战计划概览
| 周次 | 主题 | 内容概览 | 实战案例 |
|---|---|---|---|
| 1 | Agent 入门 | Agent 结构与分类、工作流式 vs 自主式 | 动手搭建一个能联网搜索的 Agent |
| 2 | 上下文设计 | Prompt 模版、对话历史、用户长期记忆 | 为你的 Agent 增加角色设定和长期记忆 |
| 3 | RAG 与知识库 | 文档结构化、检索策略与增量更新 | 构建一个法律知识问答 Agent |
| 4 | 工具调用与 MCP | 工具封装与 MCP 接入、外部 API 调用 | 对接 MCP Server,实现深度调研 Agent |
| 5 | 编程与代码执行 | 代码库理解、可靠的代码修改、一致的执行环境 | 构建一个能自己开发 Agent 的 Agent |
| 6 | 模型评估与选择 | 模型能力评估、LLM as a Judge、安全护栏设计 | 构建评测数据集,用 LLM as a Judge 自动评测 Agent |
| 7 | 多模态与实时交互 | 实时语音 Agent、操作电脑与手机 | 实现语音电话 Agent & 集成 browser-use 操作电脑 |
| 8 | 多 Agent 协作 | A2A 通信协议、Agent 团队分工与协作 | 设计多 Agent 协作系统,实现”边打电话边操作电脑” |
| 9 | 项目集成与展示 | Agent 项目总装与展示、最终成果打磨 | 展示你独一无二的通用 Agent |
9 周进阶课题
| 周次 | 主题 | 进阶内容概览 | 进阶实战案例 |
|---|---|---|---|
| 1 | Agent 入门 | 上下文的重要性 | 探索上下文缺失对 Agent 行为的影响 |
| 2 | 上下文设计 | 用户记忆的整理 | 构建个人知识管理 Agent,实现长文本总结 |
| 3 | RAG 与知识库 | 长上下文压缩 | 构建学术论文分析 Agent,总结论文核心贡献 |
| 4 | 工具调用与 MCP | 从经验中学习 | 增强深度调研 Agent 的专家能力 (Sub-agent 与领域经验) |
| 5 | 编程与代码执行 | Agent 的自我进化 | 构建能自主利用开源软件解决未知问题的 Agent |
| 6 | 模型评估与选择 | 并行采样与顺序修订 | 为深度调研 Agent 增加并行与修订能力 |
| 7 | 多模态与实时交互 | 快慢思考结合 | 实现快慢思考结合的实时语音 Agent |
| 8 | 多 Agent 协作 | Orchestration Agent | 用 Orchestration Agent 动态协调电话与电脑操作 |
| 9 | 项目集成与展示 | Agent 学习方式对比 | 对比 Agent 从经验中学习的四种方式 |
2025-08-03
继《用 Vibe Coding 解决 LLM 限制采样的面试题》之后,再分享我司(Pine AI)一道关于 LLM 基础原理的 Vibe Coding 面试题。
很多人对 Vibe Coding 有个误解,以为就是不断地问 AI “这个怎么做?那个怎么实现?”。这种方式注定会失败。真正的 Vibe Coding,你必须是架构师和产品经理,像老师指导学生一样去引导 AI,而不是反过来。
这道面试题考察候选人对 Transformer 基本原理的理解和 vibe coding 快速实现的工程能力。这就是我们需要的人:懂模型,并且工程能力强。
The Challenge: 基于注意力的 LLM 幻觉检测器
1. 背景与问题 (Background & Problem Statement)
在许多应用场景中,大语言模型(LLM)需要基于一份给定的上下文(Context)来回答问题或提取信息,这个过程通常被称为“上下文学习”(In-Context Learning)。然而,LLM 存在一个已知的、严重的安全隐患:当被问及一个上下文中不存在的信息时,它可能会“幻觉”(Hallucinate)出一个格式正确但事实错误的答案,而非承认信息的缺失。
2025-07-30
【本文是在图灵社区大模型技术共学营的演讲,Slides 链接】
深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。
目录
- Part 1: 范式变迁 - 从 Chatbot 到 Agent
- Part 2: Agent 核心解析
- Part 3: 上下文工程 (Context Engineering)
- Part 4: 记忆与知识系统
Part 1: 范式变迁 - 从 Chatbot 到 Agent
从 Chatbot 到 Agent:范式的根本转变
我们正在经历 AI 交互模式的根本性转变:
Chatbot 时代
- 🗣️ 对话式交互:用户提问 → AI 回答 → 循环往复的问答模式
- 📚 知识渊博的顾问:只能”说”不能”做”,被动响应用户需求
- 🛠️ 典型产品:ChatGPT、Claude Chat
Agent 时代
- 🎯 自主行动模式:用户设定目标 → Agent 执行 → 自主规划和决策
- 💪 能干的助手:既能”想”也能”做”,主动发现和解决问题
- 🚀 典型产品:Claude Code、Cursor、Manus
2025-07-25
在 AI 应用开发中,选择合适的 LLM API 服务至关重要。无论你是在构建智能对话系统、开发 AI Agent,还是参加 AI Hackathon,本文都将为你提供全面的 API 使用指南,涵盖 OpenRouter、Anthropic API、火山引擎和 Siliconflow 等主流服务。
为什么需要多个 API 服务?
不同的 LLM 模型有各自的优势,特别是在开发 AI Agent 时,需要根据具体场景选择合适的模型:
- Claude(Anthropic):擅长复杂推理、编程和 Agent 任务,特别适合需要深度思考的场景
- Gemini(Google):在长文本处理、多模态理解方面表现出色,适合处理图片、视频等多媒体内容
- GPT(OpenAI):图片理解和数学推理能力强,日常对话体验优秀
- 豆包(字节跳动):国内访问速度快,语音对话体验好,特别适合实时交互场景
- 开源模型:成本低,可定制性强,适合大规模部署
2025-07-21
(本文是根据我跟 Gemini 2.5 Pro 一个小时的语音聊天,全自动生成的)
人类对自由的追求,是一场与内心深处生物本能的深刻对话。在展开这场对话之前,我们必须先理解 “自由” 的两种核心面貌,正如哲学家以赛亚·伯林所阐述的:
- 第一种,是“免于……的自由”(Freedom From),即消极自由。它致力于摆脱外部的束缚、强制与干涉。这是为我们的人生划定一个神圣的、不受侵犯的“空间”,其终极形态是财务自由——你免于为生计而出卖劳动的强制。
- 第二种,是“去做……的自由”(Freedom To),即积极自由。它追求的是成为自己意志的主人,拥有足够的能力与资源去实现自我价值。这是赋予我们行动的“力量”,其终极形态是创造自由——你能够将想象变为现实。
理解了这对概念,我们才能洞察一个更深层的秘密,这个秘密由 2025 年图灵奖得主、强化学习之父 Richard Sutton 在其经典教科书《强化学习》中揭示:驱动我们快乐的,并非静态的 “奖励” 本身,而是动态的 “奖励预测误差” 。真正让我们的大脑分泌多巴胺、感受到快乐的,是 “实际所得” 与 “先前预期” 之间的正向差距。
一个完全可预测的、没有惊喜的世界,无论多么富足,其奖励预测误差都趋近于零。这从生物学上解释了为何纯粹的 “Freedom From”——一个安逸、无忧但一成不变的港湾——最终可能导致空虚。相反,充满挑战、探索与创造的 “Freedom To”,则是一个持续产生正向预测误差的强大引擎。
今天,AI 的崛起,正以前所未有的方式,将这个引擎的钥匙交到我们每一个人手中。