LLM

2025-09-08

Agent 的两朵乌云：实时与环境交互，从经验中学习

非常荣幸受张家兴老师邀请，9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云：实时与环境交互，从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家，供参考和讨论。

📰 官方报道：【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办，探索 AI 智能体与全地形具身智能的瓶颈及突破

演讲资料

🎬 演讲视频
- 演讲视频 YouTube 在线观看
- 演讲视频下载（474 MB，2 小时 16 分）
📖 英文版幻灯片
- 英文版幻灯片在线浏览, 下载 PDF 版本
- 英文版幻灯片源代码
📖 中文版幻灯片
- 中文版幻灯片在线浏览, 下载 PDF 版本
- 中文版幻灯片源代码

演讲概要

1900 年，开尔文勋爵在一次演讲中说：”物理学的大厦即将建成，只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天，AI Agent 领域也面临着类似的”两朵乌云”。

第一朵乌云：实时交互的挑战

当前的 AI Agent 在与环境实时交互时面临严重的延迟问题：

语音交互的困境

串行处理 vs 实时需求：必须等待用户说完才能想，想完才能说
快慢思考的两难：深度思考需要10+秒（用户失去耐心），快速响应容易出错
技术瓶颈：每一步都在等待（VAD检测、ASR识别、LLM思考、TTS合成）

GUI 操作的 “最后一公里” 难题

Agent 操作电脑比人类慢 3-5 倍
每次点击都需要重新截图、思考（3-4秒延迟）
存在”莫拉维克悖论”：模型”知道”做什么，但”做不到”

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀

【本文是在图灵社区大模型技术共学营的演讲，Slides 链接, 下载 PDF 版本】

深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式，系统性地设计和管理 Agent 的信息环境，构建高效、可靠的 AI Agent 系统。

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

我们正在经历 AI 交互模式的根本性转变：

Chatbot 时代

🗣️ 对话式交互：用户提问 → AI 回答 → 循环往复的问答模式
📚 知识渊博的顾问：只能”说”不能”做”，被动响应用户需求
🛠️ 典型产品：ChatGPT、Claude Chat

Agent 时代

🎯 自主行动模式：用户设定目标 → Agent 执行 → 自主规划和决策
💪 能干的助手：既能”想”也能”做”，主动发现和解决问题
🚀 典型产品：Claude Code、Cursor、Manus

2025-09-08

Agent 的两朵乌云：实时与环境交互，从经验中学习

演讲资料

演讲概要

第一朵乌云：实时交互的挑战

语音交互的困境

GUI 操作的 “最后一公里” 难题

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀

目录

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

Mastodon

Links

LLM

2025-09-08 Agent 的两朵乌云：实时与环境交互，从经验中学习

演讲资料

演讲概要

第一朵乌云：实时交互的挑战

语音交互的困境

GUI 操作的 “最后一公里” 难题

2025-07-30 从提示工程到上下文工程：写好 Agent 的秘诀

目录

Part 1: 范式变迁 - 从 Chatbot 到 Agent

从 Chatbot 到 Agent：范式的根本转变

Mastodon

Links

2025-09-08

Agent 的两朵乌云：实时与环境交互，从经验中学习

2025-07-30

从提示工程到上下文工程：写好 Agent 的秘诀