Agent
2025-09-08
非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。
📰 官方报道:【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破
演讲资料
- 🎬 演讲视频
- 📖 英文版幻灯片
- 📖 中文版幻灯片
演讲概要
1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。
第一朵乌云:实时交互的挑战
当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:
语音交互的困境
- 串行处理 vs 实时需求:必须等待用户说完才能想,想完才能说
- 快慢思考的两难:深度思考需要10+秒(用户失去耐心),快速响应容易出错
- 技术瓶颈:每一步都在等待(VAD检测、ASR识别、LLM思考、TTS合成)
GUI 操作的 “最后一公里” 难题
- Agent 操作电脑比人类慢 3-5 倍
- 每次点击都需要重新截图、思考(3-4秒延迟)
- 存在”莫拉维克悖论”:模型”知道”做什么,但”做不到”
2025-07-30
【本文是在图灵社区大模型技术共学营的演讲,Slides 链接】
深入探索 AI Agent 的设计哲学与实践策略。从 Chatbot 的对话模式到 Agent 的行动模式,系统性地设计和管理 Agent 的信息环境,构建高效、可靠的 AI Agent 系统。
目录
- Part 1: 范式变迁 - 从 Chatbot 到 Agent
- Part 2: Agent 核心解析
- Part 3: 上下文工程 (Context Engineering)
- Part 4: 记忆与知识系统
Part 1: 范式变迁 - 从 Chatbot 到 Agent
从 Chatbot 到 Agent:范式的根本转变
我们正在经历 AI 交互模式的根本性转变:
Chatbot 时代
- 🗣️ 对话式交互:用户提问 → AI 回答 → 循环往复的问答模式
- 📚 知识渊博的顾问:只能”说”不能”做”,被动响应用户需求
- 🛠️ 典型产品:ChatGPT、Claude Chat
Agent 时代
- 🎯 自主行动模式:用户设定目标 → Agent 执行 → 自主规划和决策
- 💪 能干的助手:既能”想”也能”做”,主动发现和解决问题
- 🚀 典型产品:Claude Code、Cursor、Manus