非常荣幸受张家兴老师邀请,9 月 4 日在狮子山人工智能实验室做了一场《Agent 的两朵乌云:实时与环境交互,从经验中学习》的学术报告。今天把这个报告的幻灯片和视频分享给大家,供参考和讨论。

📰 官方报道【产研对接】第 2 期 “FAIR plus × 狮子山问道” 成功举办,探索 AI 智能体与全地形具身智能的瓶颈及突破

演讲资料

演讲概要

1900 年,开尔文勋爵在一次演讲中说:”物理学的大厦即将建成,只有两朵乌云……” 这两朵小乌云后来引发了相对论和量子力学两场革命。今天,AI Agent 领域也面临着类似的”两朵乌云”。

第一朵乌云:实时交互的挑战

当前的 AI Agent 在与环境实时交互时面临严重的延迟问题:

语音交互的困境

  • 串行处理 vs 实时需求:必须等待用户说完才能想,想完才能说
  • 快慢思考的两难:深度思考需要10+秒(用户失去耐心),快速响应容易出错
  • 技术瓶颈:每一步都在等待(VAD检测、ASR识别、LLM思考、TTS合成)

GUI 操作的 “最后一公里” 难题

  • Agent 操作电脑比人类慢 3-5 倍
  • 每次点击都需要重新截图、思考(3-4秒延迟)
  • 存在”莫拉维克悖论”:模型”知道”做什么,但”做不到”

我们的解决方案:SEAL 架构

SEAL (Streaming, Event-driven Agent Loop) 是我们提出的创新架构,将所有交互抽象为异步事件流:

  1. 感知层 (Perception)

    • 将连续信号(语音、GUI)转换为离散事件
    • 流式语音感知模型替代 VAD + ASR
    • 输出丰富的声学事件(打断、情感、笑声等)
  2. 思考层 (Thinking)

    • Interactive ReAct:打破僵化的”观察-思考-行动”循环
    • 实现边听边想、边想边说
    • 快思考(0.5秒)→ 慢思考(5秒)→ 持续思考
  3. 执行层 (Execution)

    • 训练端到端的 VLA 模型
    • 生成自然的语音停顿和填充词
    • 实现类人的鼠标移动轨迹

第二朵乌云:从经验中学习

当前 Agent 每次任务都从零开始,无法积累领域知识和提升任务熟练度。

从”聪明”到”熟练”的挑战

  • SOTA 模型 ≈ 顶尖毕业生(知识渊博但缺乏经验)
  • 业务流程是动态的、非公开的
  • 仅靠提升基座模型无法解决”经验”问题

三种学习范式

1. 后训练 (Post-training)

  • 方法:通过 RL 参数更新
  • 价值:将经验固化到参数中
  • 案例:Kimi K2 的 Model as Agent

2. 上下文学习 (In-context Learning)

  • 方法:利用 Transformer 的注意力机制
  • 突破
    • DeepSeek MLA:16倍 KV Cache 压缩
    • 稀疏注意力:将 KV Cache 变成向量数据库
    • MiniMax-01:线性注意力 + Softmax 注意力的混合架构

3. 外部化学习 (Externalized Learning) 【核心创新】

  • 知识库:持久化经验存储,无需重新训练

    • Contextual Retrieval:为每个文档片段添加上下文
    • LLM 自动化总结:将算力转化为可扩展的知识库
  • 工具生成:Agent 自我进化

    • 智能 RPA:将重复操作总结成工具(查天气从47秒降到10秒)
    • 自动诊断:从生产日志中自动 Triage 问题
    • MCP-Zero:主动工具发现,98% token 节省

延续 Scaling Law

“The two methods that seem to scale arbitrarily … are search and learning.” — Rich Sutton, The Bitter Lesson

外部化学习打破了模型参数的限制

  • Search → 外部知识库和工具库
  • Learning → LLM 将经验总结为知识和代码
  • 将 Scaling Law 的边界延伸到外部生态系统

核心洞察

  1. 实时交互的本质:不是让 LLM 更快,而是让它像人一样”边听边想、边想边说”
  2. 学习的本质:不是把所有知识塞进参数,而是建立可靠的外部知识和工具体系
  3. Agent 的未来:从知识的容器变为发现的引擎

Pine AI 的实践

我们在 Pine AI 正在将这些理念付诸实践,让 AI Agent 能够:

  • 与世界实时交互(语音电话、GUI 操作)
  • 从经验中学习(知识积累、工具生成)
  • 真正为用户解决问题、办成事

如果你对构建 SOTA 的自主 AI Agent 感兴趣,欢迎加入我们 Pine AI 团队。我们正在寻找喜欢与 AI 协作编程、热爱动手解决问题、具备扎实工程能力的全栈工程师。联系方式:boj@19pine.ai


官方报道

以下内容转载自深圳市机器人协会官方公众号

【产研对接】第2期”FAIR plus × 狮子山问道”成功举办,探索AI智能体与全地形具身智能的瓶颈及突破

为推动具身智能行业技术创新与成果转化、促进全产业链协同发展,深圳市机器人协会联合招商局狮子山人工智能实验室,共同主办”FAIR plus × 狮子山问道”系列活动,每期邀请业内专家分享具身智能行业的前沿技术与实践经验。

9月4日,第2期”FAIR plus × 狮子山问道”活动成功举办。现场邀请到Pine AI 联合创始人、首席科学家、首批”华为天才少年”李博杰,赛博格机器人联合创始人、华南理工大学副教授张怀东出席,就AI智能体发展的核心瓶颈与全地形具身智能机器人的应用突破等议题进行分享。

活动伊始,与会嘉宾走进位于福田河套科创中心的招商局狮子山人工智能实验室,现场深入了解实验室在算力平台、算法研发、场景化应用等方面的布局,感受到前沿科研与产业落地之间的紧密衔接。

招商局创新科技(集团)有限公司党委委员、副总经理,招商局先进技术研究院副院长陈超致开场辞。他强调,具身智能是串联AI与实体经济的关键纽带,其技术突破与场景落地,离不开产学研用各方的深度协同。期待通过本次系列活动,与行业同仁共探技术路径、共拓产业生态,推动前沿科技向实际应用落地的转化。

招商局集团人工智能首席科学家、狮子山人工智能实验室主任张家兴主持活动,并表示,”FAIR plus × 狮子山问道”系列活动旨在打造一个覆盖具身智能产学研用的交流互鉴平台,通过汇聚学界的前沿研究成果与实践经验,推动跨领域智慧碰撞与资源对接,为具身智能产业发展提供助力。

主题分享环节,Pine AI 联合创始人、首席科学家,首批”华为天才少年”李博杰以《Agent的两朵乌云:实时与环境交互,从经验中学习》为题展开深度探讨。他指出,智能体发展正面临两大关键挑战:一是如何在复杂动态的环境中实现高效的实时交互,二是如何从有限的经验中进行自我学习与进化。围绕两朵”乌云”,他结合前沿研究与实践案例,提出了未来智能体在算法架构、计算资源和场景落地等方面的发展突破口。

赛博格机器人联合创始人、华南理工大学副教授张怀东以《全地形具身智能机器人的复杂场景应用突破》为题,结合团队在复杂地形适应、跨模态感知与控制、动力学优化等方面的经验,系统阐述了全地形具身智能机器人在灾害救援、工业巡检、户外探索等典型场景中的应用进展与创新成果。他指出,机器人要实现从实验室走向可复制、可扩展的落地,关键在于打通软硬件与应用场景的链路。

作为具身智能产学研用深度联动的关键纽带,”FAIR plus × 狮子山问道” 系列活动致力于推动跨领域创新资源高效整合、加速核心技术从研发到产业化。未来,协会与实验室双方将持续推进系列品牌活动,推动技术创新与产业落地形成良性循环,助力具身智能技术走出实验室、融入产业链、赋能新质生产力发展。

关于狮子山人工智能实验室

狮子山人工智能实验室由招商局集团创建,于2024年9月12日在香港科学园成立。实验室由招商局集团人工智能首席科学家张家兴博士领衔,汇集大模型、计算机视觉、定位导航、运动控制、机械结构等众多领域的天才少年和资深专家,实现跨学科人才交流与协作。

实验室秉承”将智能赋予机器,把温暖送给人类”的使命愿景,面向服务场景开展具身智能前沿技术探索和创新产品研发。实验室坚持研发端到端模型,相信探索式机器学习,发现自然语言的价值,最终创造可以走进千家万户的具身智能技术。

作为招商局先进技术研究院旗下的重要组成部分,实验室将通过深港协同合作构建产业创新生态体系,加快构建”Embodied-AI X Agentic-AI”全栈技术研发体系,矢志成为全球领先的具身智能技术领跑者,为千行百业高质量发展提供科技赋能,为亿万家庭创造更具幸福感的生活新范式。

关于FAIR plus

FAIR plus 是一个专注于机器人全产业链技术和开发资源的平台。通过学术会议、技术标准、社区培育、供需对接等方式,创造人工智能+机器人各产业链环节的开发、产品、工程、方案等技术人员,以及有意引入机器人的场景方相关工艺、设备、信息技术人员线下见面的机会,达成合作,以有效促进机器人向智能化方向发展,连同提升产业整体能力的建设和配置。

日前,机器人全产业链接会 FAIR plus 2026于2026年4月22-24日正式定档。展会聚焦机器人全产业链技术与开发资源,重磅打造机器人全产业链展区、初创企业联展区等特色展区,涉及50+个具身智能机器人产业环节与500+家机器人产业链上游及整机企业实物展示,预计吸引5万+名专业观众、100+海外专业买家团共襄盛举。

关于深圳市机器人协会

深圳市机器人协会(SRA)由中国科学院深圳先进技术研究院于2009年9月发起成立,是国内最早成立的机器人行业协会。协会是由深圳市从事机器人行业的企业、研发机构及产业链上下游相关单位自愿组成的非营利性社会组织。深圳市机器人协会伴随着深圳机器人产业的发展和机器人企业的壮大而成长,会员包括工业机器人、服务机器人、医疗机器人、教育机器人、特种机器人及人工智能等领域的企业800余家,会员产值超1500亿元。是机器人领域会员个数和产值规模最大的地方性协会。

协会依托中科院深圳先进院的科研资源,下设深圳市人工智能专家委员会、青年专家委员会和医疗机器人专家委员会,先后发起成立深圳市人工智能学会、华南机器视觉产业联盟和深圳市物流机器人产业联盟。常年为政府、企业和第三方机构提供技术支持、产业对接等咨询服务。

Comments