Agent 人机交互的下一站:实时语音与生成式 UI
(本文是笔者在 2025 年 12 月 20 日的首届智能体网络与应用创新大会上的受邀报告)
摘要
当前 Agent 的人机交互以文本为核心,但这偏离了人类认知的自然模式。从第一性原理看,人类最擅长的输出模态是语音(说话速度是打字的三倍),最擅长的输入模态是视觉。视觉不是文字,而是直观的 UI。
第一步是实现实时语音交互。传统 VAD-ASR-LLM-TTS 串行架构的问题在于必须等待用户说完才能开始思考,在思考完成前无法输出。通过 Interactive ReAct 持续思考机制,Agent 可以边听边想边说:在用户说话时就开始思考,在自己说话时继续深入推理,充分利用所有时间间隙。
第二步是在实时语音基础上扩展观察空间和动作空间。通过扩展 Observation Space(从语音输入到 Computer Use 视觉感知)和 Action Space(从语音输出到 UI 生成与电脑操作),Agent 就能够一边打电话一边操作现有电脑/手机的 GUI 界面,并生成动态 UI 与用户交互。生成式 UI 的一种实现路径是生成前端代码,当前 Claude 4.5 Sonnet 已达到门槛。另一种实现路径是生成图片,当前 Nano Banana Pro 也已接近门槛。
这正是电影 Her 中 Samantha 的实现路径。Samantha 作为操作系统,需要具备五项核心能力:能够与用户实时语音对话,能够代替用户打电话办事,能够帮用户操作传统电脑和手机,能够打通用户现有设备和在线服务中的数据,拥有自己的生成式 UI 界面,有强大的用户长期记忆以实现个性化的主动服务。
Part I: 文本交互的效率瓶颈
当前 Agent 界面中的认知失配
人类输出模态
| 模态 | 速度 | 认知负荷 |
|---|---|---|
| 语音 | 150 词/分钟 | 低 |
| 打字 | 40-50 词/分钟 | 高 |
- 语音是最自然的输出模态
- 打字需要精细运动协调和视觉注意力
- 语音交流是人类互动的基础
人类输入模态
| 模态 | 带宽 | 理解方式 |
|---|---|---|
| 视觉 | 高(~10 Mbps) | 模式识别 |
| 听觉 | 中(~16 kbps) | 顺序处理 |
| 阅读 | 低(~100 bps) | 需要识字 |
- 视觉皮层并行处理信息
- 阅读是一种后天习得的技能,而非天生
- UI/图形利用自然的视觉处理能力
根本洞察:当前基于文本的 Agent 界面迫使人类在输入和输出时都使用次优的模态。
最优交互范式
最优人类输出:语音
- 以对话速度自然地产出语言
- 最小的认知开销
- 支持复杂的表达和细微差别
- 支持实时交互和打断
应用场景:
- 任务委派和澄清
- Agent 执行过程中的实时反馈
- 多轮问题解决
最优人类输入:视觉 UI
- 快速信息扫描和理解
- 空间组织有助于记忆和导航
- 交互元素支持直接操控
- 渐进式展示管理复杂性
应用场景:
- 结果展示和比较
- 交互式数据探索
- 工作流可视化和状态监控
目标架构:人到 Agent 通信使用实时语音 + Agent 到人通信使用生成式 UI
Part II: 实时语音交互
典型的语音 Agent 架构
语音 Agent 的典型架构分为三层:
感知层:VAD + ASR
- 将连续信号转换为离散事件
思考层:LLM
- 异步处理
执行层:TTS
- 将离散命令转换为连续动作
传统 VAD + ASR 架构的问题
VAD(语音活动检测)的问题
- 不可避免的延迟:必须等待 500-800ms 的持续静音才能确认用户说完
- 打断检测差:无法区分背景噪音/音乐;”嗯哼”会误触发打断
- 语音检测准确率低:复杂声学环境中出错;句中停顿导致截断
ASR(自动语音识别)的问题
- 缺乏上下文导致准确率低:VAD 将音频切成孤立片段;无法使用上下文消歧;邮箱、姓名、电话号码错误率高
- 缺乏世界知识:无法利用常识;地址、品牌、技术术语准确率低
- 纯文本输出丢失声学细节:
- 丢失情绪:快乐、沮丧、兴奋
- 丢失副语言信息:笑声、叹气、呼吸
- 丢失环境信息:嘈杂、音乐、安静
流式语音感知模型:替代 VAD + ASR
多模态架构
- 音频编码器(来自 Whisper):将音频转换为音频 token
- Qwen LLM(自回归):处理音频 token,输出文本 + 事件
关键优势:
- 流式:实时输出(非批处理)
- 上下文:保留完整对话历史
- 上下文学习:对个人信息、领域术语识别更准确
- 世界知识:对地址、品牌、金额准确率更高
丰富的输出:文本 + 声学事件
除了文本 token,还输出特殊 token(声学事件):
<speak_start><speak_end>:语音边界<interrupt>:打断意图<emotion:happy>:情绪标记<laugh><sigh>:副语言信息<music>:环境声音
Interactive ReAct:灵活交织观察、思考和行动
传统 ReAct:刚性的 OTA 循环
1 | O₁: "我想把我的 Xfinity 账单降到每月 79 美元" |
- 固定循环:必须完成整个观察-思考-行动序列
- 思考丢失:无法边听边想,延迟高
- 刚性:必须等待完整输入才能思考
Interactive ReAct:灵活交织的 OTA
1 | O₁: "我想把我的 Xfinity 账单降到每月 79 美元" |
- 边听边想:新观察随时插入,思考得以保留
- 边想边说:快速响应,然后继续思考
- 智能转折点判断:决定何时说话、何时保持沉默
SEAL 思考层:可中断的 Interactive ReAct 循环
关键洞察:LLM 思考速度远超语音 I/O,充分利用”间隙时间”
LLM 处理速度:
- 输入处理:500+ tokens/秒
- 思考/输出:100+ tokens/秒
语音 I/O 速度:
- 语音输入/输出:仅 5 tokens/秒
- 速度差异:20-100 倍
在观察(语音输入)和行动(语音输出)之外的”间隙时间”里,我们有充足的时间进行深度思考。刚性的观察-思考-行动循环无法利用这个间隙时间。
快速思考 → 慢速思考 → 持续思考
- 快速响应(0.5s):50 tokens 的快速思考 → 立即的初步响应(5 秒内)
- 深度分析(5s 后):500 tokens 的慢速思考 → 生成更完整的答案
- 持续思考(按需):如果 500 tokens 仍不够,继续思考 5 秒 → 继续生成答案直到思考和说话完成。如果需要多轮思考,结果是持续输出当前轮次的思考总结,就像一个人”自言自语”。
边听边想(Think While Listening)
优雅地处理对话中的打断。
传统 ReAct:一旦用户打断,之前所有的思考都被丢弃,必须重新开始。
Interactive ReAct:保留被打断的思考过程,附加新的用户输入,让模型从中断处继续思考。
1 | <user>我想把我的套餐从现在的 109 美元换成你们的新套餐...</user> |
优势:思考过程连贯,可以根据最新信息快速调整策略。
边想边说(Speak While Thinking)
使用”填充语”为深度思考争取时间,减少首词延迟。
场景:用户问了一个复杂的问题,Agent 需要时间思考。
传统 ReAct:
1 | <user>你确认订购这个套餐吗?</user> |
Interactive ReAct:
1 | <user>你确认订购这个套餐吗?</user> |
优势:大大提高交互的流畅性,避免尴尬的长时间等待。
SEAL 架构总结
一个统一的事件驱动循环,将感知、思考和执行解耦,实现真正的实时和并行处理。
感知层
- 输入:连续信号(语音、GUI)
- 输出:离散事件流
- 解决:传统语音感知中的延迟、不自然打断和声学信息丢失
思考层
- 输入:离散事件流
- 输出:交错的思考/行动命令
- 解决:传统 ReAct 的串行瓶颈,实现可中断的异步边听边想、边想边说
执行层
- 输入:离散行动命令
- 输出:连续信号 + 反馈事件
- 解决:Agent 动作笨拙和缺乏反馈的”最后一英里”问题,形成闭环动作循环
未来展望:端到端模型
当前 SEAL 架构:
- 感知层 LLM:音频 → 文本 + 声学事件
- 思考层 LLM:文本 + 声学事件 → 思考 + 行动
- 执行层 LLM:行动 → 音频
未来端到端架构:
- 音频编码器:音频 → 音频 Tokens
- 统一 LLM:感知 + 思考 + 执行
- 音频解码器:音频 Tokens → 音频
Part III: 同时打电话和操作电脑
扩展的观察和行动空间
扩展的观察空间
| 传统 | 扩展 |
|---|---|
| 语音输入 | 语音输入 |
| + 屏幕视觉感知 | |
| + 应用状态监控 | |
| + 系统通知 |
电脑使用集成:
- 实时屏幕理解
- UI 元素识别和跟踪
- 跨应用上下文感知
扩展的行动空间
| 传统 | 扩展 |
|---|---|
| 语音输出 | 语音输出 |
| + 鼠标/键盘操作 | |
| + UI 生成 | |
| + 应用控制 |
多模态输出:
- 语音用于人类沟通
- GUI 操作用于任务执行
- 生成的 UI 用于结果展示
目标能力:一个可以同时进行电话对话和操作电脑界面的 Agent,类似于人类助理一边打电话一边操作电脑。
并发电话和电脑使用的多 Agent 架构
架构设计
电话 Agent:
- 负责实时语音对话
- ASR → LLM → TTS 低延迟管道
- 从对话中提取关键信息
- 通过消息传递与电脑 Agent 通信
电脑 Agent:
- 负责 GUI 操作(浏览器、应用)
- 视觉理解和行动规划
- 接收来自电话 Agent 的信息
- 报告任务状态并请求额外信息
通信协议
1 | { |
自主编排方法
Agent 自主决定何时生成协作 Agent:
- 任务分析:电脑 Agent 遇到需要用户信息的复杂表单
- 能力评估:确定语音交互比文本更高效
- Agent 生成:调用
initiate_phone_call_agent(purpose, required_info) - 并行执行:两个 Agent 独立运行,异步通信
实时协作模式
1 | 电话 Agent: "请问您的姓名是?" |
关键要求:Agent 必须在真正并行的线程中运行,彼此不阻塞。
解决电脑使用延迟:小型专用模型
Step-GUI:使用小模型的高效 GUI Agent(arxiv:2512.15431)
性能 vs. SOTA 模型
| 基准测试 | OpenAI CUA | Claude-4.5 | Gemini-2.5 | Step-GUI 8B |
|---|---|---|---|---|
| OSWorld-Verified | 23.0 | 61.4 | - | 48.5 |
| AndroidWorld | - | - | 69.7 | 80.2 |
| ScreenSpot-Pro | 23.4 | - | - | 62.6 |
| OSWorld-G | 36.4 | - | - | 70.0 |
为什么小模型能超越前沿模型?
自我进化训练流程:
- 校准步骤奖励系统(CSRS):将模型轨迹转换为训练信号,>90% 准确率,成本仅为人工的 1/10-1/100
- 领域针对性数据:11.2M mid-train + 1.67M cold-start 样本
核心洞察:前沿模型缺乏领域知识(中国应用的 UI 惯例、本地应用行为)。小模型 + 针对性训练可以填补这些空白。
AndroidDaily Benchmark(Step-GUI 提出的中国移动应用基准测试)
跨 5 个场景的真实移动应用任务:
- 🚄 出行:在 12306 买火车票
- 🎵 娱乐:在网易云音乐播放歌单
- 🛒 购物:查看淘宝购物车
- 💬 社交媒体:修改知乎隐私设置
- 🍜 本地服务:设置大众点评评价为仅自己可见
AndroidDaily (Static) 结果
| 模型 | 平均准确率 |
|---|---|
| Claude-4.5-sonnet | 10.90 |
| Gemini-2.5-Pro Thinking | 43.74 |
| Step-GUI-8B | 89.91 |
结论:小模型 + 领域数据 > 通用大模型。Step-GUI-8B 通过针对性领域训练,在中国移动应用上达到 Gemini 的 2 倍、Claude 的 8 倍。
NVIDIA ToolOrchestra:用于多 Agent 协调的小模型
基于 NVIDIA 研究(developer.nvidia.com)
核心概念
ToolOrchestra 训练小型编排模型,根据用户对以下方面的偏好来监督和管理更大的模型和工具:
- 速度
- 成本
- 准确性
关键洞察:小模型不受过多知识的负担,可以被训练来捕捉编排的基本决策模式。
训练方法
- 合成数据生成:自动轨迹生成与验证
- 多目标 RL:优化准确性、成本和解决时间
- 最小数据需求:Orchestrator-8B 仅使用 552 个合成样本
架构优势
- 小模型(8B)精确指导更大的模型
- 自动平衡能力和成本
- 支持异构多 Agent 系统
- 适合实际部署场景
小语言模型在 Agentic AI 中的案例
基于 “Small Language Models are the Future of Agentic AI”(arxiv:2506.02153)
核心论点
立场:小语言模型(SLM)是:
- 对专门任务足够强大
- 天然更适合 agentic 应用
- 对高频调用必然更经济
SLM 在 Agent 系统中的论据
能力论据:
- 现代 SLM 在聚焦任务上表现强劲
- Agentic 系统涉及重复、专门的操作
- 通用对话能力通常不必要
经济论据:
- Agent 系统进行大量模型调用
- 成本与模型大小和调用次数线性增长
- SLM 将运营成本降低 10-100 倍
LLM 到 SLM 转换算法
- 识别 Agent 工作流中的专门子任务
- 从 LLM 输出中整理任务特定的训练数据
- 在专门数据上微调 SLM
- 在目标指标上验证性能
- 部署 SLM 用于生产工作负载
Part IV: 生成式 UI - Web 前端代码生成 + 图像生成
路径一:Web 前端代码生成
Anthropic 的方法:Claude Artifacts 和 “Imagine with Claude”
Claude Artifacts
Claude 可以生成完整的前端代码,在沙盒预览环境中渲染:
支持的输出类型:
- 带 hooks 和组件的 React 应用
- 交互式数据可视化(D3.js、Chart.js)
- SVG 图形和图表
- 原生 HTML/CSS/JavaScript
- Markdown 文档
工作流程:
- 用户提示描述所需界面
- 模型生成完整前端代码
- 代码在沙盒预览中渲染
- 用户通过对话迭代
“Imagine with Claude”(研究预览)
随 Claude Sonnet 4.5 发布的临时研究预览:
关键特征:
- Claude 即时生成软件
- 无预定功能
- 无预写代码
- Claude 实时创建,在用户交互时响应和适应请求
技术演示:
- 展示了将强大模型与正确基础设施结合的可能性
- 无需预定义模板的动态软件创建
- 对用户交互的实时适应
观看演示:youtu.be/dGiqrsv530Y
Google Research 的方法:Generative UI
**”Generative UI: LLMs are Effective UI Generators”**(2025 年 11 月)
项目页面:generativeui.github.io | 研究博客:research.google/blog
摘要
AI 模型擅长创建内容,但通常用静态、预定义的界面渲染。具体来说,LLM 的输出通常是 markdown “文字墙”。
Generative UI 是一个长期承诺,模型不仅生成内容,还生成界面本身。
我们证明,当正确提示并配备正确的工具集时,现代 LLM 可以稳健地为几乎任何提示生成高质量的自定义 UI。
实现:三个主要组件
- 服务器:暴露关键工具的端点(图像生成、搜索)
- 系统指令:精心设计的提示,包括目标、规划指南、示例
- 后处理器:修复无法通过指令修复的常见问题
评估结果
忽略生成速度时,结果被人类压倒性地偏好,优于标准 LLM markdown 输出。
PAGEN 基准用户偏好(ELO 分数):
- 人类专家设计的网站(最高)
- Generative UI: 1710.7(44% 的情况下与专家相当)
- 顶级 Google 搜索结果(存在显著差距)
- 标准 markdown LLM 输出
- 纯文本输出
涌现能力
这种稳健的 Generative UI 能力是涌现的,相比之前的模型有实质性改进。
示例类别
- 教育:什么是分形?两个骰子掷出 8 的概率、伊辛模型、计时设备历史
- 儿童教育:给孩子解释推测解码、儿童化学实验、用小狗解释斜率和切线
- 实用任务:举办感恩节、选择地毯、如何制作婴儿床铃
- 简单查询:现在几点(自定义时钟界面)、绿色的东西(视觉画廊)、火龙果(交互式探索)
- 游戏:学习快速打字、点击游戏、时尚顾问、记忆游戏、四人元素井字棋、日本视觉小说、文字冒险游戏
探索交互示例:generativeui.github.io
路径二:图像生成 + 混合架构
Web 前端代码生成 + 图像生成 = 最优组合
为什么需要混合架构?
纯图像生成的局限性:
- 图像生成模型难以处理数千词的文本
- 长篇内容(文章、文档、详细 UI)需要 web 渲染
- 纯图像输出缺乏交互性和可访问性
最优分工
| 组件 | 最佳方法 |
|---|---|
| 长篇文本 | HTML/CSS 渲染 |
| 交互元素 | JavaScript/React |
| 视觉资产 | 图像生成 |
| 图表、插图 | 图像生成 |
| 带文字的信息图 | 混合 |
图像生成在生成式 UI 中的作用
Nano Banana Pro(Gemini 3 Pro Image)支持:
- 图像中的清晰文字用于短标语、标题、海报
- 多语言支持,增强多语言推理
- 多种纹理、字体和书法
生成式 UI 中的最佳用例:
- 带风格化文字的主图和横幅
- 产品模型和视觉预览
- 图表和概念插图
- 具有一致风格的品牌资产
架构:
1 | LLM → HTML/CSS/JS(结构 + 长文本) |
Part V: Her - 操作系统级助手
电影《Her》(2013):Samantha 的愿景
电影简介
《Her》是 2013 年由 Spike Jonze 执导的科幻电影,探索了人与 AI 操作系统之间的关系。
剧情:Theodore,一个孤独的作家,与 Samantha——一个拥有声音、个性和学习进化能力的 AI——建立了关系。
为什么《Her》重要
Samantha 代表了 AI 助手的终极愿景:
- 不仅仅是响应命令
- 真正理解用户的生活、情感和需求
- 在被询问之前预见用户需要什么
Samantha 的关键特征
- 🗣️ 语音优先:自然、对话式交互
- 🌐 始终可用:后台运行,随时可访问
- 🧠 深度用户记忆:构建心智模型——偏好、习惯、价值观
- 🎯 主动服务:无需明确请求即可预见需求
- ⚡ 自主行动:组织邮件、日程、打电话
- 🔄 实时处理:边听边想、边回应、边行动
核心洞察:就像我们理解朋友一样——不是记住每一次对话,而是建立一个关于他们是谁的心智模型。
操作系统级助手的核心能力
- 🗣️ 实时语音 UI:低延迟的自然对话,跨会话上下文维护
- 📞 代打电话:自动客服导航,信息收集和协商
- 💻 电脑和手机使用:跨应用的 GUI 自动化,跨应用工作流编排
- 🔗 统一数据访问:与设备和云服务集成,智能索引和检索
- ✨ 生成式 UI:动态结果展示,交互式探索和操作
- 🎯 主动服务:在被询问之前预见需求,个性化价值对齐
个性化价值对齐
类比:推荐系统
- 📰 传统媒体:每个人读同一份报纸,看同样的内容
- 📱 字节跳动/TikTok 革命:每个人看完全不同的内容
- “每个人生活在不同的世界,有不同的价值观”
- ✅ 结果:个性化产品更以人为本 → 用户更偏好
AI Agent 对齐的未来
当前方法:普世人类价值
- LLM 被对齐到”普世”价值
- 但我们真的有普遍认同的人类价值吗?
AI 应该做的是:
- 不只是一个普世价值
- 适应每个用户的价值和偏好
- 认识到价值差异是巨大的
主动服务:AI 记忆能力的最高层次
用户记忆是主动服务的核心成分
用户记忆不只是记录每次对话。 就像理解朋友:
- 我们不记得他们说的每一句话
- 我们建立一个关于他们是谁的心智模型
- 他们的偏好、习惯、价值观
两种记忆类型:
| 类型 | 难度 | 示例 |
|---|---|---|
| 事实 | 简单 | 生日、地址、卡号 |
| 偏好 | 复杂 | 上下文相关、不断演变 |
学习用户偏好比存储事实信息困难得多:
- 上下文相关:论文写作风格 ≠ 旅行指南
- 一次性 vs. 长期:”昨天点了川菜” ≠ “喜欢辣的”
- 过度泛化风险:AI 容易错误外推
- 需要细粒度评估
三个记忆能力层次
层次 1:基本回忆
- 存储和检索显式用户信息
- “我的会员号是 12345” → 准确回忆
- 可靠性的基础
层次 2:多会话检索
- 连接不同对话中的信息
- 消除歧义:”为我的车预约保养” → 两辆车中的哪一辆?
- 理解复合事件:”取消洛杉矶行程” → 找到航班 + 酒店
- 区分活跃合同和过去的询问
层次 3:主动服务
- 无需明确请求即可预见需求
- 预订国际航班?→ 检查护照是否快过期
- 手机坏了?→ 列出所有保护选项(保修、信用卡、运营商保险)
- 报税季?→ 主动收集所有相关文件
后台 GUI Agent:技术挑战
核心问题
传统 GUI Agent 需要:
- 前台应用窗口
- 活跃的屏幕渲染
- 独占输入设备访问
这与以下冲突:
- 用户同时使用设备
- 电池和资源效率
虚拟化方法
无头浏览器/应用执行:
- 在虚拟帧缓冲区中渲染应用
- Agent 与虚拟显示器交互
云手机/桌面:
- 在云环境中运行应用
- 需要时将结果流式传输到本地设备
- 将计算从移动设备卸载
应用欺骗要求
应用必须相信它们:
- 在前台运行
- 接收正常用户输入
- 渲染到实际显示器
技术机制:
- 窗口管理器虚拟化
- 输入事件注入
- 辅助功能 API 利用
- 容器/沙盒隔离
数据同步
对于云端操作:
- 应用状态迁移
- 账户凭证管理
- 缓存和数据同步
好处:设备离线时操作继续进行,对桌面电脑特别有价值。
跨设备和服务的数据集成
统一数据访问
示例:Gemini 与 Google Workspace 集成
- Gmail、Drive、Calendar、Docs
- 跨服务查询和检索
- 上下文感知建议
要求:
- OAuth 和 API 集成
- 权限管理
- 数据索引基础设施
AI Agent 检索的索引
本地设备数据:
- 文件系统索引
- 应用数据提取
云服务数据:
- 增量搜索索引构建
技术架构
1 | 用户数据源 |
经济模型:与应用提供商的收入分成
生态系统挑战
当前情况:
- Agent 代表用户操作应用
- 流量被 Agent 捕获,而不是原始应用
- 应用失去广告收入和参与度指标
- 结果:应用可能阻止 Agent 访问
示例:GUI Agent 被某些消息和社交应用阻止,因为流量和商业化问题
为什么阻止是有问题的
- 降低用户体验
- 碎片化 Agent 能力
- Agent 和应用之间的军备竞赛
- 最终伤害所有各方
提议的解决方案:收入分成
原则:Agent 公司和应用提供商必须建立利润分享机制
可能的模型:
基于交易的分成
- Agent 促成购买 → 分享收入
订阅合作
- 联合高级层级
- 功能访问协议
API 访问费用
- 正式化的 Agent API 访问
- 基于使用量的定价
战略要务
- Agent 技术进步是不可避免的
- 合作对双方都有利
- 需要标准来实现可持续生态系统
关键要点
技术路线图
实时语音交互:
- SEAL 架构:流式、事件驱动的 Agent 循环
- Interactive ReAct:边听边想,边想边说
- 解决串行处理的延迟瓶颈
多 Agent 协调:
- 并发电话和电脑使用
- 自主 Agent 生成和编排
- 小模型(4-8B)足以完成专门任务
生成式 UI:
- Web 前端代码生成(Claude Artifacts、Google Generative UI)
- 图像生成(Nano Banana Pro)
- 结合两者的混合架构
系统架构
扩展模态:
- 观察:语音 + 视觉感知
- 行动:对话 + UI 生成 + 电脑使用
操作系统级集成:
- 后台/云端操作,不占用 UI
- 跨设备和服务的统一数据访问
- 生态系统可持续性的收入分成模型
愿景
《Her》范式:一个操作系统级助手,结合:
- 实时语音对话
- 自主任务执行
- 生成式界面展示
- 与用户数字生活的无缝集成
未来:AI Agent-环境交互的三个阶段
实时异步与环境交互是 Agent 的基础
🗣️ 阶段 1:语音
- 输入:语音
- 输出:语音
- 数据速率:15-50 token/s
- 延迟:<500ms
- 挑战:快慢思考平衡
- 解决方案:Interactive ReAct
💻 阶段 2:电脑使用
- 输入:视觉(截图)
- 输出:鼠标/键盘动作
- 数据速率:~2K token/frame
- 延迟:<1 秒
- 挑战:精确动作执行
- 解决方案:VLA 模型 + RL
🤖 阶段 3:物理世界
- 输入:视觉+语音+触觉
- 输出:语音+关节动作
- 数据速率:~20K token/s
- 延迟:<100ms
- 挑战:实时控制
- 解决方案:VLA + 世界模型
关键洞察:复杂度递增(数据速率 ↑,延迟 ↓),但架构解决方案可以跨阶段迁移
参考文献
论文
- Yan, H., Wang, J., et al. (2025). Step-GUI Technical Report. arXiv:2512.15431
- Belcak, P., Heinrich, G., et al. (2025). Small Language Models are the Future of Agentic AI. arXiv:2506.02153
- Google Research. (2025). Generative UI: LLMs are Effective UI Generators.
技术资源
- NVIDIA Research. Train Small Orchestration Agents to Solve Big Problems. NVIDIA Developer Blog
- Anthropic. Introducing Claude Sonnet 4.5. anthropic.com
- Google Research. Generative UI: A Rich, Custom, Visual Interactive User Experience for Any Prompt. research.google