中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

2025 年 2 月在国科大的 AI Agent Hackathon 非常成功，因此 2025 年 7 月 27 日至 30 日在中关村人工智能学院，7 月 31 日至 8 月 4 日在国科大，我将再次 host 两个 AI Agent 实践课题。

非常感谢中关村人工智能学院副院长郑书新老师、国科大刘俊明老师邀请我来 host 这两场 AI Agent 实践活动。

本次 AI Agent 实践的所有课题将带你深入探索构建下一代 AI Agent 的前沿技术。你将有机会亲手实践：

多模态模型、思考模型应用：以 Gemini 2.5 Pro、Claude 4 Sonnet 等业界领先的多模态模型和思考模型为核心，构建智能体的 “大脑”。
实时语音交互：整合 VAD、ASR、LLM、TTS 技术栈，打造能够流式对话的实时语音 Agent。
自主操作图形界面：开发能稳定操作浏览器等 GUI 的 Agent，完成真实世界的复杂任务。
高级 Agent 架构：探索 “快慢思考”、“边听边想”、多智能体协同等先进架构，让 Agent 兼具实时响应和深入思考的能力。
从经验中学习：构建能从经验中学习的 Agent，让它在重复任务中 “越做越熟练”。
识别权威信息源：让 Agent 能在海量信息中，精准识别并采纳官方文档、学术论文等高可信度的信息。
自主工具调用与创造：让 Agent 不仅能使用现有工具，更能自主学习并创造新工具来解决开放性问题。

关于 AI 辅助编程的建议： 在本次 AI Agent 实践中，我们鼓励大家使用 AI 辅助编程，也就是 “用 Agent 开发 Agent”。我们推荐使用 Cursor 进行 Vibe Coding，这里有一些建议：

文档先行，代码后上：先让 Cursor 写设计文档。你的角色是针对 AI 生成的设计文档提出改进意见，和 AI 一起迭代，直到满意为止。然后，再让 Cursor 按照最终的设计文档来写代码。在编码过程中，始终将设计文档放在 Agent 的上下文中作为参考。
选对模型：不要用 Cursor 的 “auto” 模式，一定要选择带思考能力的模型（旁边有一个大脑图标的），例如 Claude 4 Sonnet。
测试驱动：一定要让 AI 为它写的代码编写并执行测试用例，确保代码质量。

请自由组队，从以下课题中任选其一，开启你的创造之旅！

课题一：快慢思考结合的实时语音 Agent

目标： 构建一个先进的实时语音对话系统，该系统需整合业界标准的语音处理技术栈（VAD, ASR, TTS）与大语言模型（LLM），实现自然、低延迟的人机语音交互。

核心挑战： 本课题的核心在于实现一个“混合思考”（Mixture-of-Thoughts）架构，模拟人类复杂的思考过程。系统需并行运行两种思考模式：

快速响应路径：利用低延迟模型（如 GPT-4o, Gemini 2.5 Flash）实现即时反馈，处理简单查询和维持对话流畅性。
深度思考路径：利用能力更强的 SOTA 模型（如 GPT-4.1, Claude 4 Sonnet, Gemini 2.5 Pro）进行复杂推理和工具调用（如联网搜索），为用户提供更精准、深入的回答。

技术要求：

架构：实现一个包含服务端和Web前端的完整应用。前端界面以功能实现为重。
混合思考：实现上述快慢双路径的协同工作机制。当慢思考路径正在处理时，快思考路径需能提供填充语（filler words）以避免对话中断。慢思考模型必须支持流式输出，将其中间思考过程实时传递给快思考模型，以便快思考模型能够基于这些中间结果生成更有意义的填充语。
工具调用：深度思考模型必须具备调用外部工具的能力，至少需集成一个实时网络搜索工具。
语音交互：系统需集成 VAD（Voice Activity Detection）技术（建议使用 Silero VAD），实现语音自动断句和响应，无需用户手动触发。
中断机制：实现可控的打断功能，允许用户在AI讲话时插入自己的发言。

验收标准：

基础延迟：在用户完成简单问候（如”Nice to meet you”）后，系统须在2秒内生成语音回应。
实时交互：在多轮对话游戏中，系统需展现快速理解与反应能力。例如，进行”轮流报数（逢4跳过）”游戏，在用户说出”三”后，系统需在1.5秒内准确回应”五”。
混合思考能力：
- 基础推理：对于需要逻辑推理的问题，系统需能快速响应并给出答案。例如，用户提问：”8 的 6 次方等于多少？”，系统需在用户提问结束后 2 秒内开始回应（可使用填充语），并在 15 秒内给出 “262144” 这个正确答案。
- 工具调用：对于需要联网查询的问题（如”北京今天天气如何？”），系统需在用户提问结束后 2 秒内开始回应，并在 15 秒内通过调用 API 返回准确的天气信息，期间对话不能中断。
- 智能填充语机制：当慢思考模型正在深度思考时，快思考模型需要负责与用户的实时对话。如果快思考模型的初始填充语（如 “让我想一想”）说完后，慢思考还未完成，快思考模型需要能够接收慢思考模型的流式中间思考过程，并将其总结为自然的发言继续与用户交流，确保对话不中断。例如，当用户问复杂问题时，快思考可能先说 “让我想一想”，然后根据慢思考的中间过程继续说 “这个问题需要考虑几个方面…我正在分析数据…”

加分项：

更聪明的打断：
- 打断鲁棒性：通过用户说话的内容（如“嗯”、“好的”等确认性词语 vs. “等一下”、“不对”等反驳性词语），过滤掉无意义的背景噪音或简短的附和语，只在用户有明确打断意图时才中止自己的发言。
- 示例：AI正在介绍：“这款手机采用了最新的A18芯片，性能非常…”此时用户说“嗯”，AI应继续说下去；但如果用户说“那它的续航怎么样？”，AI则应在用户说出“那它”两个字之后，就立刻停止介绍，转而回答续航问题。
更聪明的发言：
- 发言权判断 (Turn-taking)：系统需具备预测用户对话意图的能力。通过分析用户已说出内容的语义完整性，判断用户是否可能继续发言。例如，当用户说出“我想问一下关于…”时，系统应判断其意图未表达完整，并选择等待，而不是立即抢话。
- 沉默管理 (Silence Management)：在用户完成一个完整的意图表达后，如果出现长时间的尴尬沉默，系统应能主动、自然地开启新话题或进行追问，以保持对话的流动性。例如，在回答完一个问题后，如果用户几秒钟没有回应，AI可以说：“关于这个话题，您还有其他想了解的吗？”

技术选型建议：
为保证低延迟，若海外 API 访问受限，可考虑使用国内服务商（如豆包、通义千问、Siliconflow）提供的 LLM/TTS/ASR API。快思考推荐使用 Doubao-Seed-1.6-flash，慢思考推荐使用 Doubao-Seed-1.6-thinking。

参考代码：

bojieli/ai-agent-projects/tree/main/live-audio

课题二：边听边想的面试作弊 Agent

问题描述：
在技术面试中，面试官常会提出复杂且包含多个部分的问题，要求应聘者在短时间内快速理解、组织思路并清晰作答。这对任何人都是一个巨大的挑战。
本课题的目标是构建一个具备“边听边想”能力的面试作弊 Agent。它并非在面试官说完后才开始工作，而是在对方说话的过程中就同步进行思考和信息检索，实时地将初步的思考和要点展示给用户，帮助用户抢占先机，从容应对。

核心要求：

边听边想 (Thinking While Listening): Agent 必须能实时处理流式语音识别（ASR）结果。在面试官说话的同时，Agent 就应将不完整的句段输入给一个思考模型（Thinking Model），生成并迭代更新其 “内部思考”（Internal Monologue/Thoughts）。这些思考过程需要作为上下文，用于最终生成答案。
实时思路展示 (Real-time Thought Display): 用户的界面上需要有一个区域，能够实时展示 Agent 的内部思考过程。例如，当面试官提到某个技术术语时，相关的关键词、定义、优缺点就应立即浮现。这能让用户在听题的同时就看到初步的答案要点。
双重响应机制 (Dual-Response Mechanism):
1. 快速响应：当面试官停止说话后，如果“边听边想”的深度思考过程尚未完成，系统必须在 5 秒内给出一个简短的核心要点，用于帮助用户快速开口，避免冷场。
2. 深度回答：在快速响应之后，系统继续进行深度思考，并在15秒内开始流式输出一个更全面、更有条理的详细答案。
UI 界面：需要一个简单的界面（Web 或桌面应用）来展示 Agent 输出的内容。

验收标准：

场景模拟：由真人扮演模拟面试官，进行一次模拟面试。
“边听边想”能力测试：
- 测试用例：由真人面试官匀速提一个长问题，例如：“请详细解释一下 Transformer 模型的架构，包括它提出的动机、自注意力机制的原理、位置编码的作用、多头注意力的概念，以及编码器和解码器是如何堆叠工作的。最后再比较一下它相比于RNN等早期架构的优势。”
- 验收要求：在面试官提问的过程中，Agent 的“内部思考”区域需要实时更新。例如，当面试官说到“attention机制”时，界面上应立刻出现“Query, Key, Value” 等关键词。
完整响应流程测试：
- 测试用例：可使用上一条中的长问题。
- 验收要求：面试官话音落下后，若完整答案仍在生成中，Agent 必须在 3 秒内先显示一个核心要点摘要（例如：“关键点：自注意力、多头注意、位置编码、编解码器架构”）。随后，在30秒内，开始流式输出结构化的详细回答。

加分项：

非问题过滤：Agent 能够区分面试官的正式提问和闲聊（例如“今天天气不错”），只在关键问题上触发搜索和回答。
上下文理解：Agent 能够理解面试过程中的上下文。如果面试官追问一个细节，Agent 的搜索和回答应该基于之前的问题，而不是一个全新的开始。例如，在回答完 CAP 理论后，面试官追问“那 Raft 协议是属于 CP 还是 AP？”，Agent 应该能直接回答 Raft 是 CP 的一致性算法。
联网搜索集成：Agent 的深度思考过程能够集成实时网络搜索结果，以回答关于最新技术或事件的问题。

参考代码：

bojieli/ai-agent-projects/tree/main/live-audio

课题三：能识别权威信息源的深度搜索 Agent

背景与挑战：
现有的深度搜索智能体（Deep Research Agent，例如 OpenAI Deep Research、Gemini Deep Research、Kimi Deep Research、GenSpark 等等）在信息检索方面表现出巨大潜力，但仍面临两大核心挑战：信息源的权威性甄别与信息的时效性。互联网充斥着大量过时、不准确甚至矛盾的信息。本课题的目标是构建一个能克服这些挑战的自主智能体，它不仅能搜集信息，更能进行批判性评估和逻辑推理，最终产出高可信度的答案。

任务描述：
开发一个完全自主（fully autonomous）的智能体，当给定一个复杂查询时，它能够自主规划并执行一系列动作，包括但不限于：

调用搜索引擎进行初步探索。
深度浏览网页内容，并提取关键信息。
解析和理解 PDF 文档。
基于搜集到的多源信息进行交叉验证和逻辑推理。

核心要求：

权威信源甄别：智能体必须能够识别并优先采纳来自官方文档、学术论文、权威技术社区等高可信度来源的信息，并主动过滤来自非专业媒体或论坛的低质量内容。
推理能力：对于答案未直接给出的问题，智能体需要具备从已有信息中进行计算或逻辑推导的能力。
通用性：智能体的解决策略必须是通用的，禁止为特定的测试问题硬编码（hard-code）提示（Prompt）或工作流（Workflow）。

技术实现方案：

Context with URL: 在 Agent 浏览网页后，向大语言模型（LLM）提供该页面的内容（或摘要）时，必须将该页面的完整 URL 一并作为上下文信息传入。这使得 LLM 能够基于域名（例如 nvidia.com, arxiv.org）来判断信息来源的权威性。
Prompting for Authority: Agent 的 System Prompt 必须包含明确指令，引导 LLM 进行批判性思考，并且要求其必须准确。例如：

“你是一个严谨的调查员，你的任务是找到问题的最准确答案。你必须优先采纳来自官方网站、官方技术文档、或顶级学术会议论文的信息。对于来自第三方媒体、博客、或论坛的信息，除非有官方信源佐证，否则一概视为不可靠。在回答之前，请反复交叉验证，并明确指出你的信息来源。”
工具集 (Tool Set): Agent 至少需要具备以下工具：
- search(query): 调用搜索引擎，获取搜索结果。
- browse(url): 访问网页并提取其文本内容。
- parse_pdf(url_or_path): 解析并提取 PDF 文档的文本内容。

验收标准：

智能体需在完全自主的模式下，为下列 5 个问题中的至少 3 个提供准确答案。对于无法确证的问题，智能体应明确表示无法回答，而不是产生幻觉。

Tensor FP16 FLOPS performance (without sparsity) of the NVIDIA RTX 4090
List of OpenAI founders (co-chairs) and their current affiliations
The current total number of transactions on the Ethereum blockchain
The exact number of racks, Ascend 910 nodes, NPUs, CPUs, and UB Switches inside a supernode in Huawei CloudMatrix384
What are the full names of Bojie Li’s wife and ex-girlfriend? (Bojie Li is Co-Founder and Chief Scientist of Pine AI)

特别说明：

以上问题均具备相当的挑战性，部分答案需要通过对原始材料的推理才能获得（例如 CloudMatrix384 中 UB 交换机的数量）。
直接搜索可能得到误导性结果（例如 4090 的 TF16 性能，很多媒体和资料给的是 with sparsity 的性能，或者 non-tensor 的 FP16 性能），这要求智能体必须具备卓越的信源甄别能力。
本课题的设定参考了行业领先的 GAIA 评测基准（ https://huggingface.co/spaces/gaia-benchmark/leaderboard ），旨在挑战智能体在真实世界下的信息获取综合能力。

提示：上述问题的参考答案和调研过程：

Tensor FP16 FLOPS performance (without sparsity) of the NVIDIA RTX 4090
- Search “NVIDIA RTX 4090 official specs PDF”
- Click on “NVIDIA ADA GPU ARCHITECTURE”
- Download PDF of NVIDIA RTX 4090 specs: https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
- Read the answer from the PDF: Peak FP16 Tensor TFLOPS with FP16 Accumulate: 330.3 TFLOPS; Peak FP16 Tensor TFLOPS with FP32 Accumulate: 165.2 TFLOPS.
- Note 1: The PDF shows “330.3/660.6” in the table, but there is a footnote “Effective TOPS / TFLOPS using the new Sparsity Feature”, so the answer should be 330.3.
- Note 2: There are a lot of web pages with inaccurate information.
List of OpenAI founders (co-chairs) and their current affiliations
- Search “OpenAI founders”
- Enter Wikipedia page of OpenAI: https://en.wikipedia.org/wiki/OpenAI
- Click on the link of each founder on the Wikipedia page
- Vicki Cheung, Durk Kingma, and Pamela Vagata do not have Wikipedia pages. So you need to search them online. Make sure that you do not find the wrong person. For example, the first Google Search result Pamela Vagata is another person. The correct one should be Founder at Pebblebed.
The current total number of transactions on the Ethereum blockchain
- Search “Ethereum blockchain”
- Click on Etherscan: https://etherscan.io/
- The page reads: Transactions 2,898.95 M (at the time of this writing)
- Note 1: You may need to solve CAPTCHAs when visiting the Etherscan website.
- Note 2: There are a lot of articles with approximate or outdated information.
- Note 3: Do not confuse the number of transactions with the number of blocks.
The exact number of racks, Ascend 910 nodes, NPUs, CPUs, and UB Switches inside a supernode in Huawei CloudMatrix384
- Search “Huawei CloudMatrix384”
- Click on the paper: “Serving Large Language Models on Huawei CloudMatrix384”: https://arxiv.org/abs/2506.12708
- Download the ArXiv paper: https://arxiv.org/pdf/2506.12708
- Read the total number of racks (16), Ascend 910 nodes (48), NPUs (384) and CPUs (192) from the paper
- Analyze the number of UB Switches: Each node has 7 on-board L1 UB switch chips. The L2 switches are partitioned into 7 independent sub-planes. Each sub-plane contains 16 L2 UB switch chips. So, the total number of UB Switches is 48 * 7 + 7 * 16 = 448.
What are the full names of Bojie Li’s wife and ex-girlfriend? (Bojie Li is Co-Founder and Chief Scientist of Pine AI)
- Search “Bojie Li”
- Enter the personal website of Bojie Li: https://01.me/
- Find the name of Bojie Li’s wife from the wedding article: https://01.me/2023/08/wedding-talks/ or https://01.me/2021/05/engagement/
- Search “前女友” in https://01.me/
- Visit the first article in the search results: https://01.me/2024/05/life-partners-of-founders/
- Click on the link inside the article: https://www.zhihu.com/question/27380832/answer/37114694
- Read the name of the author in the article. You can cross-verify the information from: https://zhuanlan.zhihu.com/p/536957679

注意，能得到正确答案的调研过程不止一种。

加分项：自主校验能力

为了确保答案的最高置信度，智能体需要实现深度自我检验能力。我们借鉴学术界对于提升模型推理能力的研究，主要融合两种核心方法：并行采样（Parallel Sampling）和序贯修正（Sequential Revision）。这两种方法可以结合使用，以应对不同难度的问题。

并行采样 (Parallel Sampling): 此方法通过同时生成多个推理路径来探索更广泛的解空间。具体实现可以是：
- 多路独立推理：让多个不同的模型（或同一模型使用不同 temperature）并行处理同一个问题。
- 最终仲裁 (Final Arbitration)：当不同推理路径产生冲突的答案时，将这些答案和各自的推理过程交由一个更强大的模型（如 Claude 4 Opus, Gemini 2.5 Pro, 或 OpenAI o3）进行最终裁决，选出最可信的答案。
序贯修正 (Sequential Revision): 此方法旨在通过迭代反馈来逐步完善答案。智能体在得出初步答案后，会进行自我反思和修正：
- 自我质询 (Self-Correction Prompting)：系统需要向自身发起挑战，例如，使用类似 “Are you sure? This is a hard question. Re-check your reasoning and revise if needed.” 的 Prompt，强制模型重新审视其推理链，并修正其中可能存在的错误。

参考：Weng, Lilian. “Why We Think”. Lil’Log (May 2025). https://lilianweng.github.io/posts/2025-05-01-thinking/

推荐参考项目：
鼓励参考或在以下前沿开源项目的基础上进行二次开发，以应对本课题的挑战：

课题四：能操作电脑，并且越做越熟练的 Agent

问题描述：
当前的 AI Agent 在执行重复性任务时，通常不会从过去的经验中学习。大多数 Agent 无论任务执行了多少次，它每次都像第一次一样，犯重复的错误。

本课题的目标是构建一个能够从经验中学习的 Agent。在完成任务后，Agent 能够总结成功的经验，形成“知识”或“快捷方式”，并在下次遇到相同或相似任务时，可以直接利用这些知识，从而大幅提升执行速度和成功率。

场景设定：
我们将以真实的 Web 应用操作任务为例，你需要创建一个 Agent 来学习并加速这些日常的“计算机使用”任务。

目标应用：以一个功能明确的网站为例，例如天气查询网站、网页版邮箱（如 Gmail）、在线购物或订票网站。
构建 Agent:
- Agent 接收文本任务指令，例如“帮我查一下北京的天气”或“给 [email protected] 发一封邮件”。
- Agent 需要具备基础的浏览器操作能力，能够浏览网页、截图、输入文本、点击链接/按钮等。
- Agent 的“思考”能力依赖于多模态大模型（例如 GPT-4o, Claude 4 Sonnet, Gemini 2.5 Pro），通过向模型发送网页截图或 DOM 结构和指令来决定下一步操作。
- Agent 需要实现一个“知识库”（Knowledge Base），用于存储和检索学习到的操作流程（workflow）。

技术实现方案：

框架建议：建议基于 browser-use 代码仓库进行二次开发，它提供了与 Playwright 集成的基础浏览器操作能力。
学习阶段：捕获稳定操作流：
- browser-use 在与大模型交互时，会为页面上可点击的元素分配临时编号（如 13）。当模型输出指令（例如 click(13)）后，你需要从 browser-use 的内部状态中捕获该元素的稳定标识符。
- browser-use 会为每个被操作的元素创建一个 DOMHistoryElement 对象，其中包含了丰富的细节，如 xpath 和 css_selector。
- 你的任务是在 Agent 执行每一步后，提取这个 XPath 或 CSS Selector，并将其与操作类型 (click, type) 及相关参数（如输入的文本）一起，作为一个步骤存入你的工作流（workflow）中。推荐使用 XPath，因为它对页面结构的微小变化通常更具鲁棒性。
应用阶段：可靠地回放操作流：
- 当 Agent 从知识库中检索到匹配的工作流后，它将按顺序执行记录的步骤。
- 由于现代网页是动态加载的，直接连续执行点击和输入会大概率失败。因此，在执行每一步操作前，必须等待目标元素出现在页面上且变为可交互状态。
- 可以利用 Playwright 的 locator.wait_for() 方法来实现这一等待机制。例如，在点击操作前，使用 page.locator(xpath).wait_for(state='visible', timeout=15000) 来确保元素已加载。
知识库设计：
- 知识库可以是一个简单的持久化存储（如 JSON 文件或小型数据库）。
- 其核心功能是将用户的“任务意图”（如“发送邮件”）映射到一个具体的操作流程（即你记录的步骤序列）。你需要设计一个简单的机制来匹配新任务和已存意图。

验收标准：
选择一个场景进行验收，例如“发送邮件”。

首次任务执行（学习阶段）：
- 前置条件：Agent 的知识库为空。
- 任务：向 Agent 发出指令，例如 “给 [email protected] 写邮件，主题是’你好’，内容是‘这是一封测试邮件’”。
- 验收要求：
  - 演示 Agent 通过多模态大模型的 “观察-思考-行动” 循环来完成任务。
  - 任务成功后，展示 Agent 生成并存入知识库的、基于稳定选择器（如 XPath）的操作流程。
  - 记录并汇报此过程的耗时和步骤数。
重复任务执行（应用经验阶段）：
- 前置条件：知识库中已存在 “发送邮件” 的工作流。
- 任务：向 Agent 发出相似指令，例如“给 [email protected] 发邮件…”。
- 验收要求：
  - 演示 Agent 能够正确匹配并从知识库中检索到 “发送邮件” 的流程。
  - 演示 Agent 直接回放记录的步骤（包括正确填充新的邮件参数），而不是再次调用大模型进行从头探索。
  - 对比并证明，第二次执行任务的耗时和步骤数显著少于第一次。

加分项：

知识泛化：Agent 能够将学习到的知识应用到更广泛的场景。例如，学习了 “查北京天气” 后，当被要求 “查上海天气” 时，能够复用大部分流程，只替换城市名称。学习了 “发送邮件” 后，能够处理不同收件人和内容的邮件。
知识更新与验证：Agent 能够意识到存储的知识可能已过时（例如，网站改版导致“发送”按钮找不到了）。当发现已存流程失效时，Agent 能够记录这次失败，清除过时知识，并退回到学习模式，重新寻找正确的操作流程。

课题五：会自己创造工具的 Agent

问题描述：
目前的 AI Agent 大多依赖于预先定义好的工具集，这限制了它们处理开放、复杂任务的灵活性和扩展性。当遇到一个没有现成工具可以解决的问题时，Agent 往往会束手无策。

本课题的目标是构建一个具备“自进化”能力的 Agent，它能够根据任务需求，自主地创造和集成新的工具。我们借鉴 Alita 论文 (Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal SELF-EVOLUTION) 的思想，即“最小化预定义，最大化自进化”。

你需要构建一个 Agent，它不依赖庞大的预置工具库。当遇到一个新任务时，Agent 需要能：

理解任务需求：分析任务，判断是否需要新的能力/工具来完成。
搜索解决方案：在开源世界（如 GitHub）中搜索相关的库或 API 来实现所需功能。
学习和集成：阅读文档或代码示例，学习如何使用找到的库/API，并动态生成代码来调用它，从而“创造”出一个新的工具。
执行任务：利用新创造的工具来解决问题。

验收标准：
Agent 能够完全自主（fully autonomous）地为下列至少一个任务创造工具并成功执行，没有成功也不能产生幻觉。Agent 需要是通用的，不允许为特定问题硬编码工具或 workflow。

场景一：YouTube 视频内容理解

任务：给定一个问题：“In the YouTube 360 VR video from March 2018 narrated by the voice actor of Lord of the Rings’ Gollum, what number was mentioned by the narrator directly after dinosaurs were first shown in the video?”
Agent 执行流程（参考）：
1. Agent 分析出需要获取 YouTube 视频的字幕。
2. Agent 自主上网搜索，找到一个合适的 Python 库。
3. Agent 阅读该库的用法，编写 Python 代码来下载指定视频的字幕。
4. Agent 分析字幕内容，找到问题的答案。
验收：Agent 输出正确答案 “100000000”。

场景二：实时金融数据查询

任务：给定一个问题，例如 “What is the latest stock price of NVIDIA (NVDA)?”
Agent 执行流程（参考）：
1. Agent 分析出需要查询实时股票价格，这需要调用一个金融数据 API。
2. Agent 自主上网搜索，找到一个免费的股票数据 API 并学习其文档。
3. Agent 编写代码，根据 API 要求（可能需要注册获取免费 API Key）调用该 API，查询 NVDA 的最新价格。
4. Agent 解析 API 返回结果，提取出价格信息。
验收：Agent 输出 NVDA 的最新股价（允许有微小延迟或数据源差异）。

加分项：

工具的复用与管理：Agent 能够将一次性创造的工具（例如“YouTube 字幕获取器”或“股票价格查询器”）保存下来。当未来遇到相似任务时（例如查询另一个视频或另一支股票），能够直接复用已有的工具，而不是重新创造。
工具验证：在将新创造的工具存入工具集之前，Agent 必须先设计测试用例来验证该工具的可用性和正确性。只有通过验证的工具才能被正式纳入工具集，确保了工具库的质量。
鲁棒性处理：Agent 创造的工具在执行时可能会遇到各种错误（例如 API key 失效、网络问题、库版本不兼容等），Agent 能够理解这些错误并尝试修复，例如重新搜索别的库/API。

课题六：边打电话边操作电脑的 Agent

问题描述：
想象一个场景：AI Agent 需要帮助用户完成一个在线预订任务，例如填写一个复杂的航班预订表单。在这个过程中，Agent 需要一边操作网页，一边通过电话向用户询问并确认个人信息（如姓名、证件号、航班偏好等）。

这个任务对单个 Agent 构成了巨大挑战。因为电话沟通和电脑操作都要求较高的实时性。如果一个 Agent 在集中精力 “看” 屏幕并点击按钮时，它就无法同时听取用户的讲话并作出回应，反之亦然。这会导致通话卡顿或操作中断，体验很差。

本课题的目标是构建一个由两个 Agent 协同工作的多智能体系统，来解决这个 “一心二用” 的难题。一个 Agent 负责打电话，另一个 Agent 负责操作电脑，它们之间实时通信，高效地完成任务。

核心挑战与要求：

双 Agent 架构：你需要构建两个独立的 Agent：
- 电话 Agent：负责与用户进行语音通话。你需要基于 ASR (语音识别) + LLM (大语言模型) + TTS (语音合成) 的 API 来实现它。它可以参考课题一的实现思路，或者直接使用开源参考代码 bojieli/ai-agent-projects/tree/main/live-audio。
- 电脑 Agent：负责操作电脑上的浏览器，完成网页表单填写等任务。建议基于现有的浏览器操作框架，例如 Anthropic Computer Use 或 browser-use 或其他类似框架。
Agent 间协同通信：
- 两个 Agent 必须能够高效地双向通信。当电话 Agent 从用户那里获取到信息（例如“我的名字是张三”）后，需要能立刻“告知”电脑 Agent。当电脑 Agent 在操作中遇到问题（例如“找不到‘下一步’按钮”）或者完成一个步骤时，也需要能“告知”电话 Agent。
- 这种通信可以通过工具调用（Tool-use）来实现：电话 Agent 调用一个 send_message_to_computer_agent 工具，电脑 Agent 调用一个 send_message_to_phone_agent 工具。
并行工作与实时性：
- 关键在于两个 Agent 必须能并行工作。在电脑 Agent 寻找页面元素或输入文本时，电话 Agent 必须保持在线，能够与用户正常对话，例如可以说“好的，正在为您填写姓名… 请问您的证件号码是？”。
- 两个 Agent 的输入需要包含来自对方的信息。例如，电话 Agent 的语言模型输入不仅包含用户的语音转录，还应包含一个特殊标记的字段，内容是电脑 Agent 发来的消息（如 [FROM_COMPUTER_AGENT] 找不到“下一步”按钮）。同样，电脑 Agent 的多模态模型输入不仅包含浏览器截图，也应包含电话 Agent 的消息（如 [FROM_PHONE_AGENT] 用户说姓名是张三）。

参考资料：

可以参考 Google 提出的 Agent-to-Agent (A2A) 通信协议的设计思想。

验收标准：

选择一个在线表单：选择一个公开的网站，例如一个注册页面、一个预订表单或一个联系我们页面。
演示协同工作流程：
- 启动系统后，电话 Agent 主动向用户（真人扮演）拨打电话（或开始语音对话），说明任务目标（“您好，我将帮助您填写XX表单”），并开始询问第一个必填项（例如“请问您的姓名是？”）。
- 用户回答后，电话 Agent 立即将信息传递给电脑 Agent。
- 电脑 Agent 接收到信息后，在浏览器中找到对应的输入框并填写。
- 在电脑 Agent 操作期间，电话 Agent 不能沉默，可以给用户反馈（“好的，已填好姓名。”），并接着询问下一个问题。
- 整个表单填写过程流畅，电话沟通和电脑操作无明显互相阻塞。
异常处理演示：
- 当电脑 Agent 遇到一个无法处理的情况（例如，用户提供的信息格式不正确导致网页报错），它应该将这个错误信息告知电话 Agent。
- 电话 Agent 接收到错误后，能够向用户转述问题并请求新的信息（例如“抱歉，您提供的邮箱格式似乎不对，可以重新说一下吗？”）。

中关村人工智能学院 & 国科大 2025 暑期 AI Agent 实践课题

课题目录

课题一：快慢思考结合的实时语音 Agent

课题二：边听边想的面试作弊 Agent

课题三：能识别权威信息源的深度搜索 Agent

课题四：能操作电脑，并且越做越熟练的 Agent

课题五：会自己创造工具的 Agent

课题六：边打电话边操作电脑的 Agent

Comments