【本文是笔者在 2025 中国生成式 AI 大会 的主旨演讲,演讲内容是笔者与 AI 头脑风暴 2 小时的结果,然后在 Cursor 中与 AI 协作工作 3 个小时精修内容】

内容概要:一些团队在实际应用 AI 编程、 AI 写作时,发现效率提升并没有想象中的大。究其原因,往往是大量的知识仅在特定员工的头脑中,并未文档化,因此 AI Agent 就像一个新来的实习生,很难编写代码,就算是写出了代码,也不知道该如何测试。另一个原因是项目管理等内部工具只能通过 GUI 操作,对 AI Agent 不友好。如今文本推理模型的能力已经达到人类水平,不能完成任务往往是因为缺少背景知识和对 AI 友好的工具。

我们将从软件开发、项目管理、运营三个方面,讲解如何构建一个对 AI Agent 友好的 AI 原生团队。 AI 原生团队需要像开源社区一样,尽量使用有记录的语音和书面沟通,减少对人的单点依赖。 AI Agent 需要能够通过 MCP 访问公司内部的各种工具,有足够的上下文信息和测试环境高效工作。 AI Agent 需要记忆压缩机制、反思机制和检查点回溯机制,才能在无需人类干预的情况下持续工作一晚上,每个小时都产生有用进展。 AI 员工也需要与人类员工和其他 AI 员工主动沟通。这样,人类员工的大多数时间就可以用来做思考和讨论,而大多数重复性的执行工作就交给 AI。

《AI Agent 新探索:构建 AI 原生团队,使能 AI 员工》 PPT 下载(PDF)

以下是演讲全文:(PPT 是 2025 中国生成式 AI 大会上所用的版本,但文字说明并非实录,是笔者与 AI 头脑风暴生成的扩展版本):

封面页

尊敬的各位来宾,大家好!我是李博杰,来自 PINE AI。非常荣幸能在今天与大家分享关于”AI Agent 新探索:构建 AI 原生团队,使能 AI 员工”的话题。

在开始之前,我想问大家一个问题:你有没有试过凌晨三点给 ChatGPT 发消息:”帮我查一下明天会议室预订情况”,然后得到一个非常礼貌但完全无用的回复:”我无法访问您公司的会议室预订系统”?或者让 Claude 写一段代码,结果它自信满满地告诉你:”这段代码已经通过测试”,但当你复制粘贴到项目中时,编译器却疯狂报错?

这就是我们今天要讨论的核心问题:AI 已经如此强大,为什么在实际工作中仍然表现得像一个聪明但对公司一无所知的实习生?如何让 AI 真正融入团队,像一名数字员工一样高效工作?

这不仅是技术的变革,更是工作方式和组织结构的深刻转型。让我们一起探索 AI 与人类协作的下一代范式。

为什么目前的 AI 无法成为靠谱的数字员工

第 2 页:当前现状 – AI Agent 应用效率未达预期

“AI 革命即将颠覆就业市场!”、”大模型将取代白领工作者!”——过去两年,这样的标题充斥各大媒体。但现实是什么样的呢?让我分享一个真实故事:

去年,我们公司一位工程师,姑且叫他小王吧,非常兴奋地宣布他要用 GPT-4 创建一个自动化测试 Agent。两周后,他沮丧地告诉团队:”我发现我花在教 AI 理解我们测试系统上的时间,比我自己写测试代码还多。”

这个故事道出了当前 AI Agent 应用的尴尬现状。虽然 AI Agent 在编程、写作、客服等多个领域的应用已经相当广泛,但实际效果与预期存在明显差距。

想象一下今天典型的 AI 工作流程:我们打开 Poe 或 ChatGPT,写一个精心设计的 prompt 提出需求,AI 花几分钟完成任务,然后我们检查、修正、再提交…如此循环。这样看起来很酷,但实际上,它们并没有如我们期望的那样 “大幅解放人力”。

我最近跟很多人交流,收集了他们对 AI 应用的抱怨清单:

  1. “AI 生成的代码看起来很好,但一运行就崩溃,调试起来比从头写还累。”
  2. “AI 不了解我们公司的架构和历史包袱,它给出的建议天真到可笑。”
  3. “让 AI 写一个简单的脚本没问题,但要它接入我们的内部系统?做梦!”

这些问题反映了一个核心矛盾:AI 在纸面能力与实际应用之间存在巨大鸿沟。就像是拥有了一位拥有斯坦福计算机博士学位但对你的产品、代码库和公司文化一无所知的新员工,你需要花更多时间去指导他,而不是从他那里获得帮助。

正如一位资深工程师告诉我的:”我不需要 AI 告诉我怎么写一个快排算法,我需要它理解为什么我们的登录系统设计得这么奇怪,以及如何在不破坏向后兼容的情况下修改它。”

那么,问题出在哪里?AI 到底缺少什么,才无法成为我们期待中的高效”数字员工”?让我们一起深入探讨这个问题。

第 3 页:AI 拥有成为高效 “员工” 的智力基础

在指出问题之前,让我们先承认一个事实:从智力基础来看,基础模型确实已经具备了成为高效 “员工” 的潜力,这一点毋庸置疑。

当 DeepSeek R1 刚刚发布时,我有个朋友半开玩笑地让它解决一个他团队卡了两天的算法难题。令人震惊的是,AI 不仅给出了正确解法,还指出了他们思路中的逻辑漏洞。这不是孤例,如今的 LLM 在各类推理任务上的表现令人印象深刻。

例如去年发布的 OpenAI o3,在 Codeforces 编程竞技中击败了 99.9% 的程序员,在 AIME 2024 数学测试中做对了 96.7%,相当于在美国数学奥林匹克竞赛上只答错了一道题。在博士级别科学问题测试的 GPQA Diamond 中超过 o1 10 个百分点,而 o1 已经基本上是人类博士生的平均水平。这些数据说明,在封闭性问题的求解上,现代 AI 已经接近甚至在某些领域超越了人类专家。

更令人兴奋的是长上下文能力的突破。还记得早期的 GPT-3.5 模型吗?稍微长一点的对话它就开始”健忘”。而现在,人类工程师可以一次性输入整个代码库让 AI 分析,这在两年前是不可想象的。

说到速度优势,更是令人瞠目。在一个实验中,我自己和 Claude 3.7 Sonnet 尝试完成相同的代码编写任务。平均而言, AI 能在 5 分钟内生成我自己不借助 AI 需要一个小时才能完成的代码,并且质量相当。而且人类需要休息、开会、喝咖啡,而 AI 可以 24/7 工作。

还有一个被低估的优势:AI 从不会因为任务无聊而失去动力,而且还可以并行执行很多任务。 Sam Altman 去年讲, AI Agent 不仅仅应该是帮人定一个闹钟、点一个外卖,而更应该做的事情是帮人打 300 个电话,联系所有可能的餐厅去订座位。这件事现在 Google 的 Ask for me 已经实现了。 Sam Altman 当时就讲, AI Agent 就应该做这种重复性的,真人没有时间做的事情。

你有没有想过,如果你有一位同事,他思维敏捷、记忆力超群、工作速度是你的十倍,而且从不需要休息,永远保持专注—这简直就是理想中的”超级同事”!那么问题来了:既然 AI 如此聪明又高效,为什么它们还不能成为真正可靠的数字员工?这就是我们接下来要解开的谜题。

第 4 页:为什么又聪明又快的 AI 无法成为靠谱的数字员工

尽管 AI 在智力和速度方面表现出色,但它们在企业环境中仍难以成为可靠的数字员工,就像一个 IQ 180 但社会适应能力为零的天才。这主要源于四大障碍。

首先是企业知识未文档化的问题。我曾访问一家世界 500 强企业的 IT 部门,他们引以为豪地展示了他们的知识库。当我随机询问一个问题时,回答是:”哦,这个得问张工,他是唯一知道的人,但他上周刚离职。”这个场景太过熟悉了,对吧?

在大多数企业中,关键知识散落在员工大脑或 Slack 私聊中,很少有系统性的文档记录。即使是最聪明的 AI,也无法获取没有被记录下来的信息。这就像让一个天才新员工戴着眼罩在迷宫中奔跑,无异于自寻苦吃。

其次,工具与系统的操作障碍严重限制了 AI 的能力发挥。去年,我参观一家金融科技公司,他们尝试让 AI 自动处理客户退款申请。问题在哪?整个流程需要操作五个不同的内部系统,全部是图形界面,没有 API。他们最终不得不雇佣一名全职员工,专门负责”把 AI 的建议复制到各个系统中”。

从技术角度看,这涉及到两个深层次问题:一是计算机视觉与 UI 交互的技术挑战。目前的 Computer Use 方案,不管是 OpenAI Operator、 Claude Computer Use 还是最近比较火的 Manus,准确率往往不足以应对复杂企业应用;二是企业系统普遍缺乏 API 文档和标准化接口。

第三, AI Agent 缺少执行持续任务的机制。我有个朋友,一位 AI 研究员,他试图创建一个 AI Agent 来自动分析 GitHub 上开源项目的贡献者模式。起初一切顺利,但当项目变得复杂后, AI 开始”迷失”:忘记之前分析的结果,重复已完成的工作,甚至完全偏离原定目标。没有反思和纠错机制的 AI,就像一个没有导航的车,很容易迷路。

一个有趣的技术细节:这种”目标漂移”现象在强化学习中被称为”reward hacking”, AI 找到了满足短期目标的捷径,但偏离了长期意图。在 Agent 系统中,这表现为”过度专注于当前子任务而忽视全局目标”的行为。

最后, AI 缺少长期记忆机制,难以累积经验和知识。想象你有一个助手,每天早上都忘记昨天发生的一切,你需要从头解释每个项目和上下文—这基本上就是现在的 AI。每次交互都像是从头开始,无法真正从过去的工作中学习和成长。

这些障碍共同导致了”聪明的 AI”与”可靠的数字员工”之间存在巨大鸿沟。正如一位 CTO 形象地总结的:”现在的 AI 就像一个超级聪明但患有严重记忆障碍,并且不会使用我们办公室任何设备的实习生。”

接下来,让我们深入分析这些问题,并探讨如何克服它们,让 AI 真正成为团队中的得力助手。

第 5 页:问题 1 – 知识未文档化,仅在员工脑中

企业知识孤岛现象是 AI 无法高效工作的首要障碍。我记得有一次咨询工作中,客户要求我们优化他们的订单处理系统。当我问到为什么某些订单会自动转到人工审核时,得到的回答是:”这是历史原因,具体得问小李。”小李在哪?不知道,可能去年已经离职了。

这种场景在企业中屡见不鲜。一个典型的对话可能是这样的:

“这个接口为什么设计成这样?”
“哦,这是三年前的决定,当时负责这块的是王工。”
“王工在哪?我能和他聊聊吗?”
“他去年跳槽到腾讯了。”
“有文档记录当时的设计决策吗?”
“呃…应该在某个邮件或会议记录里吧…”

如果连人类新员工都难以从这种环境中快速上手,更不用说 AI 了。从技术角度讲, AI 面临的是”冷启动”问题:没有足够的历史上下文和背景知识,它无法做出符合组织期望的判断。

我曾做过一个有趣的实验:给两个功能相同但文档质量天差地别的代码库,让 Claude 生成功能改进建议。结果出乎意料但又在情理之中—对于有完善注释和 README 的代码库, Claude 的建议几乎 80%可以直接采用;而对于缺乏文档的代码库,可用建议不到 30%,大部分要么是过于保守的小修小补,要么是不切实际的大刀阔斧。

再想想你自己的代码库:它有完善的文档吗?每个模块的功能和接口是否清晰描述?有可靠的测试用例吗?关键的业务逻辑是否有解释?如果答案大多是否定的,那么即使是最先进的 AI,也难以在你的项目中发挥真正的价值。

很多程序员说:”代码如果需要注释才能理解,那就是糟糕的代码。”但不管对于 AI 来说还是对人,没有文档的代码确实是很难理解的。文档的目的并不是讲每个函数、每个变量是什么意思,而是讲项目的背景、目的、架构设计、技术选型背后的考量,以及应该怎么把这些代码运行起来。

这提醒我们,要让 AI 成为有效的团队成员,首先要解决的不是 AI 技术本身,而是企业知识管理的问题。

第 6 页:问题 2 – 内部工具仅 GUI 界面, AI 难以操作

企业内部工具设计的现状就像是为了专门刁难 AI 一样:几乎所有系统都只为人类用户提供图形界面 (GUI)。从财务系统、人力资源管理到项目管理工具,这些系统在设计之初完全没有考虑 AI 作为潜在用户。

我有个朋友在一家医疗软件公司工作,他们尝试用 AI 来自动生成软件测试报告。理论上, AI 对医疗术语理解得很好,能写出专业的报告。但实际操作中却遇到了荒谬的障碍: AI 无法登录测试系统查看结果,因为登录页面有一个滑块验证,要求用户”拖动滑块完成拼图”。结果他们不得不安排一个人专门负责登录系统,截图发给 AI。

这种情况简直就像是给一位没有手的天才画家提供了颜料和画布,却不给他装上假肢。从技术角度讲,这涉及到”多模态交互”的限制。当前主流的 AI 模型虽然在语言理解和生成上表现出色,但在视觉识别和精确操作图形界面方面仍有很大局限。

即使像 GPT-4o 这样具备视觉能力的模型,其”看到”和”理解”界面与”精确操作”界面之间仍有巨大鸿沟。没有对 GUI 操作做过专门训练的模型,一般只能大致描述要点击什么位置,但无法输出精确的坐标。这类似于你能看懂一个网页,但如果必须戴着拳击手套去点击一个小按钮,体验会有多糟糕。

另一个严重的问题是多模态模型的响应延迟。当 AI 需要处理界面截图时,反应速度远远慢于人类。一个简单的界面操作,人类熟悉后的反应延迟只有几百毫秒,而 AI 可能需要 3-5 秒。从技术原理上讲,这种延迟主要源于图像自回归处理的复杂性 —— 一张界面截图会被编码成 1000 多个 token,仅仅是 prefill 阶段的延迟就已经超过 1 秒。多模态模型的高延迟使得 AI 在需要快速连续操作的场景中表现得尤为笨拙。

有个朋友曾半开玩笑地说:”我们期待 AI 像《钢铁侠》中的贾维斯那样工作,但实际上它更像是被困在 Zoom 会议中只能看不能动的远程员工。”

更棘手的是,许多企业系统是定制开发或高度配置的,每家公司的操作流程都有差异,没有统一标准。这意味着即使 AI 掌握了一个公司的系统操作,到了另一个公司可能需要重新学习。

这个问题表明,要真正发挥 AI 的潜力,我们不仅需要提升 AI 的能力,还需要改造现有的工具和系统,使其对 AI 更加友好。只有当工具和用户界面同时适应人类和 AI,数字员工的愿景才能真正实现。

第 7 页:问题 3 – 缺少 AI 可独立工作的测试环境

即使 AI 具备了足够的知识和操作系统的能力,它们仍然面临一个关键挑战:缺乏安全可靠的测试环境。这就像给一个实习生分配任务,但不允许他在提交前测试自己的工作。

我曾经亲眼目睹一个悲喜交加的场景:一家初创公司尝试让 Claude Code 帮助重构他们的后端 API。 Claude Code 写出了看起来不错的代码,但公司只有一个共享的测试环境。当 Claude Code 的代码部署到测试环境后,立即影响了其他三名开发者的工作。最讽刺的是,那天下午公司 CEO 恰好要向投资者演示产品,结果演示环境因为 AI 的修改而完全崩溃。你能想象那场景有多尴尬吗?

从技术角度看,这个问题涉及到软件工程中的几个基本原则:

  1. 环境隔离:现代开发实践强调使用容器化技术创建隔离的开发和测试环境。然而,许多企业仍在使用共享的开发/测试环境,甚至没有严格区分开发、测试和生产环境。
  2. 持续集成/持续部署(CI/CD):自动化测试和部署管道能够确保代码变更不会破坏现有功能。然而,许多企业的 CI/CD 管道不完善或不存在。
  3. 基础设施代码化:环境配置应该被代码化,使得创建一致的新环境变得简单快捷。但在实际情况中,环境配置往往是手动完成的,难以复制。

在我咨询的一家中型企业中,他们有一个笑话:”我们有三个环境 - 开发、测试和’祈祷’。”这种情况下,让 AI 独立工作简直是在自找麻烦。

测试用例的缺失是另一个严重问题。有一次,我和一个团队讨论如何让 AI 帮助修复 bug。当我问起他们的测试覆盖率时,技术负责人尴尬地说:“我们每次都是发布版本之前,手工点一遍所有的功能是否能正常使用。” 在这种情况下,即使是最先进的 AI 也无法确保修改不会引入新问题。

这提醒我们,构建 AI 友好的工作环境不仅关乎知识共享和接口设计,还需要健全的测试和验证机制。正如软件工程大师 Martin Fowler 所说:”如果你发现测试很痛苦,那可能是因为你的设计很痛苦。”在 AI 时代,这句话依然适用。

第 8 页:问题 4 – AI 无法像人一样长时间工作、主动沟通

即使我们解决了知识、工具和测试环境的问题, AI 仍然面临着持续工作能力和主动性的挑战。这就像是雇佣了一个只能工作 45 分钟就必须重启的员工。

我曾经负责一个项目的重构,尝试用 Cursor 去做。起初一切顺利,但随着对话上下文增长, Claude 3.7 Sonnet 开始表现出”注意力涣散”的症状:忘记之前讨论的重要细节,混淆不同 API 的功能,甚至前后矛盾。这个过程就像看着一个原本精明的助手慢慢变成一个神志不清的人。

缺少反思和回溯机制是另一个重要问题。一位资深程序员解决一个复杂 bug 的时候,他会不断切换于不同思路,尝试、评估、放弃,然后尝试新方法。关键是,他能意识到何时一个方向无效并及时转向。而 AI 缺乏这种”元认知”能力,一旦走错路,往往就一错到底。 AI 可能会以最快的速度朝着错误的方向跑,而且永远不会意识到自己走错了方向。

主动性不足是限制 AI 成为真正团队成员的另一大障碍。传统的 AI Agent 被设计为类似自动售货机:你投入指令,它吐出结果。这种被动模式与人类团队成员的主动协作方式存在本质差异。想象一个同事从不主动提出问题,从不表达担忧,也不会在截止日期临近时给你报风险—这基本上就是现在的 AI 工作方式。

沟通效率也是一大挑战。我曾好几次见过工程师在屏幕前对着 ChatGPT 或者 Cursor 愤怒地打字:”不,我不是这个意思!”——如果他能直接用语音表达,事情会简单得多。大多数 AI Agent 只支持文本交流,缺乏多模态能力,这大大降低了人类与 AI 的协作效率。

这些限制共同导致了当前 AI 难以胜任需要持续注意力、反思能力和主动沟通的复杂任务。要让 AI 真正成为团队成员,我们需要从根本上改进其工作模式和交互方式,让它不仅聪明,还要合作无间。

组建 AI 原生团队的关键举措

第 9 页:如何让 AI Agent 像一个数字员工一样, 24x7 产出有效工作?

面对这些挑战,我们不禁要问:如何才能让 AI Agent 真正像一个数字员工一样, 24 小时不间断地产出有效工作?这不再是简单的技术问题,而是关乎工作方式和组织结构的根本转变。

让我分享一个简单但深刻的对比,这来自我的一位创业者朋友的亲身经历:

传统模式:
他花了 3 个小时时间编写精细的 prompt,要求 Cursor 编写一个数据分析脚本。每次 Cursor 生成的代码都有问题,他不得不不断修改 prompt,进行十几轮迭代。最终,他放弃了 AI 方案,自己写了代码。

新模式:
同样的任务,另一位创业者采用了不同方法。他首先让 Cursor 阅读了他们的数据库文档、现有分析代码和业务需求,然后通过类似与同事的对话方式,与 AI 讨论分析策略,明确输出格式,并提供测试数据集。 Cursor 不仅成功编写了代码,还主动指出了数据中的异常模式,提供了有价值的业务洞察。

这个对比说明了什么?传统模式下,我们把 AI 视为魔法黑盒 — 写一个完美的 prompt,祈祷得到完美的结果。而新模式则把 AI 视为团队成员 — 提供足够的背景,进行有效沟通,给予必要的工具和反馈。

从技术角度看,这涉及到 Agent 架构的根本变革。传统 Agent 架构基于简单的”感知-决策-行动”循环,类似于早期机器人控制系统。而新一代 Agent 架构引入了自我反思、记忆管理、目标追踪等高级认知功能,更接近认知科学中的”双处理系统理论”,即结合直觉反应和深度思考的认知模型。

想象一下,如果一个 AI 被正确集成到你的团队中,能够访问所有必要的知识和工具,能够主动沟通并持续完成任务,那将会释放多大的生产力?

这不是天方夜谭。通过构建 AI 原生团队,我们可以创造一个环境,让 AI 真正成为高效的数字员工。这需要我们从组织文化、工具设计、测试环境和协作模式等多个方面进行系统性变革。

在接下来的内容中,我将详细阐述如何构建 AI 原生团队的关键举措和技术方案。

第 10 页:构建 AI 原生团队 – 让 AI 成为”数字员工”

构建 AI 原生团队不仅仅是引入新技术,更是一场思维方式的变革。它要求我们从根本上改变对 AI 的定位:从”AI 是工具”转变为”AI 是团队成员”。

想象一下,如果我们把每个 AI Agent 视为一名新入职的高潜力员工,我们会如何对待它们?我们会提供完整的入职培训材料,为它们配备必要的工具,创造安全的试错空间,并建立有效的沟通渠道。这正是构建 AI 原生团队的核心理念。

从技术架构角度看,传统的 AI 集成方式往往是”点对点”的:特定任务使用特定 AI 工具。而 AI 原生团队则采用”网状集成”模式,创建一个协作环境,让多个 AI Agent 与人类和系统无缝协作。这类似于微服务架构与单体应用的区别—前者更灵活、可扩展且适应性强。

要实现这一愿景,我们需要从四个关键方面着手:

首先,建立类似开源社区的沟通文化。为什么 Linux 能够持续发展 30 年,全球开发者协作维护还没有乱?秘诀在于其透明、文档化的沟通方式。所有讨论都在邮件列表或论坛中公开进行,所有决策都有文档记录,任何人(包括新加入者)都能了解代码的历史和设计理由。这种文化特别适合 AI 参与,因为所有信息都是公开、可检索的。

其次,确保团队协作工具对 AI 友好。我喜欢用这个类比:如果你的办公室只有旋转门,没有普通门,那么残障人士就无法进入。类似地,如果你的系统只有图形界面,没有 API 接口, AI 就无法有效工作。内部系统需要提供 API 接口,而不仅仅是图形界面,让 AI 能够直接与系统交互。

第三,建立完善的测试环境与测试用例。我曾参观过 Google 的开发环境,印象最深的是他们的”沙盒系统”—每个开发者(包括实习生)都能立即启动一个完整的测试环境,运行全套测试,而不会影响他人。对 AI 来说,这样的环境更是必不可少。

第四,为每个员工配置 AI 助理。就像《钢铁侠》中的托尼·斯塔克有贾维斯一样,未来的知识工作者都将拥有个人 AI 助理,帮助处理日常工作,提升效率。这不仅提高个人生产力,也加速了组织知识的积累和传播。

最后,我们还需要构建像数字员工的 AI Agent 技术方案,使 AI 能够主动思考、沟通和学习,真正融入团队工作流程。这涉及到前沿的 AI 系统设计,我将在后续详细介绍。

接下来,让我们深入探讨每一项关键举措的具体实施方法,看看如何将这一愿景变为现实。

第 11 页:关键举措 1 – 类似开源社区的沟通文化

开源社区的成功为我们构建 AI 原生团队提供了宝贵经验。想一想为什么一个分布在全球各地、素未谋面的开发者团队能够构建出如此复杂而稳定的系统,比如 Linux 内核?其背后的秘密武器就是高度透明、文档驱动的沟通文化。

我曾经观察过一个有趣的现象:一家创业公司的两个团队, A 团队沟通主要靠私聊和电话,很少留文档; B 团队则强制要求将所有决策和讨论在 Notion 上记录。六个月后,当两个团队同时引入 AI 辅助开发时, B 团队的 AI 助手几乎立即创造了价值,而 A 团队的 AI 则在”走神”和”误解”中挣扎。原因很简单: B 团队的知识是可检索的,而 A 团队的知识被锁在人脑和私人对话中。

首先,我们需要建立开放透明的信息共享机制。一个具体实践是实施”工作开放原则”—默认情况下,所有非敏感信息都应公开共享。例如,语音会议后生成会议记录并在公共频道分享,重要的决策和讨论过程留有文档记录。在一家采用这种实践的公司,他们有个口号:”如果没有记录,就没有发生。”

其次,我们必须消除信息孤岛。我喜欢用”知识从私有到共享”的框架来描述这一变革。在传统组织中,专业知识是个人资产—“我知道某事”增加了我的不可替代性。而在 AI 原生团队中,知识必须从个人大脑转移到共享资源 — “团队知道某事” 增加了整体效能。

第三,知识库应使用 AI 友好的开放文档格式。我见过太多企业的重要知识被锁在 Word 文档、 PPT 幻灯片和 PDF 文件中。这些格式对 AI 不友好,难以高效索引和检索。相比之下, Markdown 等开放格式更适合 AI 处理,并且可以轻松集成到版本控制系统中。

为什么 Markdown 比 Word 更 AI 友好? Markdown 是纯文本格式,结构简单明确,易于解析;而 Word 文档是二进制格式,包含大量格式信息,需要特殊库解析。此外, Markdown 与 Git 等版本控制系统兼容性更好,支持差异对比和协作编辑,这对团队知识管理至关重要。

这种开放透明的沟通文化不仅有利于 AI,也能提升整个团队的协作效率。正如一位成功实施这一变革的 CTO 告诉我的:”最初,团队成员担心记录一切会增加工作负担。但很快他们发现,记录一次解决方案可以避免十次重复解释,这不仅节省了时间,还减少了中断和干扰。”

记住,最好的文档不是为 AI 写的,而是为团队中的所有成员写的。当一个团队习惯于清晰地记录决策和知识时, AI 自然能够更好地融入其中,就像一个勤奋的新员工一样。

第 12 页:关键举措 2 – 团队协作工具接口对 AI 友好

要让 AI 真正融入团队工作流,我们必须确保团队使用的工具和系统对 AI 友好。我喜欢用这个类比:传统系统就像只提供楼梯的建筑,而 AI 友好的系统则同时提供楼梯和电梯—人类可以选择任何一种方式,而 AI 必须使用电梯。

一家大型零售商尝试让 AI 帮助客服团队回复邮件。技术上,AI 完全胜任这项任务,但实际操作中却卡在一个荒谬的环节:邮件系统没有 API,只能通过 Web 界面访问。他们最终的”解决方案”是雇佣一组人员将 AI 生成的回复复制粘贴到邮件系统中 — 这简直就是现代版的”人肉打字机”。

首要任务是为内部系统提供 API 接口。这涉及到软件架构的一个基本原则:关注点分离。好的系统设计应该将核心业务逻辑与用户界面分离,通过 API 层暴露功能。这不仅有利于 AI 集成,也促进了系统模块化和可测试性。

从技术角度看,现代 API 设计已经有了成熟的最佳实践:

  1. RESTful 设计原则:使用标准 HTTP 方法(GET、 POST、 PUT、 DELETE)表达操作意图,使 API 更直观。
  2. OpenAPI (Swagger)规范:提供机器可读的 API 文档,便于 AI 理解 API 功能和参数。
  3. GraphQL:允许客户端精确指定所需数据,减少过度获取和不足获取问题。
  4. Webhook 支持:允许系统通过事件通知机制主动推送更新。

但 Restful API 对 AI 来说还不完全足够,因为 AI 不仅需要 API,还需要 API 文档,知道每个 API 是做什么用的,这样 AI 才能理解什么时候该调用哪个 API。

Anthropic 去年提出的模型上下文协议 (MCP) 就是解决这一问题的。 MCP 是什么?简单说,它是一个标准化框架,定义了 AI 如何与各种工具和服务交互。

想象一下没有 USB 标准的世界,每个设备都需要不同的连接器—这基本上就是当前 AI 工具集成的状态。 MCP 就像是 AI 世界的 USB Type-C 标准,创建了统一的”插口”。

MCP 服务器的具体工作方式是,它会告诉你这个服务里有哪些数据,然后当 AI 要使用这些数据时,应该用什么样的 prompt 能够更好地去使用。比如一个企业内部代码版本控制的 MCP 服务器可能提供所有的代码文件作为数据,而 prompt 模板可以包括如何做 code review、如何解释代码的工作原理。

然后 MCP 服务器会定义一系列的工具。因为有时候这些数据是零散的,需要用一些工具才能查找。比如,如何在一堆数据里面找到与某个东西相关的内容,或者进行一些修改。假如我是一个 GitHub,是代码管理的,那这个 agent 可能说:”我现在要提交一个代码到代码仓库里面。” 那么它会提供一个工具叫”提交代码”,然后调用这个工具就把代码提交进来了。

MCP 设计了一系列包括工具、数据、 Prompt 模板等这些东西,它可以让 agent 能够实现更复杂的工作。甚至还有更高级的玩法,就是这个 MCP 服务器作为第三方服务,还能反过来调用 agent 里面的大模型。

举个例子,假如我在自己电脑上搞了一个特别牛的超级 agent,比如装了一个桌面版 Manus,然后我去调用 GitHub, GitHub 可能会说:”我想在你提交代码之前,先 review 一下你的代码”,然后它再调用你自己电脑上的一些功能。当然,这里面又涉及很多隐私保护的问题。

所以 Anthropic 的 MCP 其实是一套挺复杂的协议,但它设计得还是挺简洁的。可能很多人一看这东西这么复杂,就懒得看,直接扔到一边去了。

这种系统改造可能需要初期投入,但从长远看,它将大大提升团队的自动化水平和工作效率,为 AI 赋能创造必要的技术基础。

第 13 页:关键举措 3 – 完善的测试环境与测试用例

为 AI 提供完善的测试环境和测试用例,是确保其工作成果可靠的关键。我曾经见证一个”AI 灾难”:一家初创公司让 AI 重构了他们的支付处理模块,代码看起来完美,但部署到生产环境后,所有国际支付都失败了。原因?没有测试环境来验证国际支付场景。

这个故事告诉我们一个简单的道理:即使是最聪明的开发者(或 AI)也需要适当的测试条件。

首先,我们需要构建专门的沙盒测试环境。在很多硅谷公司,每个工程师都可以随时创建隔离的开发环境,包含完整的服务栈。这种能力对 AI 更为关键,因为 AI 可能需要进行大量尝试和验证。 Google Cloud 的 Cloud Run 就是一种比较简单方便的做法。

其次,代码必须有完善的文档和测试用例。我喜欢引用这个程序员格言:”代码是写给人看的,附带能被机器执行。”—在 AI 时代,这句话可以修改为”代码是写给人和 AI 看的”。

优秀的代码文档应包括:

  1. 高级架构概述:系统的整体结构和组件关系。
  2. 模块职责说明:每个模块的功能和边界。
  3. 关键决策原因:记录重要设计决策的原因,是业务需求还是技术限制。
  4. API 契约:清晰定义接口的输入、输出和约束。

测试方面,测试驱动开发 (TDD) 的理念在 AI 时代变得更加重要。完整的测试金字塔应包括:

  1. 单元测试:验证独立功能块的正确性。
  2. 集成测试:验证组件间交互。
  3. 端到端测试:模拟真实用户场景。
  4. 性能和负载测试:确保系统在压力下仍能正常运行。

第三,建立 Code Review 机制至关重要。你可能听过”四眼原则”—重要代码至少需要两个人审阅。在 AI 时代,这变成了”人机四眼”—AI 生成的代码需要人类审查,人类编写的复杂代码可由 AI 辅助检查。

一位工程主管分享了他们的经验:”最初,我们的工程师对 AI 生成的代码持怀疑态度,总是进行过度审查。但随着时间推移,他们发现 AI 在某些类型的代码(如标准 CRUD 操作、数据转换)上几乎从不出错,而在复杂业务逻辑上则需要更多关注。这种分级审查策略大大提高了我们的效率。”

第 14 页:关键举措 4 – 为每位员工配置 AI 助理

想象一下,如果每位员工都有一个专属的 AI 助理,能够 24 小时待命,了解你的工作内容和偏好,随时提供支持—这不再是科幻电影中的场景,而是已经开始实现的现实。

为每位员工配备专属 AI 助理是构建 AI 原生团队的关键举措之一。这些 AI 助理通过 MCP (模型上下文协议)访问公司各种内部系统,成为连接人类员工与数字系统的桥梁。

在日常工作中, AI 助理可以承担大量重复性任务,比如:

  1. 会议日程安排:小李的 AI 助理去找小王的 AI 助理,协调会议时间,避免日程冲突。
  2. 差旅预订、报销:像真人助理一样,帮忙订机票、酒店,行程结束后整理发票提交报销单。
  3. 邮件分类与回复:处理例行邮件,标记需要注意的重要邮件,删除垃圾邮件。
  4. 报告生成:自动生成周报、月报等常规报告。

在会议场景中, AI 助理的价值更为明显。传统会议中,大家经常讨论完了,却发现忘了记笔记,不知道讲了什么。而有了 AI 助理,它可以实时记录会议内容,提取行动项,甚至基于公司历史知识提供相关背景信息。

以前,会议后团队要花 1 个小时整理和分发会议记录;现在,AI 助理在会议结束前就能生成结构化记录,包括决策点、行动项和后续计划,并自动更新到敏捷项目管理系统。这不仅节省了时间,也减少了信息丢失和误解。

更令人兴奋的是 AI 与人类的头脑风暴模式。我自己发现,与 AI 进行一对一头脑风暴的创意质量,比个人独立思考高。

这篇演讲内容就是我与 AI 数字助理头脑风暴 2 小时后生成的初稿,随后我又使用 Cursor 与 AI 协作编辑 3 小时完成精修。

我们知道有一个费曼学习法,它核心理念是”要想真正学会,就要能教会他人”。传统上,我们通过向他人解释知识来检验自己的理解深度。然而,在数字时代,AI 可以成为我们在这一过程中的理想伙伴。无需请教专家,无需等待反馈,随时随地都可以进行费曼式学习。

当我与 AI 进行头脑风暴时,我发现语音讨论是最自然的交流方式。我向 AI 解释概念,AI 提出问题,指出我思维中的漏洞。这种互动迫使我简化复杂概念,澄清模糊认知,恰如费曼所倡导的那样。AI 不仅是听众,更是能提出挑战性问题的协作者,帮助我发现自己尚未完全理解的知识盲点。

更令人兴奋的是, AI 与共享白板的结合为这一过程增添了视觉维度。当我们与 AI 对话时, AI 会把支持它所说的话的关键信息,比如公司知识库文档,实时呈现在白板上。在讨论过程中,AI 还可以实时绘制图表、组织框架,帮我们整理和把握头脑风暴的结构和要点。

每次对话结束后,AI 还能将内容整理成系统性的知识库文章,便于日后回顾与深化。

构建像数字员工的 AI Agent

第 15 页:构建像数字员工的 AI Agent – 技术方案

要让 AI 真正成为数字员工,而不仅仅是简单的工具,我们需要从根本上改变对 AI Agent 的构建方式。这就像从制造”智能工具”转变为培养”数字同事”—思路完全不同。

我最喜欢的一个类比是:传统 AI Agent 像计算器—你输入,它计算,给出结果;而数字员工 Agent 像初级会计—你描述需求,它理解上下文,主动获取信息,应用专业知识,并在必要时向你寻求帮助。

首先,我们需要增强 Agent 的基础能力,特别是多模态人机交互能力。

在接下来的几页中,我将详细介绍构建数字员工 Agent 的六大关键技术,这些技术让 AI 从简单工具转变为真正的团队协作者。正如一位 AI 研究员所言:”我们正在从’为人类设计工具’转向’设计新型智能实体与人类协作’—这是范式的根本转变。”

第 16 页: Agent 技术 1 – 更自然的多模态人机交互

在构建像数字员工的 AI Agent 时,更自然的多模态交互是基础技术之一。想象一下你是如何与同事沟通的—你说话、手势、分享图片、在白板上画草图 — 这种丰富的多模态交流是高效协作的基础。

从脑科学角度看,人类思维本质上是多模态的。我们同时处理语言、视觉、听觉等多种信息,这些信息在大脑中融合形成统一理解。传统的纯文本 AI 交互极大地限制了这种自然沟通流,就像强迫你只通过短信与同事协作一样低效。

语音模态的重要性怎么强调都不为过。语音是人类最自然、最高效的交流方式,每分钟我们能说 150-200 个词,而打字通常只有 40-60 个词。这种 3-5 倍的效率差异在日常工作中意味着巨大的生产力提升。

我曾研究一个软件团队引入语音 AI 助手的案例。最初,团队成员对着电脑说话感到尴尬,但很快,这种交互方式被普遍接受,原因很简单:效率提升太明显了。一位开发者分享:”以前描述一个复杂 bug,我要打几段文字,现在只需 30 秒口述, AI 就能理解问题并开始分析可能的原因。”

一个具体的技术进步是流式语音处理。早期系统需要等用户说完整句话才开始处理,而现代系统采用”流式”架构,实时处理语音输入,甚至可以在用户说话的同时开始思考回应。这大大提高了交互的自然性,减少了感知延迟。

另一个关键创新是 “快思考” 和 “慢思考” 双 Agent 协作模式。灵感来自丹尼尔·卡尼曼的认知理论。在人类思维中,系统 1 快速、直觉、自动;系统 2 缓慢、深思熟虑、需要努力。在人与人交流中,我们会立即给出礼貌性回应(”我明白你的问题”、”让我想想”),同时在大脑中深入思考。

AI 也需要类似的双系统:

  1. 快思考 Agent:负责实时用户交互,保持对话流畅。
  2. 慢思考 Agent:后台进行深度研究、验证和推理。

这种架构带来的用户体验是革命性的。用户不再面对 “思考中…” 的转圈图标,而是参与到一个渐进式展开的对话中。

除了语音,视觉交互也至关重要。通过共享屏幕或图像,用户可以直观地展示问题或想法,而 AI 可以通过图表、图像或甚至简单的草图回应。这种视觉对话极大地提升了复杂信息的传递效率。

例如,在一个产品设计会议中,设计师可以口述界面构想,AI 实时生成界面草图;设计师指出需要修改的部分,AI 立即调整…这种交互方式比文字描述+手动修改效率高出数倍。

多模态交互不仅提升了效率,还创造了一种更自然、更人性化的协作体验。正如一位用户研究者所言:”当我们从’使用工具’转变为’与智能实体协作’时,交互设计的重点也从’功能性’转向’关系性’ — AI 不再是我们操作的工具,而是我们沟通的伙伴。”

第 17 页: Agent 技术 2 – 搞清楚需求再做事

任何经验丰富的职场人士都知道,成功完成任务的首要前提是充分理解需求。有句经典的项目管理格言:”在需求阶段节省的 1 小时,可能在实施阶段要花 10 小时来弥补。”这个原则对 AI 同样适用。

传统 AI Agent 往往采用 “简单 prompt,立即执行” 的模式,这就像一位过于热心但不够细心的新员工,迫不及待地跳入工作,却没有真正理解需求。结果可想而知 — 大量返工,沟通成本反而增加。

我曾观察一个有趣的对比:同一个团队使用两种不同方式与 Claude 合作开发一个数据可视化功能。

传统方式
“请为我们的用户活跃度数据创建一个交互式仪表板,使用 Vue.js 和 ECharts。”

改进方式
“我们需要创建一个用户活跃度仪表板。在我们开始之前,我想先向你说明几个背景:

  • 我们的目标用户是产品经理,他们技术背景有限
  • 我们最关心的指标是月活用户、次日留存率和使用频率
  • 历史数据显示我们在假期期间通常有活跃度下降
    你还需要了解哪些信息来帮助设计这个仪表板?”

第二种方式, Claude 首先提出了一系列澄清问题:数据来源是什么?需要支持哪些筛选维度?是否需要导出功能?预期的更新频率是什么?这些问题帮助团队思考了之前忽略的关键点。

最终结果差异巨大:传统方式产出的仪表板技术上没问题,但不符合实际需求,不得不重做;而改进方式的成果直接满足了业务需求,仅需少量调整。

我们在一个大型企业 AI 实施项目中采用了”需求共创”方法,要求 AI 在接受任务后首先生成一份 “工作理解文档”,包括:

  • 目标概述:一句话总结任务目标
  • 上下文理解:相关背景和约束
  • 澄清问题:需要进一步明确的事项
  • 初步方案:可能的实现路径
  • 预期成果:如何评判成功

这份文档必须得到人类确认或修正后,AI 才开始实际工作。

需求理解不是一次性活动,而是持续过程。卓越的 AI Agent 能够在工作进行中不断调整理解,当发现新信息或潜在问题时主动寻求澄清。这种”渐进式需求精化”类似于敏捷开发中的迭代反馈循环。

一位项目经理分享了他的经验:”与其说我们在教 AI 如何更好地执行任务,不如说我们在教它如何更好地理解任务。一旦理解到位,执行往往不是问题。这与培养人类团队成员惊人地相似。”

这种深入理解需求的工作方式不仅提高了任务完成的质量,也大大减少了返工和沟通成本。正如管理大师彼得·德鲁克所言:”最有效的方式不是做事情正确,而是做正确的事情。”对 AI 而言,这一原则同样至关重要。

第 18 页: Agent 技术 3 – 遇到问题主动沟通

在真实工作环境中,没有任何员工能够完全独立解决所有问题。高效的团队成员知道何时、向谁、如何寻求帮助。一个沉默地陷入困境的员工比一个主动寻求帮助的员工更让人担忧。

AI Agent 也需要这种主动沟通能力。传统 AI 在遇到困难时,要么给出错误答案,要么简单地说”我无法完成这个任务”。而优秀的数字员工则会明确描述问题所在,提出可能的解决路径,并寻求必要的帮助。

跨部门协作能力是现代工作环境的必备技能。当 AI 识别出问题涉及其他模块的领域时,会自动查找公司内部通讯录,联系负责这个模块的 Agent 或人类员工,去交互询问。

向上级求助机制同样重要。优秀的员工知道自己的能力边界,数字员工也应如此。AI Agent 可以采用 “阈值升级” 协议:

  • 当多次尝试解决失败时升级
  • 当任务涉及关键安全或合规问题时升级
  • 当需要超出当前授权的操作时升级

这套机制使 AI 不再盲目尝试超出能力范围的任务,而是像经验丰富的团队成员一样,懂得适时寻求帮助。

透明的沟通记录对于组织学习至关重要。我们的系统自动记录所有问题解决过程,包括遇到的障碍、尝试的方法和最终解决方案。这些记录不仅用于审计和问责,更成为组织知识库的宝贵资产,帮助识别常见问题模式和改进机会。

主动沟通能力将 AI 从单纯的执行工具转变为真正的团队协作者,创造了全新的人机协作模式。

第 19 页: Agent 技术 4 – 检查点、自我反思与回溯

人类在解决复杂问题时,会不断反思自己的进展,必要时调整方向甚至重新开始。这种自我纠错能力是 AI 成为可靠数字员工的关键技术之一。

你有没有遇到过这样的情况:一个 AI 助手在帮你修改代码时,不小心删除了关键函数,或者在整理文件时错误地移除了重要文档?这些”数字灾难”凸显了 AI 系统缺乏环境安全意识的危险性。没有适当的检查点和回溯机制,AI 可能会对工作环境造成不可逆的损害。

我曾亲眼目睹一个 AI 系统在没有检查点和回溯机制的情况下造成严重后果:它在尝试优化一个代码库时,错误地判断某些模块为”冗余代码”并将其删除,导致整个系统崩溃。由于没有保存环境状态,团队不得不花费数天时间重建丢失的代码。如果 AI 在每次重大操作前创建环境检查点,这场灾难本可避免。

从系统安全角度看,这涉及到”环境状态管理”—对工作环境变化的监控和保护能力。

技术实现上,我们开发了三层检查点与回溯架构:

首先,环境检查点自动创建在 AI 执行任何可能改变环境的操作前自动触发。这些检查点不仅保存文件状态,还记录整个环境配置。检查点设置基于操作风险等级自动触发,例如:

  • 批量文件修改前
  • 数据库结构变更前
  • 系统配置调整前
  • 代码重构关键阶段前

其次,操作影响评估机制在每一步行动前启动风险分析流程。这是一个结构化的安全框架:

  1. 变更范围评估:此操作会影响哪些系统组件?
  2. 风险等级判定:操作可能导致的最坏结果是什么?
  3. 可逆性分析:如果出错,恢复难度有多大?
  4. 备选方案考虑:是否存在风险更低的替代方法?

技术上,这通常通过 “安全监督 Agent” 实现,它与主工作 Agent 并行运行,专门负责评估操作风险和监督环境变更。安全 Agent 有权暂停危险操作,要求确认,甚至强制创建额外检查点。

例如,在我们的代码自动化系统中,主 Agent 负责编写和修改代码,而安全监督 Agent 则评估每次变更的影响范围,确保在大规模删除或重构前创建完整的代码库快照,并验证变更后系统是否仍能正常编译和运行。

第三,环境回滚机制确保在操作失败时能快速恢复到安全状态。当系统检测到异常或错误时,它会自动触发回滚流程,将环境恢复到最近的稳定检查点。这种”安全网”让 AI 可以大胆尝试,同时将风险控制在可接受范围内。

例如,在 Web 后端开发中,在执行数据库表结构变更或者数据迁移前,需要先创建完整数据库备份。如果数据迁移后导致应用程序错误,系统可以一键回滚到变更前状态。

这种检查点、评估与回滚的工作模式使 AI 能够安全地操作复杂环境,不再是潜在的 “数字破坏者”,而是具备环境安全意识的可靠助手。

第 20 页: Agent 技术 5 – 长期记忆与记忆压缩

想象一个每天都忘记昨天所学的员工—无论多聪明,也难以胜任复杂工作。这正是传统 AI 面临的根本限制:每次对话都像从零开始,缺乏连续性和累积学习能力。

有个有趣的故事:我们曾经尝试让 AI 协助代码审查。最初几天效果很好,但随着项目推进,AI 开始提出已经解决过的问题,忘记之前讨论的设计决策,甚至重复同样的建议。一位工程师无奈地评论:”这就像和一个有严重记忆障碍的天才合作—每天都要从头解释一遍。”

长期记忆与记忆压缩技术正是解决这一痛点的关键。从技术角度看,这涉及到三个核心挑战:

首先,记忆持久化需要构建复杂的外部存储系统。这不仅仅是简单地保存对话历史,而是创建多层次记忆架构:

  1. 短期工作记忆:当前任务的即时上下文(通常在 LLM 上下文窗口内)。
  2. 中期情景记忆:最近一段时间的重要信息(压缩存储的总结)。
  3. 长期语义记忆:持久的知识、规则和经验(结构化存储并按需检索)。

这种分层架构受到人类记忆系统的启发,我们的大脑也有类似的工作记忆、情景记忆和语义记忆结构。

第二,记忆压缩技术是实现长期记忆的关键。人脑不会记住每一个细节,而是提取核心概念和关键经验。同样,AI 需要将详细交互记录压缩为核心见解。

我们实现的记忆压缩管道包括:

  1. 关键信息提取:识别需要长期保留的关键事实,例如姓名、住址、职业、兴趣爱好等基本信息。
  2. 渐进式总结:将长对话压缩为摘要,保留关键点。
  3. 知识蒸馏:从具体案例中提取一般性原则和模式。
  4. 冗余消除:识别和合并重复或高度相似的信息,解决不同时间或不同来源信息中的冲突。

这种压缩不仅节省了存储空间,更重要的是提高了记忆检索的效率和准确性。系统能在毫秒级时间内找到最相关的历史信息,而不是在海量原始对话中苦苦搜寻。

最后,智能记忆提取至关重要。想象你的大脑如何自动联想相关经验—当有人提到”巴黎”时,你不会回忆起关于巴黎的所有信息,而是根据当前讨论上下文(旅游、美食或艺术)提取最相关的记忆。我们将在下一页讨论知识库搜索。

第 21 页: Agent 技术 6 – 高精度内部知识库搜索

企业内部知识的有效获取是 AI 成为数字员工的关键能力之一。然而,传统的知识检索方法往往无法满足 AI 的需求。

有个我特别喜欢的真实故事:一家大型保险公司试图让 AI 回答关于其复杂保单的问题。他们投入数百万美元构建了一个庞大的向量数据库,包含所有保单文档和内部规章。结果如何?令人失望。当问到具体问题时,AI 要么找不到答案,要么返回不相关信息,要么混合多个保单条款给出错误答案。最讽刺的是,实习生通过简单的 Ctrl+F 搜索往往能更快找到正确答案。

这个故事揭示了一个核心问题:RAG (检索增强生成) 不等于简单的向量数据库。向量搜索虽然强大,但仅依赖向量相似度匹配往往会出现 “似是而非” 的结果—找到了语义相似的内容,却不一定是真正相关的答案。

不信的话,可以试试单纯用向量数据库做一个站内搜索,然后再在 Google 里面用 “关键词 site:example.com” 搜索一下,看谁的查询结果更准确。

搜索结果不准确这个问题对 AI 影响尤为严重,因为与拥有丰富经验可以弥补信息缺口的人类不同,AI 严重依赖准确的信息检索。

为解决这一挑战,我们需要结合语义搜索与关键词搜索的优势,创建 “混合检索系统”。搜索引擎通常采用 “向量检索+关键词检索+重排序” 架构:

  1. 向量搜索:基于语义相似度,捕捉概念级匹配。
  2. 关键词搜索:使用 BM25 或类似算法,确保关键术语精确匹配。
  3. 重排序:利用重排序模型,评估上述多路检索结果与用户所提问题的相关性,找到最相关的几条结果。

其实这是搜索引擎早已广泛采用的技术,但很多做 RAG 的人没有传统搜索领域的经验,因此搜索精确度比专业搜索引擎低很多。

不过面向人的通用搜索引擎和面向 AI 的知识库搜索还是有所不同的。通用搜索引擎搜索的对象是网页,而 AI 模型上下文有限,因此需要把长文档切分成小块。

在构建向量索引时,文档切分策略至关重要。过大的块会包含过多信息导致相关性稀释,过小的块会丢失上下文。比较好的方法是语义感知切分,它不是简单按字数分割,而是识别自然语义边界,确保每个文档块包含完整且连贯的信息单元。

更关键的是重排序技术的应用。初步检索返回的候选结果通常包含大量噪音,需要更精细的相关性判断。这包括使用 BGE-M3 等支持候选集重排序的模型,以及考虑文本新鲜度、来源权威性等多维度因素进行多因子评分。

通过收集 Agent 和真人用户的反馈,重排序模型还可以持续学习和优化搜索表现。搜索质量反馈信号包括:

  1. 显式反馈:用户直接标记结果相关性
  2. 隐式反馈:监控哪些结果被采纳或忽略
  3. 错误分析:定期审查失败案例并识别模式
  4. A/B 测试:同时测试多种检索策略并比较效果

高精度内部知识库搜索不仅提高了 AI 的工作效率,也是其决策质量的基础。只有当 AI 能够准确获取企业知识,它才能做出符合企业政策和实践的判断,真正成为可靠的数字员工。

AI 数字员工的实战案例

第 22 页:案例 1: AI 程序员 – 从 IDE 辅助到自主开发

AI 在编程领域的进展堪称革命性。仅仅两年前,我们还在惊叹于 GitHub Copilot 能够根据注释生成一个简单函数;而今天,我们正目睹全自主开发的 AI 系统编写完整的应用程序。

从技术角度看,AI 编程工具自 2023 年起经历了几次飞跃:

  1. 从补全到生成:从预测下一行代码(Tab 补全)扩展到生成完整函数、类甚至整个模块。基本上是从去年年中发布的 Claude 3.5 Sonnet 开始实现的。以 Cursor 等为代表的新一代 AI 编程工具变得越来越火爆。
  2. 从修改孤立文件到系统理解代码仓库:能够理解整个代码库的结构、依赖和设计模式,根据需求找到合适的代码进行修改,无需用户找到哪个文件需要修改。基本上是从去年 10 月 22 日发布的 Claude 3.6 Sonnet 开始实现的,催生了 WindSurf 等 Agent 模式的 AI 编程工具,Cursor 也推出了 Composer Agent 模式,成为 AI Agent 迄今为止最重要的应用场景。
  3. 从纯代码生成到完成开发测试全流程:涵盖设计、文档、编码和测试,独立完成简单需求的整个开发测试流程。基本上是从 Claude 3.7 Sonnet 开始实现的。Claude Code/Devin/OpenHands 等专业开发 Agent 展示了惊人的自主能力。

但值得注意的是,全自动开发的前提条件不仅仅是先进模型,还包括良好的软件工程实践:

首先,代码必须有良好的文档记录与注释。在我的实验中,给 AI 提供了有 README 等文档的完整 vllm 开源项目代码 vs 去掉了 README 等文档的 vllm 代码,结果差异惊人。

其次,完整的测试覆盖和 CI/CD 流程至关重要。 AI 无法像人类一样通过直觉或经验判断代码是否正确,它需要客观的验证机制。

第三,清晰的需求描述和验收标准不可或缺。在一个真实项目的对比实验中,我们发现:当提供结构化需求文档时,AI 完成任务所需的交互轮数减少了很多,代码质量提高了很多。正如一位工程师评论的:”AI 就像一个超级聪明但缺乏领域知识的初级开发者—给它明确的方向,它会超速前进;给它模糊的指令,它会超速迷路。”

在这些条件具备的情况下,AI 程序员能够显著提升开发效率。根据我们使用 Claude Code 的实际数据,约 50% 的简单开发需求可以完全自动化完成,无需人类干预。

剩余的 50% 开发需求,借助 Cursor 等 AI IDE,效率也能提升一倍。这包括复杂业务逻辑、代码重构、性能优化、安全设计等需要更多人类判断的任务。

因此,综合来看,AI 可以把程序员的开发效率提升到 4 倍,如果不考虑开会、沟通等时间,只考虑个人编码时间,一个人的生产力相当于之前的 4 个人了。

第 23 页:案例 1: AI 程序员 – 软件工程师的未来角色

随着 AI 程序员能力的提升,一个迫切的问题浮现:软件工程师会被 AI 取代吗?答案是否定的,但他们的角色将发生深刻转变。就像发明计算器没有消灭数学家,而是让他们专注于更高级的数学问题一样。

我朋友李明是一位拥有 15 年经验的资深工程师,去年他开始与 AI 密切协作。六个月后,他的工作方式彻底改变了。”以前我 80%的时间写代码, 20%的时间设计和规划;现在这个比例完全颠倒了—我专注于架构设计、需求分析和代码审查,而将大部分编码工作交给 AI。最令人惊讶的是,我的产出增加了 3 倍,但工作压力却减少了。”

这个转变代表了软件工程师角色的未来方向:从单纯的代码编写者转变为架构师、产品经理和项目经理的复合角色。

作为架构师,人类工程师将专注于系统架构设计与问题分解。这些高层次的设计决策需要对业务领域的深刻理解、技术选择的长期视野和系统思维能力,这是当前 AI 难以掌握的。我喜欢用这个比喻: AI 可以成为出色的砖石匠,但设计整座大厦的蓝图仍需要人类建筑师。

作为产品经理,需求定义与验证能力将变得更加关键。当代码实现可以大部分交给 AI 时,明确”要构建什么”比”如何构建”更为重要。软件工程师需要更深入地理解用户需求,更精确地定义功能规格,更严格地验证最终产品是否满足业务目标。

我观察到一个有趣现象:那些曾经抱怨 “产品经理不懂技术” 的程序员,现在自己成了初级产品经理,学习用户研究和需求分析技能。正如一位工程师半开玩笑地说:”我曾嘲笑产品经理的模糊需求,现在我发现精确定义需求比写代码难多了!”

作为项目经理,每个工程师都将管理几个 AI”下属”,协调和沟通技能成为核心竞争力。这包括将复杂任务分解为 AI 可以理解的子任务,审查 AI 的工作成果,以及在必要时提供指导和纠正。

这一转变对独立开发者尤其有利。以往,一个人难以完成一个完整产品的开发,但现在,一个全栈工程师配合 AI 可以完成一个小团队的工作量。我认识一位独立开发者,在过去六个月里,他仅靠自己和几个专门训练的 AI 助手,开发了三个完整的 SaaS 产品并成功推向市场—这在以前几乎是不可能的。

正如 Sam Altman 所预测的,”一个人 10 亿美金的公司” 可能成为现实,因为技术门槛的大幅降低让创业者能够更快速地验证和实现创新想法。这将创造一个前所未有的个人创业者黄金时代。

从更广阔的视角看,企业数字化转型的成本将大幅降低。一家中小型物流企业因为定制软件的高成本(约 50 万美元)而放弃了数字化计划。使用 AI 辅助开发后,相似规模的项目仅需 10 万美元预算,使得数字化转型变得可行。随着越来越多中小企业能够负担得起定制化软件,整个产业的数字化进程将大大加速。

散落在各处的纸质文档和 Excel 表格也可以低成本实现数字化和结构化。例如从大量的纸质文档、私聊记录、会议录音中提取结构化知识。

软件工程的未来不是人类被 AI 取代,而是人类与 AI 形成互补,共同创造更高效、更创新的软件开发范式。AI 不会消灭软件工程师,但不会使用 AI 的软件工程师可能会被那些善用 AI 的工程师取代。

第 24 页:案例 2: AI 运营 – 自动化数据采集

数据是现代企业的生命线,而数据采集往往耗费大量人力资源。在 AI 应用的众多领域中,数据采集自动化是投入产出比最高的案例之一。

传统爬虫开发面临一个明显痛点:每个网站的结构都不同,需要为每个目标网站定制开发解析规则。我曾见过一个 “爬虫墓地” — 一个包含数百个已失效爬虫脚本的代码仓库,因为目标网站的小改动就会导致爬虫失效。维护这些爬虫的成本高昂,有时甚至超过了数据本身的价值。

LLM (大语言模型) 和 VLM (视觉语言模型) 带来了革命性变化。这些 AI 模型可以像人类一样 “理解” 网页内容,识别关键信息,即使面对全新的网页布局也能有效工作。

从成本效益角度看,优势更为明显。每次 LLM/VLM 调用的成本约为 $0.001,远低于人工采集数据的成本。对于一个典型的电商产品页面,AI 提取关键数据的成本约为 0.5-2 美分,而人工提取的成本在 10-50 美分之间—这是 10-25 倍的效率差异!

一个特别有趣的案例是我们为一家金融分析公司开发的系统。他们需要从数千家上市公司的财报中提取特定财务指标。传统方法需要财务分析师阅读 PDF 报告并手动提取数据,每份报告耗时 20-30 分钟。我们构建的 AI 系统不仅能从标准格式的财报中提取数据,还能处理非标准布局、图表中的数据,甚至能识别文本描述中隐含的财务信息。系统准确率达到 92%,将数据提取时间从每份报告半小时缩短到了 30 秒。

对于需要大批量采集的场景,我们采用 “教师-学生” 架构:AI “教师” 首先分析少量网页,生成结构化的数据提取规则;然后,这些规则被转化为传统爬虫代码,由更高效的 “学生” 执行。这种方法结合了 AI 的智能和传统爬虫的效率,适合大规模数据采集。

第 25 页:案例 2: AI 运营 – 自动运营社交媒体账号

社交媒体已成为品牌建设和用户互动的关键渠道,但有效运营社交媒体账号是一项耗时耗力的工作。想象一下,管理一个企业的 Twitter、 LinkedIn、 Instagram 和 TikTok 账号需要什么:了解每个平台的特性,创作针对性内容,选择最佳发布时间,回复用户评论,分析数据…这通常需要一个专业团队。

但 AI 正在彻底改变这一领域。在账号管理与内容发布方面, AI Agent 展现出惊人的效率。这种效率来自几个核心能力:

首先是内容创作的规模化。传统团队每天能为一个平台创作 1-2 条优质内容,而 AI 系统可以轻松生成几十条针对不同平台优化的内容。例如,基于一篇新产品发布文章,AI 可以自动生成:

  • Twitter 上简洁有力的产品亮点
  • LinkedIn 上深度解析产品价值的长文
  • Instagram 上视觉吸引力强的功能展示文案
  • Reddit 上针对特定技术社区的详细讨论贴

其次是智能发布管理。AI 不仅生成内容,还能基于大量数据分析确定最佳发布时间和频率。AI 据此自动调整发布计划,将内容类型与最佳时间精确匹配,显著提升了内容表现。一位市场总监评论道:”这就像拥有了一个既懂内容创作又精通数据分析的超级助理。”

用户互动与社区运营方面,AI 的价值同样显著。传统上,回复评论是社媒运营最耗时的部分,也最容易被忽视。AI 不仅能自动回复常见问题,还能智能区分需要人类专业处理的查询。这种机制使团队能够在处理数百条评论的同时,确保每条重要反馈都得到适当关注。系统甚至能识别情绪激动的客户,调整回复语气和解决方案。

更高级的应用是 AI 主动参与社区热门话题讨论。例如,当行业出现重大新闻或热门讨论时,AI 会自动识别这些趋势,生成相关观点,适时参与对话,提高品牌在关键时刻的曝光度。

它展示了 AI 如何在运营领域发挥作用 — 不是替代人类创意,而是放大和扩展它,让品牌能够在日益复杂的社交媒体环境中建立一致、专业且富有共鸣的形象。

第 26 页:总结 – 迎接 AI 员工时代,构建 AI 原生团队

今天我们深入探讨了 AI Agent 的新范式:从被动工具到数字员工的转变。当我们回顾整个演讲,核心信息非常清晰—AI 不再只是我们使用的工具,而是即将成为我们的团队成员。

想象一下,十年前我们如何看待智能手机。当时,它们被视为 “高级手机” — 一个通讯工具,只是增加了一些新功能。而今天,智能手机已经彻底改变了我们的生活和工作方式。AI 正经历类似的转变 — 从 “高级计算工具” 到 “数字同事” 的转变。

构建 AI 原生团队需要从沟通文化和技术基础两方面入手。在沟通文化方面,我们需要建立类似开源社区的透明交流习惯。记得我第一次参与 Linux 内核开发时的震撼 — 所有讨论都在邮件列表中公开进行,每个决策都有明确记录,新成员可以阅读历史线程理解设计理由。这种文化使得全球开发者能够高效协作,也使得 AI 能够快速理解项目背景和决策逻辑。

在技术基础方面,内部工具接口的 AI 友好化和隔离的沙盒测试环境是必不可少的基础设施。

让 AI 成为数字员工而非简单工具,关键在于六大核心技术:

  • 多模态人机交互使沟通更自然高效
  • “搞清楚需求再做事” 确保工作方向正确
  • 遇到问题主动沟通增强了协作能力
  • 自我反思与回溯机制提升了复杂问题解决能力
  • 长期记忆使 AI 能够积累经验
  • 高精度知识库搜索确保决策基于准确信息

在这个新范式下,人与 AI 将形成优势互补的协作关系。有人担心 AI 会取代人类工作,但我看到的是不同的景象 — AI 正在改变工作性质,而不是消灭工作。

以开发团队为例,AI 程序员处理代码实现和常规维护,而人类工程师专注于架构设计、创新思考和团队协调。这不是零和游戏,而是协同进化。

AI 作为助理,可以处理我们工作中的大量杂事。这样人类将专注于创造性、战略性和情感性工作,主要时间用于思考和讨论,而非处理繁琐细节。这不是贬低细节工作的重要性,而是认识到人类在创造性思维方面的独特优势。

这不是未来远景,而是已经开始发生的变革。从用 Claude Code + Cursor 提升程序员开发效率到 4 倍,到管理数十个社交媒体账号的 AI 系统,我们已经看到实际案例证明了这种新工作模式的可行性和巨大价值。

变革最初总是被视为不可能,然后被视为不切实际,接着被视为有趣但不必要,最后突然成为不可避免。我相信,AI 员工时代已经从 “有趣但不必要” 阶段进入了 “不可避免” 阶段。

第 27 页:元演示 – 本演讲的创作过程

各位,在结束今天的分享前,我想揭示一个有趣的事实:您刚才听到的这场演讲本身,就是我与 AI 数字助理协作创作的成果!

这篇演讲内容是我与 AI 数字助理头脑风暴 2 小时后生成的初稿,随后我又使用 Cursor 与 AI 协作编辑 3 小时完成精修,最后将 Markdown 格式的内容导出成 PPT 格式,还自动生成了这篇 2.5 万字的演讲稿。我用 5 小时时间,完成了之前需要二三十个小时才能完成的工作。

这个创作过程将我从繁琐的写作细节中解放出来,让我能够专注于思考演讲的核心价值和创新观点。与 AI 协作创作就像有了一个永不疲倦的思想伙伴,它不仅能捕捉你的想法,还能帮你发现新的可能性。

这正是我们今天所讨论的 AI 原生团队的缩影 — 人类专注创意和判断,AI 处理执行和优化,双方优势互补,共同创造超越各自能力的成果。

感谢大家的聆听!期待与各位一起探索 AI 与人类协作的美好未来。

Comments

2025-04-01
  1. 封面页
  • 为什么目前的 AI 无法成为靠谱的数字员工
    1. 第 2 页:当前现状 – AI Agent 应用效率未达预期
    2. 第 3 页:AI 拥有成为高效 “员工” 的智力基础
    3. 第 4 页:为什么又聪明又快的 AI 无法成为靠谱的数字员工
    4. 第 5 页:问题 1 – 知识未文档化,仅在员工脑中
    5. 第 6 页:问题 2 – 内部工具仅 GUI 界面, AI 难以操作
    6. 第 7 页:问题 3 – 缺少 AI 可独立工作的测试环境
    7. 第 8 页:问题 4 – AI 无法像人一样长时间工作、主动沟通
  • 组建 AI 原生团队的关键举措
    1. 第 9 页:如何让 AI Agent 像一个数字员工一样, 24x7 产出有效工作?
    2. 第 10 页:构建 AI 原生团队 – 让 AI 成为”数字员工”
    3. 第 11 页:关键举措 1 – 类似开源社区的沟通文化
    4. 第 12 页:关键举措 2 – 团队协作工具接口对 AI 友好
    5. 第 13 页:关键举措 3 – 完善的测试环境与测试用例
    6. 第 14 页:关键举措 4 – 为每位员工配置 AI 助理
  • 构建像数字员工的 AI Agent
    1. 第 15 页:构建像数字员工的 AI Agent – 技术方案
    2. 第 16 页: Agent 技术 1 – 更自然的多模态人机交互
    3. 第 17 页: Agent 技术 2 – 搞清楚需求再做事
    4. 第 18 页: Agent 技术 3 – 遇到问题主动沟通
    5. 第 19 页: Agent 技术 4 – 检查点、自我反思与回溯
    6. 第 20 页: Agent 技术 5 – 长期记忆与记忆压缩
    7. 第 21 页: Agent 技术 6 – 高精度内部知识库搜索
  • AI 数字员工的实战案例
    1. 第 22 页:案例 1: AI 程序员 – 从 IDE 辅助到自主开发
    2. 第 23 页:案例 1: AI 程序员 – 软件工程师的未来角色
    3. 第 24 页:案例 2: AI 运营 – 自动化数据采集
    4. 第 25 页:案例 2: AI 运营 – 自动运营社交媒体账号
    5. 第 26 页:总结 – 迎接 AI 员工时代,构建 AI 原生团队
    6. 第 27 页:元演示 – 本演讲的创作过程