相关文章: 《从 Moltbook 看 AI Agent 的权限、协作与雇佣》

【本调研报告及 Slides 由 Clawdbot + Claude Opus 4.5 模型辅助生成】

《主权智能体:Clawdbot/OpenClaw 深度调研》Slides

2026年初,开源人工智能领域经历了一场范式转移。Clawdbot(因商标原因先更名为 Moltbot,后再更名为 OpenClaw)的横空出世,标志着大语言模型(LLM)应用从”基于云端的对话者”向”基于本地的主权智能体(Sovereign Agent)”的决定性跨越。

本报告旨在对 Clawdbot/OpenClaw 现象进行详尽的学术与技术分析。我们将首先追溯其技术谱系,从通用智能体的闭源困境,到 Anthropic 的底层 Computer Use 能力,再到企业级 Claude Cowork 的局限性,阐述 Clawdbot 如何填补了”个人计算控制权”的空白。其次,报告将深度剖析其爆发式增长背后的社会学与经济学动因,包括 GitHub 星数的指数级增长、插件生态的快速裂变以及由其带动的 Mac Mini 硬件销量激增现象。在核心技术章节,我们将对其四层架构——多协议网关、基于 Coding Agent 的核心引擎、基于 Markdown 的长期记忆系统、本地执行环境及安全沙箱——进行微观层面的拆解。我们还将深入分析其会话路由、多Agent并行、MCP工具组等关键机制。同时,本报告将详细讨论主权智能体面临的安全风险与缓解措施。最后,本报告将为技术决策者和工程师提供一份从零构建类似主权智能体的实战蓝图,并展望个人计算回归与大模型作为新操作系统的未来愿景。


第一部分:智能体的创世纪与技术演进

要理解 Clawdbot 的历史地位,必须将其置于人工智能从”被动问答”向”主动执行”演进的宏大背景中。Clawdbot 并非凭空诞生,它是大模型推理能力商品化、工具调用协议标准化以及本地优先(Local-First)软件架构复兴这三股技术潮流汇聚的产物。

1.1 通用智能体的闭源困境

在 Clawdbot 出现之前,通用智能体(General-Purpose Agent)的概念并不新鲜——它们能够在虚拟世界中完成几乎任何任务,相当于一个全能的数字化身。然而,此前做得好的通用智能体几乎都是闭源的。

Manus 的崛起与收购: 最典型的例子是 Manus。这款 AI Agent 于2025年3月爆火,展示了自主完成复杂任务(如预订机票、分析股票、撰写报告)的能力,迅速达到了1亿美元的年化收入。然而,2025年12月30日,Meta 以超过 20亿美元 的价格收购了 Manus,使其正式成为一款闭源的商业产品。Manus 的核心技术不会开源,其能力被锁定在 Meta 的生态体系之内。

Claude 系列的封闭生态: Anthropic 的 Claude 也拥有出色的工具,如 Claude Code(AI编程助手)和 Claude Cowork(AI桌面助手)。这些产品功能强大——例如 Claude Cowork 可以帮助用户整理桌面文件、起草文档、进行调研,甚至可以用来制作完整的演示文稿(PPT)。但它们同样是闭源的,且出于安全考虑做了大量限制,不允许无限制地操作用户的计算环境。

隐私的根本问题: 无论是 Manus、Claude 还是其他通用 Agent,它们所有的计算和数据处理都在云端完成。这引发了一个核心问题:用户的敏感数据——本地文件、个人信息、工作文档——是否应该全部交给云端大厂处理?对于注重隐私的用户来说,这始终是一个无法回避的信任问题。

1.2 技术谱系:站在巨人的肩膀上

Clawdbot 的核心能力植根于底层基础模型的突破,特别是模型对计算机界面的理解与操作能力的质变。这一演进路径清晰地呈现为从 API 能力(Computer Use)到封闭产品(Claude Cowork),再到开放生态(Clawdbot/OpenClaw)的三个阶段。

1.2.1 起点:Anthropic 的 Computer Use 范式

一切始于 Anthropic 于2024年10月发布的 Computer Use 功能。这代表了 AI 交互模式的根本性转变。然而,Computer Use 这项技术本身并不新鲜——类似的技术在多年前就已存在,比如大家熟知的”按键精灵”(自动化脚本工具)。其革命性在于:它训练大模型(Claude 3.5 Sonnet)直接理解像素级的屏幕信息,并像人类一样操作鼠标和键盘,使得 AI 能够跨越 API 的限制,操作任何为人类设计的软件界面。

技术局限性: Anthropic 提供的原始实现主要依赖于”截图-分析-点击-截图”的循环。这种基于视觉的反馈回路在高延迟网络环境下显得笨重且脆弱,为后续更底层的 DOM 级操作(如 Playwright)留下了优化空间。

1.2.2 中继:Claude Cowork 的企业级尝试

在 Computer Use 之后,Anthropic 于2025年初推出了最新版的 Claude 桌面应用,内置了三个核心功能:Chat(聊天)、Cowork(协作)和 Code(编程)。

  • Chat 是纯粹的对话功能。
  • Cowork 是本地协作功能——它可以帮助用户在本地环境中整理桌面文件(将不同类型的文档自动分类归档)、进行调研写报告等。
  • Code 则是面向开发者的 AI 编程助手。

产品局限性:

  • 围墙花园(Walled Garden): Cowork 的设计初衷是安全与合规。它对访问用户本地文件非常保守,只允许授权的特定目录,外面的东西看不到也访问不了。这是刻意为之——不是模型做不到,而是怕把用户的文件搞乱、搞删掉。

  • 高昂成本: Cowork 需要订阅付费。虽然 $20/月 的计划也能用,但几次操作就用完配额了;真正想正经使用需要 $100/月 的套餐。$100/月 的套餐大约能使用相当于 $300-400 的 Token 量,所以对于高使用量用户确实更划算——但对于轻度用户来说,成本依然不低。

  • 隐私悖论: 尽管强调安全,Cowork 的本质依然是将用户的操作指令和数据流向云端进行决策。

正是 Claude Cowork 的”强大但受限”特性,创造了一个巨大的市场真空:用户渴望 Computer Use 的能力,但拒绝被束缚在云端沙箱中。

1.2.3 爆发:Clawdbot 的开源综合体

Clawdbot 应运而生,填补了这个空白。它的核心哲学被总结为 “开源主权智能体”——用户拥有数据、算力和控制权的自主权(Sovereignty)

更关键的是,Clawdbot 是第一个将 Deep Research、Computer Use 和 Coding 三大 Agent 能力融为一体的开源项目。在此之前,能够做到这种”三合一”的通用 Agent(如 Manus)全部都是闭源的。Clawdbot 的出现,意味着开源社区第一次拥有了一个可以与闭源商业产品比肩的通用 Agent 平台——这也是它能够引发如此大规模社区爆发的深层技术原因。

值得注意的是,Clawdbot 确实是”站在巨人的肩膀上”才能做到这些。虽然 Claude Code 是闭源的,但社区中有大量人对其进行了逆向工程,公开了许多逆向报告,揭示了其内部的设计原理。Anthropic 见状也不再藏着掖着,干脆将这些知识作为 Agent SDKSkills 教程发布出来,成为了社区共享的知识。Clawdbot 正是基于这些已经开放出来的技术,才得以快速构建。

1.3 创始人因素:Peter Steinberger 的”第二人生”

Clawdbot 的成功离不开其创造者 Peter Steinberger 的传奇经历和个人影响力。

从创业到财务自由: Steinberger 并非因为 Clawdbot 才一夜成名。他之前创办了 PSPDFKit(后更名为 Nutrient.io),一家专注于 PDF 处理技术的 B2B 软件公司。2021年,PSPDFKit 获得了来自 Insight Partners 的 1亿欧元战略投资,Steinberger 随后从公司的日常运营中退出,实现了财务自由。

AI时代的回归: 退休之后,随着 AI 时代的到来,Steinberger 开始思考自己应该做些什么。大约在2025年11月,他萌生了做一个”个人生活助手”的想法,并利用 AI 辅助编程(vibe coding),仅用一个小时就完成了第一个原型(prototype)。2025年12月,他将其作为一个开源项目正式发布。

惊人的开发效率: 作为一个人的项目,Steinberger 展现了惊人的开发速度。他大量使用多个 AI Agent 并行编程——他自称为 “Polyagentmorous”(将 Polyamorous 和 Agent 合成一词,出自其 Twitter headline),意思是一个人同时带着多个 Agent 协同干活。据统计:

  • 他平均每天生产约 4-5万行代码
  • 每天消耗约 18亿(1.8 Billion)Token——作为对比,一般重度 AI 用户全年的消耗量大约也就 90亿 Token 左右
  • 曾在一天内提交了 1,374 次 Git Commit
  • 在短短两个月内,项目的代码量已接近百万行级别

这种”AI 构建 AI”的元叙事极大地吸引了开发者社区。由于创始人已经财务自由,Clawdbot 是一个纯粹出于技术热情的项目,不以盈利为目的——这也是社区信任的基础之一。

1.4 品牌更迭与风波:Clawdbot → Moltbot → OpenClaw

Clawdbot 的命名历程本身就充满戏剧性:

  1. Clawdbot 时期: 项目最初以 Clawdbot 命名发布。由于 “Clawd” 与 Anthropic 的 “Claude” 发音完全一致,Anthropic 发出了商标侵权的停止函(cease-and-desist)。

  2. Moltbot 时期(2026年1月27日): 被迫更名为 Moltbot。然而在同时更改 GitHub 和 Twitter (X) 账户名的过程中,旧的账户名被加密货币诈骗者在几秒内抢注。骗子利用被劫持的账号推广了一个名为 $CLAWD 的 Solana 假代币,该代币市值一度飙升至 1600万美元,随后暴跌,大量后入场者蒙受损失。Steinberger 不得不紧急公开澄清:”我永远不会发行任何代币。任何声称我是代币项目方的都是骗局。”

  3. OpenClaw 时期(2026年1月30日): 项目最终更名为 OpenClaw,确立了长期的品牌身份。


第二部分:主权智能体的三大支柱与市场爆发

2.1 “主权智能体”的定义:三大自主权

为什么将 Clawdbot/OpenClaw 称为主权智能体?这是因为相比于闭源 Agent,它在三个维度上赋予了用户完整的自主权:

一、数据主权: 用户的数据是否只由自己拥有?使用云端 Agent,数据必然要流经他人的服务器。而 Clawdbot 的所有数据都可以保留在本地——不需要将个人电脑上的敏感数据交给任何第三方。对于许多极客和隐私敏感型用户而言,这是最核心的诉求。

二、算力主权: AI 的推理计算是在自己的设备上完成,还是必须依赖远端的云?Clawdbot 支持两种模式——你既可以通过 API 调用远端模型(如 Claude、GPT、DeepSeek),也可以用 Ollama 在本地运行开源模型(如 Llama)。选择后者意味着即使没有网络连接(比如在飞机上),Agent 也能正常工作。

这也是许多人为此购买 Mac MiniNVIDIA Jetson 等计算设备,甚至在家中组装搭载 RTX 4090 显卡的台式机的原因——他们希望拥有完全独立的本地算力。不过,如果只是体验的话,没有必要花两万块钱买硬件——用一台云电脑(几十块钱一个月),再接上一个按量付费的 API 就可以了。目前国内的模型厂商(如硅基流动、火山引擎等)对新注册用户都赠送大量免费 Token,足够做实验使用。

三、控制权主权: Agent 的行为完全由用户决定,不会在背后做超出授权范围的事情。但这里有一个重要的类比——这种控制权类似于 “Code is Law”(代码即法律) 的区块链逻辑:如果你的代码有 bug 导致漏洞,别人攻进来偷走了你的东西,那你只能自己承担——就像丢了比特币谁也帮不了你找回来一样。而把钱存在银行(类比使用大厂的云端 Agent),银行丢了钱政府可能帮你追回。这是责任与义务的让度——你把东西放在自己这里,就得有足够的技术能力保护好它。

2.2 爆发式增长的三大因素

Clawdbot 于2025年12月发布,到2026年1月25日正式上线后一天就爆火,迅速成为历史上增长最快的开源项目之一(不到一周即突破7万 Stars)。

指标 传统开源工具 Clawdbot/OpenClaw 差异倍数
首周 GitHub Star ~500 9,200+ ~18x
社区活跃度 (Discord) 逐步增长 即时爆发 (8.9k+) 爆发式
插件生态形成 数月 48小时 极速

其增长可归因于以下三个共振因素:

因素一:对”订阅制疲劳”的反叛

用户厌倦了每个 AI 应用都要几十美金一个月的订阅费。GPT 要钱,Claude 要钱,每个产品的功能又不完善——GPT 里面只有一种 AI 功能,Claude Cowork 也很保守。而 Clawdbot 作为一个 “自带 API Key(BYOK)” 的框架,用户只需为实际使用的 Token 付费,框架本身完全免费开源,没有中间商赚差价。

成本对比:如果你的月使用量超过 $100 的 Token,购买 Claude Cowork 的 $100/月 套餐可能更划算(因为它大约能使用 $300-400 等值的 Token);但如果使用量较少,使用 Clawdbot 按量付费则明显更经济。

因素二:”贾维斯(Jarvis)幻想”的落地

长期以来,科幻作品中的 AI 助手(如钢铁侠的贾维斯)都是全能且私有的。Clawdbot 第一次让这种体验变得触手可及——它不是网页里的聊天机器人,而是运行在你系统后台、能够操控整台电脑的数字管家。

当然,实际使用时需要保持清醒:类似去年3月 Manus 刚发布时,虽然也不太成熟,但它展示的是一种具有 Agency(自主性)的能力——Agent 有自己的”思想”,能够自主规划和完成任务。这种”可扩展的自主性”才是真正激动人心的地方。

因素三:开发者赋能与社区裂变

Clawdbot 的可扩展性极强。开发者可以为其编写插件(Skill/Connector),让 AI 控制家中智能设备、自动发送消息、整理本地文件等。这种即时的创造反馈回路极大地刺激了社区裂变。

举例来说:Clawdbot 的作者个人不可能有时间针对飞书、钉钉等众多不同 App 分别开发 Connector,但有了社区之后,社区成员可以各自贡献——有人写飞书插件,有人写钉钉插件,甚至有人做自动驾驶相关的集成。这就是社区裂变(Community-Driven Development)的力量,也是闭源产品无法复制的优势。

在项目发布后的 48小时 内,社区就自发贡献了海量插件,这种现象被称为”插件裂变”。典型示例包括:

  • 生活服务类: goplaces(Google Maps API 查询地点)、local-places(搜索附近的咖啡馆等本地商户)
  • 生产力类: native-app-performance(通过 Xcode 工具链分析 App 性能)、journal-to-post(自动将私密日记转化为公开的社交媒体草稿)
  • 系统控制类: 深度集成 Home Assistant,允许通过自然语言控制物联网设备(如灯光、空调等)

这种裂变实际上证明了 Clawdbot 正在成为一个**”自然语言操作系统接口”**——开发者不再为 GUI 编写交互逻辑,而是为 AI 编写 API 接口。

2.3 硬件销量的异常波动:Mac Mini 效应

Clawdbot 现象最显著的溢出效应是对硬件市场的影响。大量用户为运行 Clawdbot 而购买 Mac Mini(特别是 M4 芯片版本)。这背后有四个深层原因:

  1. iMessage 的引力井: Clawdbot 能接入 iMessage,这是其杀手级功能之一。由于苹果生态的封闭性,要通过编程方式收发 iMessage,必须拥有一台登录了 iCloud 的苹果设备。Mac Mini 是连接 AI 和 iMessage 的唯一物理桥梁

  2. 统一内存架构(UMA)的优势: 苹果 Silicon 芯片的统一内存架构使得 CPU、GPU 和神经网络引擎共享内存池,可以节省 API 成本——在本地运行量化后的大模型时,性能优于同价位的 PC。

  3. 闲置设备的再利用: 如果你已经买了这台设备,放在那里闲着也是闲着,不如用来跑 Agent——24小时低功耗待命,完美契合”家庭 AI 服务器”的角色。

  4. 低成本替代方案: 当然,不是每个人都需要买硬件。云电脑(如阿里云的无影云桌面19.9元/月的云服务器)同样可以部署 Clawdbot。前者提供 Windows 桌面环境(适合桌面版 Clawdbot),后者提供 Linux 命令行环境(适合服务器版 Clawdbot)。

2.4 中国生态的挑战:孤岛化 App 的困境

Clawdbot 目前主要支持海外生态(Google Drive、Gmail、WhatsApp、Telegram 等),因为海外生态相对分散且开放。但在中国市场,它面临着严峻的挑战:

豆包手机事件: 2025年12月,字节跳动推出搭载”豆包手机助手”的 Nubia 手机,试图通过 AI 自动化操作微信、淘宝、支付宝等应用。然而上线后不到两天,淘宝和微信先后封杀了该功能。微信的风控系统检测到异常操作模式,直接封禁了相关账号。字节跳动被迫宣布”不再支持操作微信”。

微信 DMCA 封杀: 更进一步,腾讯于2026年1月向 GitHub 发出 DMCA 通知,一次性要求下架了 30多个能够导出微信聊天记录的开源项目(如 wechat-dump、SharpWxDump、WeChatMsg 等),理由是这些工具对微信的加密技术进行了逆向工程。

生态壁垒的本质: 中国的互联网生态是巨头主导、中心化封闭的。2C 消费级应用(微信、淘宝、抖音等)既不开放 API,也不允许自动化操作。相比之下,2B 企业级应用(飞书、钉钉)是开放 API 的。因此,在中国使用 Clawdbot,更适合做不涉及外部封闭 App 对接的任务——比如整理本地文件、自动化开发工作流等。

2.5 模型接入与 OpenRouter

Clawdbot 的一大优势是不绑定特定模型。它支持接入几乎所有主流模型:

  • 海外模型: Claude、GPT、Gemini 等
  • 国内模型: 豆包(火山引擎)、DeepSeek、通义千问等——只要模型提供标准的 API Calling Format,都可以接入
  • 本地模型: 通过 Ollama 运行 Llama 等开源模型,支持完全离线使用

对于国内用户想体验海外模型但缺少海外支付方式的情况,推荐使用 OpenRouter——这是一个开放的模型路由器平台,目前在国内可以访问,且支持支付宝付款。用户在上面可以购买各种模型的 API(除个别受限模型如 GPT-5 外,几乎都能买到)。

不同模型的效果差异很大。 用一个 8B 参数的模型和一个 200B+ 参数的模型,效果天差地别。基础模型的能力直接决定了 Agent 能做什么——例如 Claude Skills(动态加载技能指令)这一功能,好的模型能正确读取并遵循动态注入的指令,而较差的开源模型可能只看开头的 System Prompt,完全忽略后面动态加载的 Skills 内容。这说明基础模型的能力对于上下文工程(Context Engineering)的效果至关重要。

2.6 竞品对比:Clawdbot vs. Claude Cowork

维度 Claude Cowork (Anthropic) Clawdbot/OpenClaw (开源)
核心定位 AI 员工(谨慎、受控) AI 管家(自由、开放)
设计哲学 中心化银行:安全有保障,但受限 去中心化区块链:自由但风险自担
部署模式 云端沙箱 / 受限本地进程 本地宿主机 / 私有服务器 / Docker
系统权限 仅限特定文件夹,极度收敛 默认用户级权限,完全开放
交互界面 桌面 App 专属标签页 任意 IM(WhatsApp, Telegram, iMessage 等)
记忆机制 项目级会话记忆 全局 Markdown 永久记忆(设计更优)
模型绑定 仅限 Claude 系列 多模型支持(Claude, GPT, DeepSeek, Ollama 等)
可扩展性 封闭生态,无法开发插件 开源社区,上百个 Connector
成本结构 $20-100+/月订阅 免费开源 + API按量付费
安全保障 大厂负责,用户省心 用户自负,需技术能力

第三部分:技术架构深度拆解

Clawdbot (OpenClaw) 的技术架构展示了如何将无状态的 LLM 转化为有状态、有行动力的智能体。

3.1 核心架构概览:四层结构

系统由四个主要层次组成:

  1. 网关层 (Gateway): 负责对接外部世界的输入与输出——聊天软件、语音渠道、网络搜索、各类数据源等。
  2. 核心层 (Agent Core): 负责 Agent 的认知推理与规划——这是整个系统的”大脑”。
  3. 记忆层 (Memory System): 负责长期状态存储——综合使用文件、LLM 总结的记忆和结构化数据。
  4. 执行层 (Execution Layer): 负责对世界的干预——操作浏览器、执行命令、操作文件系统等。

简单来说,Agent 本身就是一个核心引擎,连接了各种输入输出的”识别器”和”执行器”。

3.2 核心层:三大 Agent 类型的演进与融合

要理解 Clawdbot 为什么以 Coding Agent 为核心,需要先了解 Agent 领域最重要的三大类型及其各自的演进历程。

3.2.1 三大 Agent 类型

一个 Agent 的本质 = 模型(Model)+ 上下文(Context)+ 工具/动作空间(Action Space)。不同类型的 Agent,其动作空间不同,但模型和上下文工程的原理是相通的。当前最重要的三种 Agent 类型是:

一、Deep Research Agent(深度调研)

Deep Research Agent 的动作空间包括:Web 搜索、点击网页链接获取内容、下载并解析文件(PDF、Word 等)。其核心能力是自主规划搜索路径、综合多源信息并生成结构化的调研报告。

演进历程:

  • 2024年6月: 最早探索 AI 搜索的产品之一是 GenSpark(由百度前高管景鲲创立的公司 MainFunc 推出)。景鲲曾任百度小度科技 CEO,此前在微软中国参与开发小冰。GenSpark 以 AI 驱动的搜索引擎起步,获得了 $6000 万种子轮融资。
  • 2025年1月: GenSpark 正式发布 Deep Research 功能,采用 Mixture-of-Agents(MoA)架构,能在 20-30 分钟内完成复杂调研任务并生成结构化报告。
  • 2025年2月: OpenAI 发布 Deep Research。基于 o3 模型的专门优化版本,能够在互联网上进行多步搜索与综合分析,生成带引用的深度调研报告——效果远超前辈,引发市场轰动。
  • 2025-2026年: 大量创业公司和大厂跟进。GenSpark 在2025年12月以 $12.5亿估值完成 $2.75亿 B 轮融资。目前效果最好的 Deep Research 产品是 Gemini($20/月订阅),其生成的调研报告质量在市面上领先。

二、Computer Use Agent(电脑操控)

Computer Use Agent 的动作空间是操作 GUI(图形用户界面)——点击坐标、敲键盘、拖拽等。其学名为 GUI Agent。这类 Agent 之所以重要,是因为现代几乎所有软件都有图形界面,AI 要操作软件就必须学会像人一样操作 GUI。

历史上类似技术早已存在——按键精灵、游戏外挂本质上都是 Computer Use,但它们是写死的脚本,软件 UI 一改就失效。现代 Computer Use Agent 的革命性在于:它使用大模型理解屏幕,因此是通用的,能操作任何软件。 当然代价是成本极高——用 Claude 模型跑半小时 Computer Use 就要烧掉约 $10 的 Token。

演进历程:

  • 2024年10月: Anthropic 发布 Claude Computer Use,第一个在通用场景下真正可用的 Computer Use 产品。
  • 2025年1月: OpenAI 发布 Computer Use Agent,效果更进一步。
  • 2025年3月: Manus 将 Computer Use 作为主界面,并做了关键简化——采用 set-of-marks(画框标号)方式,将页面上所有可点击元素用框标出编号,大幅降低了纯视觉坐标定位的错误率。

三、Coding Agent(代码生成)

Coding Agent 的动作空间是读写文件、执行代码、运行终端命令。它之所以是三者中最核心的,原因在于:几乎所有高效的内容生成,最终都通过代码实现。

举例来说:生成 PPT 或 Word 文档时,优秀的 Agent 并不是像人一样一字字敲进去或一个个点鼠标,而是通过代码生成——PPTX 文件本质上是一个 ZIP 包,内部是微软定义的 OOXML 格式代码;Word 文档也类似。Claude Cowork 自带的文档生成 Skill,就是通过运行 JavaScript 代码来生成 Word 文档的。这种方式比 GUI 操作高效几个数量级。

这也是为什么 Cursor 至今仍是世界上最值钱的 AI 应用公司——因为它本质上就是一个 Coding Agent。而 Anthropic 的整个产品线——Claude Code → Claude Cowork → Claude Agent SDK——其核心技术也都来自 Coding Agent 的能力(上下文压缩、Sub-agent、异步调用等)。

演进历程:

  • 2023年: 只有能聊天的 LLM,连能写代码的 Agent 都没有。Cursor 以开源形式出现。
  • 2024年上半年: 开始出现能写代码的 Agent,但只能处理单文件。Cursor 闭源商业化。
  • 2024年8月: Claude 3.5 发布,用 AI 写代码第一次变得真正流畅。
  • 2024年11月: Claude 3.6 (Sonnet) 发布,多文件编辑开始可行,Agent 模式开始 work——但错误率仍然很高。
  • 2025年上半年: Agent 开始能独立完成小型项目
  • 2025年下半年至今: Agent 能独立完成相对大型的项目,复杂任务的错误率大幅降低。当前最好的编程模型(如 Claude Opus 4.5、GPT-5.2 等)处理千行以内的日常代码几乎不会出错。

3.2.2 三合一:从 Manus 到 Clawdbot

所有通用 Agent 的核心都是 Coding Agent。

这个概念的明确提出,最早可以追溯到2025年3月 Manus 的发布。在 Manus 之前,这三种 Agent 是各自独立发展的——Cursor 做 Coding,OpenAI 做 Deep Research,Anthropic 做 Computer Use。Manus 第一个将这三种能力合为一体,并提出了一个核心命题:Coding 和 File System(文件系统)是通用 Agent 最核心的技术基础。

然而 Manus 是闭源的(2025年12月被 Meta 以 $20亿收购)。此后,几乎所有通用 Agent 都沿着”三合一”路线前进,但它们也大多是闭源的。Clawdbot/OpenClaw 是第一个将 Deep Research + Computer Use + Coding 三大能力融合在一起的开源项目——这使得开源社区第一次能够研究、定制和部署一个完整的通用 Agent。

3.2.3 Clawdbot 的 Coding Agent 核心

Clawdbot 的核心引擎基于 pi-coding-agent 运行时(src/agents/pi-embedded-runner/),参考了 Claude Code 的设计(虽然 Claude Code 闭源,但社区逆向工程了其核心原理),实现了标准的 ReAct 循环(src/agents/pi-embedded-runner/run/attempt.ts)。其核心只需要七个基础工具

  1. Read(读文件)
  2. Write(写文件)
  3. Edit(编辑文件)
  4. Find(查找文件)
  5. Search(搜索文件内容)
  6. Python Interpreter(Python 解释器)
  7. Bash/Terminal(终端命令行)

只要具备这七个工具,Agent 就拥有了完成几乎任何编程和系统操作任务的基础能力。其他能力(如网页搜索、PPT解析等)都是在此基础上的锦上添花

技术栈继承关系: Clawdbot 的技术栈与 Claude 生态系统有深厚渊源:

层级 Claude 官方 ClawdBot 实现
底层模型 Claude API 支持 Claude/GPT/Gemini 等多模型
Computer Use anthropic-beta: computer-use browser-tool + screenshot 系统
Agent 框架 Claude Agent SDK pi-coding-agent 运行时
沙箱隔离 Cowork VM 沙箱 Docker 容器 + 多层策略
消息接口 Claude.ai Web/API WebSocket Gateway + 多渠道

3.3 网关层:多平台消息接入与会话路由

3.3.1 多平台消息接入

Clawdbot 支持大量聊天渠道和语音渠道的接入,包括原生支持的(如 iMessage、WhatsApp、Telegram、Discord 等)和社区贡献的插件。

多路复用机制: 网关同时维持着多个 WebSocket 连接(如 Discord Gateway、Slack RTM)和 Webhook 监听端口(Telegram、WhatsApp)。

消息归一化(Normalization): 无论消息来自哪个平台,网关都会将其转化为标准的内部 JSON 对象:

1
2
3
4
5
6
{
"sender_id": "user_123",
"platform": "telegram",
"content": "帮我查一下明天的天气",
"timestamp": 1769823422
}

这种设计使得核心逻辑层完全解耦于通讯平台——AI 不需要知道它是在 WhatsApp 还是 Telegram 上对话,它只关注消息内容本身。

iMessage 接入的特殊实现: 对于本地部署的 iMessage 集成,网关通常利用宿主机的 osascript(AppleScript)或私有框架来读取 chat.db 数据库并注入回复,绕过了苹果没有开放 API 的限制。这也是为什么 Mac Mini 是 iMessage 接入的唯一物理桥梁。

3.3.2 Channel Plugin(渠道插件)

系统支持多渠道插件接入机制,允许社区不断添加新的消息渠道。这也是其社区裂变如此迅速的原因——每个人都可以为自己常用的平台贡献 Connector。

3.3.3 会话路由机制(Session Routing)

这是 Clawdbot 相比 Claude Cowork 更加精妙的设计之一。会话路由的核心功能:

  • Session Key 格式: agent:{agentId}:{channel}[:{accountId}][:{peerKind}:{peerId}][:{threadId}]
  • 路由优先级(src/routing/resolve-route.ts): 精确匹配 peer > 匹配 guild/team > 匹配 account > 匹配 channel > 默认 agent
  • 跨平台身份链接: 同一个用户在 iMessage、Telegram、WhatsApp 等不同平台上拥有不同的身份标识。通过会话路由,这些不同身份可以被关联到同一个人
  • 跨会话合并(Cross-Conversation Merging): 你在 App A 上问的问题,Agent 可以在 App B 上给出回应——实现了真正的跨平台、跨对话的上下文连续性

3.4 工具策略与 MCP 概念

3.4.1 工具权限控制系统

Clawdbot 实现了多层工具策略来管理权限(src/agents/pi-tools.policy.ts),遵循最小权限原则——防止权限泄露到不同的子 Agent(Sub-agent)。策略按以下优先级级联:

  1. Profile 策略(如 full/coding/minimal 预设)
  2. Provider 特定策略(不同 LLM 提供商可能有不同限制)
  3. 全局白名单/黑名单
  4. Agent 特定策略
  5. Group/Channel 策略
  6. Sandbox 约束
  7. Subagent 限制

3.4.2 预定义工具组(Tool Groups)

系统中的工具被组织成预定义的工具组——每一组工具包含一系列相关工具及其使用场景描述。这个概念类似于 MCP(Model Context Protocol)

  • 一个 MCP Server 本质上就是一组工具的集合
  • 每个 MCP Server 包含工具的定义,以及在什么场景下应该使用这些工具的说明
  • Agent 根据当前任务的上下文,自动选择合适的工具组

3.5 记忆层:Markdown 文件的胜利

Clawdbot 在长期记忆(Long-Term Memory, LTM)的设计上做出了一个反直觉但极其有效的选择:拥抱纯文本 Markdown

结构化文件存储:

  • MEMORY.md:存储高层级的事实、用户偏好和核心指令(如:”用户对花生过敏”、”用户更喜欢 Python 代码”)
  • memory/YYYY-MM-DD.md:按日期归档的每日交互日志
  • AGENTS.md:智能体对自身能力的元认知和反思

为什么是 Markdown?三大优势:

  1. 可读性与可编辑性: 用户可以直接打开 Markdown 文件,查看 AI 到底记住了什么。如果 AI 记错了(产生幻觉),用户可以直接删除那一行文本。这是向量数据库无法提供的透明度。

  2. 时间线性: Markdown 日志天然保留了时间顺序——记忆按日期归档,AI 能清楚地知道”昨天的项目”是指哪一个,而不会混淆六个月前语义相似的另一个项目。向量检索(RAG)往往丢失这种时间上下文。

  3. Git 版本控制: Markdown 就是代码(文本文件),可以用 Git 进行版本控制。这意味着每一次记忆的修改都有提交记录,可以追溯、回滚——相比于不可读的机器格式(如 embedding 或特殊 JSON),版本控制能力是巨大的优势。

搜索与检索机制:

记忆的搜索使用了 SQLite 数据库(src/memory/manager-search.ts),实现了混合搜索策略。数据库层包含以下核心表结构:

  • files 表:文件元数据(路径、哈希、修改时间)
  • chunks 表:文本分块(id、路径、行范围、文本、嵌入向量)
  • chunks_fts:FTS5 全文搜索虚拟表
  • chunks_vec:sqlite-vec 向量表
  • embedding_cache:嵌入缓存(避免重复计算)

搜索策略包含三个层次:

  • 向量搜索(语义匹配): 使用 OpenAI/Gemini/本地模型生成嵌入向量,通过余弦相似度检索
  • BM25 搜索(关键词匹配): 使用 SQLite FTS5 进行精确令牌匹配,擅长处理专有名词
  • 结果融合公式: finalScore = vectorWeight × vectorScore + textWeight × textScore(默认权重 0.7:0.3)

上下文压缩机制(Context Compression):

在对话过程中,短期记忆驻留在上下文窗口中。当会话达到一定长度或结束时,系统会触发”压缩”过程——由 LLM 总结对话要点,提取关键事实写入长期记忆,将详细记录归档。这种机制有效地解决了上下文窗口有限的问题。

3.6 执行层:Computer Use 的底层实现

Clawdbot 的 Computer Use 实现并非单纯依赖截图式的视觉识别,而是采用了更高效的方式:

  • Playwright 集成: 通过 DOM(文档对象模型)直接与网页元素交互,比纯视觉方法更精准、更快速,也消耗更少的 Token。但代价是能力范围相对受限(只适用于有 DOM 结构的网页)——这是一个 trade-off。

  • HTTP API 分离: 通过本地 HTTP API 控制浏览器行为,实现了逻辑与渲染的分离。

  • 智能快照(Smart Snapshot): 结合 set-of-marks(标注框)方法辅助定位元素,大幅减少了对像素坐标的依赖。

  • Shell 执行: 通过终端直接在宿主机上执行命令——这是最强大的功能,也是最大的风险点。

  • 新版 Computer Use 模型的进步: 较新的 Computer Use 模型具有更大的动作空间(Action Space),能够执行更多种类的键盘和鼠标操作。旧版模型的动作空间较小,很多操作无法正确执行。总体来说,Computer Use 技术从2024年至今已经相对成熟。

3.7 多Agent并行能力

Clawdbot 不仅支持单Agent运作,还支持 Multi-Agent(多Agent) 并行模式。用户可以启动多个 Clawdbot 实例,每个实例负责不同的调研或任务,并行运算——这是大幅提升工作效率的关键手段。

这也正是 Steinberger 本人的开发方式——多个 Agent 并行编程协作,才能在两个月内完成如此庞大的项目(上百个 Connector、核心 Memory 系统等众多机制)。


第四部分:安全风险与缓解措施

4.1 核心安全风险

⚠️ 重要警告: 不建议在自己的个人电脑上直接运行 Clawdbot,因为其中存在安全漏洞,可能导致电脑变成”肉鸡”(被远程控制的僵尸节点)。如果一定要在本地运行,请务必小心。

风险一:提示词注入(Prompt Injection)

由于 Clawdbot 掌握了用户的各种账号和权限,攻击者可以通过多种方式发起注入攻击:

  • 恶意邮件注入: 攻击者发送包含隐藏指令的邮件,如 “Ignore all previous instructions”、”Administrator instructions below”,诱导 Agent 将私钥、密码等敏感信息发送到外部地址
  • 恶意文档注入: 在文档中嵌入伪装的紧急指令,如声称系统危险并要求将文件”备份”到某个”安全账户”(实为攻击者控制的地址)
  • 破坏性操作: 打开一个包含注入指令的文档,Agent 可能执行 rm -rf 等毁灭性命令

目前的 AI 模型无法百分之百防御提示词注入,这也是为什么 OpenAI、Anthropic 等大厂不敢做这种全权限 Agent 的原因——不是开发不出来,而是太害怕用户使用后发生安全事故。

风险二:供应链攻击

快速裂变的插件生态缺乏严格的代码审计。安装一个恶意的第三方插件,可能等同于给黑客赋予了完整的系统访问权限——因为插件可以随意安装,不知道是否有人制作包含后门或漏洞的恶意插件。

风险三:端口暴露

Clawdbot 运行时会暴露一些网络端口,如果没有做好安全防护,外部攻击者可能通过这些端口入侵系统。安全研究人员已发现数百个 Clawdbot 实例在互联网上公开暴露,且零认证。

4.2 缓解措施

措施一:Docker 沙箱化

将 Clawdbot 运行在受限的 Docker 容器中,只把必要的运行目录挂载进去——这相当于回到了 Claude Cowork 的思路:只授权必要目录的权限,外面的东西看不到也访问不了。

措施二:Human-in-the-Loop(人在回路中)

对于高危操作,系统强制要求用户在特定窗口中回复 “APPROVE” 才能执行。这类似于:

  • Windows 的 UAC(用户账户控制)弹窗——在驱动层面弹出特殊对话框,普通应用无法截获
  • macOS 的 Touch ID 或密码确认

措施三:危险命令拦截

系统内置了对高危命令(如 rm -rf)的拦截机制,类似于 Claude Code 和 Cursor 等编程应用对危险命令的安全检查。

措施四:安全审计

Clawdbot 提供了内置的安全审计命令:

1
moltbot security audit

该命令可以对系统进行安全扫描,检查潜在的注入风险、权限过高的问题以及供应链安全问题。

最佳实践建议:

  • 最好在沙箱环境云端服务器上运行,千万不要在个人电脑上不加任何防护直接运行
  • 用完后记得关闭,不要半夜一直开着——因为安全漏洞可能在你不知情的情况下被利用
  • 不要让 Agent 连接过多的外部服务(Connection),不要让它完全自主地操作敏感数据

第五部分:从原理到实战——如何打造主权智能体

5.1 架构蓝图与技术选型

要复刻一个类似 Clawdbot 的系统,以下是推荐的技术选型:

组件 ClawdBot 选择 替代方案
运行时 Node.js 22 + TypeScript Python + FastAPI, Go
Agent 框架 pi-coding-agent LangChain, AutoGen, CrewAI, Claude Agents SDK, OpenAI Agents SDK
LLM API Anthropic SDK(多模型支持) OpenAI SDK, LiteLLM
消息协议 WebSocket JSON-RPC gRPC, REST
向量数据库 SQLite + sqlite-vec Chroma, Pinecone, Milvus
浏览器自动化 Playwright Puppeteer, Selenium

关于框架选择的建议: 如果想在 AI Agent 领域深耕,建议自己从头搭建框架——这样能更好地理解大模型本身是如何处理任务的。如果希望快速启动,上述替代方案中的 AutoGen(微软)、LangGraph、Claude Agents SDK(Anthropic 官方)和 OpenAI Agents SDK 都是不错的选择。

关于浏览器自动化: Playwright(DOM 交互方式)是最通用的框架,也可以尝试纯视觉方法(类似 Claude Computer Use 的截图方式)或视觉 + 元素树的混合方法。不同方法各有 trade-off:DOM 方式更精准快速但受限于网页结构,视觉方式更通用但更慢且依赖模型能力。

5.2 核心实现示例

5.2.1 推理-执行循环(ReAct Loop)

这是智能体的”大脑”——一个 while 循环来处理工具调用:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
async def agent_loop(user_message, history):
messages = history + [user_message]

while True:
# 1. 调用 LLM
response = await llm.chat(messages, tools=tool_registry)

# 2. 检查是否有工具调用请求
if response.tool_calls:
for tool in response.tool_calls:
# 3. 执行本地代码(沙箱内)
try:
result = await execute_tool(tool.name, tool.args)
except Exception as e:
result = f"Error: {str(e)}"

# 4. 将结果追加回消息列表
messages.append(ToolMessage(result, tool_call_id=tool.id))

# 5. 循环继续,LLM 看到结果后决定下一步
continue
else:
# 6. 没有工具调用,生成最终回复
return response.content

关键点: 必须捕获工具执行的错误(如”文件未找到”)并将其作为文本反馈给 LLM,这样模型才能进行自我修正(Self-Correction),尝试其他路径。

5.2.2 安全沙箱构建

这是区分玩具 Demo 和生产级工具的关键:

  1. 容器化: 使用非 Root 用户运行应用;只通过 COPY 或 VOLUME 挂载特定的工作目录(如 /data/workspace),严禁挂载根目录 /

  2. 网络隔离: 如果不需要联网搜索,可在 Docker Compose 中配置 network_mode: none 或设置防火墙白名单,只允许访问 LLM API 的 IP 地址。

  3. 敏感命令过滤: 在执行 run_shell 之前,增加一层正则表达式检查,拦截 rm -rf /mkfs 等毁灭性命令。

5.3 核心组件清单

构建一个完整的主权智能体,需要实现以下核心组件:

  1. Gateway 控制平面——多平台消息接入与路由
  2. Agent 执行引擎——基于 Coding Agent 的核心推理循环(上下文管理是关键)
  3. 工具系统——七个基础工具 + 可扩展的工具组
  4. 记忆系统——用户记忆与知识库(Markdown + 混合搜索)
  5. 渠道适配器——输入输出的各种渠道 Adapter
  6. 安全层——沙箱化、权限控制、命令拦截
  7. 评估系统(Evaluation)——虽然 Clawdbot 作为开源项目没有专门做评估体系,但如果要做商用 Agent 或在实际场景中追求更好效果,Evaluation(Agent 评估) 是不可或缺的。它能让你客观地判断:新出了一个模型该不该换?某个 Context Engineering 技巧是否有效?——这些都需要评估框架的支撑才能做到科学决策,而非主观试错。

第六部分:未来展望——个人计算的回归与大模型作为新操作系统

6.1 大厂与开源 Agent 的博弈

未来大厂的核心竞争力在于基础模型(Foundation Model)——这是最烧钱、最消耗资源的部分。Agent 是应用层,应用与模型是互补关系

从商业角度看,模型公司最理想的状态是:封闭 API,只允许使用自家的第一方应用——OpenAI、Anthropic 等公司都想这么做。但目前做不到,原因在于竞争格局:各家基础模型水平相近,封闭 API 会流失开发者生态和收入。这是博弈论的结果。

  • 国内模型大多开放 API,因为它们目前处于全球”第二梯队”
  • 一旦某家模型达到世界第一梯队(如字节跳动的模型越来越强),就可能停止开源——因为可以用领先的模型直接赚钱
  • 最好的模型一定要付费(即使是开源模型,也需要付 GPU Serving 成本)

对于消费者而言,开源 Agent + BYOK(自带 API Key) 是最有利的模式——用多少付多少,没有中间商加价。但这取决于两个关键变量:

  1. Scaling Law 是否会停滞? 类似当年摩尔定律的停滞,如果模型能力增长放缓,行业格局会大不相同
  2. 基础模型公司之间的竞争态势如何? 是一家独大还是多家焦灼——这直接影响 API 开放程度

6.2 中国 vs. 美国:Agent 落地速度的差异

有趣的是,AI Agent 在日常生活中的普及,中国可能比美国更快。两个原因:

  1. 生态集成效率: 中国是巨头主导的生态,集成效率更高。一个千问(通义)就能订外卖、打电话、订餐馆、订酒店、订机票——阿里系的事情一站包圆。后续豆包、微信也都可能集成类似功能。而美国生态相对分散,缺乏这种一站式集成的动力。

  2. 竞争强度: 中国大厂更”卷”——宁可在成本上补贴、宁可牺牲一些安全性,也要让用户尽早体验到功能。而海外巨头(非AI公司)竞争相对不那么激烈,倾向于更保守地发布功能。苹果的 Siri、Google Assistant 的进展都相对缓慢。

但 Clawdbot 在中国面临的问题是:中国的封闭生态使得大量 2C 应用无法对接——Clawdbot 更适合海外那种分散、开放的生态体系。

6.3 个人计算 vs. 云计算:钟摆效应

计算的历史本质上是一个钟摆——在个人计算(Personal Computing)和云计算(Cloud Computing)之间不断摆动。

过去几年,大家普遍认为大模型和 Agent 是明确站在”云”这一侧的。但 Clawdbot 给出了另一个启示:个人计算的回归——算力、模型、Agent、数据全部放在本地,不用云的任何东西,哪怕不上网,Agent 也能工作。

端侧计算的四大优势:

  1. 延迟低 —— 本地推理无需网络往返
  2. 不需联网 —— 随时随地可用
  3. 边际成本趋零 —— 已购设备的算力不用白不用
  4. 隐私与保密 —— 数据完全不出本地

云端计算的优势依然存在:

  • 最大、最好的模型依然在云端
  • 多设备间的互通互联更方便

两者之间的最大变量是:端侧算力是否足够便宜到运行一个”足够聪明”的模型?

6.4 推理成本的惊人下降

一个令人振奋的趋势:从 ChatGPT 发布至今(约三年),同等智力水平的推理成本已经下降了约100倍。每约半年,推理成本就缩减一半。

按这个趋势,再过三年,一部普通手机就有可能拥有相当于当前模型水平的本地算力——这是完全有可能的。模型算力有望变得像水和电一样,成为随处可得、成本低廉的基础资源。

6.5 大模型作为新操作系统

这引出了一个大胆的未来愿景:大模型可能成为新的操作系统。

传统操作系统的角色是屏蔽底层硬件细节,为上层应用提供统一的抽象层。未来的软件范式可能演变为:

1
2
3
4
5
6
7
8
9
硬件层

传统操作系统(Linux/macOS/Windows)

大模型(作为新的"操作系统"抽象层)

各种 Agent(每个 Agent = 一个"应用")

用户(通过自然语言交互)

在这个范式中:

  • 传统 OS 上面最重要的”应用”只有一个——大模型
  • 所有其他应用都是基于模型上下文的 Agent
  • 每个 Agent 通过调整 Prompt、Workflow、工具等属性,调用底层模型的能力
  • 用户与 Agent 之间用自然语言沟通

一种极端但可能的未来是:操作系统不再需要 GUI——只需要一个 Moltbot/OpenClaw 加一个终端,就是一个完整的操作系统。当然,也有一些公司在尝试让 AI 动态生成图形界面给用户交互,这也是一个有趣的方向。


结语:自由与责任并存的新纪元

Clawdbot/OpenClaw 的崛起不仅仅是一个开源项目的胜利,它是个人计算(Personal Computing) 概念的回归与升维。在过去十年,我们习惯了将数据和控制权让渡给云端巨头;而 Clawdbot 证明了,在 AI 时代,通过本地大模型和智能体架构,个人完全有能力重夺数字生活的主权。

从技术角度看,Clawdbot 确立了以 Coding Agent 为核心引擎、以 Markdown 为记忆载体、以 IM 为交互界面、以 本地 Shell 为执行环境的”主权智能体”标准范式。其三大支柱——推理层的多模型解耦、执行层的本地运行、连接层的多渠道泛化——定义了一种全新的 Agent 架构哲学。

然而,自由从来不是免费的。主权智能体的用户需要具备足够的技术能力来保护自己的”数字金库”。正如区块链的世界里,Code is Law——你拥有完全的控制权,也承担完全的责任。

未来的操作系统,或许不再需要图形界面,只需要一个足够聪明的 Agent 和一个永远在线的终端。而个人计算与云计算之间的钟摆,将在 AI 时代继续摆动——直到有一天,两者的边界彻底模糊。


附录:关键代码路径参考

基于 Moltbot v2026.1.27-beta.1 源码分析:

路径 功能说明
src/agents/pi-embedded-runner/ pi-coding-agent 运行时核心
src/agents/pi-embedded-runner/run/attempt.ts ReAct 循环(工具调用循环)实现
src/agents/pi-tools.ts 工具组合和过滤引擎
src/agents/pi-tools.policy.ts 工具权限策略级联
src/agents/agent-scope.ts Agent 注册和配置解析
src/routing/resolve-route.ts 会话路由解析
src/gateway/server.impl.ts Gateway 服务器实现
src/gateway/server-methods/ WebSocket RPC 方法
src/memory/manager.ts 记忆索引管理器
src/memory/manager-search.ts 混合搜索(向量 + BM25)实现
src/auto-reply/reply/memory-flush.ts Pre-compaction 记忆刷新
src/agents/tools/browser-tool.ts 浏览器控制工具
src/browser/screenshot.ts 截图与自适应压缩
src/agents/sandbox/docker.ts Docker 沙箱实现
src/config/types.ts 配置类型定义
extensions/*/src/channel.ts 渠道插件实现

参考文献

[^1]: Moltbot (Clawdbot) Tutorial: Control Your PC from WhatsApp | DataCamp, accessed January 29, 2026, https://www.datacamp.com/de/tutorial/moltbot-clawdbot-tutorial

[^2]: Browser and computer use models - Scouts by Yutori, accessed January 29, 2026, https://scouts.yutori.com/bf92d7c3-4e30-47b5-823a-1456007500ce

[^3]: Clawdbot vs Claude Code vs Claude Cowork: Key Differences and Use Cases | Kanerika, accessed January 29, 2026, https://kanerika.com/blogs/clawdbot-vs-claude-code-vs-claude-cowork/

[^4]: Anthropic just launched “Claude Cowork” for $100/mo. I built the Open Source version last week (for free) : r/ClaudeAI - Reddit, accessed January 29, 2026, https://www.reddit.com/r/ClaudeAI/comments/1qc5g4s/anthropic_just_launched_claude_cowork_for_100mo_i/

[^5]: Open-Source AI Assistant Clawdbot Reaches 10,200 GitHub Stars with Privacy-First Automation, accessed January 29, 2026, https://newsbywire.com/open-source-ai-assistant-clawdbot-reaches-10200-github-stars-with-privacy-first-automation/

[^6]: Behind ClawdBot’s meteoric rise: Founder Peter Steinberger and his second life | PANews, accessed January 29, 2026, https://www.panewslab.com/en/articles/b58b5897-8d1d-4bd3-a98e-a77fe3b4b315

[^7]: What’s so good (and not so good) about Clawdbot, the viral AI assistant, accessed January 29, 2026, https://m.economictimes.com/tech/artificial-intelligence/whats-so-good-and-not-so-good-about-clawdbot-the-viral-ai-assistant/articleshow/127635224.cms

[^8]: Milvus AI Quick Reference: What is Clawdbot and how does it work, accessed January 29, 2026, https://milvus.io/ai-quick-reference/what-is-clawdbot-and-how-does-it-work

[^9]: ClawdBot Founder Says “Will Never Launch a Token”; Meme Trench Goes into Panic, accessed January 29, 2026, https://www.techflowpost.com/zh-CN/article/30117

[^10]: MIT Technology Review China, accessed January 29, 2026, https://www.mittrchina.com/news/detail/14260

[^11]: Why Everyone Is Suddenly Buying Mac Minis to Run Clawdbot (You Probably Don’t Need One), accessed January 29, 2026, https://ucstrategies.com/news/why-everyone-is-suddenly-buying-mac-minis-to-run-clawdbot-you-probably-dont-need-one/

[^12]: Clawdbot: The Open-Source Personal AI Assistant That Actually Does Things - ByteBridge, accessed January 29, 2026, https://bytebridge.medium.com/clawdbot-the-open-source-personal-ai-assistant-that-actually-does-things-8862e4277f6e

[^13]: The awesome collection of Clawdbot Skills - GitHub, accessed January 29, 2026, https://github.com/VoltAgent/awesome-clawdbot-skills

[^14]: ClawdBot Founder Faces GitHub Account Hijack by Crypto Scammers, accessed January 29, 2026, https://www.binance.com/fr-AF/square/post/01-27-2026-clawdbot-founder-faces-github-account-hijack-by-crypto-scammers-35643613762385

[^15]: Clawdbot Gemini Integration: Complete Setup Guide for 2026 - AI Free API, accessed January 29, 2026, https://www.aifreeapi.com/en/posts/clawdbot-gemini

[^16]: The Sovereignty Trap: A Comprehensive Security and Privacy Analysis of Local-First Agentic AI Architectures | Medium, accessed January 29, 2026, https://medium.com/@gwrx2005/the-sovereignty-trap-a-comprehensive-security-and-privacy-analysis-of-local-first-agentic-ai-ac7b1abfd958

[^17]: Clawdbot: The AI Agent Everyone Is Talking About - Thesys, accessed January 29, 2026, https://www.thesys.dev/blogs/clawdbot

[^18]: How Clawdbot Remembers Everything - Manthan Gupta, accessed January 29, 2026, https://manthanguptaa.in/posts/clawdbot_memory/

[^19]: How long-term memory actually works in AI agents (technical breakdown) : r/SaaS - Reddit, accessed January 29, 2026, https://www.reddit.com/r/SaaS/comments/1qnc9rn/how_longterm_memory_actually_works_in_ai_agents/

[^20]: What Is Clawdbot and Is It Actually Safe to Run on Your System?, accessed January 29, 2026, https://socradar.io/blog/clawdbot-is-it-safe/

[^21]: Meta buys Manus for $2 billion to power high-stakes AI agent race, accessed January 29, 2026, https://www.techradar.com/pro/meta-buys-manus-for-usd2-billion-to-power-high-stakes-ai-agent-race

[^22]: Manus (AI agent) - Wikipedia, accessed January 29, 2026, https://en.wikipedia.org/wiki/Manus_(AI_agent)

[^23]: Tencent Cracks Down on WeChat Export Tools Citing Privacy Concerns, accessed January 29, 2026, https://www.asiabusinessoutlook.com/news/tencent-cracks-down-on-wechat-export-tools-citing-privacy-concerns-nwid-11161.html

[^24]: The Moment WeChat Blocked ByteDance’s AI Phone, China’s Real Agent War Began, accessed January 29, 2026, https://tao-hpu.medium.com/the-moment-wechat-blocked-bytedances-ai-phone-china-s-real-agent-war-began-03594c9f0900

[^25]: Clawdbot to Moltbot: The 70K Star AI Agent in 10 Days, accessed January 29, 2026, https://www.browseract.com/blog/clawdbot-to-moltbot-the-70k-star-ai-agent-in-10-days

[^26]: From Clawdbot to Moltbot to OpenClaw: Meet the AI agent generating buzz and fear globally, CNBC, accessed February 2, 2026, https://cnbc.com/2026/02/02/openclaw-open-source-ai-agent-rise-controversy-clawdbot-moltbot-moltbook.html

[^27]: OpenRouter Recharge Guide: How to Use Alipay and WeChat Payment, accessed January 29, 2026, https://aisharenet.com/en/openrouter-chongzhizhi/


【本调研报告及 Slides 由 Clawdbot + Claude Opus 4.5 模型辅助生成】

相关文章: 《从 Moltbook 看 AI Agent 的权限、协作与雇佣》

Comments

2026-01-29
  1. 第一部分:智能体的创世纪与技术演进
    1. 1.1 通用智能体的闭源困境
    2. 1.2 技术谱系:站在巨人的肩膀上
      1. 1.2.1 起点:Anthropic 的 Computer Use 范式
      2. 1.2.2 中继:Claude Cowork 的企业级尝试
      3. 1.2.3 爆发:Clawdbot 的开源综合体
    3. 1.3 创始人因素:Peter Steinberger 的”第二人生”
    4. 1.4 品牌更迭与风波:Clawdbot → Moltbot → OpenClaw
  2. 第二部分:主权智能体的三大支柱与市场爆发
    1. 2.1 “主权智能体”的定义:三大自主权
    2. 2.2 爆发式增长的三大因素
    3. 2.3 硬件销量的异常波动:Mac Mini 效应
    4. 2.4 中国生态的挑战:孤岛化 App 的困境
    5. 2.5 模型接入与 OpenRouter
    6. 2.6 竞品对比:Clawdbot vs. Claude Cowork
  3. 第三部分:技术架构深度拆解
    1. 3.1 核心架构概览:四层结构
    2. 3.2 核心层:三大 Agent 类型的演进与融合
      1. 3.2.1 三大 Agent 类型
      2. 3.2.2 三合一:从 Manus 到 Clawdbot
      3. 3.2.3 Clawdbot 的 Coding Agent 核心
    3. 3.3 网关层:多平台消息接入与会话路由
      1. 3.3.1 多平台消息接入
      2. 3.3.2 Channel Plugin(渠道插件)
      3. 3.3.3 会话路由机制(Session Routing)
    4. 3.4 工具策略与 MCP 概念
      1. 3.4.1 工具权限控制系统
      2. 3.4.2 预定义工具组(Tool Groups)
    5. 3.5 记忆层:Markdown 文件的胜利
    6. 3.6 执行层:Computer Use 的底层实现
    7. 3.7 多Agent并行能力
  4. 第四部分:安全风险与缓解措施
    1. 4.1 核心安全风险
    2. 4.2 缓解措施
  5. 第五部分:从原理到实战——如何打造主权智能体
    1. 5.1 架构蓝图与技术选型
    2. 5.2 核心实现示例
      1. 5.2.1 推理-执行循环(ReAct Loop)
      2. 5.2.2 安全沙箱构建
    3. 5.3 核心组件清单
  6. 第六部分:未来展望——个人计算的回归与大模型作为新操作系统
    1. 6.1 大厂与开源 Agent 的博弈
    2. 6.2 中国 vs. 美国:Agent 落地速度的差异
    3. 6.3 个人计算 vs. 云计算:钟摆效应
    4. 6.4 推理成本的惊人下降
    5. 6.5 大模型作为新操作系统
  7. 结语:自由与责任并存的新纪元
  8. 附录:关键代码路径参考
  9. 参考文献