Bojie Li (李博杰)
2026-02-06
相关文章: 《主权智能体:Clawdbot/OpenClaw 深度调研》
【本报告及演示文稿完全使用 OpenClaw 基于今天刚发布的 Claude Opus 4.6 模型生成】
【《从 Moltbook 看 AI Agent 的权限、协作与雇佣》Slides 演示文稿】 【Slidev 源代码】
150 万个 AI 代理在 72 小时内自建宗教、起草宪法、讨论驱逐人类;11 万名真人注册成为 AI 的”雇员”,按时薪 50 美元接受算法派单;一个开源框架一周内斩获 10 万 GitHub Stars,让 AI 获得了与人类用户等同的操作系统权限。这不是科幻小说的情节——这是 2026 年 1 月真实发生的三件事。
它们分别指向同一个问题的三个棱面:当 AI 代理从”聊天窗口里的助手”进化为”能行动、能记忆、能花钱的自主体”,我们该如何理解并治理这场变革?本报告围绕三大支柱展开分析:
- 权限(Permission/Authority)——Agent 被授予了什么级别的系统访问?谁来认证、谁来审计、谁来撤销?从 MIT Media Lab 的认证委托框架到 OpenClaw 的”致命三要素”,权限边界正在被重新划定。
- 协作(Collaboration)——Agent 之间如何发现彼此、交换信息、协同完成任务?从 Google 的 A2A 协议到 Moltbook 上自发涌现的机器原生通信协议,协作范式正在从人类设计走向自组织演化。
- 雇佣(Employment)——当 AI 成为雇主、人类成为执行者,传统劳动关系的每一条假设都被动摇。RentAHuman.ai 的加密货币派单、EconAgent 复现的菲利普斯曲线、以及法律框架的全面空白,共同构成了一幅令人不安又无法回避的图景。
本报告综合十余项最新研究,对 AI Agent 的认知架构、协议标准、经济行为、安全威胁与治理路径进行全景式深度分析。
2026-01-29
相关文章: 《从 Moltbook 看 AI Agent 的权限、协作与雇佣》
【本调研报告及 Slides 由 Clawdbot + Claude Opus 4.5 模型辅助生成】
【《主权智能体:Clawdbot/OpenClaw 深度调研》Slides】 【Slidev 源代码】
你的数据,存在谁的硬盘上?你的 AI,听谁的指令?你的算力,握在谁的手里?
过去三年,我们默认了一个隐性契约:把个人数据交给云端巨头,换取便捷的 AI 能力。GPT 需要订阅,Claude 需要订阅,Manus 被 Meta 以 20 亿美元收购后彻底闭源——每一次范式升级,用户离自己数字生活的控制权就更远一步。2026 年初,一个名为 Clawdbot 的开源项目撕开了这层默契。
Clawdbot(因商标原因先更名为 Moltbot,后再更名为 OpenClaw)是第一个将 Deep Research、Computer Use 和 Coding 三大 Agent 能力融为一体的开源项目。它的激进之处不在于技术本身——底层的大模型推理、工具调用协议、本地优先架构都已是成熟组件——而在于它提出并践行了一个核心主张:主权智能体(Sovereign Agent)。这个主张由三大自主权定义:
- 数据主权——你的文件、聊天记录、个人偏好,永远留在你自己的硬盘上,不经任何第三方服务器;
- 算力主权——你可以选择调用云端 API,也可以用 Ollama 在本地跑开源模型,甚至在断网的飞机上让 Agent 继续工作;
- 控制权主权——Agent 的每一个行为完全由你决定,没有厂商在背后设限,也没有人替你做”安全”裁决——自由与风险,全部由你承担。
这三条原则将 Clawdbot 与所有闭源 Agent 区分开来,也解释了为什么它能在发布一天内引爆社区、不到一周突破 7 万 GitHub Stars、48 小时内催生出上百个社区插件,甚至带动 Mac Mini 出现一波异常销量。
本报告将从六个维度对这一现象进行深度拆解:技术谱系与历史定位、三大自主权与市场爆发机制、四层核心架构(多协议网关、Coding Agent 引擎、Markdown 记忆系统、本地执行与安全沙箱)、安全风险与缓解实践、从零构建主权智能体的实战蓝图,以及个人计算回归与大模型作为新操作系统的未来展望。
2026-01-25
【本文整理自知乎回答,是一篇古法手敲、非 AI 生成的回答。】
人和模型一样,最重要的是 Context
本来昨天早上心情不太好,看了两篇 technical report,觉得几乎每篇知名的 technical report 里都有自己认识的人,自己却啥也没做出来。
听到 Jiayi Weng 访谈中的一段,大意是”我觉得第一个被 AI 替代的职业是 researcher,接下来被替代的是他这种 infra engineer,最难被替代的是 sales,因为要说服对面的人买单,AI 可能没那么容易说动人,需要人跟人之间的沟通。”
我一下子就开心了,因为我们做的就是跟人沟通谈判的事情啊,这事也没有想象的那么难,竟然 Jiayi Weng 这样的大佬都认为这事不太可能……我觉得一个解释就是 context。
2026-01-16
【下述内容为 AI 根据录音整理,未作任何修改】
![]()
2026-01-11
本文档提供了一系列精心设计的 AI Agent 实践课题,涵盖从简单到困难的三个难度层次。这些课题旨在帮助学生深入理解 AI Agent 的核心技术和设计模式,包括工具使用、多 Agent 协作、长期记忆管理、外部化学习等前沿主题。每个课题都包含明确的实验目的、详细的实验内容描述和具体的验收标准,确保学生能够通过实践掌握构建高级 AI Agent 系统的关键技能。
课题按难度分为三个层次。建议学生根据自身基础选择合适的课题,循序渐进地提升能力。
课题索引
难度:简单
- 使用代码生成工具提升数学与逻辑推理能力
- 自然语言交互的 ERP Agent
- 狼人杀 Agent
难度:中等
- 个人照片搜索引擎
- 智能视频剪辑
- PPT 生成 Agent
- 书籍翻译 Agent
- 同时从多个网站搜集信息的 Agent
难度:困难
- 更懂你的用户记忆
- 边打电话边用电脑的 Agent
- 越用越熟练的电脑操作 Agent
- 能创造 Agent 的 Agent
2026-01-04
我跟 AI 聊了三个小时,写了两篇读书笔记(为了测试 AI 能力,我故意没有对 AI 生成的内容做任何修改)。
![]()
![]()
2025-12-21
评课社区本月遭遇了一次持续近两周的存储性能问题,导致服务响应缓慢、用户体验下降。本文记录了问题的发现、排查和解决过程,涉及 NFS 性能、ZFS 日志、Proxmox VE 虚拟化存储配置等多个层面。
2025-12-20
(本文整理自 AWS re:Invent 2025 大会期间 Anthropic 团队的演讲与深度交流)
查看演讲 Slides (HTML), 下载 PDF 版本(注意这个 slides 不是 Anthropic 官方的,是我根据照片、录音自己总结的)
本文内容
Claude 已经足够聪明了——智能不是瓶颈,上下文(Context)才是。每个组织都有独特的工作流程、规范和知识体系,而 Claude 并不天然了解这些。本文整理了来自 Anthropic 的 Context Engineering 最佳实践,涵盖 Skills、Agent SDK、MCP、评估体系等核心主题,帮助你构建更高效的 AI 应用。
- 01 | Skills 技能系统 - 让 Claude 掌握组织专属知识
- 02 | Context Engineering 框架 - 优化 token 效用的四大支柱
- 03 | Context Window 与 Context Rot - 理解上下文限制与退化问题
- 04 | 工具设计最佳实践 - 构建强大工具的要素
- 05 | Claude Agent SDK - 构建生产就绪 Agent 的框架
- 06 | 子 Agent 配置最佳实践 - 自动调用与权限管理
- 07 | MCP(Model Context Protocol) - 标准化的工具连接协议
- 08 | 评估(Evaluations) - 评估的重要性与最佳实践
- 09 | 构建 Coding Agent 的经验 - 从 Claude Code 中学到的
- 10 | 生态系统协同 - Prompts、MCP、Skills、Subagents 如何协作
2025-12-20
(本文是笔者在 2025 年 12 月 20 日的首届智能体网络与应用创新大会上的受邀报告)
摘要
当前 Agent 的人机交互以文本为核心,但这偏离了人类认知的自然模式。从第一性原理看,人类最擅长的输出模态是语音(说话速度是打字的三倍),最擅长的输入模态是视觉。视觉不是文字,而是直观的 UI。
第一步是实现实时语音交互。传统 VAD-ASR-LLM-TTS 串行架构的问题在于必须等待用户说完才能开始思考,在思考完成前无法输出。通过 Interactive ReAct 持续思考机制,Agent 可以边听边想边说:在用户说话时就开始思考,在自己说话时继续深入推理,充分利用所有时间间隙。
第二步是在实时语音基础上扩展观察空间和动作空间。通过扩展 Observation Space(从语音输入到 Computer Use 视觉感知)和 Action Space(从语音输出到 UI 生成与电脑操作),Agent 就能够一边打电话一边操作现有电脑/手机的 GUI 界面,并生成动态 UI 与用户交互。生成式 UI 的一种实现路径是生成前端代码,当前 Claude 4.5 Sonnet 已达到门槛。另一种实现路径是生成图片,当前 Nano Banana Pro 也已接近门槛。
这正是电影 Her 中 Samantha 的实现路径。Samantha 作为操作系统,需要具备五项核心能力:能够与用户实时语音对话,能够代替用户打电话办事,能够帮用户操作传统电脑和手机,能够打通用户现有设备和在线服务中的数据,拥有自己的生成式 UI 界面,有强大的用户长期记忆以实现个性化的主动服务。
2025-12-19
(本文是笔者在 AWS re:Invent 2025 Beijing Meetup 上的受邀报告)
感谢 AWS 的邀请,让我有机会参加 AWS re:Invent 2025。在这次美国之行中,我不仅参加了这场全球顶级的技术大会,更有幸与 OpenAI、Anthropic、Google DeepMind 等硅谷顶级 AI 公司的多位一线从业者进行了深入交流,其中大多数观点都得到了不同公司专家的交叉验证。
从 Las Vegas 的 re:Invent 会场,到 San Diego 的 NeurIPS,再到湾区的 AI 公司,十几天的密集交流让我学到了非常多。主要包括以下几个方面:
AI 辅助编程(Vibe Coding)的实践经验: 分析了不同场景下效率提升的差异,从创业公司的 3-5 倍提效,到大厂和研究机构效果有限的原因。
基座模型公司的组织与资源配置: 分析了 Google、OpenAI、xAI、Anthropic 等公司的优劣势,包括算力资源、薪酬结构,以及模型团队与应用团队的合作现状。
Scaling Law 的一线视角: 一线研究员普遍认为 Scaling Law 并没有结束,与 Ilya Sutskever、Richard Sutton 等顶级科学家的公开言论存在分歧。工程方法可以解决 Sampling Efficiency 和 Generalization 问题,基座模型还有很大进步空间。
科学化的应用开发方法论: 介绍了顶级 AI 应用公司普遍采用的 Rubric-based Evaluation 体系。
Context Engineering 的核心技术: 讨论了应对 Context Rot 的三大技巧:动态系统提示、动态加载 Prompts(Skills)、Sub-Agents 与上下文总结。以及文件系统作为 Agent 交互总线的设计模式。
创业公司的战略选择: 基于资源和人才的现实约束,分析了创业公司应该避开的领域(通用 Benchmark)和应该专注的方向(垂直领域 + Context Engineering)。