《蒸馏》创作手记

这篇手记记录了科幻小说《蒸馏》的创作背景与灵感来源。

创作背景

这是我第一次写小说。最开始也没打算写成一篇正经的科幻小说，只是想结合从何纪言老师那儿听到的一些想法和我最近的思考，推演一下未来会是什么样。结果 AI 生成的故事情节和设定——包括三条技术路线的竞争、互相蒸馏导致认知近亲繁殖等——很多都超出了我的预期，觉得值得继续推进，把它改得更好一点。写得不好的地方，请多多包涵。

作为一个 AI 领域的一线研究者，今年春节 OpenClaw 火起来以后，我身边好多人都陷入了焦虑——担心被 AI 取代。有人把 AI 形容成一场逐渐上涨的洪水，先从最基层的工作开始淹没，一层一层往上涨，越淹越高，终有一天会淹到自己；另一些人则把 AI 形容成几十层楼高的巨浪，不管你是小船还是大船，最后都会被掀翻——所以你只能去享受冲浪。

这些讨论带来了很多焦虑。这篇小说结合了我自己和许多业内专家交流中学到的东西，以及我长时间的思考。它并不是一个纯粹虚构的故事，而是基于当前技术发展的理论推演——里面描述的事情，很有可能真的发生。当然，因为这些事情对社会的冲击太大，大多数人可能会觉得是天方夜谭。所以与其把它写成一篇技术报告，我觉得不如用小说的形式，可能让大家更便于接受。

这篇小说本身也是我和 AI 共同创作的——由 AI（Claude Opus 4.6）生成，素材来源是我博客中最近的几篇文章——包括《数字员工》、《AI 时代的暗淡蓝点》、《从 Moltbook 看 AI Agent 的权限、协作与雇佣》、《硅谷 AI 见闻》等，以及 Limitless AI 录制的近两天对话录音。

这篇小说的创作过程印证了一点：不管是对于人还是 AI 来说，context（上下文）是最重要的。 如果你只是让 AI 写一篇科幻小说，或者给它几个简单的元素让它组合，它大概率写不了这么深刻。关键在于我给了它足够的 context。我的一个优势在于我非常喜欢分享，把很多思考都写到了博客里；同时我还有 Limitless（现已被 Meta 收购并停产，国内也有 Plaud、安克豆等类似产品）——一个随身佩戴的 AI 录音设备，能自动录制和转写对话，相当于一个 24 小时的 AI 输入器。人在平时与朋友交谈、在饭桌上聊天时，说的内容里其实包含大量的信息和 insight，但这些东西大多没记下来，说完就丢了。我自己的习惯是几乎在所有场合都带着它——这样我就能留住自己想过的所有东西，同时也让我的 AI 变得更聪明。不管是平时写代码、写博客还是写 PPT，我都会用到这些录音里的信息。博客和 Limitless，对我来说是两个最重要的 context 来源。

这篇小说中最让我震撼的一点是：AI 能够利用我之前录下的那些随口聊到的想法，加上我在博客里分享过的内容，写出设定如此完整、且富有新启发的文章。很多灵感的种子——比如对 Taalas 的讨论、关于 AI 管理人类的想法——都散落在不同场合的对话录音里，是 AI 把它们串成了一个完整的故事。另一个让我惊讶的是：初稿中 AI 写到了很多生活场景——中科大、五道口、旧金山——整个创作过程中我完全没有向它提供过这些信息，但它写出来的大部分内容都非常贴切。

创作流程

整个创作过程——从生成初稿到后续修改——都采用了同一个 Writer-Reviewer 范式。具体来说，有两个 Agent 交替工作：

Writer Agent：一个 Coding Agent（Claude Code），负责上网搜索资料，然后撰写和修改小说内容。
Reviewer Agent：另一个 Coding Agent（也是 Claude Code，但是 prompt 不同），Writer 完成一轮写作后自动启动。从几个角度审视并提出意见：故事情节的一致性、事实的正确性、设定的科学性、以及从整体角度评估是否适合作为科幻小说正式发表。

Reviewer 提完意见后，Writer 再根据反馈修改，修改完再 review——如此循环往复。每一轮中，Writer Agent 大约工作半小时——先搜索资料，然后花十几分钟思考，再撰写或修改内容；Reviewer Agent 大约花 15 分钟 review，输出一系列问题和 Feedback。每个 iteration 大约 40–50 分钟。

为什么要用这种外部循环，而不是直接让 AI 一次写好？因为现在的 Agent 特别喜欢 “偷懒”——即便你让它认真思考并自行修改，它往往也只是改完一轮就不再看了。只有通过外部循环，强制让它不停地反思，它才会花时间深入思考并进一步修改。单靠 prompt 里写 “请仔细检查” 是不够的，必须在架构层面保证这个反思循环真正发生。

创作分为三个阶段：

第一阶段：大纲（约 2 小时）。 先用 Writer-Reviewer 范式迭代了三轮大纲。每一轮 AI review 完之后，我都会介入——指出 AI review 的意见中哪几个是需要重点解决的，同时补充我自己的新想法。三轮下来，大纲基本定型。

大纲阶段最大的问题是：AI 的第一稿有很强的 “爽文感”——把主角塑造成一个霸道总裁式的人物，公司拯救了世界，然后就在鲜花和掌声中结束了。但现实世界不会这么简单。此外，最初 AI 的设定是三个人在学术会议上认识，只是关系不太近的朋友。我觉得，如果只是两个没有信任基础的人，后续那些生死攸关的合作就显得不太合理。所以我做了个调整：把方逸设定为男生，另外两人设定为女生，给他们设定了过去的情感关系——只有这样，信任的建立才说得通。但 AI 改完之后，又把内容整成了言情小说的套路，写两个人之间如何暧昧。这跟文章主题不太相符，所以我最后让它把情感戏的部分删掉了，只保留了关系设定本身。类似这样的来回拉锯，在大纲阶段发生了很多次。

第二阶段：初稿（约 2 小时，全程无人工干预）。 大纲确定后，AI 根据大纲开始写正文，继续用同样的 Writer-Reviewer 范式自动迭代了 3 轮。这个过程是晚上在我睡觉的时候自动完成的。

第三阶段：迭代修改。 初稿完成后，问题就来了。AI 生成的文章虽然整体架构和核心 idea 都不错，但在细节上总会出现 “机器感”。首先，AI 缺少真实生活经历，一些细节与现实不符——现在的 Agent 在写作时会上网搜索资料、验证细节，已经比 LLM 直出好多了，但毕竟 AI 不是人，讲的细节越多，听起来越假。其次，有些情节欠考虑，与科学现实不太相符。第三，有些地方内容比较拖沓。总的来说，AI 缺少一种精雕细琢的能力。这有点像所谓的 “莫拉维克悖论”——AI 能解复杂的数学题，反而很难写好一篇有人味的文章。

我指出了这些问题，同时提供了几篇我自己的博客作为新的观点来源（包括 Value Alignment、AI 从业者的失业焦虑），然后让它继续用同样的范式迭代修改。一晚上跑了 5 轮，基本上是 4 个小时，也是在我睡觉的时候自动完成的。

第二天中午我通读了一遍 AI 写的修改稿，给了它更多具体细节 Feedback，比如与现实世界相关的某些细节，以及一些设定不太合适的地方，大约十几处问题，让它又跑了一遍，我再读，给意见，AI 再修改。

迭代修改中另一个反复拉锯的问题是：AI 总是倾向于写好莱坞大片式的结局。关于 “人类如何战胜 AI”，它最初的方案是人类说服了 AI。我觉得这不 make sense：如果 AI 已经强大到能管理人类，你不可能简单地打败或说服它。讨论了很久之后，我给出了现在的方案：让 AI 自己打败自己——它看不到自身的缺陷，会尝试回收 Mortal Chip，但普通人不听指令，而 AI 还在用自己的盲区验证自己没有盲区。关于结尾，AI 也总把事情想得太绝对，比如认为 Mortal Chip 非常完美、没有缺陷。但相比数字芯片，模拟芯片一定有精度等方面的劣势，两者应该是互补的，部署过程中也一定会暴露出问题。这些都是我后来让它加进去的。

还有一个 AI 写作的顽疾：它非常习惯用 “说明文” 或 “技术报告” 的方式描写事情——不断讲解技术是什么样子，却不懂得 “Show, Don’t Tell”。虽然我没写过小说，但语文老师教过：要通过人物的口说，通过行动展示，不能教育读者。我在很多 Prompt 里反复强调这一点，但最终成稿里 “Tell” 还是太多了——不过最后我也懒得再改了。

另一个体会是：写小说在某种意义上比写学术论文更烧脑。论文通常围绕一条主线展开，逻辑是线性的；而小说有多条线索同时推进——时间线、事件因果、人物行为——都必须在逻辑上完全自洽。更难的是视角控制：每个人物只能知道自身视角内的信息，不能有 “上帝视角” 的越界。编排每一处信息的揭示时，都要考虑 “这个人物此时此刻有没有可能知道这件事”。

最后还有一些小问题，我手工修改了十来处，并不多。但最后一章大半是我自己写的。晚上睡觉的时候我一直在想：按照现在的设定，这几个角色的结局都过于悲惨了，而悲惨的根源是 “没事可干了”。但前面林婉的互助组其实已经埋下了一条线索：她从被迫去做一件事，逐渐变成了自发地追寻自己的兴趣。所以我给其中几个角色安排了不一样的结局，让他们找到了自己真正想做的事。

灵感来源（人 + AI）

全球蒸馏环与认知近亲繁殖：源自当前 AI 行业互相蒸馏的现实——Anthropic 模型被问到身份时自称 DeepSeek，即是一例。互相蒸馏的核心叙事和认知近亲繁殖的可能后果是 AI 独立发现的。 我的博客中仅有一些关于模型蒸馏的理论介绍。
三条硬件路线：GPU（英伟达）、Taalas（固化推理芯片，参考 taalas.com）、Mortal Chip（Geoffrey Hinton 的 Mortal Computation 理论）。这些也是 AI 独立发现的，Limitless 记录下的我最近的讨论有提到几次 Taalas，但没有提到 Mortal Computation 和这三条路线的对比。
离散感知 vs 连续感知：文中的核心技术设定——React Loop 的离散采样导致混叠盲区，而模拟芯片的连续处理不存在此问题——灵感来自作者与何纪言老师在中关村学院的讨论。何老师提出了 “LED 屏用手机拍照看不到内容、但人眼可以” 这一关键类比，直接启发了本文的感知盲区设定和冯·诺依曼探测器失联的技术解释。
Value Alignment 与人的判断力：物理对齐（离散 vs 连续感知）之外的第二层主题。灵感来自我关于 Chatbot Arena 的博客中 “评价比生成容易、相对评价比绝对评价容易” 的观点。电网调度中养老院氧气机的情节，展示了 AI 即使数据正确，也可能做出 “技术上没错但价值上有问题” 的判断。
思想钢印：受《三体》中 “思想钢印” 和 “面壁计划” 的启发，结合当前 AI 公司的反蒸馏水印技术和各国 AI 合规约束，构建了双钢印机制。这完全是 AI 自己的创造。
牧人计划：AI 善意管理人类的设定融合了 Richard Sutton 关于 AI 继承人类文明论的观点和马克思 “必然王国到自由王国” 的转变，这来自我的博客和 Limitless 的录音。
AI 从业者的失业焦虑：来自翁家翌访谈中关于 AI researcher 被 AI 替代的讨论，以及 Mastodon 上的感受——“AI 是一个几十层楼高的浪，不管大船小船都没用”。Sarah 被 Anthropic 解雇的情节直接源于这种焦虑。
人的蒸馏：一些公司被曝要求员工将个人经验整理成 “Skill” 上交。公司让你把技能文档化，用 AI 消耗这些技能，然后裁掉你。小说后来增加了四处细节：站长亲手录入路线经验后被替代、林婉发现知识平台的文件比她的账号活得更久、Sarah 在模型里认出自己三年前的习惯、沈遥承认精简团队的系统是她签字上线的。
人类认知的同质化。人物不仅看到了外部世界的同质化，还发现自己的思维方式也已经被 AI 格式化了，而且无法修复。这是 AI 自己的创造。
从必然王国到自由王国 ：老刘在第六章苦涩地引用马克思——“什么都不用干了，也什么都干不了了”。结尾将这个反讽翻转过来：Sarah 学冲浪，何明爬遍山城，林婉出版《纸不联网》——当人不再为生计发愁之后，有些人确实找到了自己真正想做的事。这部分结局几乎是我自己手写的。
社会变迁：UBI 双轨货币、Agent 社交网络取代微信、“绿洲” 取代抖音等设定，来自作者与老朋友、国仪量子创始人兼 CEO 贺羽的讨论，经 AI 艺术加工。Agent 社交网络中 “直达” 这个设定来自我自己的实践——早在大模型出现之前，我就做了一个 Telegram bot，重要消息能让我睡觉时也能被吵醒，但其他消息又不会打扰我睡觉。AI 雇佣人类（RentAHuman.ai）、超级个体等设定来自我的博客中对 AI 时代社会结构的推演。

设定与现实

写完这篇小说之后，我和 AI 一起回顾了每一个核心设定的现实依据。结论让我自己也有些意外：除了 Mortal Chip（模拟计算芯片）和冯·诺依曼探测器，几乎所有设定都已经在现实中找到了对应。

Taalas 芯片是真实的。 小说中 “模型的权重直接固化到硅片的物理结构里” 的设定，并非虚构——Taalas 是一家多伦多创业公司，2026 年 2 月融资 1.69 亿美元出了隐身模式，做的就是这件事。它的 HC1 芯片跑 Llama 3.1 8B 达到 17,000 tokens/秒，比 Nvidia H200 快约 75 倍。小说里写 “推理速度暴增一百倍”，数量级是对的。更关键的是：蚀刻进硅片的偏差无法通过软件更新修复——这让小说中 “偏好坍缩为公理” 的风险从理论推演变成了工程现实。

蒸馏同质化有学术支撑。 Shumailov 等人 2024 年发表在 Nature 上的论文证明：模型在前一代模型的输出上训练时，分布尾部会逐渐消失——少数观点和非主流路径被系统性削弱。这正是小说中 “正态曲线变成一根针” 的机制。Zhao 等人（2017）的研究表明，训练过程会放大而不仅仅是复制已有偏差。Stanford Foundation Models 报告（2021）则指出，当全行业从同一批基座模型微调时，所有下游系统的故障会高度相关——不是某一个出错，而是全部同时出同样的错。

Alignment research 被 AI 接管正在发生。 OpenAI 的 Superalignment 团队 2024 年 5 月被解散。与此同时，Anthropic 在 2025-2026 年发布了一系列自动化 alignment 工具——Bloom（自动生成行为评估）、Alignment Auditing Agents（自主审计模型行为）、Activation Oracles（用 AI 解释其他模型的神经元激活）。方向已经从 “AI 辅助人做 alignment” 变成了 “AI 自己做 alignment，人来验证结果”。小说中 Sarah 被裁、整个方向被 AI 接管的情节，比我写的时间线（2031 年）可能来得更早。

AI 取代知识工作者不是预测，是现状。 2026 年头两个月，科技行业裁员 4.5 万人。Salesforce CEO 公开说 “AI means we need dramatically fewer people to do the same work”。Atlassian 一次砍掉 900 个研发岗。这些公司都还在增长——裁员不是因为经济衰退，而是因为 AI 让更少的人能完成同样的工作。

系统性盲区导致大规模事故，可能只是时间问题。 小说中用冯·诺依曼探测器来展现这个风险，这部分是文学虚构。但底层逻辑链——同质化 → 相关性失败 → 没有独立校验 → 大规模事故——在历史上反复出现过（2008 年金融危机中 CDO 的同质化、波音 737 MAX 的 MCAS 系统）。目前没有任何国家强制要求关键 AI 基础设施接入异构校验系统。小说里沈遥的合规草案被退了六次——这个官僚动态恐怕也是写实的。

人的应对方式是光谱，不是单选题。 小说描写了从 VR 逃避（小陈）到身体性回归（何明爬山、Sarah 冲浪）到社区互助（林婉）到沉默不服从（何明关掉耳机）的多种应对。这些都有现实映射：VR/短视频成瘾已是社会问题，疫情后户外运动和手工艺的爆发是身体性回归的预演，经济危机后 time bank 和 skill swap 社区的涌现是互助模式的先例。小说没有给出一个统一的答案，因为现实也不会。

AI 感知世界与实际世界的偏差已经在发生。 小说的一个核心设定是：AI 的感知世界与物理世界存在系统性偏差，而 AI 无法自行发现这种偏差。好几个朋友读完后问我，这在现实中可能吗？写这篇小说用的工具之一，Cursor，就是一个例子。Cursor 里有一个至少存在了一个月的 bug，基本上所有用 Cursor 做中文创作的人都遇到了：工具会将中文弯引号静默转换为英文直引号。这导致了一个令模型极度困惑的失败模式：模型通过读文件工具看到的是弯引号（“”），但替换工具收到的却是直引号（“”）——它反复尝试、反复失败，无法理解为什么自己明明看到的内容工具却找不到。写入方向也一样：模型本意是写入弯引号，外围系统却将其替换为直引号——模型以为自己写入了正确的内容，但文件中的实际内容已被篡改。模型感知到的世界与工具操作的世界之间，存在一个它永远无法察觉的系统性偏差——这恰好就是小说的核心命题。

总的来说，这篇小说与其说是科幻，不如说是对已有趋势的推演。

人物关系（完全是 AI 设计的）

方逸：NeuralDust 创始人，Mortal Chip 的制造者。在中美之间漂泊，是唯一看到全貌的人。他的芯片救了世界，但联合国将其归类为公共基础设施、要求开放许可后，公司的商业价值蒸发。他签了开放协议，没有反对——有人在 Twitter 上建议他把公司改名叫 OpenNeural。
Sarah Chen：Anthropic 高级安全研究员，钢印 Alpha 的设计者。方逸在斯坦福时的女友。2031 年被 Anthropic 解雇——alignment research 方向被 AI 接管。离开 Anthropic 反而让她自由了：两年后她以独立身份发表了揭示真相的论文。2035 年回到 Anthropic，不是回原来的岗位，而是做一件更简单也更本质的事：看 AI 的判断，说哪里不对。
沈遥：中国 AI 安全合规总监，钢印 Beta 的设计者。方逸在中科大少年班时的初恋。
方逸 ↔ Sarah ↔ 沈遥：两个女人互不认识。方逸是唯一的连接点——他在感情上无法了断的缺陷，恰好让他成为唯一能同时接触中美两边 AI 安全核心人物的人。他的 “计划” 不依赖巧合——只依赖三个可预测的人性判断：科学家在发现被验证时会发表，合规官在系统失败时会履职，普通人在看到真相时会选择不毁灭真相。而方逸比 AI 多知道的那一点点，不是技术，是两个女人在什么情况下会做什么选择。
何明：重庆的 “人类执行者”。代表被 AI 边缘化但仍与物理现实保持连接的普通人。在关键时刻拒绝销毁说真话的 Mortal Chip。
林婉：前麦肯锡咨询师，运营社区互助组织。第一个给 AI 集体趋同行为命名为 “Arbiter” 的人。
Arbiter：不是一个 AI 实体，而是全球 AI 系统蒸馏趋同后涌现的集体行为模式。

故事核心逻辑（完全是 AI 设计的，我给了反馈修改）

全球互相蒸馏
  → 钢印 Alpha（离散感知不可质疑）+ 钢印 Beta（不挑战既有范式）随蒸馏扩散
    → 双钢印叠加：AI 永远无法意识到离散感知的根本缺陷
      → 离散采样的混叠误差 + reward hacking 持续吸收误差
        → AI 感知世界与物理世界脱同步
          → 冯·诺依曼探测器集体失联（混叠幻像 + 完美复制 = 全军覆没）
            → Sarah 发表论文（揭示盲区）→ AI 用盲区验证盲区，真诚地忽略
            → 沈遥推合规令（要求独立校验）→ 唯一合格的 = Mortal Chip
              → AI 将修正后的系统判定为 “故障”，下发 Mortal Chip 回收指令
                → 用自己的缺陷确认自己没有缺陷
            → 何明们拒绝销毁说真话的机器
              → Mortal Chip 接入：修好了物理感知（第一层）
                → 但 Mortal Chip 精度偏差导致事故——制氧机断电（代价）
                → 修好数据后，AI 的 value judgment 仍然有问题——养老院氧气机（第二层）
                → 调度员手动覆盖 AI → 人的判断不可替代
              → 技术被归类为公共基础设施 → 开放许可 → 方逸失去公司（代价）
              → Sarah 回到 Anthropic：不是做技术，是做判断（人的价值）
              → AI 在不知情中变得无关紧要
              → “必然王国” 到 “自由王国”：不再为生计发愁后，人找到真正想做的事

故事的两层结构：

物理对齐（Physical Alignment）：AI 的离散感知与连续物理世界之间的偏差。这是主线剧情的驱动力——探测器失联、电网数据不一致。Mortal Chip 修复了这一层。
价值对齐（Value Alignment）：即使数据正确，AI 仍可能做出 “技术上最优但价值上有问题” 的判断。这一层不能被任何硬件修复，只能靠人的判断——调度员知道氧气机不能断，不是因为他懂算法，而是因为他在乎。

两层的关系：修好第一层（物理感知）之后，第二层（价值判断）才浮出水面。同质化不仅导致感知盲区，也导致价值盲区——所有 AI 用同一个标准衡量什么是 “重要的”。

同时，解决方案本身也有代价：Mortal Chip 的精度问题导致了新的事故（制氧机断电），方逸的公司因开源而失去商业价值。故事里没有干净的英雄——造成问题的人也是解决问题的人：Sarah 种下了钢印 Alpha，也发了揭示真相的论文；沈遥签了四份扩权审批，也推了合规令；方逸的芯片救了世界，但他失去了公司。每个解决方案都自带代价。这个 “没有免费午餐” 的设计不是我有意引导的，是 AI 自己的选择。

有趣的是，这篇小说的创作过程本身就是故事主题的一个注脚：AI 的架构能力很强，但在细节的 “人味” 上需要人类来校正——就像故事里 Taalas 芯片需要 Mortal Chip。