硅谷 AI 见闻：百万美金年薪的模型大战与创业公司的生存之道

（本文是笔者在 AWS re:Invent 2025 Beijing Meetup 上的受邀报告）

感谢 AWS 的邀请，让我有机会参加 AWS re:Invent 2025。在这次美国之行中，我不仅参加了这场全球顶级的技术大会，更有幸与 OpenAI、Anthropic、Google DeepMind 等硅谷顶级 AI 公司的多位一线从业者进行了深入交流，其中大多数观点都得到了不同公司专家的交叉验证。

从 Las Vegas 的 re:Invent 会场，到 San Diego 的 NeurIPS，再到湾区的 AI 公司，十几天的密集交流让我学到了非常多。主要包括以下几个方面：

AI 辅助编程（Vibe Coding）的实践经验： 分析了不同场景下效率提升的差异，从创业公司的 3-5 倍提效，到大厂和研究机构效果有限的原因。

基座模型公司的组织与资源配置： 分析了 Google、OpenAI、xAI、Anthropic 等公司的优劣势，包括算力资源、薪酬结构，以及模型团队与应用团队的合作现状。

Scaling Law 的一线视角： 一线研究员普遍认为 Scaling Law 并没有结束，与 Ilya Sutskever、Richard Sutton 等顶级科学家的公开言论存在分歧。工程方法可以解决 Sampling Efficiency 和 Generalization 问题，基座模型还有很大进步空间。

科学化的应用开发方法论： 介绍了顶级 AI 应用公司普遍采用的 Rubric-based Evaluation 体系。

Context Engineering 的核心技术： 讨论了应对 Context Rot 的三大技巧：动态系统提示、动态加载 Prompts（Skills）、Sub-Agents 与上下文总结。以及文件系统作为 Agent 交互总线的设计模式。

创业公司的战略选择： 基于资源和人才的现实约束，分析了创业公司应该避开的领域（通用 Benchmark）和应该专注的方向（垂直领域 + Context Engineering）。

一、 Vibe Coding（AI 编程）

1. 对 Vibe Coding 观点的两极分化

在与多家硅谷公司（包括顶级 AI Coding 创业公司、OpenAI、Google、Anthropic 等）的从业者深入交流后，我们发现一个共识：Vibe Coding 的效果呈现两极分化。

某些场景下，效率提升可达 4-5 倍，但另一些场景下，AI 几乎帮不上忙，甚至会帮倒忙。关键在于：任务性质、组织类型、代码类型的不同。

场景一：创业公司的 MVP 开发（效率提升 3-5 倍）

为什么起飞？

从 0 到 1 的原型开发：
- 最重要的是速度和寻找 PMF（Product Market Fit）
- 不需要在复杂的现有系统上修修补补
- 对代码质量要求相对较低，重点是快速验证
- 可以每周甚至每天上线新功能来快速试错
技术栈相对简单：
- 通常使用主流框架（React、Django、FastAPI 等）
- AI 在这些主流技术栈上的训练数据充足
- 大量 Boilerplate 代码可以直接生成
团队小，沟通成本低：
- 不需要跨部门协调
- 决策快，执行快
- Code Review 流程简单

典型任务：

CRUD 业务逻辑
简单的 API 开发
前端表单和页面
数据处理脚本

场景二：One-off Scripts 和 CRUD Code（所有公司适用，效率提升 3-5 倍）

通用的高效场景：

一次性脚本（One-off Scripts）：
- 数据分析脚本
- 数据迁移脚本
- 批量处理工具
- 用完即弃，对质量要求不高
胶水代码（Plate/Boilerplate Code）：
- 配置文件
- 数据转换层
- API 调用封装
- 测试用例生成

为什么效果好？

任务边界清晰，输入输出明确
不需要深入理解复杂的业务逻辑
即使出错，影响范围有限
即使是 OpenAI、Google 的研究人员，也大量使用 AI 写这类代码

场景三：大厂的日常开发（效率提升有限）

为什么效果打折扣？

编码时间占比低：
- 大厂工程师大部分时间不是在写代码
- 时间分配：开会 30%、扯皮/协调 20%、写文档 20%、定位 Bug 15%、写代码 15%
- AI 只能优化最后 15% 的时间
系统复杂度高：
- 需要深入理解现有架构
- 涉及多个团队的代码
- 需要考虑向后兼容
- AI 容易引入 regression
代码审查严格：
- 多轮 Code Review
- 需要通过各种 lint、测试
- 上线流程长
- 即使 AI 写得快，后续流程时间不变

适合 AI 的任务：

重构中的重复性工作
测试用例补充
简单的 Bug 修复
文档生成

场景四：Research Code（几乎不适用）

为什么 AI 帮不上忙？

智力密集型代码：
- 修改模型架构（如 Attention 结构）
- 调整训练算法
- 数据配比优化
- 可能只改 3 行，但需要想很久
AI 自己也不懂：
- 这些是前沿研究，训练数据中没有
- 需要深厚的理论背景
- 需要创新思考
- AI 目前无法替代
高度定制化：
- 每个研究项目都是独特的
- 不存在”标准做法”
- 需要大量实验和调试

研究人员使用 AI 的方式：

只用来写辅助脚本（数据分析、可视化）
不用来写核心算法
将核心逻辑留给人类

场景五：核心基础设施代码（不适用，可能帮倒忙）

为什么要谨慎？

性能敏感：
- 延迟要求极高
- 需要手动优化
- AI 生成的代码通常不是最优的
稳定性要求高：
- 任何 Bug 都可能导致大规模故障
- 需要对边界情况有深入考虑
- AI 容易遗漏 corner cases
安全性关键：
- 认证、授权相关代码
- 加密、签名逻辑
- 不能有任何疏漏

结论： 这类代码最好还是人来写

2. Vibe Coding 的最佳实践（来自硅谷一线团队）

如何防止 AI 把代码写乱？综合多家公司的经验，我们总结了一套工程化流程：

2.1 PR 行数限制

核心原则：单个 PR 严格控制在 500 行以内

对 AI 的意义：
- 过长的上下文容易导致幻觉和逻辑崩坏
- 任务边界清晰，AI 不容易”跑偏”
- 减少不同模块间的耦合风险
对人类的意义：
- 500 行是人类 Code Review 的认知极限
- 超过这个数量，Review 质量会大幅下降
具体标准（因场景而异）：
- 后端 / Agent 核心代码： 500 行
- 前端 React 代码： 可以放宽到 2000 行
- 测试用例： 可以超过 500 行（例如生成 100 个测试 case）
如何做到？
- 人的职责： 提前做好需求拆分和任务分解
- 这是 Vibe Coding 中”人的核心价值”之一

2.2 全自动化的多 Agent 协作工作流

业界领先的 AI Coding 公司的完整自动化流程：

Step 1: 自动触发编码

线上出现 Issue 或有新的 Feature 需求
系统自动创建 bug/feature ticket
自动触发 Coding Agent（如 OpenAI Codex 或 Claude Code）开始写代码

Step 2: “三堂会审”的 Review 机制

代码生成后，不会直接提交 PR
自动触发 3-5 个不同的 Review Agents 并行执行
这些 Agents 的配置：
- 不同的基座模型
- 部分是购买的第三方 Code Review 服务

Step 3: 自动化测试

同时运行自动化测试套件
包括单元测试、集成测试
测试必须全部通过

Step 4: 生成 PR 的条件

必须满足：
- 3-5 个 Review Agents 都认为”没有问题”
- 所有自动化测试通过
满足后： 自动生成 PR 并通知相关人员 review

Step 5: 人类 Final Review

人类做最后的 approve
检查 AI 可能遗漏的业务逻辑问题
检查是否符合项目整体架构
决定是否合并

对于简单问题： 这个流程可以做到完全自动化，人只需要做最后的确认即可

2.3 测试驱动的质量保障

核心理念： 把 AI 当作”不太靠谱的初级程序员”

完善的测试用例
- 必须有充足的测试覆盖
- 测试用例是 AI 代码的”安全网”
- 没有测试的代码不允许 AI 随便改
测试用例的保护
- 不能让 AI 随便删除或修改测试用例
- 只允许 AI 在指定的范围内修改测试
- 防止 AI 为了”让测试通过”而删除测试
Rubric-based Benchmark
- 建立内部的评测标准（类似第六章讲的 Evaluation）
- 针对不同场景有不同的评价指标
- 可以自动化打分，快速验证改动的效果

2.4 大型重构的处理方式

对于无法在 500 行内完成的大型重构或新特性开发：

人机协作流程：

人先写 Design Document
- 详细的技术设计文档
- 明确架构和模块划分
- 定义接口和数据流
任务拆分
- 根据 Design Doc 拆分成多个子任务
- 每个子任务控制在 500 行以内
人机分工
- 核心业务逻辑： 人来写
  - 对性能要求极高的部分
  - 对业务理解要求很深的部分
  - 涉及复杂架构决策的部分
- 边缘代码： AI 来写
  - 数据转换、格式化
  - API 调用的封装
  - 重复性的 CRUD 操作
  - 测试用例生成
迭代和集成
- AI 先写一版
- 人 review 后决定保留或修改
- 逐步集成，持续测试

2.6 Code Ownership 原则

核心原则： 每个人有明确的 Code Ownership

二、顶级 AI 公司的应用开发：”科学方法论”

这次与 Google DeepMind、OpenAI 和 Anthropic 的应用开发团队的交流，让我最大的震撼在于顶级 AI 公司做应用的科学性和严谨性。他们不是在”试”Prompt，而是在”测”系统。

虽然三家公司的具体实践有所不同，但核心理念高度一致：数据驱动、严格评估、持续迭代。

1. 严格的 Evaluation System（评估体系）

1.1 Rubric-based 评估的核心理念

顶级 AI 公司做应用不上线”凭感觉”，而是建立了一套 Rubric-based Evaluation System（基于细则的评估体系）。

上线标准：

系统会对每个 Case 的每个 Metric 进行自动化打分
任何版本上线前，所有 Metric 必须达到一定的指标
如果某项指标达不到，必须经过高层特批，并提交明确的后续整改计划

2. 数据飞轮与自动化迭代

2.1 测试数据集的构建与维护

专人负责数据集构造：

每个功能模块都有专门的测试数据集
有专人负责根据线上 Bad Cases 构造和维护数据集
持续更新，发现新问题就加入数据集

2.2 全自动化评测流程

评测周期：

通常需要几个小时跑完几百个 Cases
晚上提交任务，早上看结果

自动化打分：

使用 LLM 作为 Judge
每个 Metric 有专门的 Prompt 来评判
根据预定义的 Rubric 进行打分

Human Eval：

请人标注数据，评价结果
能达到超过 LLM Judge 的真人标注成本非常高

3. 基础模型团队与应用团队的分工

模型团队的优先级（Priority）：

四大 Benchmark：
- Math（数学能力）
- Coding（代码能力）
- Computer Use（电脑操作）
- Deep Research（深度研究）
长期模型能力提升：
- 智力提升
- 通用能力增强
- 这些是他们认为对模型长远发展最重要的
垂直领域需求：
- 排在非常低的优先级
- 基本不会被响应

共同特点：应用团队难以影响模型团队

重要启示：基座模型公司内部做应用 ≈ 外部创业公司做应用

都面临同样的限制：
- 用同样的基座模型 API
- 无法影响模型训练方向
- 无法要求针对性优化
基座模型公司 App 团队的两个优势：
- 可以更方便地找到模型团队 Review Prompt，改进 context engineering。但创业公司也有机会找到基础模型厂商的工程师，例如 AWS re:Invent 就提供了与 Anthropic 面对面讨论的机会，在 Anthropic 展台前他们的工程师给了非常多具体的 Agent 优化建议。
- Token 成本走内部计价，比外部公司调用 API 便宜很多。例如 Cursor 的 API 成本远高于 Claude Code 的订阅费用
外部创业公司的优势：
- 可以用多家模型： Google 内部只能用 Gemini
- 可以做 Mashup Agent： OpenAI + Anthropic + Gemini 混用
- 更灵活的技术选型

三、硅谷巨头众生相：优势、劣势与内幕

1. Google DeepMind：四大优势与两大软肋

优势一：创始人高度重视 + 强大的组织能力

Sergey Brin 回归：
- ChatGPT 发布后，Google 联合创始人 Sergey Brin 亲自重返公司
Demis Hassabis 的领导力：
- DeepMind CEO，技术和管理都极强
- 能把几千名聪明人凝聚到一起
- 避免了严重的内耗和政治斗争
- 虽然也有合并带来的一些摩擦，但整体团队向心力强
和其他公司的对比：
- Meta： 扎克伯格不亲自管 AI，下放给 Alexandar Wang，Alexandar Wang 也不亲自管细节，又下放给团队
- 微软、苹果： 高层对 AI 技术细节的理解有限
为什么 Gemini App 被并入 DeepMind？做应用本质上是 Research：
- 需要科学的方法论
- 需要大量实验和数据驱动
- 需要完善的 Evaluation 体系
- 这和做 Research 的思维模式一致

优势二：算力资源碾压

TPU + GPU 双轨：
- 自研的 TPU，有持续的产能
- 多年采购的 Nvidia GPU 积累
- 总算力可能是 OpenAI 的数倍
模型规模的优势：
- OpenAI 主力模型： GPT-4o 系列，几百 B 参数
  - 虽然演进了几代，但参数规模一直没有大幅增加
  - 主要通过 Test-time Scaling（思维链）提升能力
- Google 的模型：
  - Gemini 2.5 Pro / 3 Pro：数 T 参数，比 OpenAI 主力模型大一个数量级
  - Gemini 3 Flash 的参数规模就和 GPT-4o 差不多，比 Gemini 2.5 Flash 大很多
为什么 OpenAI 不用更大的模型？
- 算力不够：训练和 Serving 都需要大量资源
- 用户太多：ChatGPT 仍是 AI 行业的招牌，超过 10 亿用户，API 调用量巨大
- Gemini 的用户量约 6 亿，API 调用量约为 OpenAI 的 1/5
- 所以 Gemini 可以”任性”地用更大的模型

优势三：人力资源充足

典型案例：图片生成模型的团队对比

Nano Banana Pro（Gemini 的图片生成模型）：
- 算法团队：不到 10 人
- 数据、infra 团队：近 1000 人
OpenAI 的对应模型：
- 算法团队：不到 10 人
- 数据 + Infra 的人数：差一个数量级
人多的优势体现在哪？
- 可以针对特定场景构造大量训练数据
- 例如：原理图、九宫格图片等
- 这些都需要人工标注和构造数据
- 今天的基座模型仍然高度依赖人类构造的数据，光靠互联网数据是远远不够的

优势四：生态入口的天然优势

浏览器（Chrome）：
- 右上角直接集成 Gemini 按钮
- 比 ChatGPT Atlas、Perplexity Comet 浏览器体验更好
- 可以直接问当前页面的问题，总结长文
Workspace 集成：
- Google Calendar：可以让 Gemini 订日历
- Google Drive：可以让 Gemini 读写文档
- Gmail：可以让 Gemini 处理邮件
- 这些都是天然的用户基础
YouTube 数据：
- 多年积累的视频数据
- 多模态训练的宝贵资源
搜索引擎：
- Google Search 直接展示 AI Summary
- 成为新的流量入口

劣势一：大公司的效率问题

流程冗长：
- 做数据集、Evaluation 需要大量时间
- 产品迭代速度远不如创业公司
- 对比：OpenAI（中型公司）的迭代速度都比 Google 快
内部人员的感受：
- 他们最担心的就是 OpenAI 和创业公司的速度
- 自己虽然资源多，但是”船大难掉头”

劣势二：只优化通用需求，不做垂直领域

模型团队的优先级：
1. 通用 Benchmark
2. 模型智力和长期能力提升
3. 垂直领域需求基本没有精力响应
这对创业公司意味着什么？
- 机会窗口： 垂直领域是创业公司的机会
- Google 不会来抢： 目前来看，细分场景也需要大量 context engineering 工作，不是通用数据飞轮就能搞定的
- 技术平等： 我们用的模型和 Gemini App 团队用的一样
- 创业公司甚至有独特优势： 可以灵活选择和混用不同厂商的 SOTA 模型（OpenAI + Anthropic + Gemini），针对不同场景、不同 subagent 用最合适的模型，还可以让多个模型互相 review 提升可靠性。而 Google 内部团队只能用 Gemini，OpenAI 团队只能用 GPT，这种限制反而让基模公司做出的 Agent 能力还不如外部团队做出的 Agent

2. OpenAI：焦虑、学术包袱与资源困境

焦虑的来源

品牌虽强，但压力巨大：
- 虽然是 AI 的”扛把子”，品牌认知度最高
- 但内部非常焦虑 Google 的追赶
- Google 在资源、算力、数据上都占优

人才结构的问题

招了太多学术背景的人：

学术思维 vs. 工程思维的冲突：
- 学术人员想验证自己的学术想法
- 但这些想法在工程上可能不实用
- 在 xAI 这绝对不会发生，Elon Musk 不会允许这样做
资源分配的矛盾：
- 2023 年 Ilya Sutskever 等核心科学家离职
- 主要原因：认为 Sam Altman 资源分配不公
- 太多资源用于 Serving 线上用户，训练新模型的资源不足

算力资源的困境

OpenAI 的两难：
- 用户最多： 超过 10 亿用户
- 算力有限： 不如 Google 富裕
- 必须权衡： 在训练和 Serving 之间平衡
对用户体验的妥协：
- 早期 ChatGPT Plus（$20/月）暴力截断 Context
- Context Window 只有 32k tokens
- 导致严重幻觉：丢了前面的上下文，后面全是胡说
- 我当时的体验：传一本书让它总结，前几页还行，后面全是幻觉
- 所以我后来不订阅，直接调 API
大小模型路由的争议：
- GPT-5 搞自动路由，小问题用小模型
- 但路由不准确，重要问题被分到小模型
- 用户看不到是哪个模型在回答
- 体验下降，引起很多投诉

OpenAI 的优势：Codex

Codex 做得确实好：
- 代码生成能力很强
- 针对真实使用场景做了大量优化
- 不只是针对 Benchmark

3. xAI (Elon Musk)：极致卷与零容忍的结果导向

“No Research Engineer, only Engineer”

Elon Musk 的宣言：
- 我们没有 Research Engineer，只有 Engineer
- 意思：不要搞学术研究，只要工程结果
和 OpenAI 的对比：
- OpenAI 有大量学术背景的人浪费资源尝试一些论文里面的 idea，导致工程交付 delay
- xAI 绝对不允许这种情况发生

工作强度：全员 70+ 小时/周

“绝不让机器等人”的文化：
- 工程师每周工作 70 小时以上是常态
- 为了不浪费训练时间：
  - 晚上 12 点爬起来看 Loss 曲线和各种指标
  - 发现有问题立刻 resubmit
  - 否则第二天又浪费十几个小时
对比其他公司：
- OpenAI、Anthropic、DeepMind： 核心团队普遍 60+ 小时/周
- xAI： 全员 70+ 小时/周，每天都要来办公室
- Google 非核心部门： 一周上 3 天班

4. Anthropic：专注 Coding 和 Agents

战略聚焦：

第一优先级：Coding
第二优先级：Agents（包括 Computer Use）

在御三家和 xAI 中，Anthropic 的研究氛围是最浓厚的。 例如 Anthropic 在可解释性方面，有一系列经典 blog。

Anthropic 在开发者社区建设上做得最好： 从技术输出到实际支持，Anthropic 都展现出了对开发者的重视和帮助意愿。

领先的技术创新：

Claude Skills：
- 虽然看起来是 Claude 的功能，但本质是通用技术
- 其他模型也可以学习和实现类似机制
- 展示了 Context Engineering 的最佳实践
Artifacts：
- Anthropic 最早提出的交互模式
- 现已成为行业标准
- 很多产品都在学习和模仿
Claude Code：
- 目前最好用的 Coding Agent
- 在实际开发中表现最稳定
- Context Engineering 做得最到位

丰富的公开资源：

大量 Context Engineering 的公开文档和教程
技术博客和论文分享
开发者指南和 Cookbook

对 Startup 的实际支持：

Anthropic 非常愿意帮助创业公司优化 Context Engineering，很多 Startup 都有途径直接获得他们的帮助。

个人经历分享：

在 AWS re:Invent 的 Expo 上，我们在 Anthropic 的展台前聊了一下午。Anthropic 的工程师给了非常多、非常具体的 Context Engineering 优化建议，针对我们的具体业务场景：

如何设计 Evaluation 体系
如何设计 Sub-Agent 架构
如何优化 System Prompts
如何利用 Skills 机制

这种实打实的技术支持，对创业公司来说非常宝贵。他们不仅提供工具，更愿意帮助开发者用好工具。

5. 薪酬与人才战争：AI 的”军备竞赛”

天价年薪的真相

刚毕业的 Top PhD：
- 年包：$150-200 万美元
- 条件：研究水平比较高
- 大部分是 Options（期权），但 OpenAI 已经很大，可以兑现
在 Top AI 公司经验有一些经验的算法工程师：
- 年包：$400-500 万美元
- 条件：在 Top AI 公司有一定经验，或者有一些知名的学术工作
Meta Super Intelligence 级别的大神：
- 年包：超过 $1000 万美元/年
- 主要是 Meta 股票（可以兑现）
- “一亿美金招聘”的新闻是真的
第一波薪酬拉升：
- Meta 的 Super Intelligence 团队开始疯狂挖人
- 把整个市场的薪酬水平拉起来了

AI vs. 非AI 的薪资差距

同级别工程师，3-4 倍差距：
- 非 AI 工程师： $25-30 万/年（Google 正常水平）
- AI 工程师： $100 万+/年
- 差距是 3-4 倍
这意味着什么？
- 会 AI 和不会 AI，薪资天差地别
- 行业已经高度分化

Marketing 投入巨大

旧金山机场出来： 高速公路两侧几十公里，几百个广告牌，基本全是 AI 公司
Snowflake 等传统公司也在讲 AI 故事
有趣的广告：
- Redis： “My boss really wants you to know we’re an AI company”
- （我老板非常想让大家知道我们是AI公司）
- 所有公司都在往 AI 靠

AI 人才战：类比团购大战，但玩法完全不同

当年团购 vs. 现在 AI：

团购大战（互联网时代）：
- 钱花在：招运营、做地推、打广告
- 核心是：抢市场、抢商户、抢用户
- 人海战术，谁的运营团队大谁赢
AI 大战：
- 钱花在：招顶尖人才 + 买 GPU
- 核心是：训模型、拼算力、抢人才
- 精英战术，谁的研究团队强谁赢

资源投入的数量级对比：

基座模型公司的核心 Research 团队：
- 人均算力配置： 500-1000 张 GPU/人
- 人均薪酬： 超过百万美元/年
- 人的薪酬和卡的成本在同一数量级

基座模型公司的资源困局：只能做”大事”

资源多 = 必须做影响最大的事：

每个人的机会成本极高：
- 必须做能影响数亿用户的通用能力
- 不能让这些人去做垂直领域的小场景
为什么不做垂直领域？
- 垂直领域市场小，ROI 算不过来
- 让年薪几百万的人做一个垂直行业？投入产出比太低
只能聚焦通用能力：
- Math, Coding, Computer Use, Deep Research 等
- 这些是影响所有用户的基础能力，这才配得上他们的资源投入

结论：这是创业公司的机会窗口

6. 对创业公司的战略启示：如何在巨头夹缝中生存？

启示一：不要和基座模型公司正面硬刚

Startup 千万不要碰的领域：

通用 Coding Agent
通用 Deep Research
通用 Computer Use

为什么 Startup 会输？

招不起人：
- 真正懂模型训练的人，年薪非常高
- Startup 融资几百万到几千万美元
- 招几个人，钱就没了
算力不够：
- 训一个通用模型，即使是后训练，也需要几百到几千张卡
- Startup 租不起这么多卡
数据不够：
- 通用能力需要海量高质量数据
- 大厂有生态优势（YouTube、Web Search）
- Startup 拿不到这些数据

结论： 除非是含着金钥匙出生，否则不要碰通用领域

启示二：不要轻易碰模型训练

模型训练的门槛极高：

真正懂模型的人太贵：
- 这些人都在大厂，不会轻易出来
- Startup 根本挖不起
中等水平的人，做不出竞争力：
- 训练模型需要大量 trial and error
- 新手很容易把钱烧光，模型还没训出来
开源模型 + 微调的困境：
- 开源模型质量比闭源落后 2 代（大约落后半年到一年）
- 开源模型在 benchmark 上的领先不意味着在实际生产环境中的领先
- 闭源模型往往有内部的 benchmark，对实际用户的使用场景做了大量优化
- 在开源模型基础上微调很难弥补这个 gap
- 除非是极度偏门的垂直领域

什么时候可以考虑训练？

只针对特定场景的小模型（如 8B/32B）
领域比较偏门，通用模型能力不足
有明确的数据优势

启示三：Startup 的最佳人才战略

核心原则：招聪明、学习能力强，但没有 AI 背景的人

为什么这个策略有效？

AI 领域发展太快，复利效应弱：
- AI 的最佳实践每 3-6 个月就变一次
新人可以快速走到前沿：
- 聪明 + 学习能力强 + 肯钻研
- 6-12 个月就能达到业内中等偏上水平
- 不需要 PhD，不需要大厂背景
成本优势巨大：
- 5-10 倍的成本差距

启示四：Startup 应该做什么？垂直领域

核心战略：Go Vertical（聚焦垂直领域）

巨头不会为每个细分领域优化，这是 Startup 的机会窗口。需要建立三大核心能力：

1. 专业的 Context Engineering

这不是简单的工作，需要非常专业的技能：

巨头不会为每个细分领域投入这么多精力
需要深入的领域知识（Domain Knowledge）
需要和客户反复打磨（Customer Iteration）
这些是大公司不愿意/做不了的

2. 构建 Domain Knowledge Base（领域知识库）

通用 LLM 不懂你的行业，知识库是竞争优势：

数据和知识的积累需要时间
竞争对手很难短期内复制
随着时间推移，优势会越来越大

3. 针对实际业务场景建立 Feedback 数据飞轮

从第一天就要考虑数据飞轮，这决定你能走多远：

捕获用户的真实交互和反馈
从生产环境的失败中学习
用真实数据优化 Prompt 和知识库
持续改进 Agent 性能

启示五：保持心态，等待你的 Wave

不要被 AI 人才的天价薪酬焦虑

看到 AI 人才动辄百万甚至千万美元的年薪，很容易产生焦虑和挫败感。但我们需要理性看待这个现象：

每个人和公司都有不同的发展阶段：

他们为什么能拿这么高的薪酬？
- 因为他们赶上了这一波 Wave
- 在正确的时间，做了正确的事情
- 积累的技能刚好匹配当前的需求

关键是：Stay Relevant

在没有 Wave 的时候，不要放弃：
- 踏踏实实把基础打好
- 例如，不要认为别人 CV/NLP 的积累在 LLM 时代是没用的
- 不要因为暂时看不到机会就躺平
把团队准备好：
- 组建一支工程能力强、学习能力强、凝聚力强的团队
Stay Relevant：
- First Principle Thinking（第一性原理思考）
- 紧密跟踪最前沿的产品和研究
Stay Ahead of the Curve：
- 预判模型和产品的趋势
- 当 Wave 来临时，你已经准备好了
等待并抓住你的 Wave：

当机会来临时，你是否能够快速做出产品来，并能快速 go to market？
当用户量迅速增长时，你的数据飞轮构建起来了吗？ChatGPT、Gemini App、Cursor 都是有数据飞轮的。

7. 硅谷 AI 圈的工作常态

核心团队普遍高强度工作

每周工作时间：
- OpenAI、Anthropic、DeepMind 核心团队：60+ 小时
- xAI：70+ 小时
- Google 非核心部门：<30 小时（摸鱼）
为什么这么卷？
- 训练模型是周期很长的事情
- 提交一个 Task，几小时后可能崩了
- 如果不及时处理，又浪费十几个小时
- 所以大家都很重视不浪费机器时间

典型的一天

下午 5-6 点：
- 准备下班前，提交一个训练任务
- 回家吃饭
晚上 12 点：
- 爬起来看一眼结果
- 发现崩了，赶紧调整
- 可能弄到凌晨 2-3 点
- 重新 submit
第二天早上：
- 到公司看结果
- 如果昨晚没处理，又浪费了一晚上

不同公司的文化差异

Anthropic：
- 只要求 25% 时间在办公室
- 但工作任务很重，实际每周工作时间在 60 小时以上
xAI：
- 必须每天到办公室
- 极致的执行力和纪律
Google 非核心部门：
- 一周只上 3 天班
- 但 AI 核心团队完全不是这样

8. Scaling Law：一线研究员 vs. 顶级科学家的认知分歧

在与多家顶级 AI 公司的一线研究员交流后，我发现一个有趣的现象：Top 公司的一线研究员普遍认为 Scaling Law 并没有结束，这与 Ilya Sutskever、Richard Sutton、Yann LeCun 等顶级科学家的公开言论存在明显分歧。

为什么会有这种分歧？

一线研究员认为，Ilya、Sutton、LeCun 等大神虽然是学术界的泰斗，但相对脱离一线工程实践。他们指出的问题确实都很重要：

RL 的 Sampling Efficiency（采样效率）问题
模型的 Generalization（泛化能力）问题

但一线研究员的态度是：这些问题都有工程上的解法。

工程方法如何解决这些问题？

1. Sampling Efficiency 差 → 算力来补，大力出奇迹

RL 的采样效率确实比 Supervised Learning 低很多
但只要有足够的算力，暴力采样也能 work
这正是顶级公司砸钱买 GPU 的原因之一

2. Generalization 差 → 人工构造领域数据 + RL 环境

一线研究员的总结：

Midtrain / SFT： 人工构造高质量的领域数据进行继续训练
领域数据集： 针对具体场景收集和标注数据
Sim Env（模拟环境）： 构建仿真环境，让模型在可控环境中学习
Rubrics-based Reward： 基于评分细则的奖励机制，而不是简单的 binary feedback

这套方法论可以解决大量实用领域的问题，虽然不是”银弹”，但工程上确实 work。

基座模型还有很大的进步空间

一线研究员的共识：不管是 Pretrain 还是 Posttrain，都没有看到天花板。

发布节奏： 目前每半年发布一个大版本
能力提升： 每个版本都有明显的能力跃升
预期： 还有很大的进步空间，不必过于悲观

理想化的 Continual Learning 确实还在 Research 阶段

Ilya、Sutton 所描述的那种不需要人干预、自主持续学习的理想化 Continual Learning，一线研究员承认目前确实处于 Research 阶段，没有这么理想的方法。

但关键是：工程上的方法都是能 work 的。虽然需要人工干预和大量工程投入，但能产出实际的效果。

具体细节上，不同公司的认知差异很大

有意思的是，在具体的技术细节上，不同公司的人的理解和认识不太一样，有些人搞通了，有些人还没搞通：

案例一：RL 中的 Learner-Sampler Mismatch 问题

部分研究员认为： 这个问题对较大尺寸模型的训练稳定性有很大影响，需要特别处理
另一部分研究员认为： 在实践中没有遇到太多此类问题，影响不大

案例二：Linear Attention / Hybrid Attention

部分研究员认为： Linear Attention 会降低基座模型的 CoT 能力和 Instruction Following 能力，不太 scale，不建议用
另一部分研究员认为： Linear Attention Layer 强迫模型从 Context 中压缩提取知识，压缩成一个 Compact Representation 本身就是学习知识的过程，对模型整体的 in-context learning 能力不仅没有损害，反而是有帮助的

小模型验证 → 大模型 Scale 的共识

虽然具体细节上的认识不同，但一线研究员有一个强共识：

每一项技术在小规模模型上能 work，在大规模模型上不一定能 work。

典型的实验路径：

4B/8B 规模： 先在小模型上验证想法是否可行
GPT-OSS 规模（例如 GPT-OSS 120B A20B）： Scale 到中等规模，看是否还能 work，以及在 MoE 模型下是否能 work
生产尺寸： 最终 Scale 到最大规模的生产模型

这也是为什么顶级公司需要那么多算力： 不仅要训练大模型，还要训练大量小模型来做实验。

四、核心技术实践：Context Engineering 与文件系统

1. Context Engineering（上下文工程）

这是 Anthropic 团队重点强调的技术方向，也是我们和 Anthropic 专家在 re:Invent 会场深入讨论的核心话题。

定义： Context Engineering 是优化 token 效用以对抗 LLM 固有约束的学科(“The discipline of optimizing the utility of tokens against the inherent constraints of LLMs”)

1.1 Context Engineering 的完整框架

Anthropic 提出了一个系统化的 Context Engineering 框架，包含四个核心维度：

维度一：System Prompt（系统提示）

核心原则：”Say less, mean more”（少说，但意思更明确）
- 使用最少但最精准的指令
- 采用清晰、简单、直接的语言
- 结构化组织内容
- 把握合适的抽象层次（不太死板，也不太模糊）

维度二：Tools（工具设计）

核心原则：”Every tool earns its place”（每个工具都要证明其价值）
- 自包含（独立的），无重叠，目的明确
- 明确的参数定义
- 简洁且清晰的描述
- 清晰的成功/失败模式

维度三：Data Retrieval（数据检索）

核心原则：”Load what you need, when you need it”（按需加载）
- JIT Context（Just-In-Time 上下文）
- 平衡预加载和动态获取
- Agent 可以自主获取数据
- 设计良好的检索工具
- “Don’t send the entire library. Send a librarian.”（不要发送整个图书馆，发送一个图书管理员）

维度四：Long Horizon Optimizations（长期任务优化）

核心策略：
- 历史的压缩策略（Compaction strategy）
- 结构化的笔记记录（Structured note-taking）
- 适时使用 Sub-Agent 架构

1.2 Data Retrieval 的范式转变

旧方法：Pre-Loading（传统 RAG）

预先加载所有可能相关的数据

新方法：Just-In-Time（即时加载）

这是 Context Engineering 最重要的转变之一，包含三个核心策略：

策略一：Lightweight Identifiers（轻量级标识符）

原理：
- 传递 ID，而非完整对象
- Agent 在需要时才请求详细信息
示例：
- 传 user_id: "12345"
- Agent 需要时调用 get_user()
- 获取完整用户资料

策略二：Progressive Disclosure（渐进式披露）

原理：
- 从摘要开始
- Agent 根据需要深入
示例：
- 文件列表 → 文件元数据 → 文件内容

策略三：Autonomous Exploration（自主探索）

原理：
- Agentic Search：提供发现工具，而非数据转储
- Agent 自主导航信息空间
示例：
- search_docs() + read_doc(detail_level)
- 而不是加载所有文档

1.3 Context Window 与 Context Rot

Context Window 的限制：

所有前沿模型都有单次交互能处理的最大 token 数限制
Anthropic 的 context window 是 200k tokens

什么是 Context Rot（上下文腐化）？

随着上下文增长，输出质量会下降。主要原因包括：

Context Poisoning（上下文污染）： 相互冲突的信息破坏推理
Context Distraction（上下文干扰）： 无关信息转移注意力
Context Confusion（上下文混淆）： 相似项变得模糊
Context Clash（上下文冲突）： 指令相互矛盾

研究结论： 所有模型在长上下文上都会出现性能下降（Chroma Technical Report: Context-Rot: How Increasing Input Tokens Impacts LLM Performance）

1.4 三种长期任务策略

当任务超过 context window 容量时的解决方案：

策略一：Compaction（压缩）

做法：
- 定期总结中间步骤和/或压缩历史
- 用压缩的摘要重置上下文
- 只保留关键信息
权衡：
- 牺牲部分细节换取持续操作能力
示例：
- “用户想要 X，尝试了 Y，学到了 Z” vs. 完整对话

策略二：Structured Memory/Note-taking（结构化记忆/笔记）

做法：
- Agent 维护显式的记忆工件（外部持久化存储）
- 存储”工作笔记”：决策、学习、状态（结构化格式）
- 按需检索，而非保留在上下文中
示例：
- 决策日志
- 关键发现文档

策略三：Sub-Agent Architectures（子代理架构）

做法：
- 将复杂任务分解为专门的 Agent
- 每个 Sub-Agent 有专注、清晰、狭窄的上下文
- Main Agent 编排并综合结果
示例：
- Code-review Agent 启动 doc-checker Sub-Agent

1.5 Skills 机制的工作原理

什么是 Skills？

Skills 是包含指令、脚本和资源的组织化文件夹，Claude 可以动态发现和加载。

Progressive Disclosure 的实现：

pdf/SKILL.md (主文件)
├── YAML Frontmatter (name, description)
├── Overview (概述)
└── References: "For advanced features, see /reference.md"

pdf/reference.md (详细参考)
└── Advanced PDF processing features...

pdf/forms.md (专门功能)
└── PDF form filling instructions...

Discovery： Claude 导航并根据需要发现更多细节
Executable Scripts： Token 高效，对于用传统代码更好完成的操作提供确定性可靠性

Skills 在不同产品中的应用：

Apps： 自动调用，最佳用户体验
Developer Platform： 通过 Code Execution API 部署到产品
Claude Code： 自动调用，适合开发者工作流

1.6 Tool Design 最佳实践

优秀工具设计的要素：

简单准确的工具名称
详细且格式良好的描述
- 包含工具返回什么，如何使用等
避免过于相似的工具名称或描述
工具执行单一操作效果最好
- 尝试最多 1 层嵌套参数
提供示例 - 期望的输入/输出格式
注意工具结果的格式
测试你的工具！ 确保 Agent 能很好地使用它们

1.7 Context Engineering 的实战案例

案例 1：Deep Research Agent

问题：
- 需要阅读大量文档
- 需要多轮搜索和分析
- Context 很容易爆炸
解决方案（应用 Progressive Disclosure）：
- 阶段 1（搜索）： Main Agent 规划搜索策略
- 阶段 2（分析）： Sub-Agent 分析每篇文档
  - 只接收文档 ID 和分析目标（Lightweight Identifiers）
  - 需要时才读取完整文档
- 阶段 3（综合）： 新的 Agent 综合所有分析结果
  - 读取所有 Sub-Agent 写的分析文件（Structured Memory）
  - 生成最终报告

案例 2：Coding Agent

应用 Context Engineering 框架：
- System Prompt： 明确的编码规范和架构指引
- Tools： ls, read, write, edit, grep, bash 等自包含工具
- Data Retrieval： 通过 grep/search 按需加载文件，而非预加载整个代码库
- Long Horizon： 用文件系统记录决策和状态，Sub-Agent 处理独立文件修改

1.8 有效建立和维护上下文的收益

挑战	解决方案	收益
Handle context window limits	Compaction, Sub-Agents, Structured Memory	Reliability（可靠性）
Reduce context rot	Progressive Disclosure, JIT Loading	Accuracy（准确性）
Optimize for prompt caching	Structure context properly	Cost & Latency（成本与延迟）

1.9 不同模型的 Context Engineering 策略

Claude (Anthropic)：

✅ 优先使用 Skills 机制
✅ 动态加载 Prompts 效果最好
✅ 训练时专门优化了动态上下文更新场景
✅ 支持 Progressive Disclosure

GPT (OpenAI) 和 Gemini (Google)：

❌ 不推荐动态加载（效果不好）
✅ 所有规则在开头的 System Prompt 中定义好
✅ 使用 Sub-Agent 来隔离任务
✅ 需要新规则时，总结 + 新 Agent
✅ 但 Progressive Disclosure 和 JIT Loading 等策略仍然适用

通用建议：

充分利用每个模型的特性
不要硬套其他模型的最佳实践
四个维度的框架（System Prompt, Tools, Data Retrieval, Long Horizon）是通用的
根据具体场景选择合适的模型

2. 文件系统作为 Agent 的交互总线

Anthropic 的核心观点：Coding Agent 是所有通用 Agent 的基础。

Manus 在一篇上下文工程的经典文章中，也指出文件系统是 Agent 的核心。

3.1 为什么要用文件系统？

Tool Call 一次输出大量内容的问题：

不稳定：
- Tool Call 一次输出几百行
- 如果中途中断，前面的工作全白费
- 无法恢复
不可迭代：
- 输出就是输出，无法修改
- 想改某一段，需要重新生成全部
- 无法做”草稿-修改-定稿”的流程

文件系统的优势：

持久化：
- 写入文件后，内容被保存
- 即使 Agent 崩溃，文件还在
- 可以恢复继续
可迭代：
- 可以读取文件，修改某一部分
- 可以多次修改，逐步完善
- 就像人写文档一样
通用性：
- ls：列出文件
- read_file：读取内容
- write_file：写入内容
- edit_file：修改内容
- delete_file：删除文件
- 所有模型都理解这些操作

3.2 Coding Agent 作为基础能力

为什么说 Coding 是基础？

广义的 Coding：
- 不只是写 Python/Java 代码
- 包括写文档、写报告、写任何结构化内容
- 核心是：文件的读写和编辑
Deep Research 的案例：
- 需要生成一份长研报
- 错误做法： 一次性用 Tool Call 输出整个报告
  - 几千行内容，容易中断
  - 写完后无法修改
- 正确做法： 使用文件系统
  - 先写第一章 -> write_file("report.md", ...)
  - 调研更多信息
  - 写第二章 -> append_file("report.md", ...)
  - 发现第一章需要修改 -> edit_file("report.md", ...)

所有主流模型都有很强的 Coding 能力

3.3 Main Agent 和 Sub-Agent 的信息传递

为什么用文件系统而不是函数调用？

函数调用的限制：
- 需要序列化复杂数据结构
- 字符串长度有限制
- 不够灵活
文件系统的优势：
- Main Agent： 写入任务描述和输入数据到文件
- Sub-Agent： 读取文件，执行任务，写回结果文件
- Main Agent： 读取结果文件，继续下一步
- 清晰的输入输出边界，就像 Unix 管道

五、重点 Q&A 实录

Q1: 垂直领域做微调（Finetune）还是用闭源模型？

结论：闭源模型 + Context Engineering > 开源模型 + Finetune

理由：

知识密度差距：
- 闭源模型领先开源模型两代
- 训练数据质量更高
- 参数效率更高
思维密度的差距：
- 开源模型（如 Qwen、Kimi）思维链特别长
- 需要靠延长思考时间来换效果
- 闭源模型的 CoT 更紧凑高效
泛化能力的差距：
- 开源模型主要针对公开 Benchmark 优化
- 在非 Benchmark 场景泛化能力较弱
- 闭源模型有大量内部 Benchmark，泛化更好

什么时候用开源 + 微调？

领域极其偏门：
- 公网上基本没有相关数据
- 必须通过微调注入领域知识
数据隐私要求：
- 不能把数据发到国外
- 必须本地部署
成本极度敏感：
- 用量巨大，API 成本难以承受
- 自己部署开源模型更划算

MiniMind 微调的案例：

实验背景：
- 100MB 的超小模型
- 尝试微调复杂对话数据
失败原因：
- 数据太难了，超过了模型能力
- 小模型只能学简单知识（如”北京是中国首都”）
- 学不会复杂的逻辑推理
教训：
- 要用适合模型能力的数据
- 官方 MiniMind 训练数据都是小学水平的知识
- 太难的数据会导致模型训崩

Q2: 个人化（Personalization）是真问题吗？

是真问题，而且是未来的核心竞争力

为什么重要？

推荐系统的演进：
- 传统：人人日报，大家看一样的内容
- 字节：每个人看到的都不一样
- 字节认为：每个人生活在不同的世界，有不同的价值观
- 这种个性化产品更符合人性，用户更愿意用
AI 的未来也是如此：
- 不应该只有一个 Universal Value（普世价值）
- 应该适应每个用户的价值观和偏好
- 细节上的价值观差异很大

技术难点：

Factual Information（事实信息）相对容易：
- 生日、地址、卡号、工作信息
- 记住就行，没有歧义
- 我们已经做得不错
User Preference（用户偏好）非常难：
- 上下文依赖性强：
  - 用户在写论文时要求学术格式
  - 不代表写旅游攻略也要学术格式
  - AI 容易过度泛化偏好
- 一次性行为 vs. 长期偏好：
  - 用户说”昨天我点了川菜”
  - 不能记成”用户喜欢吃川菜”
  - 可能只是朋友喜欢，或者一时兴起
- 需要极精细的 Evaluation：
  - 必须有数据和测试来平衡
  - 不能靠感觉

Q3: 端云协同 Agent 的前景和挑战？

前景：必然趋势

为什么需要端云协同？
- Agent 需要在后台持续运行
- 不能占用前台（用户还要用手机）
- 云端算力更强，可以运行大模型

核心挑战：APP 状态同步

登录状态的问题：
- 用户在手机上登了微信
- 云端 Agent 也要登微信？
- 微信只允许一个客户端，会互相踢掉
风控问题：
- 云端 IP 和手机 IP 不一样
- 可能在不同国家
- 容易触发风控，被封号
重复登录的麻烦：
- 所有网站和 APP 都要在云端重新登录
- 用户体验很差
- 隐私担忧

解决方案：系统级的状态同步

豆包手机的尝试：
- 在本地搞了个”影子系统”
- Agent 在后台操作 APP
- APP 以为自己在前台
- 用户在前台操作真正的前台
- 两个系统并行，互不干扰
更理想的方案：
- 需要 Android/iOS/鸿蒙系统级支持
- 能够把 APP 状态同步到云端
- 云端 Agent 操作云端的 APP 镜像
- 需要时再同步回手机
- 10 年前有公司做跨端状态迁移，现在可能成为基础能力
端侧 vs. 云侧：两个维度
- Agent 运行位置： 端侧 or 云侧
- 模型运行位置： 端侧 or 云侧
- 这是两个独立的维度，可以灵活组合

Q4: 对我们使用 AI 写代码有什么建议？

核心原则：人必须懂的比 AI 多

为什么？
- 你要能 Review AI 写的代码
- AI 会犯错，需要人来发现问题
- 特别是简单的语法错误，AI 能发现
- 但复杂的架构问题，AI 很难发现

角色转变：从 Coder 到 Architect + Reviewer

新的工作流程：

需求拆解（人）：
- 把大需求拆成小任务
- 每个任务 500 行以内
- 明确输入输出
编码实现（AI）：
- AI 根据任务描述写代码
- 可以并行多个 AI
自动化测试（AI）：
- 运行测试用例
- 确保功能正确
代码 Review（AI）：
- 5-6 个不同的 Review Agents
- 从不同角度检查代码
- 全部通过才生成 PR
Final Review（人）：
- 人做最后的把关
- 检查业务逻辑
- 检查架构一致性
- Approve 或要求修改

500 行限制的灵活性：

Python 后端核心代码： 500 行
前端 React： 1000-2000 行（有很多 Boilerplate）
测试用例： 可以更多（比如 100 个测试）
C 语言： 相应增加（语言本身比较 verbose）

跨文件？当然可以

500 行是指单个 PR 的总行数
可以修改多个文件
关键是任务要小，容易 Review

Q5: 如何保证模型升级后工作流还能正常运行？

唯一的答案：Evaluation

为什么 Evaluation 如此重要？

模型会升级：
- 基座模型每几个月就升级一次
- 每次升级可能破坏现有的工作流
- 需要快速验证兼容性
Prompt 会调整：
- 经常需要优化 Prompt
- 改了 A，可能破坏 B
- 需要全面的回归测试
避免主观判断：
- 不能靠手动测几个例子
- 一是花时间
- 二是不客观，容易遗漏问题

完整的 Evaluation 体系：

测试数据集：
- 从线上提取代表性 Cases
- 持续更新
Rubric-based 评估：
- 不只看整体好坏
- 拆分成多个细项指标
- 每项独立评分
自动化运行：
- 换个模型，跑一遍测试
- 几小时后看报告
- 客观对比数据
持续优化：
- 发现新问题，加入数据集
- 形成闭环

手动 Evaluation 的替代方案：

如果没有自动化系统，至少维护一个手动测试清单
每次上线前，逐个测试关键场景
虽然慢，但总比没有强

Q6: 如何获取 AI 前沿信息？

最推荐：X (Twitter)

为什么是 X？
- 国内朋友圈三大顶会（新智元、机器之心、量子位）的消息都来自 X
- 第一手的论文、技术讨论
- 很多大佬在上面分享
怎么用 X？
- 关注技术大佬
- 关注一些专门推论文的账号

Q7: 顾此失彼的 Prompt 怎么办？

两个解决方案：

1. Evaluation 防止 Regression

改了 Prompt，全面测试
确保没有破坏其他功能
数据驱动，客观评估

2. 结构化的 Prompt 组织

不要堆砌规则：
- ❌ 101 条军规，一直往下加
- ✅ 像写书一样，有层次结构
要类似新员工手册：
- 不是简单的规则列表
- 而是有逻辑的指导书
- 考虑各种情况和例外

本文由我开发的 AI Agent 根据口述整理而成

Slides (HTML), 下载 PDF 版本