Jiayi Weng 访谈的启发:人和模型一样,最重要的是 Context
【本文整理自知乎回答,是一篇古法手敲、非 AI 生成的回答。】
人和模型一样,最重要的是 Context
本来昨天早上心情不太好,看了两篇 technical report,觉得几乎每篇知名的 technical report 里都有自己认识的人,自己却啥也没做出来。
听到 Jiayi Weng 访谈中的一段,大意是”我觉得第一个被 AI 替代的职业是 researcher,接下来被替代的是他这种 infra engineer,最难被替代的是 sales,因为要说服对面的人买单,AI 可能没那么容易说动人,需要人跟人之间的沟通。”
我一下子就开心了,因为我们做的就是跟人沟通谈判的事情啊,这事也没有想象的那么难,竟然 Jiayi Weng 这样的大佬都认为这事不太可能……我觉得一个解释就是 context。
Jiayi Weng 在访谈中反复强调 context 的重要性。他觉得自己在 OpenAI 的工作也没有那么难,并不需要很高的智商,如果换一个其他人,如果有他所有的 context,也是能干的。其实我也有一模一样的想法,每次跟朋友说这个想法,他们都会说我太谦虚了。
他认为团队合作中最大的问题也是 context 的不一致。比如他写了一些代码,另外一个人接手,接手的那个人 context 跟他不一样,就会出现一些问题。他认为,人类组织的一个千古难题就是难以保持组织架构的 context sharing 的一致性,导致 infra 和组织结构的臃肿。
Jiayi Weng 认为,AI 短时间内无法取代人的最大原因也是 context。因为 AI 跟人并不在同一个环境里面,在公司里,它能访问到的 context 是远远低于一个人类员工的。因此它就很难完全自主地完成工作。
正是因此,OpenAI 的人都会过高估计 AI 对人类产生的影响。他说 strawberry(o1)出来的时候,他估计一两年 AI 就可以帮他清理 infra 代码的屎山了,但直到今天仍然不行。技术对世界的改变是很慢很慢,循序渐进的。
总结下来,context 对人和模型都是最重要的。我有时候就会吃惊,为什么有人居然会从 Cursor 里面复制代码到 ChatGPT 里面,再把 ChatGPT 改完的代码粘贴回 Cursor 里。
其实这并不是智商问题,只是 context 问题。费孝通先生在《乡土中国》中有一段精彩的论述:
乡下人在城里人眼睛里是”愚”的。我们当然记得不少提倡乡村工作的朋友们,把愚和病贫联结起来去作为中国乡村的症侯。关于病和贫我们似乎还有客观的标准可说,但是说乡下人”愚”,却是凭什么呢?乡下人在马路上听见背后汽车连续的按喇叭,慌了手脚,东避也不是,西躲又不是,司机拉住闸车,在玻璃窗里,探出半个头,向着那土老头儿,啐了一口:”笨蛋!”——如果这是愚,真冤枉了他们。我曾带了学生下乡,田里长着包谷,有一位小姐,冒充着内行,说:”今年麦子长得这么高。”旁边的乡下朋友,虽则没有啐她一口,但是微微的一笑,也不妨译作”笨蛋”。乡下人没有见过城里的世面,因之而不明白怎样应付汽车,那是知识问题,不是智力问题,正等于城里人到了乡下,连狗都不会赶一般。
如果人生是游戏,分数就是记住你名字的人数
关于人生的评价标准,Jiayi Weng 说他高三的时候就开始有一个想法,”如果人生是游戏,分数就是记住你名字的人数”。具体来说,就是做一些对他人有意义的事,让更多人记得你。因此他就做了两件事:
- 做 Tianshou(强化学习框架)这样的开源项目和 tuixue(美国签证查询)这样的 non-profit 网站。
- 追求尽可能在 OpenAI 的每篇 technical report 上面署名。
其实这跟我挺像的,甚至可以说竞赛圈的很多人都会形成类似这样的人生评价标准。
因此,我在上学期间跟 LUG(Linux User Group)同学一起搞了评课社区和很多网络服务,这些都是不赚钱的。今天科大的学弟学妹来联系我的时候,大约一半都会提到评课社区。
我在读博期间,最遗憾的就是几篇学术论文对应的项目没有开源,因为这些东西对微软是有商业价值的。直到今天,我参与的学术研究只有一个项目开源,就是华为的 AKG 算子生成器。我在华为参与的主要工作 Unified Bus,在去年发布开放标准之前,连项目名字都是保密的。
很多搞量化的同学,在赚够人生的第一桶金之后,就开始陷入自我怀疑,因为量化是个闷声发大财的圈子,除非足够大佬,不会有多少人记住你的名字。
扯远了,Jiayi Weng 的访谈中,主持人提了一个很尖锐的问题,你一开始说想挣脱一些外部的评价标准,比如 GPA、title 之类的,是只追求 intrinsic reward(自己开心就好)吗?现在这个”对他人有意义的事,让更多人记得你”是不是又是一个外部的评价标准?
Jiayi Weng 说这个外部的认同不是既有评价体系的认同,而是共识,是大家发自内心的给你点赞。
他说他会不断修改自己的评价标准,不会为它所困,比如他已经很多年没有做开源项目了。他认为外部评价体系是为了快速地筛选人,是短时间内很难改变的,他认为应该更个性化一些。
主持人还提了几个尖锐的问题:OpenAI 的保密文化跟他”打破信息差”的初心是不是矛盾的?OpenAI 一开始承诺要做对全人类有益的 AGI,OpenAI 是应该开源还是闭源才更符合”对全人类有益”这个目标?OpenAI 如果开源,是不是更容易拿到社区反馈,迭代更快?
Jiayi Weng 说这是一个 trade-off。做开源/打破信息差和做最有影响力的事之间,是有一个 trade-off 的。
关于 OpenAI 为什么不做开源,他认为这是一个博弈论的问题。两个基本假设:1)训练最好的模型是需要很多钱的。2)这个世界上总是有一些特别想赚钱的人。
如果 OpenAI 开源了,那么别人就会把它拿走,在它基础上训一训,钱就都被这些人赚走了,OpenAI 就赚不到钱,拿不到投资,导致没办法再训练最好的模型。因此博弈论就决定了最好的模型只能闭源。
他认为,在这两个基本假设下,”对全人类有益”就是让每个用户都用上最好的 AI 模型。
如果 OpenAI 是无限资源,那么他会很乐意把这两三年做的 RL Infra 开源出去,他还跟 John Schulman 讨论过是否开源。
Infra 的迭代速度是模型公司的生死线
Jiayi Weng 认为,基座模型公司的生死线是 infra 的迭代速度。DeepSeek 内部的 infra 很好,内部迭代很快,这是真正引起 OpenAI 警觉的。 引起 OpenAI 警觉的并不是榜单上的数字,OpenAI 早就不刷榜了。
画一条曲线,横轴是迭代次数,纵轴是成功率,这条曲线的斜率是至关重要的。
创业公司沟通成本低,代码小,只需要考虑特定的 use case,那么迭代速度上是最快的。但公司大了,需要考虑各种各样的 use case,迭代速度自然会变慢。人类组织的一个千古难题就是难以保持组织架构的 context sharing 的一致性,导致 infra 和组织结构的臃肿。
因此,他认为如果模型有无限的 context,最大的应用场景就是做 CEO,来做组织的 context sharing。
Jiayi Weng 认为,跟 LLM post-training 相比,Agent 的 post-training 没有新的挑战,本质上是同一个东西,唯一的区别是环境不一样。但 Agent 在环境中 trial and error 的代价是很大的。
例如,短期内 Jiayi Weng 的 Infra Engineer 工作没有那么容易被 AI 取代,他认为有两个原因:
- AI Infra 相对数据集的占比几乎为零,几乎都是 out of distribution;
- AI Infra 验证(试错)的成本非常高。
我认为 Agent 要在 AI Infra 这种试错成本高的 niche 领域发挥价值,最关键的是解决 RL 的样本效率问题。就像 Nested Learning 等工作揭示的,如果能把 few-shot in-context learning scale 上去,Agent 自主学习(持续学习)的问题就可能得到解决。从这个角度看,long context 和 RL 是殊途同归的。
Jiayi Weng 也认为,RL 的新范式和 pretrain 的新范式都是可能的,每天都面对新的挑战。
Jiayi Weng 说,OpenAI 内部其实没有觉得 ChatGPT 是个很颠覆性的东西,因为都是一点一点演进过来的,也从来没有觉得 ChatGPT 会产生如此大的 impact。他认为要做一个好的模型也不难,方向很重要,只要在对的方向上,把每一件事都做好做对就行了。
目前 OpenAI 的瓶颈在于修 infra 的 throughput,也就是单位时间内能修多少 bug。现在的问题是,由于 infra 里有很多 bug,导致没有 scale up 完全,所以他们在重构 infra。
夹带私货:Infra 和应用的边界正在大变革
我最后夹带一点私货,我认为 Infra 和应用的边界正在经历一次大变革,从 OS 到 LLM context。
传统 Infra 一般是做 OS 以下的东西,最重要的事情就是提出新的 OS abstraction(例如 UNIX)。系统两大顶会的名字(OSDI - 操作系统设计与实现,SOSP - 操作系统原理)都是围绕 OS 的。
未来随着 LLM 推理成本的降低,LLM 将成为大多数应用的基础设施,应用只需要关心 LLM context 就行了,不需要关心 OS 层面的东西。
我认为 SOTA 模型在 2025 年也逐渐转过这个弯来了,但还没有完全转过来。2025 年中及以前的模型,让写一段文本分类的代码,大概率是写出一堆包含大量 edge cases 的规则,我必须非常小心才能强制它调用 LLM 去做文本分类,避免它写出这种屎山代码。但今天的 SOTA 模型只要稍加提示,就会流利地使用 LLM 做文本分类了。
对于做 Infra 的同学来说,认识到这个变革是非常重要的。之前我们很多人都致力于去改进操作系统层面的可编程性,优化在 diverse workload 上的性能,还要在性能和可编程性间取得一定的 trade-off。但未来如果 LLM 一统江湖,那 Infra 只要服务好 LLM 这一种 workload 就行了,OS 层面的可编程性和其他 workload 的性能可能就不那么重要了。当然,legacy 系统仍然会长期存在,但就像 NVIDIA 和 Intel 的股价一样,重要性会变。
这就是为什么我建议一些做 Infra 的同学关注 Agent。现在 Agent 如何用好 LLM context,就像上世纪 70 年代的内存管理一样,有多种可能的方案,还远远没有收敛。但显然一个好的 Agent 不是随意设计的,是存在一些共识的,例如把 coding agent 和 file system 作为所有通用 agent 的基础,以及类似 Claude Skills 的渐进式披露。Agent 的性能和可编程性又成了一种新的 trade-off。这才是下一个 UNIX 可能诞生的地方。
补充:关于决定论
有不少朋友对 Jiayi Weng “世界/人的命运是可以被预测的,上帝不掷骰子”这个观点感兴趣,我抛一点个人观点:
有些命题比较容易预测(perplexity 低),有些命题很难预测(perplexity 高)。涉及大方向的、由物理规律决定的,一般比较容易预测。涉及细节的、由人性决定的,一般很难预测。我跟我们 CEO 聊起决定论这个观点,他就说,不要忽略人性,人性是很复杂的,很难预测的。
举个不一定恰当的例子,要问李新野和华师妹还有没有后续,这个 perplexity 就低;但要问具体什么时候有后续,这个 perplexity 就非常高。
算命先生只会对 perplexity 低的事情做出预测。这就是为什么命理能够 work 的原因。其实命理跟现在的 reasoning model 工作原理很像,就是一套逻辑推理框架(八卦这些都是推理中使用的符号),再加上大师根据自己的经验构建的一个预测模型(每一步推理的概率模型)。