(本文首发于知乎回答:《如何培养在计算机系统领域的研究品味(Research Taste)?》

转眼间从科大本科毕业已经接近 10 年了。昨天跟老婆讨论我们科大系统圈子同学近期的发展,就发现 research taste 是决定学术成果最关键的因素。第二关键的因素则是动手能力。

什么是 research taste?我认为,research taste 就是找到未来有影响力的研究方向和研究课题。

很多同学技术很强,也就是动手能力很强,系统实现能力很强,但是仍然做不出来有影响力的研究成果,主要原因就是 research taste 比较差,选的研究方向要么只是蹭热点,缺少自己的思考;要么过于小众,没有人关注。

博士生的 research taste 靠导师

我认为,research taste 早期主要靠导师培养,后续主要靠自己的愿景。

博士生属于科研早期,research taste 最关键就是靠导师。当你提出一个不靠谱的研究课题时,research taste 好的导师会告诉你不靠谱,research taste 差的导师会说这个方向还不错,先做做看吧。因此,一个好的导师会让你从 100 个潜在的课题中快速排除不靠谱的 95 个,剩下 5 个慢慢调研和探索。而水平一般的导师只能让你在 100 个不靠谱课题里反复兜圈子,浪费大量的时间却没有什么进展。

博士生的 research taste 很大程度上取决于导师的 research taste。有的导师喜欢更加理论的工作,有的导师喜欢更加工程的工作。有的导师喜欢 idea 更加新颖的工作,有的导师喜欢实现更加 solid 的工作。这些没有谁对谁错,都能做出很有价值的研究。Research taste 的关键是要先于大多数人看清领域的趋势。

我导师带着我做了几个很有影响力的工作,都是因为我的导师能够看到一些大多数人还没有意识到的趋势。

我博士的研究方向是基于 FPGA 的可编程网卡。2013 年的时候,软件定义网络(SDN)比较火,大多数人认为在数据中心的 CPU 上用软件处理网络功能是趋势。那时候数据中心的主流还是 10 Gbps 网络,CPU 还不是瓶颈,CPU 上的编程比固定功能的 ASIC 方便很多,因此并没有多少人对网络的硬件加速感兴趣。但我的导师发现数据中心网络性能的提升速度远远快于 CPU 性能的提升速度,因此发现一个趋势,CPU 一定会成为网络协议栈的瓶颈。为了在性能和可编程性之间取得平衡,基于 FPGA 的可编程网卡就是一个很好的思路。今天 200 Gbps 的数据中心网络已经不是什么新鲜事,因此几乎所有的云计算数据中心都部署了可编程网卡用于加速网络。

我在华为的工作先后是算子编译优化和大规模高性能网络互联。2019 年的时候,我的导师画了一张算力发展趋势的散点图,发现 AI 算力需求的增长远超摩尔定律的发展速度,分布式并行训练一定非常重要,于是就启动了大规模高性能网络互联项目,要支持上万张卡。2020 年我刚加入这个项目的时候,GPT-3 paper 正好发表,进一步给我们这个趋势判断提供了论据。2020 年,大多数人还在用单机多卡做训练,超过几十张卡的分布式训练任务都很少见。因此很多人说我们疯了,要搞一万张卡训练一个模型,那时候全公司都没有一万张卡。今天,华为的升腾(Ascend)可能是国内唯一能做大规模训练的 AI 芯片。

看一个导师 research taste 怎么样,最关键的就是看导师之前的研究成果影响力如何,到底是 lead 还是 follow。有的导师发表了很多论文,但都是 follow 别人的成果。比如发现别人做了一个 key-value store,想到我有一个方法可以提升性能一倍,可以再发一篇 paper。这样虽然可以在短期内快速发表 paper,但是对长期的 research taste 是有损害的。

Lead 类型的 paper 一般是在这个领域刚刚开始的时候,提出一些不太成熟的设计,但后续的影响力很大。很多 research taste 一般的人看到这些经典工作,会觉得这做的也太烂了吧,要让我设计这个系统,肯定好多了。比如图计算(graph computing)领域很多经典系统,比如 Spark、Giraph、GraphLab、GraphX,128 个核的性能甚至还不如单线程的性能,《Scalability! But at what COST?》这篇 paper 就是吐槽这个问题的。

然后这些人就会觉得,我把这个经典工作改进改进,让它性能好点,更安全点,更易用点,一定能发个顶会。结果好不容易做出来了,投到顶会上去,reviewer 觉得太工程(engineering),novelty 不够。

Novelty 是什么?Novelty 就是 reviewer 有没有从这篇 paper 中学到东西。很多 follow 类型的 paper 只是使用一些工程的方法提升了性能,reviewer 早就想到了,那 reviewer 就没有从 paper 中学到东西。一些 Lead 类型的 paper 则恰恰相反,它最大的贡献是提出一个别人没想到的问题,或者为一个众所周知的问题提出了一个新的解决思路。经典的论文往往包含很多 insight,让人回味无穷,每次读都能学到新东西,比如 Bitcoin 论文中的每一句话几乎都在后续的 15 年间应验。经典论文中的实现部分只要能用,证明比现有工作更好就行了,并不一定要完美,因此才会让 follow 的人发现这么多可以改进的地方。

Novelty 不够可以说是对一篇 paper 最大的打击。技术方案不合理,证明有漏洞,对比实验没做好,写作太烂,都是可以改进的。我最近的两篇 SIGCOMM 论文分别投稿了 3 次和 5 次,第一次投稿的时候我还在读博,中稿的时候我都毕业了。而我在华为写的几篇论文,一直被拒稿,直到现在都没被录用。所以被拒稿不是坏事,reviewer 的意见是 paper 改进最大的动力。

但如果多个 reviewer 一致认为这篇 paper 的 novelty 不够,那是很难改进的。Novelty 不够本来应该是在前期立项阶段导师就该指出的问题。等到工作做完了才发现只是一个略微改进的 incremental work,或者更倒霉的,早就被别人做过了但前期调研的时候没发现,或者被其他想到相同 idea 的研究者捷足先登了。

有些人看到这些 novelty 不够的 review 意见,就觉得学术界这帮人太清高了,工业界肯定只要最好的产品,不管谁是第一个提出来的。有些人还真的按照这种想法去创业了,想着我比行业先行者/行业老大的技术指标更好,就一定能获得客户。结果又碰一鼻子灰。

市场虽然不那么看重原创性,但是看重品牌;to B 产品看重客户关系,to C 产品看重网络效应。Peter Thiel 在《Zero to One》中就指出,技术优势要具备垄断优势,必须解决别人不能解决的问题,因此需要比现有技术好 10 倍才行,仅仅好一两倍是不够的。

独立研究者的 research taste 靠愿景

博士毕业后,就成为一个独立研究者了,不管是在学术界还是工业界,都要靠自己来想 idea,不能再靠导师了。

我也才博士毕业 5 年,不敢说是一个很好的独立研究者。但据我对顶尖独立研究者的一些观察,我认为独立研究者的 research taste 主要靠愿景。

在创业圈子里,我最喜欢的一个例子就是 Elon Musk,他说要把人送上火星,这是他长期的愿景。SpaceX、Tesla 都是他实现这个愿景过程中的步骤。有时为了实现这个愿景会需要跟商业现实做一些妥协。比如为了积累去火星所需的能源技术,Tesla 先通过做电动汽车这个商业上可行的方式。

硅谷创业教父 Peter Thiel 也是这么说的,25 年前他要做数字货币取代美元,但当时类似比特币这种完全去中心化的数字货币尝试都失败了,因此做了 Paypal,先改变人们的支付手段,电子支付也是走向数字货币愿景的重要一步。

Elon Musk 和 Peter Thiel 都是先看自己的愿景,再看现在市面上的技术和产品,要实现愿景还欠缺什么技术和产品,就在这个方向上努力。

我个人的愿景是实现硅基生命。那么硅基生命需要什么?我个人认为有四个关键技术方向:

  • 算力(AI Infra):提升 AI 训练和推理的效率。这是我过去 10 年的主要研究方向,我在 MSRA 读博和华为工作期间都是在研究高性能的数据中心系统。AI Infra 也是我们创业团队的核心竞争力之一,例如我们可以把别人端到端需要 10 秒的语音流水线优化到 1.5 秒,可以把相同模型的推理成本降低 10 倍。
  • 基础模型:这是 AI 如何具备智能最关键的因素。但我自己不是 AI 算法的专家,世界上也已经有足够多的人在做这个领域,因此我并没有去做这个方向。
  • AI Agent:解决 AI 如何像人的问题。在 OpenAI 的带领下,目前 AI Agent 的大多数研究都是工具属性的,AI 越来越像冷冰冰的工具,而不具备人的记忆、个性和情感。如何让 AI Agent 更像人,是我过去一年的主要研究方向。
  • 超级对齐:比人类还聪明的超级智能必须听从人类的指令,服从人类的意图,否则对人类来说将是一个灾难。即使对于现在的模型,对齐对于提升用户体验也是非常重要的。这是我们最近启动的研究方向。

不管是写论文还是技术创业,最关键的都是解决别人不能解决的问题。别人也已经想到并且能解决的问题,也就是那些特别 “卷” 的领域,我不会跟风进去一起 “卷”。

Research taste 就是判断趋势,预测未来的能力

形而上的说,research taste 就是判断趋势,预测未来的能力。

听起来预测未来是不靠谱的事情,但很多事情的本质都是预测未来:

  • 大模型的工作原理是预测下一个 token。给定一段话,预测下一个词是什么。比如 “中国的首都是”,下一个词大概率是 “北京”。所有命题都可以组织成填空题的形式,因此预测下一个词的能力就意味着通用智能。
  • 科学的目的就是发现一组规律,预测给定的场景下会发生什么。例如,拿起一个苹果松开手,苹果该往地上掉还是往天上飞。是否具有预测未来的能力,也是区分科学与伪科学的重要判据之一。
  • 投资的本质就是预测标的未来能赚多少钱。比如 10 年前 AI 圈内的共识就是算力是 AI 的三大支柱之一,所以 NVIDIA 的股票一定会涨,只是大家没想到能涨 100 倍。去年底 Web3 圈内的共识就是 2024-2025 年 Web3 会火,那时候比特币才 2.5 万美金,现在接近 7 万美金了。
  • 个人和公司的命运很大程度上取决于历史的进程,做选择的本质就是预测未来。

由此可见,research taste 是一种稀缺能力。大多数人觉得预测未来不靠谱是因为大多数人没有能力预测未来。但领先的科学家和成功的创业者判断趋势和预测未来的能力是远超平均的。

有人会说,这是不是幸存者偏差,押中宝的就成了领先科学家和成功创业者,没押中宝的就被认为是能力问题。要回答这个问题,只需要看 10 年前的领先科学家和成功创业者对趋势的判断和未来的预测,看这些预测有多少应验了。虽然我没有找数据或者研究成果作为支撑,但我认为成功的人对未来的预测能力是强于平均水平的。

Comments