Bojie Li

由《小米创业思考》想到的

2024-10-20T07:00:00.000Z

开始创业之前，老婆就给我买了《小米创业思考》，但我一直没看。最近几天才有空读了读，感觉收获很大。这类书我之前不太喜欢看，觉得这些经历都是经过加工和美化的，其中的一些忠告也未必听得进去。但有了亲身创业经历之后，再来看大佬的书，就感觉人家说的很有道理。

《小米创业思考》一书最精华的是第六章 “互联网七字诀”，即 专注、极致、口碑、快。

MIUI 的开发思路充分体现了 “专注、极致、口碑、快” 互联网七字诀：

专注：刚开始只做四个功能（电话、短信、通讯录和桌面），极度克制。
极致：百变锁屏、百变主题，能够模拟任何手机，对体验极致追求。
口碑：公司全员在论坛上跟用户沟通，跟用户交朋友。在 XDA 论坛上大受欢迎，在国外火了，最早的国际化从 MIUI 开始。
快：每周迭代，采用互联网开发模式。

专注

专注是互联网七字诀中最重要的一条，也是适用于所有公司和产品的。

公司需要专注

雷军分享了他首次创业失败的经历。雷军技术很强，大二就修完了四年的学分，大三写的杀毒软件《免疫 90》卖了 100 万，在 90 年代这是很大的一笔钱了。于是，大四他就跟两位技术大神李儒雄和王全国（这两位现在也非常成功）一起创办了三色公司，但这次创业很快就以失败告终。

诺贝尔物理学奖怎么颁给了做 AI 的

2024-10-08T15:00:00.000Z

（本文首发于知乎回答《2024 诺贝尔物理学奖授予人工神经网络机器学习，为什么会颁给 AI 领域？》）

一些人开玩笑说今年的诺贝尔物理学奖，好多搞物理的都没听说过获奖的这两个人……

人工神经网络与统计物理的关联不是偶然的

7 月初本科毕业 10 年回科大返校的时候，跟几位搞数学和物理的同学聊起了 AI，我吃惊的发现如今 AI 的很多基础概念是源自统计物理，比如 diffusion（扩散模型）和 emergence（涌现）。

@SIY.Z 也给我讲了很多 AI 经典算法背后的统计物理基础，比如此次获奖两人的重要成果 RBM（受限玻尔兹曼机）。

这种关联并不是偶然的，因为统计物理研究的是大量粒子组成系统的行为，而人工神经网络也是大量神经元组成的系统。从人工神经网络的早期发展历程，能够清楚地发现这种关联：

Hopfield 网络

1982 年，Hopfield 在研究人类记忆的原理，希望创造一个数学模型，用于解释和模拟神经网络如何存储和重建信息，尤其是在大脑中神经元是如何通过相互连接形成记忆的。

具体来说，这项研究的目的就是要构造一个支持 “语义模糊匹配” 的 CAM（Content-Addressable Memory，内容寻址内存），在存储阶段把需要存储的多条数据放进去，而在重建阶段，放入一个部分丢失或被修改的数据，需要找到与之最匹配的原始数据。

Hopfield 网络利用了物质特性中的原子自旋，这种特性使每个原子可以被看作一个小磁铁。这就是为什么 Hopfield 网络以及后续演进出来的人工神经网络这么像统计物理里面的 Ising 模型。Ising 模型就是用来解释为什么物质具有铁磁性的。

2024 云栖大会：基础模型、应用与算力的两个 Bitter Lesson

2024-10-02T06:00:00.000Z

9 月 20-21 日受邀参加 2024 云栖大会，花了接近两天的时间把三个展馆都逛了一遍，几乎每个感兴趣的展位都做了交流。

一号馆：基础模型的突破与挑战
二号馆：算力与云原生，支撑 AI 的核心架构
三号馆：应用落地，AI 赋能千行百业

我之前的研究方向是二号馆的计算基础架构和云原生，现在主要做 AI 应用，对一号馆和三号馆的内容也很熟悉，所以聊了两天下来，真的有把云栖大会玩通关的感觉。

会后我对着录音机讲了两个多小时，然后让 AI 整理出了这篇近 3 万字的文章。9 月 22 日没能整理完，平时工作又忙，国庆节期间就抽了点时间跟 AI 一起修改，加上录音总共花了大约 9 个小时。以往没有 AI 的时候简直不敢想象 9 小时能写出 3 万字。

全文提纲：

一号馆（基础模型）：AI 的第一推动力
- 视频生成：从单一生成到多样化场景的突破
  - 从单一文本生成视频到多模态输入生成
  - 动作参考生成：从静态图像到动态视频
  - 基于口型同步与视频生成的数字人技术
- 语音识别与合成
  - 语音识别技术
  - 语音合成技术
  - 音乐合成技术
  - 未来方向：多模态端到端模型
- Agent 技术
- 推理技术：百倍成本下降背后的技术推动力
三号馆（应用）：AI 从 Demo 走向千行百业
- AI 生成设计：生成式 AI 的新范式
  - PPT 生成（通义千问）
  - 图文并茂的聊天助手（Kimi 的 Mermaid 图）
  - 用图片形式展示生成内容（汉语新解）
  - 设计稿生成（Motiff）
  - 应用原型生成（Anthropic Claude）
- 智能消费电子：期望高，进展慢
- AI 辅助运营：从热点信息推送到粉丝互动
- AI 在教育中的颠覆性应用：从个性化到场景化学习
二号馆（计算基础设施）：AI 的算力基础
- CXL 架构：云端资源的高效整合
- 云端计算与高密度服务器：算力集群的优化
- 云原生与 Serverless
- 机密计算：AI 时代的数据安全与信任转移
结语：基础模型、算力与应用的两个 Bitter Lesson
- 云栖大会的三个展馆体现两个 Bitter Lesson
- 第一课：基础模型是 AI 应用的关键
- 第二课：算力是基础模型的关键

为什么美国大厂不需要 996

2024-09-18T09:30:00.000Z

为啥美国互联网公司不需要 996，人均产出还更高？

很多人只是简单归结于社会文化 “内卷”、八小时工作制执行力度不足，但我觉得这些并不是主要原因。很多做出海业务的公司，海外团队不实施 996，甚至不用打卡，但国内团队仍然要 996。这是为什么呢？

作为一个对国内和美国公司都有一定了解的程序员，我认为主要是以下几个原因：

美国公司的客户单价较高
美国客户对人工服务时限要求较低
美国公司基层程序员的代码质量较高
美国公司的管理成本较低
美国公司更善于使用工具和 SaaS 服务
美国公司目标和边界更清晰
美国公司也有少数 007 大神在负重前行

美国公司的客户单价较高

一个各方面能力接近的人，投入相同的工作时间，在美国公司创造的收入和利润大概率是比中国公司高的。原因就在客户单价上。

Cursor：2 小时写 800 行代码开发 AI 选课助手

2024-09-14T14:00:00.000Z

从 IDE 和 Vim 切换到 Cursor

我之前开发比较大的项目一般是用 JetBrains 系列 IDE（PyCharm、CLion），开发比较小的项目一般就用 vim 了。开发比较大的项目最烦的就是写胶水代码，大部分时间都不是在思考功能的设计或者算法，而是花在胶水代码上了。

Cursor 是一个类似 GitHub co-pilot 的 AI 辅助编程 IDE，界面跟 VS Code 比较类似。2023 年 Cursor 刚开源发布不久，我就开始试用了，但当时由于基础模型能力不足，并不是特别好用。今年 5 月 GPT-4o 发布后，我重新开始用 Cursor，发现比在 ChatGPT 里面问代码问题更方便，首先不用来回切换窗口，其次 Cursor 有上下文，问的效率更高。

最近三个月，有了代码能力更强的 Claude 3.5 Sonnet，我已经完全从 PyCharm 和 Vim 切换到 Cursor，因为 Cursor 的开发效率比有 AI 补全功能的 PyCharm 高多了，整体开发效率提升了一倍，最近三个月 GitHub 也轻松保持全绿。

Cursor 可以帮助快速入门新语言和框架

Cursor 的用途不仅是提升开发效率，还能帮我们快速熟悉新的编程语言、框架和技术栈。例如用 Go 写后端，用 React 写前端，用 Solidity 写智能合约，我之前都不会，但有了 AI 辅助编程，这些都不难。如果我上学的时候就有今天这么强的 AI，可以多学会很多编程技术。

OpenAI o1：慢思考的强大推理能力

2024-09-13T12:00:00.000Z

OpenAI o1 的传言从去年的 Q* 开始，今年的 Strawberry 又拱了一波火，除了 o1 这个名字没有人猜到以外，里面的内容其实已经被猜的七七八八了，主要就是用强化学习方法让大模型学会更高效的思维链（Chain-of-Thought）思考方式，大幅提升模型的推理能力。

OpenAI 官方的测试数据就不在这里重复了。我体验下来总体效果很好，牛皮没有吹破。

2024 年高考数学试卷可以做到 120 多分（满分 150），只用 10 分钟就完成了答题。
小学奥数题基本全能做对，列方程的标准解法和适合小学生的 “妙解” 都能想到。
之前让大模型困扰的一些问题，比如 3.8 和 3.11 哪个大，Pi 和 3.1416 哪个大，strawberry 里面有几个 r，都可以做对。
编程方面，可以独立完成一个 demo 项目的开发，目测比目前代码能力最强的 Claude 3.5 Sonnet 代码能力更强。
OpenAI o1 System Card 里面有个例子，在做一道 CTF 题的时候，那道 CTF 题远程验证环境的容器坏了，o1-preview 就找到了比赛平台的漏洞，启动了一个新的容器把 flag 直接给读出来了。虽然 OpenAI 的原意是提醒 AI 的安全风险，但这也体现了 o1 主动与环境交互解决问题的能力。

有人说，OpenAI 搞出了这么强的模型，跟其他公司的差距又拉大了，小公司没有存在的必要了。我认为情况恰恰相反。对没有能力自己训练基础模型的 AI 公司和学术界、AI Infra 公司、AI Agent 公司来说，这都是一个乐观的消息。

AI 生成的七夕视频

2024-08-10T12:00:00.000Z

我给老婆做的七夕礼物：一个 AI 生成的视频，由 25 个 AI 生成的 5 秒视频和一首 AI 生成的音乐构成。这些视频大多数是用我们的静态照片加上动作的文字描述生成的，其中一些是鬼畜动作；一些是用其他风景照贴上我们的照片生成的。

视频生成成本大约 10 美金。虽然效果比不上 Sora，也有很多明显的物理规律错误，但比去年的 Stable Video Diffusion 等开源模型好多了，跟参考图的人物一致性也比较好了。

（视频 02:02，44 MB）

Your browser does not support the webm tag.

Web3 的三种信任来源：从信任人到信任数学、社区和经济

2024-07-21T14:00:00.000Z

Web3 最大的两个优势是通证经济（tokenomics）和信任（trust）。通证经济解决的是利益分配的问题。这篇文章主要讲信任问题。

传统 Web2 的信任本质上是对人的信任。我敢把数据放在苹果和谷歌，是因为我相信苹果和谷歌不会出售我的数据。我敢在脉脉上匿名吐槽公司，是因为我相信脉脉不会把我的身份信息泄露。但显而易见的是，在利益面前，人并不是那么可信的。

Web3 能够如何更好地解决信任问题？我认为，Web3 的信任有三大来源：密码学信任（Cryptographic Trust）、去中心化信任（Decentralized Trust）和经济学信任（Economic Trust）。

密码学信任的本质是信任数学，去中心化信任的本质是信任大多数人不会串通起来作恶，经济学信任的本质是信任大多数人不会做亏本的买卖。因此，这三种信任是可靠性递减的。

那为什么不只用密码学信任呢？因为很多问题是单靠密码学信任无法解决的。这三种信任虽然可靠性递减，应用范围却是递增的。

接下来，我们就逐一介绍这三种信任。

密码学信任

如何既不透露我是谁，又能证明我的身份？例如，脉脉需要验证我是某家公司的成员，但我又不希望把我的确切身份告诉脉脉，这可能吗？
有随机性的在线游戏如何保证公平性？例如，一个德州扑克的游戏平台如何证明自己的发牌是绝对公平的，没有庄家在悄悄看牌？

太空探索与数字生命

2024-07-21T06:40:00.000Z

太空探索需要的燃料太多了

小时候院子里有一个搞航天的老爷爷，他经常给我科普一些航天知识。我印象最深的就是他家墙上贴着一幅太阳系航天地图，就类似下图的样子。

老爷爷跟我说，这个太阳系航天地图看起来是不是很像火车线路图？只是上面标的数字都不是距离，而是速度的变化量（Delta-V）。

他年轻的时候也希望建成像火车一样四通八达的航天网络，只是里面的车站不再是北京西、上海虹桥，而是地球表面、近地轨道、地月转移轨道、火星转移轨道、火星表面等等。但遗憾的是，人类迄今为止，这张图里大多数的车站都还没去过。

这里面最重要的原因就是人类的能源技术在太空面前太落后了。现在的火箭都是靠喷出推进剂来推进的，如今最快的喷出速度只有大约 4500 米/秒。这远比子弹的速度快，但在太空面前仍然不算一个很快的速度，例如第一宇宙速度就要 7900 米/秒，考虑到空气阻力和 250 千米轨道处的重力，需要大约 9200 米/秒的速度增量才能进入 250 千米高处的地球轨道。

更致命的是火箭所需携带的燃料质量是随所需速度变化量指数增长的。还在上小学的我不理解，推进剂的喷出速度不变，难道不应该是速度跟烧掉燃料的量成正比吗？比如汽车的油箱里面多一倍的油，就能多走一倍的路程啊。

在科大 2024 值年返校纪念大会上的发言

2024-07-06T07:00:00.000Z

科大 2024 值年返校有近 5000 人参加，我们 2010 级少年班学院的回来了大约 1/4。

尊敬的各位领导、各位老师，亲爱的校友们：

大家下午好！我是 2010 级 00 班的李博杰，非常荣幸能作为校友代表发言。转眼间，本科毕业已经十年了。

首先，我要向母校表达我最诚挚的感谢。从 2010 年到 2019 年，从本科到硕士、博士，我认识了一批优秀的同学和校友，至今都是我最好的朋友，也是创业中的合作伙伴。读博期间，我老婆实验室的谈老师邀请我做一个学术报告，我跟我老婆就是那时认识的。

事业心很强的男生适不适合做人生伴侣？

2024-05-05T12:30:00.000Z

（本文是我的知乎回答《事业心很强的男生适不适合做人生伴侣？》）

开始创业之后，认识很多创业者，大多数都是事业心很强的男生。

发现一个有趣的现象：这些创业者单身率明显比同龄人高。而且婚姻的稳定程度也比同龄人低。

单身率高

在 AI、移动互联网和 Web3 领域，创业成功的联合创始人，基本上身价至少一个小目标；创业没成功的联合创始人，基本上也有非常光鲜亮丽的履历，比如名校毕业，大厂高职级，各种头衔和奖项。他们/她们肯定是不愁找到很好的伴侣的。但为什么单身率这么高，婚姻稳定度这么低呢？

核心原因就是事业心很强的男生大多数时间和兴趣都在事业上，对生活、感情和家庭的投入比较少。

知乎《新人物》访谈：华为天才少年的 AGI 信仰

2024-04-22T09:30:00.000Z

一个月前知乎《新人物》的访谈视频终于发布了。我还是第一次参加此类带生活内容的访谈，这绝对不是公司的 PR，因为全程都没有出现我们公司的名字和产品，甚至很少有人知道我们公司真实的名字。

感觉知乎还是挺有做媒体的操守的，采访之后没有让我看视频，就直接发布了，所有剪辑、标题和旁白都是知乎小编做的。

（04:16，215 MB）
Your browser does not support the webm tag.

视频拍摄地：

北京办公室
家里（访谈，跟老婆一起做饭，还有一些照片）
树村郊野公园（我经常跑步的地方，那个会飞的电动蝴蝶是我 2017 年做的，拍摄过程中被挂到了树上，还是我们非常强悍的摄影师小哥哥爬到树上给摘下来的）

国内大模型不好做？字节百度和独角兽混战出海，70多款 AI 产品谁先赚到钱？

2024-04-17T06:22:00.000Z

来源：搜狐科技采访《国内大模型不好做？字节百度和独角兽混战出海，70多款 AI 产品谁先赚到钱？》

出品 | 搜狐科技

作者 | 梁昌均

“我现在每天从上午9点到下午3点，一起跟国外团队开会，进行远程开发、内测或修 Bug。”马上就要在海外发布 AI 产品的创业者李博杰，最近一段时间变得异常忙碌。

这是一款面向 C 端的 AI 评估产品，可以用来帮助用户推荐不同的 AI 模型或产品，他希望将这款产品打造成“大模型时代的抖音”。

一年多前，李博杰选择从华为离职创业的时候，就决定进军海外。那时，国内大模型还处于火热比拼技术的阶段，但现在越来越多的公司都选择了跟他相同的方向。

无论是字节、百度、阿里，还是 MiniMax、月之暗面、零一万物等大模型独角兽，都在加速出海，掘金全球市场。

不少企业正在闷声发大财。搜狐科技了解到，多个出海产品实现了用户和营收的快速增长，甚至开始走向盈利，还有产品在获得 AI 加持后流量暴涨，今年有望实现七八千万元的利润。

移动互联网时代，中国公司出海跑出了 TikTok，现在大家都在尝试打造 AI 时代的 TikTok。这是巨大的机遇，但也充满着挑战。

如何培养 Research Taste？

2024-04-15T08:30:00.000Z

（本文首发于知乎回答：《如何培养在计算机系统领域的研究品味（Research Taste）?》）

转眼间从科大本科毕业已经接近 10 年了。昨天跟老婆讨论我们科大系统圈子同学近期的发展，就发现 research taste 是决定学术成果最关键的因素。第二关键的因素则是动手能力。

什么是 research taste？我认为，research taste 就是找到未来有影响力的研究方向和研究课题。

很多同学技术很强，也就是动手能力很强，系统实现能力很强，但是仍然做不出来有影响力的研究成果，主要原因就是 research taste 比较差，选的研究方向要么只是蹭热点，缺少自己的思考；要么过于小众，没有人关注。

博士生的 research taste 靠导师

我认为，research taste 早期主要靠导师培养，后续主要靠自己的愿景。

Chatbot Arena：基于社区评价的大模型评测基准

2024-04-13T18:30:00.000Z

（本文首发于知乎回答：《目前大语言模型的评测基准有哪些？》）

必须吹一波我们 co-founder @SIY.Z 的 Chatbot Arena 呀！

Chatbot Arena 是基于社区评价的大模型评测基准。上线一年来，Chatbot Arena 已经有超过 65 万次有效用户投票。

Chatbot Arena 见证大模型的快速进化

最近的一个月，我们在 Chatbot Arena 上见证了几件非常有趣的事情：

Anthropic 的 Claude-3 发布，大杯 Opus 模型的性能超越了 GPT-4-Turbo，中杯 Sonnet 和小杯 Haiku 模型的性能也追平了 GPT-4。这是 OpenAI 以外的公司首次夺得排行榜的首位。Anthropic 的估值已经 $20B，直逼 OpenAI 的 $80B 了，OpenAI 是应该有点危机感了。
Cohere 发布了迄今最强的开源模型 Command R+，104B 模型的性能追平 GPT-4，当然跟 GPT-4-Turbo 还有一定差距。我今年年初接受甲子光年采访的时候提出了 2024 年大模型四大趋势（《AI 一天，人间一年：我与 AI 的 2023｜甲子光年》）：“多模态大模型能够实时理解视频，实时生成包含复杂语义的视频；开源大模型达到 GPT-4 水平；GPT-3.5 水平开源模型的推理成本降到 GPT-3.5 API 的百分之一，让应用在集成大模型的时候不用担心成本问题；高端手机支持本地大模型和自动 App 操控，每个人的生活都离不开大模型。” 第一个是 Sora，第二个是 Command R+，都已经应验。我还是重复这个观点，如果一家主要做基础模型的公司 2024 年还训练不出 GPT-4 的话，就不用再折腾了，浪费了大量算力，最后连开源模型都比不上。
通义千问发布了 32B 开源模型，几乎可以达到 top 10，不管中文英文都很能打。32B 模型在成本上的杀伤力还是很强的。
OpenAI 被 Anthropic 的 Claude Opus 超过了，自然也不示弱，马上发布了 GPT-4-Turbo-2024-04-09，又夺回了排行榜上第一的宝座。不过 OpenAI 迟迟没有发布 GPT-4.5 或者 GPT-5，而且大家期待的多模态模型一直没有出来，这是有点令人失望的。

B 站 Up 主采访李博杰：为什么创业

2024-04-07T05:30:00.000Z

本视频是 B 站 Up 主 “苹果冒个泡儿” 对我的采访视频，

四万字长文：AI Agent 应该更有趣还是更有用？

2024-03-29T12:30:00.000Z

（全文约 4 万字，主要内容来自 2023 年 12 月 21 日在中科大校友会 AI 沙龙上的 2 小时报告，也是 2024 年 1 月 6 日知乎 AI 先行者沙龙 15 分钟报告内容的技术扩展版本，文章经笔者整理和扩展）

非常荣幸来到科大校友会 AI 沙龙分享一些我对 AI Agent 的思考。我是 1000（2010 级理科实验班）的李博杰，2014-2019 年在中科大和微软亚洲研究院读联合培养博士，2019-2023 年是华为首届天才少年，如今我跟一批科大校友一起在做 AI Agent 领域的创业。

今天是汤晓鸥教授的头七，因此我特别把今天的 PPT 调成了黑色背景，这也是我第一次用黑色背景的 PPT 做报告。我也希望随着 AI 技术的发展，未来每个人都可以有自己的数字分身，实现灵魂在数字世界中的永生，在这个世界里生命不再有限，也就不再有分离的悲伤。

AI：有趣和有用

AI 的发展目前一直有两个方向，一个是有趣的 AI，也就是更像人的 AI，另外一个方向就是更有用的 AI，也就是更像工具的 AI。

AI 应该更像人还是更像工具呢？其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 就说，AI 应该是一个工具，它不应该是一个生命。而很多科幻电影里的 AI 其实更像人，比如说 Her 里面的 Samantha，还有《流浪地球 2》里面的图丫丫，黑镜里面的 Ash，所以我们希望能把这些科幻中的场景带到现实。只有少数科幻电影里面的 AI 是工具向的，比如《钢铁侠》里面的贾维斯。

除了有趣和有用这个水平方向的之外，还有另外一个上下的维度，就是快思考和慢思考。这是一个神经科学的概念，出自一本书《思考，快与慢》，它里面就说人的思考可以分为快思考和慢思考。

所谓的快思考就是不需要过脑子的基础视觉、听觉等感知能力和说话等表达能力，像 ChatGPT、stable diffusion 这种一问一答、解决特定问题的 AI 可以认为是一种工具向的快思考，你不问它问题的时候，它不会主动去找你。而 Character AI、Inflection Pi 和 Talkie（星野）这些 AI Agent 产品都是模拟一个人或者动漫游戏角色的对话，但这些对话不涉及复杂任务的解决，也没有长期记忆，因此只能用来闲聊，没法像 Her 里面的 Samantha 那样帮忙解决生活和工作中的问题。

而慢思考就是有状态的复杂思考，也就是说如何去规划和解决一个复杂的问题，先做什么、后做什么。比如 MetaGPT 写代码是模拟一个软件开发团队的分工合作，AutoGPT 是把一个复杂任务拆分成很多个阶段来一步步完成，虽然这些系统在实用中还有很多问题，但已经是一个具备慢思考能力的雏形了。

遗憾的是，现有产品中几乎没有在第一象限，兼具慢思考和类人属性的 AI Agent。斯坦福 AI 小镇是个不错的学术界尝试，但斯坦福 AI 小镇里面没有真人的交互，而且 AI Agent 一天的作息时间表都是事先排好的，因此并不是很有趣。

有趣的是，科幻电影里面的 AI 其实大部分是在这个第一象限。因此这就是目前 AI Agent 和人类梦想之间的差距。因此我们在做的事情跟 Sam Altman 说的正好相反，我们希望让 AI 更像人，同时又具备慢思考的能力，最终演进成一个数字生命。

国科大实践课题：只会基本编程的本科生也能开发 AI Agent

2024-02-25T15:40:00.000Z

从 2023 年 12 月开始，我作为企业导师，跟国科大刘俊明教授合作了一个 AI Agent 实践课题，有大约 80 名来自全国各地的学生参加，大部分是只会基本编程的本科生，也有一部分有 AI 基础的博士生和硕士生。

2023 年 12 月和 2024 年 1 月开了 6 次组会，讲解了 AI Agent 的基础知识、OpenAI API 的用法、本次 AI Agent 实践课题，并解答同学们在实践过程中遇到的问题。实践课题包括：

企业 ERP 助手
狼人杀
智能数据采集
手机语音助手
会议助手
老友重逢
谁是卧底

2 月 20-24 日，参与这个研究课题的部分同学集中在北京进行 Hackathon，并展示了项目的阶段成果。参与的同学普遍感受到大模型能力的强大，没想到这么复杂的功能仅用几百行代码就做出来了。以下是部分展示的项目成果：

Groq 推理芯片：用空间换时间的把戏

2024-02-22T14:00:00.000Z

最近 Groq 推理芯片以 500 token/s 的大模型输出速度刷屏了。

一句话来说，这个芯片就是玩了个用空间换时间的把戏，把模型权重和中间数据都放在了 SRAM 里面，而不是 HBM 或者 DRAM。

这是我 8 年前在微软亚洲研究院（MSRA）就做过的事情，适用于当时的神经网络，但真的不适合现在的大模型。因为基于 Transformer 的大模型需要很多内存用来存储 KV Cache。

Groq 芯片虽然输出速度非常快，但由于内存大小有限，batch size 就没法很大，要是算起 $/token 的性价比来，未必有竞争力。

Groq 需要几百卡的集群才能跑 LLaMA-2 70B 模型

我是如何走上 AI 创业之路的

2024-02-19T16:00:00.000Z

我与 AI 的早期接触

读博期间与 AI 的邂逅

我博士本来是做网络和系统研究的，博士论文就是《基于可编程网卡的高性能数据中心系统》。很多做网络和系统的人看不起一些 AI 研究，说 AI 的文章容易灌水，只要有 idea，一两个月就可以发出 paper 来。而网络和系统的顶会文章往往需要很大的工作量，做一年之久。

除了在学校的时候上过的那些 AI 的课，我第一次正经做 AI 相关的项目是 2016 年，用 FPGA 加速 Bing Ranking 里面的神经网络。当时正好是 AI 的上一波热潮，今天的 AI 四小龙都是那段时间启动的。

微软把 FPGA 大规模部署到数据中心，除了网络虚拟化，还有很重要的一块就是神经网络推理加速。当时我们还用流水线并行来把神经网络的权重全部放到 FPGA 片上的 SRAM 里面，从而实现超线性的加速比。这段故事在《MSRA 读博五年——自己主导的第一篇 SOSP》中 “机器学习加速器的探索” 一节有更详细的描述。

当时搞网络和系统的很多人对 AI 并不了解，也不屑于了解，连训练和推理都分不清，也搞不清正向和反向算子。通过优化这些算子，我至少知道了基本的前馈神经网络（FFNN）到底是怎么算的。但我并没有接触业务，没有折腾过自己的模型。