国内 AI 大模型哪个最有前途?
(本文首发于知乎)
利益无关:因为我没有在做基础大模型(做的是 infra 和应用层),目前也没有做国内市场,所以可以从相对中立的角度提供一些信息。
创业几个月,发现可以比普通大厂员工拿到多很多的信息,从投资人和全球 top AI 公司的核心成员那里可以学到很多。综合在美国三个月得到的信息,感觉大厂里面最有前途的是字节和百度,已经公开发布大模型的创业公司里面最有前途的是智谱和 moonshot。
虽然 Robin 说国内已经有上百家做基础大模型的,但由于基础大模型本身是相对同质化的产品,最后基础大模型的市场很可能像公有云一样,top 3 占据大部分的市场,其他的市场份额只能算是 others。
目前国内大多数大模型创业公司才刚开始半年,一切都还没有尘埃落定,有些隐藏的高手还在默默憋大招。大模型的时代才刚刚开始,留得青山在,不怕没柴烧。
字节
为啥觉得字节可能是最有前途的呢?
- 字节有最多的多模态中文私有数据。高质量数据在大模型训练中是非常关键的。中文高质量的公开数据本来就不多,现在基本上已经被爬干净了。大模型的下一站肯定是多模态,字节有最多的多模态数据。
- 字节有 OpenAI 的研究科学家。几个月前字节就从 OpenAI 高价挖了几个科学家。4 月份业界就有传闻说字节想花上百万美金从 OpenAI 挖人,结果面试官被 OpenAI 反挖走了,成了段子。没想到字节真的从 OpenAI 挖到了人。
- 字节有很多 GPU 资源。早在几年前,字节就开始做大规模 GPU 集群,积累了很多 GPU 资源,今年初 GPU 荒的时候,火山云靠着屯的 GPU 卡一跃成为国内第二大 GPU 云服务商。字节几年前就开始搞大规模 RoCE 网络来做 GPU 集群互联了,能搞定这个的全球就没有几家,微软是规模最大的,今年刚发了 paper。有些厂也试图效仿微软搞 RoCE 互联 GPU 集群,结果掉进坑里了。
- 字节有落地场景。比如现在做视频生成的很多,字节暂时并没有像 Runway ML 那样做端到端的生成,而是走了更务实的路线,把 AI 能力放到剪映里面,使用户更容易创作短视频。
注意豆包用的并不是字节最新的大模型,所以豆包用的模型并不能反映字节大模型的最新进展。字节目前大模型的水平虽然还不如百度,但发展的加速度比较大。
百度
百度是大厂里面我认为也非常有前途的。
- 百度有先发优势。文心一言是国内第一个正式发布的中文大模型,目前仅 C 端就已经有上百万的 DAU。目前已经达到 GPT-3.5 和 GPT-4 之间的水平,部分中文能力已经达到 GPT-4。
- 百度顶层重视程度高。在文心一言最关键的一段时间,Robin 每天都要听取文心一言团队的汇报。GPU 是唯一需要 Robin 亲自调度的计算资源。
- 百度有很多文本数据积累。在移动互联网之前,百度是中文互联网最大的公开数据汇聚地。移动互联网的数据大部分是烟囱化的,很多甚至是私有的,腾讯也不敢用微信 QQ 的聊天记录来做大模型训练。百度的数据团队也非常强,数据采集、数据清洗都是相当专业的。单是数据增强,一个月就花几千万的 OpenAI API 调用费用。
当然,阿里、腾讯、华为也各有各的优势,比如阿里的 GPU 多、Infra 先进,腾讯有落地场景,华为有自己的 AI 芯片。但目前发布的大模型水平还不如百度和字节。
Moonshot
Moonshot 是国内大模型初创公司的代表。
- Moonshot 有比较专业且和谐的团队。虽然 Moonshot 的团队相对年轻,但是有非常 sharp 的技术观点,包括前几个月比较火的 “压缩即智能” 观点。在大模型技术领域,既然大家都没做成功过大模型,年轻可能反而是优势。创始团队和谐,没有大公司病,都在专注技术。
- 目前大模型的进展较快,已经超过 GPT-3.5 水平。在初创公司已经发布的大模型中,只有 Moonshot 的模型水平超过了 GPT-3.5。并没有直接照抄 LLaMA 的架构,而是做了很多工程上的优化。比如长上下文能力是国内最强的,在 prompt 合理的情况下,上下文各个位置上的信息提取出来的概率都超过 90%,并不是简单用 LongChat 这种方法就能扩出来的。但是不排除有其他公司正在悄悄憋大招。
现在相比 top 几家大模型创业公司,最大的缺点是融资额相对不算最大的,GPU 资源可能尚不足以训练 GPT-4。
个人认为,字节、百度、阿里、华为一定会用自己的大模型团队,腾讯虽然自己也在做大模型,但有可能收购一家大模型公司,到合适的时机,被腾讯收购其实也是不错的。
智谱
智谱是国内 to B 领域大模型创业公司的代表。
- 智谱有独特的商业模式。To B 市场虽然比较难以盈利,但营收比较有保障。在大多数国内大模型创业公司主要瞄准 to C 市场的时候,能够有 to B 的资源,在这个赛道上会有一个比较稳定的利基市场。因此智谱也是国内大模型创业公司里面人员规模最大的。
- 融资额较大。在国内初创公司中,融资额应该是相对较大的。虽然投资可能没有字节、百度这些大厂多,但只要 GPU 到位,训练 GPT-4 这种级别的模型是足够了。
- 起步较早,转型及时。智谱早期是做知识图谱的,大模型浪潮到来之后及时转型到大模型,而且在知识图谱和大模型的结合方面采取了较为务实的路线,并未强行把知识图谱加到 Transformer 里面。
不过 ChatGLM 目前公开模型的水平尚未全面达到 GPT-3.5,字节、百度和 Moonshot 的模型水平都已经超过 GPT-3.5 了。我把智谱放进来主要是因为它在 to B 方面一定会占据一席之地。
那其他公司呢?
我没有办法逐一对其他公司发表评论。没有列出的公司也有很多实力很强的,我只能看到当前的进展,没有办法预测未来。
“幸福的家庭都是相似的,不幸的家庭各有各的不幸。”
大厂最容易出现的问题:
- 资源碎片化,有限的 GPU 资源、人才资源分散到多个互相竞争的团队,内部赛马浪费大量资源。
- 部门墙厚,做大模型的部门拿不到数据。
- 不在一线的资深专家指挥一线的年轻专家,技术方案不够接地气。大模型是个新领域,除了个别顶级科学家,大家都是站在一个起跑线上的。传统 AI 上成功的 research taste 并不一定能迁移到大模型上,反而有可能成为一个阻碍。就像贾里尼克几十年前说的,每开掉一个语言学家,语音识别率就上升了。
- 锁死在公司现有的业务场景。大模型本来是通用技术,但大厂经常会要求优先使能现有的产品。如果现有产品跟大模型的结合点比较少,就可能导致大模型落不了地。OpenAI 早期就被微软要求优先用在 Office 里面,还因此导致了人员出走,好在微软最终没有做这种杀鸡取卵的事情。
- 只抄袭别人的架构,没有自己的创新。
- 另一个极端,盲目追求创新,比如非要搞一个创新的非 Transformer 架构,又没有足够深入的思考,结果掉进坑里了。
- 全线出击,结果一个都没搞成。既要搞 GPT-4,又要搞多模态,还要搞长上下文,做文本的和多模态的还是两拨人;既要搞 to B,又要搞 to C,既要国内市场,又要海外市场。
- 买不到/租不到 GPU。
创业公司最容易出现的问题:
- Founder dispute,就像 OpenAI 最近发生的事情,核心成员之间发生宫斗。这是创业公司最可怕的问题。
- 不是大公司,却患上了大公司的病。如果公司里有很多资深大厂经验的人,出现这种问题的可能性是比较高的。
- 某个领域招不到靠谱的专家。数据、算法、Infra 三个方向都很重要,能在三个方向上都招到靠谱的人,是很不容易的。
- 技术不够成熟就急于发布,损害公司声誉。例如很多中文大模型都是在 LLaMA 基础上做了 continue pretraining,加上一些中文语料就变成中文大模型了;使用 LLaMA 的架构,从头开始收集和清洗数据做 pretrain 已经是 top 创业公司才能搞定的了。真正的高手是准备搞出 GPT-4 级别的模型才一击必杀的。
- 缺少技术护城河。比如产品做一个虚拟的弗洛伊德,写一个 prompt 很简单,但是如果需要真的能理解弗洛伊德的理论,能够做一个靠谱的心理咨询师,没有一定的技术积累是做不出来的。如果一个公司总是担心自己的业务 OpenAI 做了怎么办,那就说明技术护城河还不够深。
- 创始人不懂技术。如果创始人看不懂 paper,就很难 follow 大模型领域最新的进展,每天被各种公众号的信息轰炸得焦头烂额,很容易失去耐心。
- 买不到/租不到 GPU。
- 盲目扩张规模,不仅容易导致有限的资金很快被烧光,还容易导致人浮于事,患上大公司病。
- 拉不到下一轮投资。不知道又有哪些基础大模型公司会死在明年的冬夜。