AI 的三叉路口:专业模型和个人模型
(本文是 2024 年 11 月笔者应开源中国邀请,为《2024 年 OSChina 年度 AI 盘点》撰写的文章)
2024 年大模型真正开始落地,大多数科技工作者在工作中至少使用一款大模型提升效率,很多国民级应用和手机厂商也接入了大模型。大模型开始往专业(Professional)模型和个人(Personal)模型两个方向分化。
专业模型
专业模型是旨在提升生产力的模型,例如 AI 辅助编程、写作、设计、咨询、教育等。一旦模型能力达到门槛,专业模型将带来很高的附加值。2024 年,专业模型已经在很多领域落地。例如,AI 辅助编程可以提升开发效率一倍以上,仅用每月数十美元的 API 调用或 IDE 订阅成本,就相当于每月上万美元的工程师。AI 生成图片、播客、直播等,可以上百倍提升画师、配音员、主播的工作效率。AI 在心理、法律、医疗等领域的咨询服务可达到初级专业人士水平,每小时收费相比模型成本也高上百倍。AI 虚拟外教已经可以媲美真人外教,由于发音标准,效果甚至超过大多数国内英语老师。未来,AI 辅助教学将改变一对多的传统教学模式,不仅使 AI 一对一教学成为可能,人类教师的教学内容准备效率和内容质量也将大幅提升。
专业模型是通用大模型和垂直领域数据、工作流的结合。这里通用大模型的基础能力是关键,一个世界领先的通用大模型加上 RAG(搜索增强生成)行业知识库,达到的效果往往超过较弱的模型加上一些垂直领域数据微调得到的行业模型。因此,专业模型虽然训练、推理成本都较高,但考虑到较高的溢价空间,投入是值得的。
由于通用大模型的通用性,难以建立差异化壁垒,也难以形成网络效应,因此基础模型公司的竞争将非常激烈,算力将成为长期竞争力的关键。对于大公司而言,能否集中算力、数据和人才,保持组织高效很关键。创业公司需要更多的资金支持,或者与云计算平台或芯片厂商深度合作,才能竞争专业模型的最高水平。一个例外是图片、视频等基于扩散模型的生成模型,在创作需求简单的情况下,未必需要通用语言模型这么大,是一个差异化竞争的机会。
随着专业模型编程能力的提升和 AI Agent 工作流进一步成熟,低代码编程将成为可能,很多人心中的想法将可以快速转化成应用,应用创业的试错成本已经大幅降低,未来甚至可能出现 Sam Altman 所说的 “仅有一个人的 10 亿美金公司”。由于定制化开发、知识收集整理的成本降低,大量现实世界中的工作流将通过 Agent 工作流转化为行业应用,大量零散的行业知识将转化为结构化的行业数据,从而解决传统行业数字化转型中的定制化开发难题。
2025 年,对于技术难度不高的软件,程序员的角色将逐步转型为架构师 + 产品经理 + 项目经理,只需将软件开发项目分解为一小时以内颗粒度,描述清晰、结果可自动验证的任务,交给 AI 完成开发,然后人工验收结果和迭代需求。因此,对程序员而言,需求表达能力、沟通能力等软技能和系统架构设计等硬核能力将越来越重要,因为 AI 需要人表达清楚需求才能做好,复杂系统的架构设计和问题解决也还是要靠人。
以 o1 为代表的强推理能力模型旨在扩展人类智力的边界,2025 年将在数学、编程等限定领域达到人类专家水平。2025 年,以 Claude 3.5 Sonnet 为代表的模型将在操作 GUI 完成通用任务领域达到人类平均水平,从而 AI 可以像初级员工一样端到端完成描述清晰、不需要创造性的工作。基于推理能力和 GUI 操作能力,2025 年 AI Agent 将达到可靠性门槛,真正成为人类的 copilot,自动化完成重复工作,并帮助员工解决陌生领域的问题,加速员工成长。率先采用 Agent 工作流的公司将获得显著的竞争优势。
专业模型是通向 AGI 的必经之路。Anthropic CEO 预测,未来 5 年专业模型将在几乎所有研究领域超过人类专家水平,从而将人类科研进展加速 10 倍,15 年后人类寿命有望达到 150 岁。但 AGI 能否实现,最大的不确定性在于技术和资金。技术方面,一些头部大模型公司已经发现 Transformer 能力 “撞墙”,现有高质量语料基本都被用过了,强化学习的能力边界和泛化性尚待验证。资金方面,一些智库预测,AGI 将需要上万亿美元的投资,芯片的能耗也将使人类的总体能源消耗增加一倍。如果 AGI 达成,将显著改变国际竞争格局和人类生活方式。
个人模型
相比更类似 “阿波罗计划” 的专业模型,个人模型不需要那么大训练投入,也更容易变现。个人模型旨在帮助普通人提升生活质量,例如生活助手、旅行助手、电话助手等,把《Her》等科幻电影中的场景变为现实。
一般认为,同时具备 GPT-4o 多模态能力和 o1 推理能力的模型就可以满足个人模型的需求。目前国内的顶级闭源和开源模型已经接近个人模型的技术目标,且推理成本显著低于 OpenAI 目前的定价。但目前端到端多模态模型和推理模型的成本仍然较高,且在一些场景下还不够稳定。但 2023 年以来,模型知识密度有每 8 个月提升一倍的 “类摩尔定律” 趋势,加上硬件的摩尔定律和推理框架的优化,一到两年后,个人模型的使用成本将达到可以让用户随时使用的水平,就像互联网应用一样,通过广告和高级功能订阅即可盈利。
类似 o1 的强推理能力模型也不一定需要很大。推理能力将成为个人模型的标配,经常算错数的模型将被淘汰。模型推理能力的提升将使 Agent 工作流可以可靠处理复杂任务,真正节约用户时间,甚至完成人力不能及的信息采集和分析。
手机、PC 和空间计算设备的端侧个人模型,结合 Agent 工作流,将足够满足大多数人类可以瞬间反应的日常需求,智能汽车可能成为家庭计算中心。云端模型作为端侧模型的补充,将用于处理较复杂的、人类需要稍作思考的任务,也将用于处理大量重复任务和数据。模型的多模态能力将使 AR/VR 等空间计算设备成为更自然的人机交互入口。多模态和推理能力也将使具身智能真正具备通用的感知、规划、控制能力。
顶级的专业模型公司有最高质量的数据,因此可以蒸馏出知识密度最高的个人模型。但由于个人模型的推理成本较低,知识密度稍低的模型未必没有市场。由于训练成本较低,未来个人模型将百花齐放,AI 公司很难单靠模型本身建立护城河,产品的重要性将高于模型能力。
面向个人生活和娱乐的 AI 产品关键是用户交互,目前优秀的 AI 应用已经不简单是生成文字。在 Claude Artifacts 之后,AI 生成代码,再运行代码,生成图文并茂的回答,直观的图表,多模态带讲解的播客,甚至带交互的小游戏、小应用,已经成为 AI 应用的新范式。
在个人模型成本尚未降低到可以随意使用时,商业上成功的应用可能将有更高的 “读写比”,也就是每次模型生成的内容可以被用户多次使用。一种模式是内容社区,创作者利用 AI 生成内容,大量的用户访问这些内容;另一种模式是用户的问题有很高比例是重复的,例如拍照搜题、生成调研报告等;还有一种模式是 AI 仅在创作阶段使用,例如 AI 辅助游戏和视频制作、行业数据收集整合等。
总体来说,目前 AI 应用尚处于 “iPhone 1” 时代,模型能力、应用生态、用户习惯都在快速进化中。所谓 “AI 一天,人间一年”,即使是 AI 专家,也很难跟上所有最新的科研进展。大模型的时代才刚刚开始,预测未来的最好方式就是持续学习、探索、利用 AI 能力,发现自己真正的兴趣和追求,进而创造未来。