数据是互联网和 AI 公司的护城河
【本文首发于知乎回答 《回顾互联网发展,有哪些底层逻辑看似简单但将在未来持续奏效?》】
数据是最重要的护城河。
互联网公司的护城河是数据
我非常喜欢老王的产品课,王慧文是校内、美团创始人之一,他的清华产品课非常经典,值得一遍一遍回味。里面讲到规模效应,社交网络有网络效应。网络效应的背后其实就是数据:我认识哪些朋友?跟这些朋友的亲疏远近怎么样?
老王的产品课里说复制一个微信很难,阿里和字节试图进攻微信但失败了。但如果某天有个先知 app,他知道一个人现实中所有的朋友关系,然后根据这个自动生成好友关系。两个人只要见面聊了几句,不用扫码就能自动推荐好友,当然加不加是用户自己的决定。这个先知 app 恐怕是可以跟微信一战的。这就是微信掌握了好友关系数据的价值。
但这个先知 app 里面没有微信的聊天记录,没有朋友圈的历史,因此还是缺了些什么。这就是对话历史数据的价值。如果这个先知更进一步,知道每个人每天都说了什么,做了什么,那恐怕微信也不是它的对手。
电商、外卖、打车平台的护城河其实都是数据。有哪些商家,商家有哪些货、哪些菜品;有哪些骑手,路上交通状况如何;有哪些用户想买什么,想吃什么,想去哪里。平台上的人越多,数据越多,就越可能匹配到想要的东西。设想一个外卖平台在北京只有 10 个餐馆,10 个骑手,那用户点外卖就很难匹配上想吃的东西,就算匹配上了也很难找到附近的骑手给送餐,这个平台的价值就非常有限。
像知乎、B 站、抖音、小红书这样的内容社区,护城河也是数据。最有趣的问题都在知乎提问了,最专业的答主都在知乎回答了,这样一个知识问答社区就有很大的价值。开发一个内容社区成本不高,但运营好一个内容社区却比开发本身难很多。
互联网金融公司的护城河也是数据。为什么他们敢在没有担保的情况下就给用户放贷,也是因为根据用户在平台上的交互数据,可以比较好的评估用户的信用状况。
AI 创业公司的护城河是数据
现在 AI 创业经过 2023、2024 两年的沉淀,大家也在思考到底什么才是 AI 创业公司的护城河。我认为,大多数 AI 创业公司的护城河仍然要靠数据。
包括我,很多 AI 创业公司不那么顺利,主要原因就是高估了技术的价值。觉得只要我算法好,效果好,性能高,成本低,就能获得市场。但很多时候客户觉得差不多就够了,大家都用类似的基础模型,单靠工程优化拉不开差距。基础模型发展还这么快,好不容易在技术上拉开点差距,基础模型一更新换代,原来的技术积累很多都浪费了,大家又站在同一条起跑线上了。
反思下互联网的底层逻辑,数据才是构建 AI 产品护城河的关键。
数据分为两方面,一是用户数据,二是垂直领域数据。
用户数据:
- AI 陪伴 app,一个 app 如果知道用户的喜好、性格和个人经历,显然就能聊得更好。这些用户数据是需要慢慢积累的,积累下来就是护城河。
- ChatGPT 这样的生产力工具,如果知道用户当前这段时间在做什么(比如当前项目的信息),就不用每次提问都在 prompt 里面重复。事实上 ChatGPT 的 bio 已经有这种功能,但效果做得还不好。
- Cursor、Windsurf 这样的 AI 编程工具,如果知道用户擅长的一些技术栈和喜欢用的框架、库,或者公司在这方面的一些规定,每次写代码就可以用他喜欢的这些技术栈和框架。
垂直领域数据:
- 现在很多人都在做 RAG,抱怨 RAG 生成的东西质量不高,其实主要原因不是在大模型的生成部分,而是在 Retrieval。通用搜索引擎搜索到的结果既不能保证搜到的结果都是相关的(准确率),又不能保证相关的结果都能被搜到(召回率)。在需要高准确率的商业场景下就没法落地。要做到准确率高,数据源一定要是结构化的,不管是数据库还是知识图谱。我昨天在嘉程流水席分享了《AI Agents 从 demo 到落地》,其中第二部分就是在讲垂直领域 RAG 如何利用结构化数据提升 Retrieval 的准确率和召回率。
- AI 落地的另一个挑战是很多行业的数据和工作流根本就没有被数字化,或者虽然数字化了,但散落在聊天记录、零散的文档里,没有形成结构化知识库。以往搭建结构化知识库的数据采集和清洗成本非常高,需要大量人力,但现在有了 AI,成本可以大幅降低。这也是我在昨天分享的《AI Agents 从 demo 到落地》第二部分讲的内容。可以预见的是,如果一个公司在行业内有一些积累,率先使用 AI 把行业知识库构建起来了,就会有很大的竞争优势。
- AI 可以放大数据的价值,加深数据护城河。例如一家公司有最全、最准确的某行业数据,例如全国所有学校的专业、老师信息,之前这些数据只能做个资源站让用户搜索进来看,数据打包卖也卖不了几个钱。但现在有了 AI,如果利用这些数据做个 RAG 应用,用户在这里得到的选学校、选专业信息可能就是最专业的,相当于人人都可以找张雪峰一对一指导了。而只能使用通用搜索引擎的 RAG 应用就没办法做到这么全面和准确。这些行业数据的价值就能发挥出来了。
前面讲的垂直领域数据并不限于 to B,其实 to C 也是适用的。
现在很多 to C App 留存不高,关键原因就是缺少游戏化、场景化,用户尝鲜之后不知道该继续做什么,也无法得到即时激励和反馈。好的 to C App 需要实现游戏化、场景化,匹配用户的喜好和需求,有一套玩法系统给用户即时激励和反馈。这些场景、玩法都是领域数据,用户的喜好是用户数据。
- 学英语 app 如果只是像 ChatGPT 那样随便聊天,学习效果肯定不好。App 里面需要有精心设计的课程和内容,根据用户的喜好和能力水平推荐内容,还要有一些考核和奖励机制。
- 陪聊 app 如果只是跟虚拟人物自由聊天,用户很快就不知道该聊什么了。这就需要游戏化(gamify),有场景,有激励。这些场景和玩法系统的背后都是数据。如果有些用户的需求是心理疏导,那还需要心理咨询领域的一些专业话术和引导技巧。
可以看到,这里面 “有趣” 和 “有用” 并不是互斥的,学英语、心理咨询并不一定要很枯燥,有用的 app 一样可以很有趣。
除了 AI 应用创业,对基础模型公司来说,数据也非常重要。有更高质量的数据,训练出的模型知识密度就更高,有更强的成本竞争力。尽管现在基础模型的预训练已经穷尽绝大多数的高质量文本数据,但模型的知识密度定律还是在继续,2023-2024 年模型的知识密度提升了 100 倍,为什么?就是因为大家在不断用更好的大模型蒸馏出更高质量的数据,进而训练出知识密度更高的小模型。比如 OpenAI 最新的预训练模型就没有发布,因为它太大、太贵了,能力提升也不明显,它的作用是生成训练数据,提升低成本商用模型的能力。
未来每家互联网公司都将是 AI 公司。大多数公司不是造 AI 的,而是用 AI 的。
从互联网时代到 AI 时代,数据都是非常重要的护城河。AI 还可以放大数据的价值。
未来的互联网规模经济一定不只是看用户人头,更重要的是用户贡献了哪些数据,平台掌握了哪些领域数据。