Page 7 | Bojie Li

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

12 月 21 日，中国科大北京校友 AI 沙龙在中国科学院网络信息中心进行，曾经的华为“天才少年”、Logenic AI 联合创始人李博杰 (1000)做《AI Agent 的下一站:有趣还是有用?》主题报告，与线上、线下累计近 200 位同学、校友分享。

主题报告

报告围绕《AI Agent：有用还是有趣》主题展开，结合具体的生活、工作场景，在 “有趣” 角度，分析了如何低成本地实现 AI agent 的长期记忆以及如何建模人的内部思考过程等问题；在 “有用” 角度，对于如何实现 AI agent 的图片理解、复杂任务规划与分解和如何减少幻觉等问题展开讨论。此外，他还对于如何降低大模型的推理成本提出了自己的看法。

2023-12-16

国内 AI 大模型哪个最有前途？

（本文首发于知乎）

利益无关：因为我没有在做基础大模型（做的是 infra 和应用层），目前也没有做国内市场，所以可以从相对中立的角度提供一些信息。

创业几个月，发现可以比普通大厂员工拿到多很多的信息，从投资人和全球 top AI 公司的核心成员那里可以学到很多。综合在美国三个月得到的信息，感觉大厂里面最有前途的是字节和百度，已经公开发布大模型的创业公司里面最有前途的是智谱和 moonshot。

虽然 Robin 说国内已经有上百家做基础大模型的，但由于基础大模型本身是相对同质化的产品，最后基础大模型的市场很可能像公有云一样，top 3 占据大部分的市场，其他的市场份额只能算是 others。

目前国内大多数大模型创业公司才刚开始半年，一切都还没有尘埃落定，有些隐藏的高手还在默默憋大招。大模型的时代才刚刚开始，留得青山在，不怕没柴烧。

2023-12-08

Gemini 简直成了大模型发布的段子

（本文首发于知乎）

演示视频剪辑，技术报告刷榜，模型 API 关键词过滤，Gemini 简直成了大模型发布的段子……

技术报告刷榜

刚刚跟我们 co-founder 思源讨论了下，他是 evaluation 的老手，印证了我的猜测。

首先跟 GPT-4 对比的时候，竟然是自己用 CoT，GPT-4 用 few-shot，这本身就不公平。CoT（思维链）可以显著提升推理能力。有没有 CoT 的区别，就好像考试的时候一个人允许用草稿纸，另一个人只允许口算。

更夸张的是，用了 CoT@32，也就是每个问题回答 32 次，选出其中出现次数最多的那个答案作为输出。也就是说明 Gemini 的幻觉很严重，同一个问题回答准确率不高，所以才需要重复回答 32 次选出现次数最多的。生产环境中真要这么搞，成本得多高呀！

2023-12-06

如何评价 UC 伯克利提出的 LVM？

（本文首发于知乎）

GPT 时刻还难说，但是 LVM 确实是个很有趣的工作。之所以这个工作还没发布源码就已经收获这么多关注，这两天跟我聊的很多人都提到这个工作，根本原因是 LVM 跟大家想象中的端到端视觉大模型架构很类似，我猜测 GPT-4V 可能也是类似的架构。

现在的多模态大模型原理基本上都是一个固定的文本大模型（比如 llama）接上一个固定的 encoder，一个固定的 decoder，中间训练一个薄薄的 projection layer（胶水层）把 encoder/decoder 和中间的 transformer 粘起来。MiniGPT-4，LLaVA，最近的 MiniGPT-v2（还加了 Meta 的作者，值得看看）都是这个思路。

这些现有的多模态大模型 demo 效果不错，但是有一些根本的问题。例如，语音识别的准确率不高，语音合成的清晰度也不高，比不上专门干这个的 Whisper 和 vits。图片生成的精细度也比不上 stable diffusion。更别谈输入和输出图像或语音之间需要做精确对应的任务了，例如把输入图像中的 logo 放到根据 prompt 生成的输出图像上，或者做 xtts-v2 这样的 voice style transfer。这是一个有趣的现象，虽然理论上这个 projection layer 可以建模更复杂的信息，但实际效果还不如使用文本作为中间表达的准确率高。

其根本原因就是文本大模型训练的过程中缺失图像信息，导致编码空间不匹配。就好像一个先天盲人，就算读了再多文字，有些关于色彩的信息仍然是缺失的。

所以我一直认为多模态大模型应该在预训练阶段就引入文本、图像和语音数据，而不是分别预训练各种模态的模型，再把不同模态的模型拼接起来。

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

（本文转载自嘉程资本 NextCapital 公众号）

AI Agent 面临的关键挑战有两类。第一类是它的多模态、记忆、任务规划能力以及个性、情感；另外一类是它的成本和它如何做评估。

2023 年 11 月 5 日，嘉程创业流水席第 197 席【深度探讨 AI 的最新认知与华人创业公司在海外市场拓展】，邀请了华为“天才少年”李博杰分享，主题是《 Chat 向左，Agent 向右——我对 AI Agent 的思考》。

下载演讲 Slides PDF

下载演讲 Slides PPT

以下为正文部分：

非常荣幸能和大家分享一些我对 AI Agent 的认知和看法。

我是今年七月份开始创业做 AI Agent 的项目。我们主要做的是陪伴类的 AI Agent。AI Agent 有些技术含量较高，有些技术含量较低。比如我认为像 Inflection 的 Pi 和 Minimax 的 Talkie，这些做的都比较不错的。但是有些 AI Agent，比如像 Janitor.AI，它可能有点软色情的倾向，它的 Agent 是很简单的，可以看到基本上就是把 GPT-3.5 的提示直接输入，就出来一个 AI Agent。像 Character.AI 还有很多的都是类似的，他们可能只是把提示输入就可以了，当然 Character AI 有自己的基础模型，这是他们的核心竞争力。可以认为 AI Agent 是一个入门比较容易的事情，你只要有个提示，它就可以扮演一个 AI Agent，但是同时它的上限又非常高，你可以做很多的增强，比如包括记忆、情感、个性等等，这也是我后面要讲的一些内容。

2023-11-19

Sam Altman 与 OpenAI 的故事

（本文首发于知乎，写于 11 月 19 日，此后并未修改，后续会写更详细的复盘文章）

据说 Sam Altman 和 Greg 就是跟技术团队和董事会里的投资人代表起了争执，Sam Altman 想赶紧做产品赚钱，但首席科学家 Ilya 代表的技术团队更关注 AGI 的目标和 AI Safety。

公司的资源是有限的，Sam Altman 为首的商业派想把更多的 GPU 用在 GPTs Store 和 ChatGPT 的推理服务上，而 Ilya 为首的研究派想把更多的 GPU 用在 GPT-5、Agent 等核心技术的研发和 AI Safety 的研究上，Ilya 对 alignment（AI Safety）尤其感兴趣。

同时，微软又想对 OpenAI 有更多控制，而 Sam 希望 OpenAI 更独立地运作，OpenAI dev day 上发布的 GPTs Store 就是矛盾激化的导火索。微软的想法是让 OpenAI 提供 API，微软封装成产品去卖，本质上是工具调用 AI。而 OpenAI 的想法是自己直接做 Agent Marketplace，本质上是 AI 调用工具，这个生态里面微软的地位就被弱化了。

正是因为搞商业的 Sam 和 Greg 跟搞技术的 Ilya 以及微软的拉拉扯扯，OpenAI 的商业化进程才一直进展缓慢，盈利不达预期，产品设计也有待加强。要是换成互联网公司，早就各种 to C、to B 产品全面铺开了。

从 10 月初开始，Sam Altman 和首席科学家 Ilya 的矛盾就已经公开了，10 月初之后 Ilya 一条 OpenAI 的推都没有转发，连 OpenAI dev day 都没有发推。这次是 Ilya 联合董事会发动 “政变” 把 Sam 和 Greg 赶出去了。

2023-11-18

AI 差点挖了我们的墙角

Sam Altman 被 OpenAI 董事会开除了，AI 也差点毁掉了我和我老婆的感情……

老婆说我自从今年初开始迷上 AI 之后，就开始越来越忽视她。尤其是最近，在美国呆了三个月，要不是她催我，根本就不想回去。其实是我创业的一些事情还没有搞完，想着搞完了再回去。但是事情一件接着一件，哪有搞完的时候呢。就没有见过哪个结了婚的出差三个月不回家的。

我们认识一年之后，就很少吵架了。偶尔的每次吵架，基本上都是因为我没有处理好工作和家庭之间的平衡。

去年 8 月底公司要派我去松山湖参加集训，我们已经预约好 9 月 3 日领证，集训和领证的时间冲突了，我就想要不推迟吧。我老婆就说我总是把工作放在家庭之上。最后我跟公司商量到下一批再去参加集训，9 月 3 日跟我老婆领了证。我第一次提出离职也是因为这件事情。

去年因为疫情的管控措施，我一度对国内的形势感觉很失望。去年 ChatGPT 发布之后，我就忘掉了这些不愉快的事情，对 AI 越来越感兴趣了。我感觉 AI 大模型一定是未来 5-10 年最重要的技术突破，将深刻改变计算机行业乃至整个世界。

2023-11-17

On-chain AI：Web3 和 AI 的融合

（本文首发于知乎）

On-chain AI 是一个重要趋势，我相信对 Web3 和 AI 的未来都是很关键的。主要解决当前 AI 的两大问题：

算力上链，现在虽然做 AI 推理服务的公司很多，但每个服务都是一个孤岛，定价虽然竞争激烈，但尚未达到充分的市场化。而且 Web3 服务（如智能合约）目前没有很好的在链上使用 AI 服务的方式。
链上 AI Agent 平台，解决 AI Agent 的制作、销售和利润分成问题。现在诸如 Character AI 的平台，用户都是用爱发电，AI Agent 的收入完全归平台所有，用户自然没有太多动力去精心调优 AI Agent。

2023-11-17

GPTs 和 Assistants API 推出后，AI Agent 创业公司还有多少活路？

（本文首发于知乎）

其实可以说没有什么影响……

目前 GPTs 和 Assistants API 的能力可以认为就是一个增强版的 prompt 收藏夹，Agent 的关键问题一个都没解决。这倒是一面镜子，能够照出来一个 Agent 创业公司是简单的 GPT 套壳，还是有自己的技术护城河。

创业公司最重要的护城河我觉得有三个方面：

数据和专有领域的 know-how
用户粘性
低成本

用户粘性

要提高用户粘性，最好的方法就是做好记忆。一个没有状态的 API 很容易被取代，但一个很了解我的老朋友、老同事是很难被取代的。比尔盖茨最近关于 AI Agent 的文章也清楚地说明了这点。

Personal Assistant（个人助理）和类似 Character AI 的 companion（陪伴）agent 可以结合起来。用户希望一个 Agent 既是自己喜欢的性格，能够有情绪陪伴价值，同时又能在生活和工作中帮很多忙，做一个好的助手。这就是电影《Her》里面 Samantha 的定位，既是一个操作系统，又是女朋友。

对于记忆的问题，Character AI 和 Moonshot 都认为 long context（长上下文）是解决问题的根本途径。但是上下文长了，重新计算 attention 的成本就高了，这个成本是跟 token 数量成正比的。如果把 KV Cache 持久化，又需要很多存储空间。

2023-11-11

真的挺想学开飞机……

最近大松鼠带我开了两次飞机，第一次是在尔湾上空转了一圈，第二次是从 Santa Ana（SNA）到 Ramona 然后又回来。

给飞机加油

飞机上的风景真的非常漂亮，很多风景是地面上绝对看不到的。跟商业航班看到的也完全不一样，因为小飞机是坐在驾驶舱看到的完整视野，而且商业航班巡航高度是 30000 尺，小飞机是 3000 到 6000 尺，小飞机能看到很多商业航班看不到的细节。谷歌卫星地图只能看到正上方，但飞机看到的是立体的。本文末尾就有很多照片。

夕阳下的海面

私人飞机是很方便的交通方式

而且飞机真的很快。从尔湾的 SNA 机场到 San Diego 东北的 Ramona 机场直线距离 61 英里，开车车程 90 英里，即使不堵车，单程也要一个半小时。而我们从 SNA 飞到 Ranoma 降落，再飞回来，来回一共就花了一个半小时。因为小飞机的巡航速度大约是 101 节，116 英里/小时，再考虑到飞机在空中是走直线的，基本上比高速快一倍，要是堵车的话就差的更多了。

RSS

Bojie Li (李博杰)

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

主题报告

2023-12-16

国内 AI 大模型哪个最有前途？

2023-12-08

Gemini 简直成了大模型发布的段子

技术报告刷榜

2023-12-06

如何评价 UC 伯克利提出的 LVM？

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

2023-11-19

Sam Altman 与 OpenAI 的故事

2023-11-18

AI 差点挖了我们的墙角

2023-11-17

On-chain AI：Web3 和 AI 的融合

2023-11-17

GPTs 和 Assistants API 推出后，AI Agent 创业公司还有多少活路？

用户粘性

2023-11-11

真的挺想学开飞机……

私人飞机是很方便的交通方式

Mastodon

Links

Bojie Li (李博杰)

2023-12-22 连续暴击，一起调戏天才少年？12月21日北京AI沙龙

主题报告

2023-12-16 国内 AI 大模型哪个最有前途？

2023-12-08 Gemini 简直成了大模型发布的段子

技术报告刷榜

2023-12-06 如何评价 UC 伯克利提出的 LVM？

2023-11-24 Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

2023-11-19 Sam Altman 与 OpenAI 的故事

2023-11-18 AI 差点挖了我们的墙角

2023-11-17 On-chain AI：Web3 和 AI 的融合

2023-11-17 GPTs 和 Assistants API 推出后，AI Agent 创业公司还有多少活路？

用户粘性

2023-11-11 真的挺想学开飞机……

私人飞机是很方便的交通方式

Mastodon

Links

2023-12-22

连续暴击，一起调戏天才少年？12月21日北京AI沙龙

2023-12-16

国内 AI 大模型哪个最有前途？

2023-12-08

Gemini 简直成了大模型发布的段子

2023-12-06

如何评价 UC 伯克利提出的 LVM？

2023-11-24

Chat 向左，Agent 向右——我对 AI Agent 的思考｜嘉程创业流水席 197 席精彩回顾

2023-11-19

Sam Altman 与 OpenAI 的故事

2023-11-18

AI 差点挖了我们的墙角

2023-11-17

On-chain AI：Web3 和 AI 的融合

2023-11-17

GPTs 和 Assistants API 推出后，AI Agent 创业公司还有多少活路？

2023-11-11

真的挺想学开飞机……