Bojie Li (李博杰)
2024-01-08
(转载自搜狐科技,作者:梁昌均)
编者按:
人生重燃,如春柳抽芽,历经寒冬的磨砺,终焕生机。
每个人都是航行者,在人生的旅途中,我们难免遭遇困境、挫折和失败。面对风浪的洗礼,我们不断调整航向,坚定前行,寻找属于自己的彼岸。
人生重燃,亦是对自我价值的重新认识。我们要学会欣赏自己的优点,如琴瑟之和谐,亦接受自己的不足,如同璞玉需经琢磨方显光华。
此路虽不易,但如清泉之在石,日积月累,终汇聚成海。
值此跨年之际,搜狐财经、搜狐科技联合推出策划报道,聚焦个体小人物的人生重燃之旅,一起勇敢面对人生挑战。
2023-12-23
经常有人让我推荐一些 AI Agent 和大模型相关的经典论文,在这里列一些对我比较有启发的 paper,可以作为 Reading List。
这里面大部分的 paper 都是今年刚发表的,但是也有一些文本大模型、图片视频生成模型的经典论文,把这些经典论文读明白是理解大模型的关键。
这些论文如果都读完了,哪怕是只领会了论文的核心 idea,也保证能让你不再仅仅是一名 prompt 工程师,而能够跟大模型的专业研究者深入讨论了。
2023-12-22
(转载自科大新创校友基金会)
12 月 21 日,中国科大北京校友 AI 沙龙在中国科学院网络信息中心进行,曾经的华为“天才少年”、Logenic AI 联合创始人李博杰 (1000)做《AI Agent 的下一站:有趣还是有用?》主题报告,与线上、线下累计近 200 位同学、校友分享。
主题报告
报告围绕《AI Agent:有用还是有趣》主题展开,结合具体的生活、工作场景,在 “有趣” 角度,分析了如何低成本地实现 AI agent 的长期记忆以及如何建模人的内部思考过程等问题;在 “有用” 角度,对于如何实现 AI agent 的图片理解、复杂任务规划与分解和如何减少幻觉等问题展开讨论。此外,他还对于如何降低大模型的推理成本提出了自己的看法。
2023-12-16
(本文首发于知乎)
利益无关:因为我没有在做基础大模型(做的是 infra 和应用层),目前也没有做国内市场,所以可以从相对中立的角度提供一些信息。
创业几个月,发现可以比普通大厂员工拿到多很多的信息,从投资人和全球 top AI 公司的核心成员那里可以学到很多。综合在美国三个月得到的信息,感觉大厂里面最有前途的是字节和百度,已经公开发布大模型的创业公司里面最有前途的是智谱和 moonshot。
虽然 Robin 说国内已经有上百家做基础大模型的,但由于基础大模型本身是相对同质化的产品,最后基础大模型的市场很可能像公有云一样,top 3 占据大部分的市场,其他的市场份额只能算是 others。
目前国内大多数大模型创业公司才刚开始半年,一切都还没有尘埃落定,有些隐藏的高手还在默默憋大招。大模型的时代才刚刚开始,留得青山在,不怕没柴烧。
2023-12-08
(本文首发于知乎)
演示视频剪辑,技术报告刷榜,模型 API 关键词过滤,Gemini 简直成了大模型发布的段子……
技术报告刷榜
刚刚跟我们 co-founder 思源讨论了下,他是 evaluation 的老手,印证了我的猜测。
首先跟 GPT-4 对比的时候,竟然是自己用 CoT,GPT-4 用 few-shot,这本身就不公平。CoT(思维链)可以显著提升推理能力。有没有 CoT 的区别,就好像考试的时候一个人允许用草稿纸,另一个人只允许口算。
更夸张的是,用了 CoT@32,也就是每个问题回答 32 次,选出其中出现次数最多的那个答案作为输出。也就是说明 Gemini 的幻觉很严重,同一个问题回答准确率不高,所以才需要重复回答 32 次选出现次数最多的。生产环境中真要这么搞,成本得多高呀!
2023-12-06
(本文首发于知乎)
GPT 时刻还难说,但是 LVM 确实是个很有趣的工作。之所以这个工作还没发布源码就已经收获这么多关注,这两天跟我聊的很多人都提到这个工作,根本原因是 LVM 跟大家想象中的端到端视觉大模型架构很类似,我猜测 GPT-4V 可能也是类似的架构。
现在的多模态大模型原理基本上都是一个固定的文本大模型(比如 llama)接上一个固定的 encoder,一个固定的 decoder,中间训练一个薄薄的 projection layer(胶水层)把 encoder/decoder 和中间的 transformer 粘起来。MiniGPT-4,LLaVA,最近的 MiniGPT-v2(还加了 Meta 的作者,值得看看)都是这个思路。
这些现有的多模态大模型 demo 效果不错,但是有一些根本的问题。例如,语音识别的准确率不高,语音合成的清晰度也不高,比不上专门干这个的 Whisper 和 vits。图片生成的精细度也比不上 stable diffusion。更别谈输入和输出图像或语音之间需要做精确对应的任务了,例如把输入图像中的 logo 放到根据 prompt 生成的输出图像上,或者做 xtts-v2 这样的 voice style transfer。这是一个有趣的现象,虽然理论上这个 projection layer 可以建模更复杂的信息,但实际效果还不如使用文本作为中间表达的准确率高。
其根本原因就是文本大模型训练的过程中缺失图像信息,导致编码空间不匹配。就好像一个先天盲人,就算读了再多文字,有些关于色彩的信息仍然是缺失的。
所以我一直认为多模态大模型应该在预训练阶段就引入文本、图像和语音数据,而不是分别预训练各种模态的模型,再把不同模态的模型拼接起来。
2023-11-24
(本文转载自嘉程资本 NextCapital 公众号)
AI Agent 面临的关键挑战有两类。第一类是它的多模态、记忆、任务规划能力以及个性、情感;另外一类是它的成本和它如何做评估。
2023 年 11 月 5 日,嘉程创业流水席第 197 席【深度探讨 AI 的最新认知与华人创业公司在海外市场拓展】,邀请了华为“天才少年”李博杰分享,主题是《 Chat 向左,Agent 向右——我对 AI Agent 的思考》。
以下为正文部分:
非常荣幸能和大家分享一些我对 AI Agent 的认知和看法。
我是今年七月份开始创业做 AI Agent 的项目。我们主要做的是陪伴类的 AI Agent。AI Agent 有些技术含量较高,有些技术含量较低。比如我认为像 Inflection 的 Pi 和 Minimax 的 Talkie,这些做的都比较不错的。但是有些 AI Agent,比如像 Janitor.AI,它可能有点软色情的倾向,它的 Agent 是很简单的,可以看到基本上就是把 GPT-3.5 的提示直接输入,就出来一个 AI Agent。像 Character.AI 还有很多的都是类似的,他们可能只是把提示输入就可以了,当然 Character AI 有自己的基础模型,这是他们的核心竞争力。可以认为 AI Agent 是一个入门比较容易的事情,你只要有个提示,它就可以扮演一个 AI Agent,但是同时它的上限又非常高,你可以做很多的增强,比如包括记忆、情感、个性等等,这也是我后面要讲的一些内容。
2023-11-19
(本文首发于知乎,写于 11 月 19 日,此后并未修改,后续会写更详细的复盘文章)
据说 Sam Altman 和 Greg 就是跟技术团队和董事会里的投资人代表起了争执,Sam Altman 想赶紧做产品赚钱,但首席科学家 Ilya 代表的技术团队更关注 AGI 的目标和 AI Safety。
公司的资源是有限的,Sam Altman 为首的商业派想把更多的 GPU 用在 GPTs Store 和 ChatGPT 的推理服务上,而 Ilya 为首的研究派想把更多的 GPU 用在 GPT-5、Agent 等核心技术的研发和 AI Safety 的研究上,Ilya 对 alignment(AI Safety)尤其感兴趣。
同时,微软又想对 OpenAI 有更多控制,而 Sam 希望 OpenAI 更独立地运作,OpenAI dev day 上发布的 GPTs Store 就是矛盾激化的导火索。微软的想法是让 OpenAI 提供 API,微软封装成产品去卖,本质上是工具调用 AI。而 OpenAI 的想法是自己直接做 Agent Marketplace,本质上是 AI 调用工具,这个生态里面微软的地位就被弱化了。
正是因为搞商业的 Sam 和 Greg 跟搞技术的 Ilya 以及微软的拉拉扯扯,OpenAI 的商业化进程才一直进展缓慢,盈利不达预期,产品设计也有待加强。要是换成互联网公司,早就各种 to C、to B 产品全面铺开了。
从 10 月初开始,Sam Altman 和首席科学家 Ilya 的矛盾就已经公开了,10 月初之后 Ilya 一条 OpenAI 的推都没有转发,连 OpenAI dev day 都没有发推。这次是 Ilya 联合董事会发动 “政变” 把 Sam 和 Greg 赶出去了。
2023-11-18
Sam Altman 被 OpenAI 董事会开除了,AI 也差点毁掉了我和我老婆的感情……
老婆说我自从今年初开始迷上 AI 之后,就开始越来越忽视她。尤其是最近,在美国呆了三个月,要不是她催我,根本就不想回去。其实是我创业的一些事情还没有搞完,想着搞完了再回去。但是事情一件接着一件,哪有搞完的时候呢。就没有见过哪个结了婚的出差三个月不回家的。
我们认识一年之后,就很少吵架了。偶尔的每次吵架,基本上都是因为我没有处理好工作和家庭之间的平衡。
去年 8 月底公司要派我去松山湖参加集训,我们已经预约好 9 月 3 日领证,集训和领证的时间冲突了,我就想要不推迟吧。我老婆就说我总是把工作放在家庭之上。最后我跟公司商量到下一批再去参加集训,9 月 3 日跟我老婆领了证。我第一次提出离职也是因为这件事情。
去年因为疫情的管控措施,我一度对国内的形势感觉很失望。去年 ChatGPT 发布之后,我就忘掉了这些不愉快的事情,对 AI 越来越感兴趣了。我感觉 AI 大模型一定是未来 5-10 年最重要的技术突破,将深刻改变计算机行业乃至整个世界。