2023-12-08
Gemini 简直成了大模型发布的段子

(本文首发于知乎

演示视频剪辑,技术报告刷榜,模型 API 关键词过滤,Gemini 简直成了大模型发布的段子……

技术报告刷榜

刚刚跟我们 co-founder 思源讨论了下,他是 evaluation 的老手,印证了我的猜测。

首先跟 GPT-4 对比的时候,竟然是自己用 CoT,GPT-4 用 few-shot,这本身就不公平。CoT(思维链)可以显著提升推理能力。有没有 CoT 的区别,就好像考试的时候一个人允许用草稿纸,另一个人只允许口算。

更夸张的是,用了 CoT@32,也就是每个问题回答 32 次,选出其中出现次数最多的那个答案作为输出。也就是说明 Gemini 的幻觉很严重,同一个问题回答准确率不高,所以才需要重复回答 32 次选出现次数最多的。生产环境中真要这么搞,成本得多高呀!

Read More

2023-12-06
如何评价 UC 伯克利提出的 LVM?

(本文首发于知乎

GPT 时刻还难说,但是 LVM 确实是个很有趣的工作。之所以这个工作还没发布源码就已经收获这么多关注,这两天跟我聊的很多人都提到这个工作,根本原因是 LVM 跟大家想象中的端到端视觉大模型架构很类似,我猜测 GPT-4V 可能也是类似的架构。

现在的多模态大模型原理基本上都是一个固定的文本大模型(比如 llama)接上一个固定的 encoder,一个固定的 decoder,中间训练一个薄薄的 projection layer(胶水层)把 encoder/decoder 和中间的 transformer 粘起来。MiniGPT-4,LLaVA,最近的 MiniGPT-v2(还加了 Meta 的作者,值得看看)都是这个思路。

这些现有的多模态大模型 demo 效果不错,但是有一些根本的问题。例如,语音识别的准确率不高,语音合成的清晰度也不高,比不上专门干这个的 Whisper 和 vits。图片生成的精细度也比不上 stable diffusion。更别谈输入和输出图像或语音之间需要做精确对应的任务了,例如把输入图像中的 logo 放到根据 prompt 生成的输出图像上,或者做 xtts-v2 这样的 voice style transfer。这是一个有趣的现象,虽然理论上这个 projection layer 可以建模更复杂的信息,但实际效果还不如使用文本作为中间表达的准确率高。

其根本原因就是文本大模型训练的过程中缺失图像信息,导致编码空间不匹配。就好像一个先天盲人,就算读了再多文字,有些关于色彩的信息仍然是缺失的。

所以我一直认为多模态大模型应该在预训练阶段就引入文本、图像和语音数据,而不是分别预训练各种模态的模型,再把不同模态的模型拼接起来。

Read More

2023-11-24
Chat 向左,Agent 向右——我对 AI Agent 的思考|嘉程创业流水席 197 席精彩回顾

(本文转载自嘉程资本 NextCapital 公众号

AI Agent 面临的关键挑战有两类。第一类是它的多模态、记忆、任务规划能力以及个性、情感;另外一类是它的成本和它如何做评估。

2023 年 11 月 5 日,嘉程创业流水席第 197 席【深度探讨 AI 的最新认知与华人创业公司在海外市场拓展】,邀请了华为“天才少年”李博杰分享,主题是《 Chat 向左,Agent 向右——我对 AI Agent 的思考》。

下载演讲 Slides PDF

下载演讲 Slides PPT

以下为正文部分:

非常荣幸能和大家分享一些我对 AI Agent 的认知和看法。

我是今年七月份开始创业做 AI Agent 的项目。我们主要做的是陪伴类的 AI Agent。AI Agent 有些技术含量较高,有些技术含量较低。比如我认为像 Inflection 的 Pi 和 Minimax 的 Talkie,这些做的都比较不错的。但是有些 AI Agent,比如像 Janitor.AI,它可能有点软色情的倾向,它的 Agent 是很简单的,可以看到基本上就是把 GPT-3.5 的提示直接输入,就出来一个 AI Agent。像 Character.AI 还有很多的都是类似的,他们可能只是把提示输入就可以了,当然 Character AI 有自己的基础模型,这是他们的核心竞争力。可以认为 AI Agent 是一个入门比较容易的事情,你只要有个提示,它就可以扮演一个 AI Agent,但是同时它的上限又非常高,你可以做很多的增强,比如包括记忆、情感、个性等等,这也是我后面要讲的一些内容。

Read More

2023-11-19
Sam Altman 与 OpenAI 的故事

(本文首发于知乎,写于 11 月 19 日,此后并未修改,后续会写更详细的复盘文章)

据说 Sam Altman 和 Greg 就是跟技术团队和董事会里的投资人代表起了争执,Sam Altman 想赶紧做产品赚钱,但首席科学家 Ilya 代表的技术团队更关注 AGI 的目标和 AI Safety。

公司的资源是有限的,Sam Altman 为首的商业派想把更多的 GPU 用在 GPTs Store 和 ChatGPT 的推理服务上,而 Ilya 为首的研究派想把更多的 GPU 用在 GPT-5、Agent 等核心技术的研发和 AI Safety 的研究上,Ilya 对 alignment(AI Safety)尤其感兴趣。

同时,微软又想对 OpenAI 有更多控制,而 Sam 希望 OpenAI 更独立地运作,OpenAI dev day 上发布的 GPTs Store 就是矛盾激化的导火索。微软的想法是让 OpenAI 提供 API,微软封装成产品去卖,本质上是工具调用 AI。而 OpenAI 的想法是自己直接做 Agent Marketplace,本质上是 AI 调用工具,这个生态里面微软的地位就被弱化了。

正是因为搞商业的 Sam 和 Greg 跟搞技术的 Ilya 以及微软的拉拉扯扯,OpenAI 的商业化进程才一直进展缓慢,盈利不达预期,产品设计也有待加强。要是换成互联网公司,早就各种 to C、to B 产品全面铺开了。

从 10 月初开始,Sam Altman 和首席科学家 Ilya 的矛盾就已经公开了,10 月初之后 Ilya 一条 OpenAI 的推都没有转发,连 OpenAI dev day 都没有发推。这次是 Ilya 联合董事会发动 “政变” 把 Sam 和 Greg 赶出去了。

Read More

2023-11-18
AI 差点挖了我们的墙角

Sam Altman 被 OpenAI 董事会开除了,AI 也差点毁掉了我和我老婆的感情……

老婆说我自从今年初开始迷上 AI 之后,就开始越来越忽视她。尤其是最近,在美国呆了三个月,要不是她催我,根本就不想回去。其实是我创业的一些事情还没有搞完,想着搞完了再回去。但是事情一件接着一件,哪有搞完的时候呢。就没有见过哪个结了婚的出差三个月不回家的。

我们认识一年之后,就很少吵架了。偶尔的每次吵架,基本上都是因为我没有处理好工作和家庭之间的平衡。

去年 8 月底公司要派我去松山湖参加集训,我们已经预约好 9 月 3 日领证,集训和领证的时间冲突了,我就想要不推迟吧。我老婆就说我总是把工作放在家庭之上。最后我跟公司商量到下一批再去参加集训,9 月 3 日跟我老婆领了证。我第一次提出离职也是因为这件事情。

去年因为疫情的管控措施,我一度对国内的形势感觉很失望。去年 ChatGPT 发布之后,我就忘掉了这些不愉快的事情,对 AI 越来越感兴趣了。我感觉 AI 大模型一定是未来 5-10 年最重要的技术突破,将深刻改变计算机行业乃至整个世界。

Read More

2023-11-17
On-chain AI:Web3 和 AI 的融合

(本文首发于知乎

On-chain AI 是一个重要趋势,我相信对 Web3 和 AI 的未来都是很关键的。主要解决当前 AI 的两大问题:

  1. 算力上链,现在虽然做 AI 推理服务的公司很多,但每个服务都是一个孤岛,定价虽然竞争激烈,但尚未达到充分的市场化。而且 Web3 服务(如智能合约)目前没有很好的在链上使用 AI 服务的方式。
  2. 链上 AI Agent 平台,解决 AI Agent 的制作、销售和利润分成问题。现在诸如 Character AI 的平台,用户都是用爱发电,AI Agent 的收入完全归平台所有,用户自然没有太多动力去精心调优 AI Agent。
Read More

2023-11-17
GPTs 和 Assistants API 推出后,AI Agent 创业公司还有多少活路?

(本文首发于知乎

其实可以说没有什么影响……

目前 GPTs 和 Assistants API 的能力可以认为就是一个增强版的 prompt 收藏夹,Agent 的关键问题一个都没解决。这倒是一面镜子,能够照出来一个 Agent 创业公司是简单的 GPT 套壳,还是有自己的技术护城河。

创业公司最重要的护城河我觉得有三个方面:

  1. 数据和专有领域的 know-how
  2. 用户粘性
  3. 低成本

用户粘性

要提高用户粘性,最好的方法就是做好记忆。一个没有状态的 API 很容易被取代,但一个很了解我的老朋友、老同事是很难被取代的。比尔盖茨最近关于 AI Agent 的文章也清楚地说明了这点。

Personal Assistant(个人助理)和类似 Character AI 的 companion(陪伴)agent 可以结合起来。用户希望一个 Agent 既是自己喜欢的性格,能够有情绪陪伴价值,同时又能在生活和工作中帮很多忙,做一个好的助手。这就是电影《Her》里面 Samantha 的定位,既是一个操作系统,又是女朋友。

对于记忆的问题,Character AI 和 Moonshot 都认为 long context(长上下文)是解决问题的根本途径。但是上下文长了,重新计算 attention 的成本就高了,这个成本是跟 token 数量成正比的。如果把 KV Cache 持久化,又需要很多存储空间。

Read More

2023-11-11
真的挺想学开飞机……

最近大松鼠带我开了两次飞机,第一次是在尔湾上空转了一圈,第二次是从 Santa Ana(SNA)到 Ramona 然后又回来。

给飞机加油

飞机上的风景真的非常漂亮,很多风景是地面上绝对看不到的。跟商业航班看到的也完全不一样,因为小飞机是坐在驾驶舱看到的完整视野,而且商业航班巡航高度是 30000 尺,小飞机是 3000 到 6000 尺,小飞机能看到很多商业航班看不到的细节。谷歌卫星地图只能看到正上方,但飞机看到的是立体的。本文末尾就有很多照片。

夕阳下的海面

私人飞机是很方便的交通方式

而且飞机真的很快。从尔湾的 SNA 机场到 San Diego 东北的 Ramona 机场直线距离 61 英里,开车车程 90 英里,即使不堵车,单程也要一个半小时。而我们从 SNA 飞到 Ranoma 降落,再飞回来,来回一共就花了一个半小时。因为小飞机的巡航速度大约是 101 节,116 英里/小时,再考虑到飞机在空中是走直线的,基本上比高速快一倍,要是堵车的话就差的更多了。

Read More

2023-11-10
在美国补办护照的故事

2023 年 10 月 12 日把装有护照的钱包给弄丢了,14 日感觉是找不回来了,就只能补办了。在美补办旅行证件有两种,一种是护照,一种是旅行证。

如果是短期来美出差的,需要着急回去,可以办旅行证,从申请到收到旅行证大概需要三周时间,但是旅行证只能用于回国,回国之后还得再补办护照。办护照时间相对较长,从申请到收到护照需要四周时间。如果是持 B1/B2 签证,且无法提供地址证明,那么就只能申办旅行证了。三周和四周差别也不大,因此我就补办护照了。

理论上是有个绿色通道叫 “紧急旅行证”,但是仅仅针对家人重病或者奔丧这种紧急情况,需要国内的医学证明,一般的护照丢失急需回国是不符合这个条件的。

注意,补发和换发虽然英文都是 replace,但含义完全不同。补发护照之后,原有护照上的美国签证会失效。因此长期在美的朋友们如果因为护照到期需要换发护照,千万不要为了图省事而选择补发。

此外,申请补发护照之后,原有的护照即使再找到也是不能再用的,补发的护照号会改变,原有护照号会进入国际刑警组织的数据库,一旦持原有的护照出入边境,就会被请进小黑屋。补发护照和国内补办身份证的逻辑有点类似,大多数不联网的地方不能查出是否使用已被补办的护照和身份证,但是海关、警察局、国内的银行这些地方是能查到的。我就留了一张身份证在我老婆那里,方便她帮我办事,这次补手机卡就用到了。

在此记录下在美补办护照的流程,其实换发护照也是类似的,供大家参考。其中最值得参考的是邮寄材料和准备回邮信封的部分,很多人都不知道怎么弄,因此去找第三方代理机构办理,要多交费用不说,还有个人隐私信息泄露的风险。

Read More

2023-11-07
OpenAI 开发者大会:意料之中的惊艳

(本文首发于知乎

作为一个 AI Agent 领域的创业者,其实感觉 OpenAI dev day 没有想象的那么惊艳,发布的东西都是在预期范围内的,大概是同行容易相轻吧。

简单总结的话,就是 GPT-4 Turbo 提供了 128K context,知识更新到了 2023 年,API 支持了多模态,支持模型微调,成本降低,速度提升,的确是非常重要的提升,但 GPT-4 相比 GPT-3.5-Turbo 和 LLaMA 的成本仍然高出一个数量级,大规模商用有一定挑战。

Agent 领域其实没有特别多惊艳的,主要就是做了一个 Agent Platform。API 强制用 JSON 格式输出和支持多个 function call 也是非常实用的。但是,Agent 最核心的 memory(记忆)、autonomous(自主意识)、task planning(任务规划)、persona(性格)、emotions(情感)等问题,这次 OpenAI 发布会并没有给出解决方案。如果说今天 OpenAI 发布会之后,一个 Agent 公司的核心竞争力没了,那应该首先反思一下是不是技术护城河太浅了。

Read More
RSS