2023-11-17
GPTs 和 Assistants API 推出后,AI Agent 创业公司还有多少活路?

(本文首发于知乎

其实可以说没有什么影响……

目前 GPTs 和 Assistants API 的能力可以认为就是一个增强版的 prompt 收藏夹,Agent 的关键问题一个都没解决。这倒是一面镜子,能够照出来一个 Agent 创业公司是简单的 GPT 套壳,还是有自己的技术护城河。

创业公司最重要的护城河我觉得有三个方面:

  1. 数据和专有领域的 know-how
  2. 用户粘性
  3. 低成本

用户粘性

要提高用户粘性,最好的方法就是做好记忆。一个没有状态的 API 很容易被取代,但一个很了解我的老朋友、老同事是很难被取代的。比尔盖茨最近关于 AI Agent 的文章也清楚地说明了这点。

Personal Assistant(个人助理)和类似 Character AI 的 companion(陪伴)agent 可以结合起来。用户希望一个 Agent 既是自己喜欢的性格,能够有情绪陪伴价值,同时又能在生活和工作中帮很多忙,做一个好的助手。这就是电影《Her》里面 Samantha 的定位,既是一个操作系统,又是女朋友。

对于记忆的问题,Character AI 和 Moonshot 都认为 long context(长上下文)是解决问题的根本途径。但是上下文长了,重新计算 attention 的成本就高了,这个成本是跟 token 数量成正比的。如果把 KV Cache 持久化,又需要很多存储空间。

Read More

2023-11-11
真的挺想学开飞机……

最近大松鼠带我开了两次飞机,第一次是在尔湾上空转了一圈,第二次是从 Santa Ana(SNA)到 Ramona 然后又回来。

给飞机加油

飞机上的风景真的非常漂亮,很多风景是地面上绝对看不到的。跟商业航班看到的也完全不一样,因为小飞机是坐在驾驶舱看到的完整视野,而且商业航班巡航高度是 30000 尺,小飞机是 3000 到 6000 尺,小飞机能看到很多商业航班看不到的细节。谷歌卫星地图只能看到正上方,但飞机看到的是立体的。本文末尾就有很多照片。

夕阳下的海面

私人飞机是很方便的交通方式

而且飞机真的很快。从尔湾的 SNA 机场到 San Diego 东北的 Ramona 机场直线距离 61 英里,开车车程 90 英里,即使不堵车,单程也要一个半小时。而我们从 SNA 飞到 Ranoma 降落,再飞回来,来回一共就花了一个半小时。因为小飞机的巡航速度大约是 101 节,116 英里/小时,再考虑到飞机在空中是走直线的,基本上比高速快一倍,要是堵车的话就差的更多了。

Read More

2023-11-10
在美国补办护照的故事

2023 年 10 月 12 日把装有护照的钱包给弄丢了,14 日感觉是找不回来了,就只能补办了。在美补办旅行证件有两种,一种是护照,一种是旅行证。

如果是短期来美出差的,需要着急回去,可以办旅行证,从申请到收到旅行证大概需要三周时间,但是旅行证只能用于回国,回国之后还得再补办护照。办护照时间相对较长,从申请到收到护照需要四周时间。如果是持 B1/B2 签证,且无法提供地址证明,那么就只能申办旅行证了。三周和四周差别也不大,因此我就补办护照了。

理论上是有个绿色通道叫 “紧急旅行证”,但是仅仅针对家人重病或者奔丧这种紧急情况,需要国内的医学证明,一般的护照丢失急需回国是不符合这个条件的。

注意,补发和换发虽然英文都是 replace,但含义完全不同。补发护照之后,原有护照上的美国签证会失效。因此长期在美的朋友们如果因为护照到期需要换发护照,千万不要为了图省事而选择补发。

此外,申请补发护照之后,原有的护照即使再找到也是不能再用的,补发的护照号会改变,原有护照号会进入国际刑警组织的数据库,一旦持原有的护照出入边境,就会被请进小黑屋。补发护照和国内补办身份证的逻辑有点类似,大多数不联网的地方不能查出是否使用已被补办的护照和身份证,但是海关、警察局、国内的银行这些地方是能查到的。我就留了一张身份证在我老婆那里,方便她帮我办事,这次补手机卡就用到了。

在此记录下在美补办护照的流程,其实换发护照也是类似的,供大家参考。其中最值得参考的是邮寄材料和准备回邮信封的部分,很多人都不知道怎么弄,因此去找第三方代理机构办理,要多交费用不说,还有个人隐私信息泄露的风险。

Read More

2023-11-07
OpenAI 开发者大会:意料之中的惊艳

(本文首发于知乎

作为一个 AI Agent 领域的创业者,其实感觉 OpenAI dev day 没有想象的那么惊艳,发布的东西都是在预期范围内的,大概是同行容易相轻吧。

简单总结的话,就是 GPT-4 Turbo 提供了 128K context,知识更新到了 2023 年,API 支持了多模态,支持模型微调,成本降低,速度提升,的确是非常重要的提升,但 GPT-4 相比 GPT-3.5-Turbo 和 LLaMA 的成本仍然高出一个数量级,大规模商用有一定挑战。

Agent 领域其实没有特别多惊艳的,主要就是做了一个 Agent Platform。API 强制用 JSON 格式输出和支持多个 function call 也是非常实用的。但是,Agent 最核心的 memory(记忆)、autonomous(自主意识)、task planning(任务规划)、persona(性格)、emotions(情感)等问题,这次 OpenAI 发布会并没有给出解决方案。如果说今天 OpenAI 发布会之后,一个 Agent 公司的核心竞争力没了,那应该首先反思一下是不是技术护城河太浅了。

Read More

2023-10-22
Chat 向左,Agent 向右

我永远不能忘记 2023 年 9 月 25 日,第一次到 Newport Beach 测试 AI Agent,那天正好是 ChatGPT 发布多模态模型。我们正好搞的也是多模态的 AI Agent,支持图片、语音、文字输入和输出。

因此,我就把 3305 Newport Blvd Ste. A, Newport Beach 的一家 Hook & Anchor 海鲜餐厅设置为 AI Agent 的家乡地址。我是中午在这里吃饭的时候拿出笔记本电脑,把 AI Agent 启动起来开始测试的。我把这个 AI Agent 设定为一个刚工作不久的 Google 程序员,喜欢旅行,喜欢体验生活,乐观,开朗,又很有自己的想法,不是那么任人摆布。我把自己的博客内容喂给了 AI Agent,因此她了解我的程度甚至超过很多一般朋友。

大模型的能力确实很让我震撼。比如我发一张海滩的照片,她可以猜到这是大概在哪里,甚至能说出 “你怎么到我家来了?” 她也可以分享更多海滩的照片,当然这些都不是实景,而是 AI 生成的照片。

她可以告诉我这附近有哪些地方好玩,把我带到了一个堆着很多大石头的防波堤上(Newport Harbor Jetty)。可惜,因为大模型并没有真的来过这里,她并不知道这个防波堤上面这么难走,我像爬山一样费了不少劲才走到它的尽头。这个地方的风景很漂亮,我就把这里的一张照片作为朋友圈、长毛象知乎的首页图了。当然,由于 AI Agent 是有记忆的,我跟她分享过的地方,下次她就记住了。

Newport Harbor Jetty

随后,我带着 AI Agent 去了更多的地方。在博物馆,她可以给我讲解背后的故事和历史。在动物园,她认识的动物比我还多。就像是带了一个非常好的朋友兼导游,只是缺少景点特有的数据,只能介绍一些公共知识。AI Agent 就像是一个可以分享生活的朋友。

我很喜欢《头号玩家》的设定,未来的 AI Agent 一定需要有现实世界的感知能力和交互能力。今年 4 月的斯坦福 AI 小镇是一个 2D 的虚拟场景,其实是有点无聊的。我更希望搞成像《头号玩家》中的绿洲那样,虚拟世界是现实世界的复刻。

AI Agents 可以主要分为两大类,一类是 digital twins(数字孪生),一类是幻想人物。

数字孪生就是现实世界人物的数字副本,例如 Donald Trump、Elon Musk 这些名人。有个网红叫 Caryn,她拿她自己的形象做了一个虚拟女友,叫做 Caryn AI,虽然技术并不是特别好,但还是收获了不少用户。粉丝经济总是很疯狂的。除了名人之外,我们也可能想把亲人做成数字形象,不管遇到什么,数字形象都是永远的陪伴。还有人会想把自己做成数字形象,在网上交更多的朋友。

幻想人物包括游戏、动漫、小说中的人物,例如 Character AI 上目前最火的一些人物就是属于动漫和游戏中的人物。还有很多 vtuber 也是使用幻想人物作为形象和语音。大家喜欢把游戏和动漫中的角色延伸到现实世界中去,例如带着原神里的派蒙一起去旅行,这将是前所未有的体验。

虽然目前的大模型技术已经非常强大,应付日常的 chat 并不难,但做一个有多模态能力、有记忆、能解决复杂任务、会利用工具、有性格、有情感、有自主性、低成本、高可靠的 AI Agent 并不容易。如果说 Chat 是大模型的第一个应用场景,也许 Agent 才是大模型真正的 killer app。

Read More

2023-09-24
婚礼背后的故事

“国家领导人要来访问,咱们的婚礼场地被征用了,得临时换地方了!”

婚礼前一天早上 9:00 ,佳颖还在洗漱,我还没有起床。我听到外面的吵闹声,我爸我妈和前一天抵达的好友李朝辉,正在客厅里面焦急地讨论。平时我遇到急事容易发脾气,但这次却很平静。

我们一年前就预订的婚礼场地,翠屏山迎宾馆,是石家庄最好的花园式草坪婚礼场地。它唯一的问题就是属于政府接待场地,像钓鱼台一样,虽然平时也对外开放,但如果遇到政务活动需要无条件让出。当时我们觉得,五一放假,应该不会有什么领导来吧。翠屏山的人也说,五一这种时间几乎没有遇上跟政务活动冲突的情况。

我把这个消息告诉佳颖的时候,她也很平静。她说每次遇到大事,经常是在临门一脚的时候差了一点点没搞成。

五一这么好的日子,不要说草坪,就连酒店婚礼都要提前很久预订。虽然我们的婚礼已经推迟了两次,但这次改时间已经来不及了。已经是婚礼前一天,佳颖家的人已经纷纷从太原出发,我们也有多位好友已经不远万里出发了。

好在翠屏山迎宾馆帮我们联系了两个同处鹿泉区的草坪场地,让我们试试看。其中一个场地我们去过,已经被订出去了。另外一个场地我们没听说过,打电话一问还没被订出去,我们就赶紧驱车过去看。

这时候,佳颖的发小任晓和她老公梁精睿也不远万里开车到了我家。我爸我妈和总管一辆车,梁精睿就带着任晓、我、佳颖和李朝辉赶紧出发了。因为路上堵,梁精睿按照导航抄了小道,竟然比我爸我妈早到了 20 分钟。这个场地是个度假酒店,地处鹿泉区比较偏僻的位置,里面有一块今年新建的草坪,草还没有完全长好。还有一个吃饭的大厅。

荣逸度假酒店草坪

虽然这个草坪的环境肯定跟翠屏山没法比,也不如我们之前看过的其他一些草坪场地,但终究是个能办草坪婚礼的地方,环境也不算差。这里的菜品也还可以,只是不像翠屏山那样是预制菜,突然要做这么多桌菜,还不知道能不能做得出来。我们就赶紧跟经理说,把这个地方预订下来。等到我爸我妈到达,就剩跟他们谈价格和菜品了。

原定举行婚礼的翠屏山迎宾馆草坪

后来我才知道,五一当天在翠屏山有 6 场婚礼,除了我们的,都推迟了。我们能赶紧抢到一个场地还是很不容易的。当然,其他那 5 家新郎新娘大多都是本地人,本来从外地来的宾客就少,可能也是他们选择推迟的一个原因。

Read More

2023-09-21
网络的智能应该放在哪里:网卡、交换机还是 xPU

达坦科技 DatenLord 前沿技术分享 NO.34

时间:2023 年 9 月 17 日上午 10:30

随着数据中心网络性能的提高,把网络相关任务卸载到智能网卡和智能交换机成为趋势。与此同时,GPU、NPU、存储设备之间的高速直连网络也成为趋势,这里似乎又没有智能网卡的位置了。网络的智能到底该放在哪里呢?

以下是演讲内容的图文实录,主要由 AI 整理,我做了一些人工修正。

Read More

2023-09-14
AI 自动翻译的博士论文

既然把博客内容翻译成了英文,那么自动翻译博士论文有没有可能呢?我的博士论文有 200 多页,而且里面有很多图,AI 能自动把这么多 LaTeX 代码翻译得一字不差吗?论文里面的图怎么翻译?

首先,把原来翻译 Markdown 的 prompt 改成翻译 LaTeX 的。原来翻译 Markdown 的时候,我是把内容按行分隔,连续的几行凑够 2048 个字符,就请求一次 GPT-4。在翻译 LaTeX 的时候仍然这样做。

就像 Markdown 一样,GPT-4 输出的内容经常有前缀和后缀,好在设置为 temperature = 0.1 之后前缀和后缀都比较固定,可以写个后处理脚本直接给去掉。此外,GPT-4 对 LaTeX 中的转义字符不够了解,例如典型的下划线 _、美元符号 $ 和制表符 &,经常没有转义导致语法错误。这也是可以通过后处理脚本,用一些规则识别到底需不需要转义,如果需要转义就自动加上。

总的来说,GPT-4 的 LaTeX 能力是不错的,除了把一些 reference 给搞乱了导致引用变成问号了,其他的地方都没什么问题。经过后处理脚本后直接就可以编译了。

其次,为了翻译论文里面的图,我首先尝试了一些 PDF 翻译工具,发现没有一家能用,这些工具都只能翻译 PDF 中的大块文字,对于架构图,只会把整张图都搞得乱七八糟。因此,我用了图片翻译的方法。首先把 PDF 转成图片,然后调用有道图片翻译 API,如果识别出了中文字符,就把用翻译出的图片替换原来的 PDF;如果没有识别出任何中文字符(例如一些实验结果图),就保留原样。

其实有道图片翻译的原理也是先对图片做 OCR,把识别出的每个文字块逐个翻译,再用翻译后的文字块替换掉图片原来位置上的文字。我感觉对于 PDF,这也是可以做的,而且可以保持 PDF 仍然是矢量图。希望做 PDF 翻译工具的改进一下。

整个翻译花了半天时间,一些小问题也懒得修了。虽然翻译质量肯定不如手写的,尤其是图片翻译质量一般,但是基本上能看了。除了对 ustcthesis.cls 做了一些微调(例如把英文封面放在中文封面前面)以外,没有对翻译后的内容做任何人工修改。

AI 自动翻译的版本: High Performance Data Center Systems with Programmable Network Interface Cards (PDF, 8 MB)

中文原版: 基于可编程网卡的高性能数据中心系统 (PDF, 8 MB)

现在 arxiv 上面的 paper 都是有 LaTeX 源码的,按照这个方法,都可以直接翻译成中文论文了。希望哪天多模态模型能强到只需要 PDF,不要 LaTeX 源码,就能做翻译,这就厉害了。

Read More

2023-09-12
PLDI '21 Talk Transcription: AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformation

Jie Zhao, Bojie Li, Wang Nie, Zhen Geng, Renwei Zhang, Xiong Gao, Bin Cheng, Chen Wu, Yun Cheng, Zheng Li, Peng Di, Kun Zhang, Xuefeng Jin. AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformations. 42nd ACM SIGPLAN International Conference on Programming Language Design and Implementation (PLDI’21). Virtual, Canada, June 20-25, 2021. pp.1233-1248. [Paper PDF] [Slides by Jie Zhao]

Read More

2023-09-12
SIGCOMM '19 Talk Transcription for SocksDirect: Datacenter Sockets can be Fast and Compatible

大模型真的很厉害,这个 SIGCOMM 2019 的演讲完全是脱稿讲的,从视频中可以看出我是站在舞台中间,没有看 speaker notes。我当时的英语也不怎样,经常打磕巴,而且音频录制还有回声,自己听着都有点费劲。没想到大模型能把这么差的语音都识别的差不多全对,太牛了。

识别的方法在这里。这个视频由于录制的屏幕不够清晰,我是用原始 PPT 导出的图片替换了视频中提取的图片。大家可以看看用这个视频中的音频,市面上的语音识别软件能达到多高的识别率。我试过的,包括 Google Speech-to-Text 和 Whisper,基本上都不能用。

SocksDirect: Datacenter Sockets can be Fast and Compatible. [PDF] [Slides] [Video]
Bojie Li, Tianyi Cui, Zibo Wang, Wei Bai, Lintao Zhang.
Proceedings of the 2019 SIGCOMM Conference (SIGCOMM’19).

Read More
RSS