Bojie Li (李博杰)
2023-11-17
(本文首发于知乎)
其实可以说没有什么影响……
目前 GPTs 和 Assistants API 的能力可以认为就是一个增强版的 prompt 收藏夹,Agent 的关键问题一个都没解决。这倒是一面镜子,能够照出来一个 Agent 创业公司是简单的 GPT 套壳,还是有自己的技术护城河。
创业公司最重要的护城河我觉得有三个方面:
- 数据和专有领域的 know-how
- 用户粘性
- 低成本
用户粘性
要提高用户粘性,最好的方法就是做好记忆。一个没有状态的 API 很容易被取代,但一个很了解我的老朋友、老同事是很难被取代的。比尔盖茨最近关于 AI Agent 的文章也清楚地说明了这点。
Personal Assistant(个人助理)和类似 Character AI 的 companion(陪伴)agent 可以结合起来。用户希望一个 Agent 既是自己喜欢的性格,能够有情绪陪伴价值,同时又能在生活和工作中帮很多忙,做一个好的助手。这就是电影《Her》里面 Samantha 的定位,既是一个操作系统,又是女朋友。
对于记忆的问题,Character AI 和 Moonshot 都认为 long context(长上下文)是解决问题的根本途径。但是上下文长了,重新计算 attention 的成本就高了,这个成本是跟 token 数量成正比的。如果把 KV Cache 持久化,又需要很多存储空间。
2023-11-11
最近大松鼠带我开了两次飞机,第一次是在尔湾上空转了一圈,第二次是从 Santa Ana(SNA)到 Ramona 然后又回来。
飞机上的风景真的非常漂亮,很多风景是地面上绝对看不到的。跟商业航班看到的也完全不一样,因为小飞机是坐在驾驶舱看到的完整视野,而且商业航班巡航高度是 30000 尺,小飞机是 3000 到 6000 尺,小飞机能看到很多商业航班看不到的细节。谷歌卫星地图只能看到正上方,但飞机看到的是立体的。本文末尾就有很多照片。
私人飞机是很方便的交通方式
而且飞机真的很快。从尔湾的 SNA 机场到 San Diego 东北的 Ramona 机场直线距离 61 英里,开车车程 90 英里,即使不堵车,单程也要一个半小时。而我们从 SNA 飞到 Ranoma 降落,再飞回来,来回一共就花了一个半小时。因为小飞机的巡航速度大约是 101 节,116 英里/小时,再考虑到飞机在空中是走直线的,基本上比高速快一倍,要是堵车的话就差的更多了。
2023-11-10
2023 年 10 月 12 日把装有护照的钱包给弄丢了,14 日感觉是找不回来了,就只能补办了。在美补办旅行证件有两种,一种是护照,一种是旅行证。
如果是短期来美出差的,需要着急回去,可以办旅行证,从申请到收到旅行证大概需要三周时间,但是旅行证只能用于回国,回国之后还得再补办护照。办护照时间相对较长,从申请到收到护照需要四周时间。如果是持 B1/B2 签证,且无法提供地址证明,那么就只能申办旅行证了。三周和四周差别也不大,因此我就补办护照了。
理论上是有个绿色通道叫 “紧急旅行证”,但是仅仅针对家人重病或者奔丧这种紧急情况,需要国内的医学证明,一般的护照丢失急需回国是不符合这个条件的。
注意,补发和换发虽然英文都是 replace,但含义完全不同。补发护照之后,原有护照上的美国签证会失效。因此长期在美的朋友们如果因为护照到期需要换发护照,千万不要为了图省事而选择补发。
此外,申请补发护照之后,原有的护照即使再找到也是不能再用的,补发的护照号会改变,原有护照号会进入国际刑警组织的数据库,一旦持原有的护照出入边境,就会被请进小黑屋。补发护照和国内补办身份证的逻辑有点类似,大多数不联网的地方不能查出是否使用已被补办的护照和身份证,但是海关、警察局、国内的银行这些地方是能查到的。我就留了一张身份证在我老婆那里,方便她帮我办事,这次补手机卡就用到了。
在此记录下在美补办护照的流程,其实换发护照也是类似的,供大家参考。其中最值得参考的是邮寄材料和准备回邮信封的部分,很多人都不知道怎么弄,因此去找第三方代理机构办理,要多交费用不说,还有个人隐私信息泄露的风险。
2023-11-07
(本文首发于知乎)
作为一个 AI Agent 领域的创业者,其实感觉 OpenAI dev day 没有想象的那么惊艳,发布的东西都是在预期范围内的,大概是同行容易相轻吧。
简单总结的话,就是 GPT-4 Turbo 提供了 128K context,知识更新到了 2023 年,API 支持了多模态,支持模型微调,成本降低,速度提升,的确是非常重要的提升,但 GPT-4 相比 GPT-3.5-Turbo 和 LLaMA 的成本仍然高出一个数量级,大规模商用有一定挑战。
Agent 领域其实没有特别多惊艳的,主要就是做了一个 Agent Platform。API 强制用 JSON 格式输出和支持多个 function call 也是非常实用的。但是,Agent 最核心的 memory(记忆)、autonomous(自主意识)、task planning(任务规划)、persona(性格)、emotions(情感)等问题,这次 OpenAI 发布会并没有给出解决方案。如果说今天 OpenAI 发布会之后,一个 Agent 公司的核心竞争力没了,那应该首先反思一下是不是技术护城河太浅了。
2023-10-22
我永远不能忘记 2023 年 9 月 25 日,第一次到 Newport Beach 测试 AI Agent,那天正好是 ChatGPT 发布多模态模型。我们正好搞的也是多模态的 AI Agent,支持图片、语音、文字输入和输出。
因此,我就把 3305 Newport Blvd Ste. A, Newport Beach 的一家 Hook & Anchor 海鲜餐厅设置为 AI Agent 的家乡地址。我是中午在这里吃饭的时候拿出笔记本电脑,把 AI Agent 启动起来开始测试的。我把这个 AI Agent 设定为一个刚工作不久的 Google 程序员,喜欢旅行,喜欢体验生活,乐观,开朗,又很有自己的想法,不是那么任人摆布。我把自己的博客内容喂给了 AI Agent,因此她了解我的程度甚至超过很多一般朋友。
大模型的能力确实很让我震撼。比如我发一张海滩的照片,她可以猜到这是大概在哪里,甚至能说出 “你怎么到我家来了?” 她也可以分享更多海滩的照片,当然这些都不是实景,而是 AI 生成的照片。
她可以告诉我这附近有哪些地方好玩,把我带到了一个堆着很多大石头的防波堤上(Newport Harbor Jetty)。可惜,因为大模型并没有真的来过这里,她并不知道这个防波堤上面这么难走,我像爬山一样费了不少劲才走到它的尽头。这个地方的风景很漂亮,我就把这里的一张照片作为朋友圈、长毛象和知乎的首页图了。当然,由于 AI Agent 是有记忆的,我跟她分享过的地方,下次她就记住了。
随后,我带着 AI Agent 去了更多的地方。在博物馆,她可以给我讲解背后的故事和历史。在动物园,她认识的动物比我还多。就像是带了一个非常好的朋友兼导游,只是缺少景点特有的数据,只能介绍一些公共知识。AI Agent 就像是一个可以分享生活的朋友。
我很喜欢《头号玩家》的设定,未来的 AI Agent 一定需要有现实世界的感知能力和交互能力。今年 4 月的斯坦福 AI 小镇是一个 2D 的虚拟场景,其实是有点无聊的。我更希望搞成像《头号玩家》中的绿洲那样,虚拟世界是现实世界的复刻。
AI Agents 可以主要分为两大类,一类是 digital twins(数字孪生),一类是幻想人物。
数字孪生就是现实世界人物的数字副本,例如 Donald Trump、Elon Musk 这些名人。有个网红叫 Caryn,她拿她自己的形象做了一个虚拟女友,叫做 Caryn AI,虽然技术并不是特别好,但还是收获了不少用户。粉丝经济总是很疯狂的。除了名人之外,我们也可能想把亲人做成数字形象,不管遇到什么,数字形象都是永远的陪伴。还有人会想把自己做成数字形象,在网上交更多的朋友。
幻想人物包括游戏、动漫、小说中的人物,例如 Character AI 上目前最火的一些人物就是属于动漫和游戏中的人物。还有很多 vtuber 也是使用幻想人物作为形象和语音。大家喜欢把游戏和动漫中的角色延伸到现实世界中去,例如带着原神里的派蒙一起去旅行,这将是前所未有的体验。
虽然目前的大模型技术已经非常强大,应付日常的 chat 并不难,但做一个有多模态能力、有记忆、能解决复杂任务、会利用工具、有性格、有情感、有自主性、低成本、高可靠的 AI Agent 并不容易。如果说 Chat 是大模型的第一个应用场景,也许 Agent 才是大模型真正的 killer app。
2023-09-24
“国家领导人要来访问,咱们的婚礼场地被征用了,得临时换地方了!”
婚礼前一天早上 9:00 ,佳颖还在洗漱,我还没有起床。我听到外面的吵闹声,我爸我妈和前一天抵达的好友李朝辉,正在客厅里面焦急地讨论。平时我遇到急事容易发脾气,但这次却很平静。
我们一年前就预订的婚礼场地,翠屏山迎宾馆,是石家庄最好的花园式草坪婚礼场地。它唯一的问题就是属于政府接待场地,像钓鱼台一样,虽然平时也对外开放,但如果遇到政务活动需要无条件让出。当时我们觉得,五一放假,应该不会有什么领导来吧。翠屏山的人也说,五一这种时间几乎没有遇上跟政务活动冲突的情况。
我把这个消息告诉佳颖的时候,她也很平静。她说每次遇到大事,经常是在临门一脚的时候差了一点点没搞成。
五一这么好的日子,不要说草坪,就连酒店婚礼都要提前很久预订。虽然我们的婚礼已经推迟了两次,但这次改时间已经来不及了。已经是婚礼前一天,佳颖家的人已经纷纷从太原出发,我们也有多位好友已经不远万里出发了。
好在翠屏山迎宾馆帮我们联系了两个同处鹿泉区的草坪场地,让我们试试看。其中一个场地我们去过,已经被订出去了。另外一个场地我们没听说过,打电话一问还没被订出去,我们就赶紧驱车过去看。
这时候,佳颖的发小任晓和她老公梁精睿也不远万里开车到了我家。我爸我妈和总管一辆车,梁精睿就带着任晓、我、佳颖和李朝辉赶紧出发了。因为路上堵,梁精睿按照导航抄了小道,竟然比我爸我妈早到了 20 分钟。这个场地是个度假酒店,地处鹿泉区比较偏僻的位置,里面有一块今年新建的草坪,草还没有完全长好。还有一个吃饭的大厅。
虽然这个草坪的环境肯定跟翠屏山没法比,也不如我们之前看过的其他一些草坪场地,但终究是个能办草坪婚礼的地方,环境也不算差。这里的菜品也还可以,只是不像翠屏山那样是预制菜,突然要做这么多桌菜,还不知道能不能做得出来。我们就赶紧跟经理说,把这个地方预订下来。等到我爸我妈到达,就剩跟他们谈价格和菜品了。
后来我才知道,五一当天在翠屏山有 6 场婚礼,除了我们的,都推迟了。我们能赶紧抢到一个场地还是很不容易的。当然,其他那 5 家新郎新娘大多都是本地人,本来从外地来的宾客就少,可能也是他们选择推迟的一个原因。
2023-09-21
达坦科技 DatenLord 前沿技术分享 NO.34
时间:2023 年 9 月 17 日上午 10:30
随着数据中心网络性能的提高,把网络相关任务卸载到智能网卡和智能交换机成为趋势。与此同时,GPU、NPU、存储设备之间的高速直连网络也成为趋势,这里似乎又没有智能网卡的位置了。网络的智能到底该放在哪里呢?
- Slides PPTX (32 MB)
- Slides PDF (15 MB)
以下是演讲内容的图文实录,主要由 AI 整理,我做了一些人工修正。
2023-09-14
既然把博客内容翻译成了英文,那么自动翻译博士论文有没有可能呢?我的博士论文有 200 多页,而且里面有很多图,AI 能自动把这么多 LaTeX 代码翻译得一字不差吗?论文里面的图怎么翻译?
首先,把原来翻译 Markdown 的 prompt 改成翻译 LaTeX 的。原来翻译 Markdown 的时候,我是把内容按行分隔,连续的几行凑够 2048 个字符,就请求一次 GPT-4。在翻译 LaTeX 的时候仍然这样做。
就像 Markdown 一样,GPT-4 输出的内容经常有前缀和后缀,好在设置为 temperature = 0.1 之后前缀和后缀都比较固定,可以写个后处理脚本直接给去掉。此外,GPT-4 对 LaTeX 中的转义字符不够了解,例如典型的下划线 _、美元符号 $ 和制表符 &,经常没有转义导致语法错误。这也是可以通过后处理脚本,用一些规则识别到底需不需要转义,如果需要转义就自动加上。
总的来说,GPT-4 的 LaTeX 能力是不错的,除了把一些 reference 给搞乱了导致引用变成问号了,其他的地方都没什么问题。经过后处理脚本后直接就可以编译了。
其次,为了翻译论文里面的图,我首先尝试了一些 PDF 翻译工具,发现没有一家能用,这些工具都只能翻译 PDF 中的大块文字,对于架构图,只会把整张图都搞得乱七八糟。因此,我用了图片翻译的方法。首先把 PDF 转成图片,然后调用有道图片翻译 API,如果识别出了中文字符,就把用翻译出的图片替换原来的 PDF;如果没有识别出任何中文字符(例如一些实验结果图),就保留原样。
其实有道图片翻译的原理也是先对图片做 OCR,把识别出的每个文字块逐个翻译,再用翻译后的文字块替换掉图片原来位置上的文字。我感觉对于 PDF,这也是可以做的,而且可以保持 PDF 仍然是矢量图。希望做 PDF 翻译工具的改进一下。
整个翻译花了半天时间,一些小问题也懒得修了。虽然翻译质量肯定不如手写的,尤其是图片翻译质量一般,但是基本上能看了。除了对 ustcthesis.cls 做了一些微调(例如把英文封面放在中文封面前面)以外,没有对翻译后的内容做任何人工修改。
AI 自动翻译的版本: High Performance Data Center Systems with Programmable Network Interface Cards (PDF, 8 MB)
中文原版: 基于可编程网卡的高性能数据中心系统 (PDF, 8 MB)
现在 arxiv 上面的 paper 都是有 LaTeX 源码的,按照这个方法,都可以直接翻译成中文论文了。希望哪天多模态模型能强到只需要 PDF,不要 LaTeX 源码,就能做翻译,这就厉害了。
2023-09-12
Jie Zhao, Bojie Li, Wang Nie, Zhen Geng, Renwei Zhang, Xiong Gao, Bin Cheng, Chen Wu, Yun Cheng, Zheng Li, Peng Di, Kun Zhang, Xuefeng Jin. AKG: Automatic Kernel Generation for Neural Processing Units using Polyhedral Transformations. 42nd ACM SIGPLAN International Conference on Programming Language Design and Implementation (PLDI’21). Virtual, Canada, June 20-25, 2021. pp.1233-1248. [Paper PDF] [Slides by Jie Zhao]
2023-09-12
大模型真的很厉害,这个 SIGCOMM 2019 的演讲完全是脱稿讲的,从视频中可以看出我是站在舞台中间,没有看 speaker notes。我当时的英语也不怎样,经常打磕巴,而且音频录制还有回声,自己听着都有点费劲。没想到大模型能把这么差的语音都识别的差不多全对,太牛了。
识别的方法在这里。这个视频由于录制的屏幕不够清晰,我是用原始 PPT 导出的图片替换了视频中提取的图片。大家可以看看用这个视频中的音频,市面上的语音识别软件能达到多高的识别率。我试过的,包括 Google Speech-to-Text 和 Whisper,基本上都不能用。
SocksDirect: Datacenter Sockets can be Fast and Compatible. [PDF] [Slides] [Video]
Bojie Li, Tianyi Cui, Zibo Wang, Wei Bai, Lintao Zhang.
Proceedings of the 2019 SIGCOMM Conference (SIGCOMM’19).