2024-11-01
跟基础模型公司做朋友——六叉路口 podcast

Podcast 原始内容:六叉路口的播客《研发岗位本身就要拥抱 AI,然后用剩下的时间疯狂做实验——对话华为第一批天才少年李博杰》

以下内容约 3 万字,为笔者根据播客内容利用 AI 整理。感谢猎手 Leslie 的精彩访谈和后期,2 个小时的时间一口气讲了个痛快,没有一段是重录的。也感谢 AI 能让我用一个下午整理完三万字的内容。

猎手 Leslie:欢迎来到六叉路口,我是猎手。今天我们来聊聊研发相关的事,嘉宾是李博杰。博杰是中科大和微软联合培养的,华为第一批天才少年,在华为短短三年时间就做到 20 级的高级专家。2023 年 7 月,因为对 AI 的信仰,开启了大模型和 Web3 领域的创业。博杰,你先跟大家打个招呼。

李博杰:Hello 大家好,我叫李博杰,我是 10 年中科大的本科生,然后 14 年的中科大和 MSRA (就是微软亚洲研究院)的博士,19 年的华为的第一批天才少年,然后 23 年我是从华为出来,在跟同学一起创业。

猎手 Leslie:对,是的。所以这个第一个问题我就特别想问,就是你看,就是这个 19 年那个天才少年进了华为,然后这个可能两三年时间到 20 级,因为我在华为待过,所以我知道这个这个级别是很难的,对。然后就看起来都很顺利,所以就为什么就突然就创业了,对吧?就是因为其实你在现在这个阶段,你在一个平台里面,你还能这么快的晋升,其实一个非常难的事情。

李博杰:其实如果说一句话来说的话,创业我就是想体验一下不一样的生活,然后以及让 AI 能够更好的来普惠人类。

如果长一点的话,我可以讲一下我的故事,就是说最早的时候,就是说我什么时候从 AI 结缘。实际上我之前是做系统研究的,本科的时候我还是不懂 AI 的,但是我到了 MSRA 之后,MSRA(微软亚洲研究院)毕竟是中国最好的 AI Lab,大家都说是 AI 的 “黄埔军校”。我在这个地方虽然是做系统做网络的,但是也是耳濡目染了解好多 AI 相关的东西。但是一开始我并没有去学 AI 的算法,因为当时我们搞系统的好多人都觉得搞 AI 的就是有多少人工就有多少智能。为啥?因为当时 AI 确实还比较笨,所以他不能真正的理解自然语言,他只是说他能够去捕捉这些输入和数据和输出世界之间的一些模式、一些规律关系,但他到底有没有理解,我们其实都打个问号。

我觉得就是 2017 年初的时候有一个讲座,当时就改变了我所有的看法。当时我在 MSRA,我忘了是哪个老师,他讲了两个电影,都是 2013 年的电影,一个电影叫做《她》(Her),然后另外一个电影就是《黑镜》(Black Mirror)里面的一集(马上回来)。

Read More

2024-10-24
在字节 MarsCode 1024 码上奇妙夜的直播分享

Q: 最近一年来你觉得最想分享的一个产品?

A: 之前我提过一个说法,AI 一天,人间一年。过去一年有太多 exciting 的产品。如果一定要我选出一个的话,我会选 OpenAI o1,简单来说就是让 AI 学会了思考。这个思考最显著的体现就是数学和编程。我们不要把数学和编程理解的狭义了,其实这是当前大模型在商业场景下应用最大的挑战。

数学这块,目前大多数的大模型算数总是算不准确,比如 3.8 和 3.11 的大小都分不清,那么准确率就不高,在严肃的场景下不敢用,比如让他定个机票,让他帮我算账,万一弄错了怎么办。现在的模型计算准确了,很多严肃的场景就可以用了。

编程也并不是程序员才能用上的。我们观察到现在 AI 应用有一个重要的趋势,生成的内容不仅仅是文字,而是一个图文并茂的多模态内容,甚至是一个可以跟用户交互的小游戏、小程序,比如 Claude Artifacts,OpenAI Canvas,Google NotebookLM 生成 podcast,Perplexity 生成的图文并貌的 wiki。这些内容其实都是大模型生成的一段代码,然后动态渲染出来的。这种图文并茂的多模态内容就非常考验大模型的编程能力。

Read More

2024-10-20
由《小米创业思考》想到的

开始创业之前,老婆就给我买了《小米创业思考》,但我一直没看。最近几天才有空读了读,感觉收获很大。这类书我之前不太喜欢看,觉得这些经历都是经过加工和美化的,其中的一些忠告也未必听得进去。但有了亲身创业经历之后,再来看大佬的书,就感觉人家说的很有道理。

《小米创业思考》一书最精华的是第六章 “互联网七字诀”,即 专注、极致、口碑、快

MIUI 的开发思路充分体现了 “专注、极致、口碑、快” 互联网七字诀:

  • 专注:刚开始只做四个功能(电话、短信、通讯录和桌面),极度克制。
  • 极致:百变锁屏、百变主题,能够模拟任何手机,对体验极致追求。
  • 口碑:公司全员在论坛上跟用户沟通,跟用户交朋友。在 XDA 论坛上大受欢迎,在国外火了,最早的国际化从 MIUI 开始。
  • :每周迭代,采用互联网开发模式。

专注

专注是互联网七字诀中最重要的一条,也是适用于所有公司和产品的。

公司需要专注

雷军分享了他首次创业失败的经历。雷军技术很强,大二就修完了四年的学分,大三写的杀毒软件《免疫 90》卖了 100 万,在 90 年代这是很大的一笔钱了。于是,大四他就跟两位技术大神李儒雄和王全国(这两位现在也非常成功)一起创办了三色公司,但这次创业很快就以失败告终。

Read More

2024-10-08
诺贝尔物理学奖怎么颁给了做 AI 的

(本文首发于知乎回答《2024 诺贝尔物理学奖授予人工神经网络机器学习,为什么会颁给 AI 领域?》

一些人开玩笑说今年的诺贝尔物理学奖,好多搞物理的都没听说过获奖的这两个人……

人工神经网络与统计物理的关联不是偶然的

7 月初本科毕业 10 年回科大返校的时候,跟几位搞数学和物理的同学聊起了 AI,我吃惊的发现如今 AI 的很多基础概念是源自统计物理,比如 diffusion(扩散模型)和 emergence(涌现)。

@SIY.Z 也给我讲了很多 AI 经典算法背后的统计物理基础,比如此次获奖两人的重要成果 RBM(受限玻尔兹曼机)

这种关联并不是偶然的,因为统计物理研究的是大量粒子组成系统的行为,而人工神经网络也是大量神经元组成的系统。从人工神经网络的早期发展历程,能够清楚地发现这种关联:

Hopfield 网络

1982 年,Hopfield 在研究人类记忆的原理,希望创造一个数学模型,用于解释和模拟神经网络如何存储和重建信息,尤其是在大脑中神经元是如何通过相互连接形成记忆的。

具体来说,这项研究的目的就是要构造一个支持 “语义模糊匹配” 的 CAM(Content-Addressable Memory,内容寻址内存),在存储阶段把需要存储的多条数据放进去,而在重建阶段,放入一个部分丢失或被修改的数据,需要找到与之最匹配的原始数据。

Hopfield 网络利用了物质特性中的原子自旋,这种特性使每个原子可以被看作一个小磁铁。这就是为什么 Hopfield 网络以及后续演进出来的人工神经网络这么像统计物理里面的 Ising 模型。Ising 模型就是用来解释为什么物质具有铁磁性的。

Read More

2024-10-02
2024 云栖大会:基础模型、应用与算力的两个 Bitter Lesson

9 月 20-21 日受邀参加 2024 云栖大会,花了接近两天的时间把三个展馆都逛了一遍,几乎每个感兴趣的展位都做了交流。

  • 一号馆:基础模型的突破与挑战
  • 二号馆:算力与云原生,支撑 AI 的核心架构
  • 三号馆:应用落地,AI 赋能千行百业

我之前的研究方向是二号馆的计算基础架构和云原生,现在主要做 AI 应用,对一号馆和三号馆的内容也很熟悉,所以聊了两天下来,真的有把云栖大会玩通关的感觉

会后我对着录音机讲了两个多小时,然后让 AI 整理出了这篇近 3 万字的文章。9 月 22 日没能整理完,平时工作又忙,国庆节期间就抽了点时间跟 AI 一起修改,加上录音总共花了大约 9 个小时。以往没有 AI 的时候简直不敢想象 9 小时能写出 3 万字。

全文提纲:

  • 一号馆(基础模型):AI 的第一推动力

    • 视频生成:从单一生成到多样化场景的突破
      • 从单一文本生成视频到多模态输入生成
      • 动作参考生成:从静态图像到动态视频
      • 基于口型同步与视频生成的数字人技术
    • 语音识别与合成
      • 语音识别技术
      • 语音合成技术
      • 音乐合成技术
      • 未来方向:多模态端到端模型
    • Agent 技术
    • 推理技术:百倍成本下降背后的技术推动力
  • 三号馆(应用):AI 从 Demo 走向千行百业

    • AI 生成设计:生成式 AI 的新范式
      • PPT 生成(通义千问)
      • 图文并茂的聊天助手(Kimi 的 Mermaid 图)
      • 用图片形式展示生成内容(汉语新解)
      • 设计稿生成(Motiff)
      • 应用原型生成(Anthropic Claude)
    • 智能消费电子:期望高,进展慢
    • AI 辅助运营:从热点信息推送到粉丝互动
    • AI 在教育中的颠覆性应用:从个性化到场景化学习
  • 二号馆(计算基础设施):AI 的算力基础

    • CXL 架构:云端资源的高效整合
    • 云端计算与高密度服务器:算力集群的优化
    • 云原生与 Serverless
    • 机密计算:AI 时代的数据安全与信任转移
  • 结语:基础模型、算力与应用的两个 Bitter Lesson

    • 云栖大会的三个展馆体现两个 Bitter Lesson
    • 第一课:基础模型是 AI 应用的关键
    • 第二课:算力是基础模型的关键
Read More

2024-09-18
为什么美国大厂不需要 996

为啥美国互联网公司不需要 996,人均产出还更高?

很多人只是简单归结于社会文化 “内卷”、八小时工作制执行力度不足,但我觉得这些并不是主要原因。很多做出海业务的公司,海外团队不实施 996,甚至不用打卡,但国内团队仍然要 996。这是为什么呢?

作为一个对国内和美国公司都有一定了解的程序员,我认为主要是以下几个原因:

  1. 美国公司的客户单价较高
  2. 美国客户对人工服务时限要求较低
  3. 美国公司基层程序员的代码质量较高
  4. 美国公司的管理成本较低
  5. 美国公司更善于使用工具和 SaaS 服务
  6. 美国公司目标和边界更清晰
  7. 美国公司也有少数 007 大神在负重前行

美国公司的客户单价较高

一个各方面能力接近的人,投入相同的工作时间,在美国公司创造的收入和利润大概率是比中国公司高的。原因就在客户单价上。

Read More

2024-09-14
Cursor:2 小时写 800 行代码开发 AI 选课助手

从 IDE 和 Vim 切换到 Cursor

我之前开发比较大的项目一般是用 JetBrains 系列 IDE(PyCharm、CLion),开发比较小的项目一般就用 vim 了。开发比较大的项目最烦的就是写胶水代码,大部分时间都不是在思考功能的设计或者算法,而是花在胶水代码上了。

Cursor 是一个类似 GitHub co-pilot 的 AI 辅助编程 IDE,界面跟 VS Code 比较类似。2023 年 Cursor 刚开源发布不久,我就开始试用了,但当时由于基础模型能力不足,并不是特别好用。今年 5 月 GPT-4o 发布后,我重新开始用 Cursor,发现比在 ChatGPT 里面问代码问题更方便,首先不用来回切换窗口,其次 Cursor 有上下文,问的效率更高。

最近三个月,有了代码能力更强的 Claude 3.5 Sonnet,我已经完全从 PyCharm 和 Vim 切换到 Cursor,因为 Cursor 的开发效率比有 AI 补全功能的 PyCharm 高多了,整体开发效率提升了一倍,最近三个月 GitHub 也轻松保持全绿。

GitHub 最近三个月保持全绿

Cursor 可以帮助快速入门新语言和框架

Cursor 的用途不仅是提升开发效率,还能帮我们快速熟悉新的编程语言、框架和技术栈。例如用 Go 写后端,用 React 写前端,用 Solidity 写智能合约,我之前都不会,但有了 AI 辅助编程,这些都不难。如果我上学的时候就有今天这么强的 AI,可以多学会很多编程技术。

Read More

2024-09-13
OpenAI o1:慢思考的强大推理能力

OpenAI o1 的传言从去年的 Q* 开始,今年的 Strawberry 又拱了一波火,除了 o1 这个名字没有人猜到以外,里面的内容其实已经被猜的七七八八了,主要就是用强化学习方法让大模型学会更高效的思维链(Chain-of-Thought)思考方式,大幅提升模型的推理能力。

OpenAI 官方的测试数据就不在这里重复了。我体验下来总体效果很好,牛皮没有吹破。

  • 2024 年高考数学试卷可以做到 120 多分(满分 150),只用 10 分钟就完成了答题。
  • 小学奥数题基本全能做对,列方程的标准解法和适合小学生的 “妙解” 都能想到。
  • 之前让大模型困扰的一些问题,比如 3.8 和 3.11 哪个大,Pi 和 3.1416 哪个大,strawberry 里面有几个 r,都可以做对。
  • 编程方面,可以独立完成一个 demo 项目的开发,目测比目前代码能力最强的 Claude 3.5 Sonnet 代码能力更强。
  • OpenAI o1 System Card 里面有个例子,在做一道 CTF 题的时候,那道 CTF 题远程验证环境的容器坏了,o1-preview 就找到了比赛平台的漏洞,启动了一个新的容器把 flag 直接给读出来了。虽然 OpenAI 的原意是提醒 AI 的安全风险,但这也体现了 o1 主动与环境交互解决问题的能力。

有人说,OpenAI 搞出了这么强的模型,跟其他公司的差距又拉大了,小公司没有存在的必要了。我认为情况恰恰相反。对没有能力自己训练基础模型的 AI 公司和学术界、AI Infra 公司、AI Agent 公司来说,这都是一个乐观的消息。

Read More

2024-08-10
AI 生成的七夕视频

我给老婆做的七夕礼物:一个 AI 生成的视频,由 25 个 AI 生成的 5 秒视频和一首 AI 生成的音乐构成。这些视频大多数是用我们的静态照片加上动作的文字描述生成的,其中一些是鬼畜动作;一些是用其他风景照贴上我们的照片生成的。

视频生成成本大约 10 美金。虽然效果比不上 Sora,也有很多明显的物理规律错误,但比去年的 Stable Video Diffusion 等开源模型好多了,跟参考图的人物一致性也比较好了。

(视频 02:02,44 MB)

Read More

2024-07-21
Web3 的三种信任来源:从信任人到信任数学、社区和经济

Web3 最大的两个优势是通证经济(tokenomics)和信任(trust)。通证经济解决的是利益分配的问题。这篇文章主要讲信任问题。

传统 Web2 的信任本质上是对人的信任。我敢把数据放在苹果和谷歌,是因为我相信苹果和谷歌不会出售我的数据。我敢在脉脉上匿名吐槽公司,是因为我相信脉脉不会把我的身份信息泄露。但显而易见的是,在利益面前,人并不是那么可信的。

Web3 能够如何更好地解决信任问题?我认为,Web3 的信任有三大来源:密码学信任(Cryptographic Trust)、去中心化信任(Decentralized Trust)和经济学信任(Economic Trust)。

密码学信任的本质是信任数学,去中心化信任的本质是信任大多数人不会串通起来作恶,经济学信任的本质是信任大多数人不会做亏本的买卖。因此,这三种信任是可靠性递减的。

那为什么不只用密码学信任呢?因为很多问题是单靠密码学信任无法解决的。这三种信任虽然可靠性递减,应用范围却是递增的。

接下来,我们就逐一介绍这三种信任。

密码学信任

  • 如何既不透露我是谁,又能证明我的身份?例如,脉脉需要验证我是某家公司的成员,但我又不希望把我的确切身份告诉脉脉,这可能吗?
  • 有随机性的在线游戏如何保证公平性?例如,一个德州扑克的游戏平台如何证明自己的发牌是绝对公平的,没有庄家在悄悄看牌?
Read More
RSS