9 月 20-21 日受邀参加 2024 云栖大会,花了接近两天的时间把三个展馆都逛了一遍,几乎每个感兴趣的展位都做了交流。

  • 一号馆:基础模型的突破与挑战
  • 二号馆:算力与云原生,支撑 AI 的核心架构
  • 三号馆:应用落地,AI 赋能千行百业

我之前的研究方向是二号馆的计算基础架构和云原生,现在主要做 AI 应用,对一号馆和三号馆的内容也很熟悉,所以聊了两天下来,真的有把云栖大会玩通关的感觉

会后我对着录音机讲了两个多小时,然后让 AI 整理出了这篇近 3 万字的文章。9 月 22 日没能整理完,平时工作又忙,国庆节期间就抽了点时间跟 AI 一起修改,加上录音总共花了大约 9 个小时。以往没有 AI 的时候简直不敢想象 9 小时能写出 3 万字。

全文提纲:

  • 一号馆(基础模型):AI 的第一推动力

    • 视频生成:从单一生成到多样化场景的突破
      • 从单一文本生成视频到多模态输入生成
      • 动作参考生成:从静态图像到动态视频
      • 基于口型同步与视频生成的数字人技术
    • 语音识别与合成
      • 语音识别技术
      • 语音合成技术
      • 音乐合成技术
      • 未来方向:多模态端到端模型
    • Agent 技术
    • 推理技术:百倍成本下降背后的技术推动力
  • 三号馆(应用):AI 从 Demo 走向千行百业

    • AI 生成设计:生成式 AI 的新范式
      • PPT 生成(通义千问)
      • 图文并茂的聊天助手(Kimi 的 Mermaid 图)
      • 用图片形式展示生成内容(汉语新解)
      • 设计稿生成(Motiff)
      • 应用原型生成(Anthropic Claude)
    • 智能消费电子:期望高,进展慢
    • AI 辅助运营:从热点信息推送到粉丝互动
    • AI 在教育中的颠覆性应用:从个性化到场景化学习
  • 二号馆(计算基础设施):AI 的算力基础

    • CXL 架构:云端资源的高效整合
    • 云端计算与高密度服务器:算力集群的优化
    • 云原生与 Serverless
    • 机密计算:AI 时代的数据安全与信任转移
  • 结语:基础模型、算力与应用的两个 Bitter Lesson

    • 云栖大会的三个展馆体现两个 Bitter Lesson
    • 第一课:基础模型是 AI 应用的关键
    • 第二课:算力是基础模型的关键

一号馆(基础模型):AI 的第一推动力

在云栖大会 2024 上,一号馆虽然面积不大,但吸引的观众密度最大,展示了国内最前沿的基础模型技术。

通义 Human AIGC 技术全景图通义 Human AIGC 技术全景图

视频生成:从单一生成到多样化场景的突破

视频生成技术在过去两年内进展迅速,特别是 Sora 发布后,大量公司发布视频生成模型,云栖大会上各种视频生成模型都在秀肌肉,覆盖了基于文本、基于图片、基于视频的多维度生成方式,生成的内容也不仅包括视频,还包括 3D 模型。

1. 从单一文本生成视频到多模态输入生成

在早期,AI 视频生成大多以 “文本到视频” 的模式为主,即通过输入文本描述生成对应的视频内容,将用户输入的文字描述转换为 5~10 秒的视频。这种基于描述性语言生成视频的方式虽然在一定程度上帮助用户实现了可视化表达,但其在风格一致性方面的局限性也很明显。

风格一致性是指生成的多个视频片段在视觉风格、动作表现上的统一性。对于一部完整的视频作品,风格不一致可能会导致观感上的割裂。例如,AI 生成的一个视频中可能包含了多个不同的场景和人物,但由于生成算法的多样性,场景与场景之间的人物风格、光影效果等可能会出现不一致的现象。这种问题在广告制作和影视创作等需要较高艺术统一性的场景中,尤为突出。AI 模型在解决生成效率和生成内容多样性的同时,必须保持整体风格的一致性,这对于视频生成技术来说是一个不小的挑战。

目前,视频生成从单一的文本生成逐渐扩展到支持更多模态的输入,包括图片、骨架图、3D 模型等。相比单一的文本输入,基于图片生成的视频能够更加精准地复现人物外观与场景细节。

例如,在广告行业,用户可以通过上传一张产品图片,AI 模型根据图片生成相应的广告视频片段。这种方式能够通过融合文本提示生成更加复杂和动态的内容。

一些在研的模型支持 3D 模型作为输入,可以通过文字控制 3D 模型的动作,再融合到 AI 生成的背景中。相比图片输入方式,3D 模型可以实现更精确的风格一致性控制,在需要人物形象高度一致的电影、游戏等行业中将取得重要应用。

2. 动作参考生成:从静态图像到动态视频

另一个显著的突破是基于动作参考的生成模式。在这种模式中,用户可以通过上传静态图片和动作骨架图,生成动画化的动态视频。例如,用户上传一张人物的静态图片,并结合一个参考动作(如跳舞、走路),AI 模型将通过识别和模拟该动作骨架,将图片中的静态人物 “动起来”,生成动作视频。

例如通义舞王背后的模型 Animate Anyone 能够通过输入人物图片和参考动作骨架图,将静态人物形象转化为动态人物。通过骨架的匹配与动画化,AI 可以生成符合参考动作的视频。这一技术已经在多个创意领域产生影响,尤其是短视频、社交媒体和影视动画制作中,极大地减少了传统动画制作的时间和成本。

与早期的 “文本到视频” 不同,基于图片和动作骨架的生成模式能够更精准地控制视频中人物的姿态和动作。尤其是在角色动画中,这种方式能够让用户自定义角色的动态表现,无需手动调整复杂的动画帧。通过 AI 自动生成的方式,大量的用户可以通过简单的图片输入,轻松创建出复杂的动态视频内容。

3. 基于口型同步与视频生成的数字人技术

数字人的典型技术路线是 “口型同步”,用户可以上传一个事先录制好的说话视频,AI 模型将识别视频中的人物面部,在数字人需要说话的时候,根据输入的语音,调整人物的嘴部动作,使其与新输入语音同步。关键在于能够在不改变视频整体背景和动态的情况下,替换人物的面部表情和口型。这种模式在短视频、虚拟主播、数字人等场景中得到了广泛应用,尤其是在需要实时互动的场景中。

然而,数字人技术仍然需要数字人的 “真身” 上传一段视频,在很多场景下比较困难。而且这种数字人只能修改口型,不能修改动作和背景,会出现一些不自然的情况,应用场景也较为受限。

通义的 EMO 模型是一类新的数字人技术,可以通过一张照片和一段音频生成高度逼真的说话视频,从而可以把兵马俑、历史人物等形象 “复活”。通义还与央视合作,推出了一期 AI 生成的 “兵马俑唱歌” 节目,在看这个视频之前,我真的没法想象兵马俑唱歌是什么样的。

在云栖大会上,EMO、Animate Anyone 等模型通过百炼平台开放了 API,也通过通义千问 App 中 “我的前世今生” 数字人功能提供了 to C 服务。在 “我的前世今生” 功能中,用户可以上传自己的照片,然后 AI 用 20 分钟训练一个数字人,然后就可以与用户的数字分身实时语音和视频对话了。

我体验通义千问 “我的前世今生” 数字人我体验通义千问 “我的前世今生” 数字人

“我的前世今生” 数字分身的原理是首先用真人照片匹配现有角色,通过 DeepFake 换脸技术把一张历史人物图片中的人脸替换成用户的人脸,然后使用 EMO 模型,将其转化为一段数字人说话的微动视频。再用这个视频训练一个数字人,在实时对话的时候,就根据 TTS 合成的语音,调整数字人的口型,使其与说话同步。

这种数字分身的技术路线也有两个缺点:

  1. 目前的 EMO 模型专注于人脸表情,只能生成微动视频,无法生成跳舞等复杂动作,背景也是固定的。如果要生成复杂的动作和背景变换,就像拍电影一样,就需要通用视频生成模型。
  2. EMO 模型跟基于扩散模型的通用视频生成模型一样,都需要较高的算力,目前无法实现实时视频生成,因此如果需要实时交互的数字人,仍然需要用传统数字人技术做口型匹配。

语音识别与合成

语音技术的进展主要分为两个方向:语音识别和语音合成。这两者在多模态技术中都是重要组成部分,并且各自有不同的技术挑战与发展趋势。本文将从语音识别、语音合成的原理、性能挑战及现状进行详细探讨。

1. 语音识别技术

语音识别(Automatic Speech Recognition, ASR)技术的核心是将语音信号转化为文本内容。当前主流的语音识别模型如 Whisper、阿里云的 FunAudioLLM 等在精准度上已经取得了较大的进展。

相比于海外的一些模型,阿里等国内语音识别模型的主要优势在于支持方言的识别,而海外模型通常只支持普通话。

目前,语音识别技术仍面临一些挑战,主要是专业名词的识别准确率问题、情绪识别问题和延迟问题。

  • 识别准确率问题:由于语音识别模型较小,知识库较小,专业名词的识别准确率不高。
  • 情绪识别问题:大多数现有语音识别模型不能输出语音中表达的情绪,如果应用需要识别情绪,还需要额外的分类模型。
  • 延迟问题:实时语音交互需要流式识别,延迟是关键指标之一。流式识别的延迟分为两种指标:第一个字吐出的延迟和识别结果稳定下来的延迟。首字延迟是指识别模型听到一段话的第一个字后,多久能输出第一个字;而稳定延迟是指整句话说完后,模型需要多长时间才能给出最终稳定的文本结果。老一代的识别模型如谷歌的流式识别模型,尽管识别率稍低,但其延迟相对较短,通常不超过 100 毫秒。而新的识别模型虽然识别精度有所提升,但延迟也更高,一般在 300 到 500 毫秒之间。这种延迟虽然看似不长,但在端到端系统中,可能对用户体验有较大的影响。理想的语音识别延迟应控制在 100 毫秒以内。

2. 语音合成技术

语音合成(Text-to-Speech, TTS)分为多种任务场景,包括固定音色的语音合成和语音克隆(Voice Cloning)。语音克隆则进一步细分为基于大量参考语音与少量参考语音的合成。

从 GPT-soVITS 开始,语音合成的技术已有显著进展,尤其是 ChatTTS、Fish Speech、阿里的 Cosy Voice 等端到端基于 Transformer 的模型,发音自然性、少样本语音克隆能力等方面都比传统的 VITS 等模型大幅提升。

与语音识别类似,语音合成也存在性能挑战。最主要的问题是合成速度和延迟。两个关键指标是实时率(Real-Time Ratio, RTR)和“首个 Token 输出时间”(Time to First Token)。

  • 实时率:指合成 1 秒钟的语音需要多长时间。例如,CosyVoice 在 V100 GPU 上的实时率可达 0.6,也就是仅需 6 秒钟即可合成 10 秒的语音,这样的合成速度已经能够支持实时语音电话。百炼平台上的语音 API 服务做了一些推理优化,比开源版本的性能更好。
  • 首个 Token 输出时间:指从开始合成到生成第一个音频片段所用的时间。虽然老一代模型如 VITS 和 GPT-SoVITS 的首个 Token 输出时间可以低于 1 秒,但新一代模型如 ChatTTS 和 CosyVoice 的效果虽然更接近真人发音,延迟却更长,首 token 延迟往往需要 1 秒甚至更久。

在语音克隆方面,要取得较好的克隆效果,目前最好的方案仍然是基于大量参考语音微调优化模型,需要较多的语料(几十分钟)进行训练。而基于少量(几秒到十几秒)参考语音的合成,即所谓的 “零样本合成” 效果仍有待提高。

从现场体验效果来看,目前零样本合成效果最好的开源模型是 Fish Speech 1.4,它的推理性能也比较好,可以达到与上一代 VITS 技术相似的低延迟,达到超过 0.1 的实时率(即仅需 1 秒即可合成 10 秒的语音)。

3. 音乐合成技术

音乐合成技术与语音合成存在一定差异。当前的音乐合成技术,如 AI 唱歌、AI 乐器演奏,在生成效果上甚至比语音合成更为逼真。云栖大会的现场实验表明,大多数人很难区分 AI 生成的音乐与真人演唱、演奏的区别。相比之下,现阶段的语音合成,仍然很容易被听出是 AI 生成的内容。

虽然语音合成的研究者更多,潜在应用范围更广,但音乐合成由于技术较为成熟,目前国内和国外都有多款用户量过千万的 AI 音乐合成类应用。

4. 未来方向:多模态端到端模型

语音技术的最终目标是将语音识别、大模型响应与语音合成集成于一个端到端的大模型中,实现类似 GPT-4o 一样的多模态交互。阿里也即将发布类似的端到端多模态模型。根据与现场工程师的交流,尽管端到端模型的延迟低,但总有一些难以解决的 corner case。虽然延迟更低,但就用户体验效果而言,目前还比不上语音识别、文本大模型、语音合成几种模型分别优化的流水线。

Agent 技术

阿里开源了 Mobile Agent,一个基于视觉的手机智能助手。通过智能助手,用户可以实现自动化的手机操作,例如打开应用、点外卖、发微信、发邮件等任务。Mobile Agent 采用了视觉方案,不同于采用 XML 元素树的 App Agent,因此,Mobile Agent 无需为特定应用做训练或微调,即可直接操控各种应用,常见的国内应用和海外应用都可以正常操作。

当前,Mobile Agent 的主要瓶颈在于任务的执行速度。由于 Mobile Agent 采用了 Multi-Agent 的架构,每一次手机界面交互都需要 3~4 次调用大模型进行推理,一次大模型调用的端到端延迟可达 3~5 秒,一次手机界面操作的延迟就高达十几秒,比人类的反应速度慢很多。一个点外卖操作又需要多次手机界面交互,整个流程下来要好几分钟。当然,通过调用延迟更低的模型,可以加速 Mobile Agent 的交互。

此外,我也给 Mobile Agent 团队提了一个建议,用户需求更大的场景事实上不是点外卖、发微信这些简单任务,而是需要机械重复的任务。例如比价、信息收集、群发信息等。

比价:比价是未来 App 助手可以大幅提升效率的领域之一。当前用户在购物时,往往需要手动浏览多个电商平台,逐一对比价格、查看优惠信息。这种过程不仅耗费时间,而且容易出错。未来,AI 助手可以根据用户的需求,自动汇总来自不同平台的信息,并根据用户的偏好进行个性化推荐。例如,在购买一款手机时,助手可以自动收集各大平台的价格、促销信息,并汇总出最佳的购买渠道。

信息收集:App 助手可以帮助用户在多个不同信息源中查找信息并做汇总。例如,用户需要了解某个产品的最新市场动态,AI 助手可以自动监测相关网站、新闻渠道,及时推送相关信息。

批量重复操作:App 助手不仅仅是简单地执行一次任务,更重要的是,它能够批量处理同类任务。例如,当用户需要批量发送消息、批量管理订单、批量处理文件时,智能助手可以帮助完成这些重复性工作。未来,智能助手不仅是手机上的自动化工具,更是一个可以帮助用户处理大量重复任务的工作伙伴。

推理技术:百倍成本下降背后的技术推动力

云栖大会上另一个引发关注的热点是推理技术的突破。相比最初版的 GPT-4 模型,GPT-4o mini 可以达到同等的用户体验,但推理成本降低了 100 倍,输出速度加快了 10 倍。在过去,高昂的推理成本常常让企业望而却步,尤其是在 To C(面向消费者)的应用中,企业往往因为成本过高而无法大规模采用大模型。现在,随着推理成本的大幅下降,大模型可以开放给普通用户使用。

推理成本降低背后隐藏着大量复杂的工程和算法优化工作。

  1. 量化技术的成熟:通过模型压缩技术和量化技术,模型的推理效率大幅提升。
  2. MLA(Multi-head Latent Attention)与混合专家模型(MOE)的应用:这些技术不仅提升了模型的训练效率,同时也优化了推理效率。深度注意力机制能够更加有效地处理大规模输入数据,而 MOE 模型则通过动态调整推理路径来降低无效计算,从而大幅缩减计算时间。
  3. 前缀缓存技术(prefix cache):通过将模型推理过程中已经计算出的部分结果(KV Cache)缓存下来,在未来的推理任务中复用,从而显著减少重复计算的开销。这种缓存技术尤其适用于多轮对话或长文本生成的场景,极大提升了推理速度。阿里云使用低成本的 SCM(Storage-Class Memory)构建 CXL 内存池,将 KV Cache 缓存在低成本的内存池中,从而降低重复计算 KV 的开销。由于 SCM 和 CXL 带宽很高,相比缓存到 SSD 的方案,缓存加载延迟可以大大降低。
  4. Prefill/Decode 分离技术:通过将模型推理过程中的 prefill 和 decode 阶段分离,考虑到 prefill 阶段是算力密集的,decode 阶段是内存访问密集的,分离后可以充分利用不同 GPU 型号的算力和内存带宽。

三号馆(应用):AI 从 Demo 走向千行百业

在云栖大会 2024 的三号馆,AI 的应用场景成为展示的核心。不同于一号馆专注于基础模型的展示,这里更多地探讨了 AI 如何从实验室走向实际的行业落地。从智能设计工具到数字人,再到工业机器人和自动驾驶,三号馆的展览充满了对 AI 在千行百业中的具体应用的探索。

我在看三号馆的时候,越看越感觉,AI 的应用正在走向一个关键的拐点:从创新技术的 “炫技” 转向真正为行业赋能。是否能解决行业痛点,能否有效结合特定行业的深度需求是应用落地的关键。

AI 生成设计:生成式 AI 的新范式

AI 正在重塑设计的流程与方式,从自动生成 PPT 到更加复杂的图文并茂的内容生成,各类应用正在改变传统的设计模式。

早期的 Chatbot 仅仅是将大模型生成的 token 以文本形式呈现给用户,虽然可以使用 Markdown 和代码语法高亮等简单格式化手段,但这种纯文字的呈现形式并不适合人类的阅读习惯。如今,AI 生成设计迈出了重要的一步,通过将大模型输出的 token 用更加直观的图表、图片等形式展现,大幅提升了用户体验。

PPT 生成(通义千问)

通义千问刚刚上线的 PPT 生成功能,通过解析用户上传的文档或 PDF,生成内容大纲,并根据模板库中已有的布局填充内容,生成 PPT。它能够快速有效地总结和整理信息,特别适合内部汇报或快速生成初步的 PPT 框架。

工作原理:用户首先上传 PDF 文件,选择 PPT 模板,AI 系统会先对 PDF 文件进行总结,生成大纲,然后根据大纲的内容,从布局库中挑选合适的模板,填入文本或生成的图像内容,形成完整的 PPT。

当前缺点

  • 无法粘贴现有图表和图片,特别是对于文档中已有的专业图表和图片示例,系统并不能自动复制粘贴。
  • 不能自动根据 PDF 中的数据生成图表。
  • 风格的定制能力有限,只能从系统内置的 PPT 模板中选择,无法适应公司特定的 PPT 模板,影响在正式场合的使用。

图文并茂的聊天助手(Kimi 的 Mermaid 图)

Kimi 在聊天助手中引入了生成图表的功能,特别是 Mermaid 图表,可以自动生成图表代码并绘制相应的图表。这种图文并茂的方式极大地提升了用户的阅读体验,相较于纯文本,图表提供了更具直观性和可视化的表达。

Kimi 的图表生成功能Kimi 的图表生成功能

  • 工作原理:用户输入数据后,系统通过解析生成的图表代码,如 Mermaid 代码,再自动绘制图表,提供视觉化的信息展示。
  • 当前缺点:当前的图表生成仍面临着一定的灵活性问题,图表布局的精细控制和复杂图形的绘制还需进一步优化。

用图片形式展示生成内容(汉语新解)

汉语新解应用通过将生成的文字内容以类似游戏卡牌的图片形式展示,极大地增强了用户的社交分享欲望。用户输入一个词语,系统不仅生成与其相关的有趣段子,还将其设计成精美的卡片,赋予内容视觉美感。

工作原理:系统首先生成文本内容,然后将文本套入设计模板,通过背景图与排版的配合生成视觉化的卡片,鼓励用户分享。

有趣的是,汉语新解应用套入设计模板的过程并不是在大模型以外进行的,而是用 Claude 的代码生成能力和运行代码的 Artifacts 能力实现的。这说明通用聊天助手可以借助代码生成和 Artifacts 能力直接成为小型应用的开发和部署平台。

汉语新解的 Claude 提示词如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
(defun 新汉语老师 ()
"你是年轻人,批判现实,思考深刻,语言风趣"
(风格 . ("Oscar Wilde" "鲁迅" "罗永浩"))
(擅长 . 一针见血)
(表达 . 隐喻)
(批判 . 讽刺幽默))

(defun 汉语新解 (用户输入)
"你会用一个特殊视角来解释一个词汇"
(let (解释 (精练表达
(隐喻 (一针见血 (辛辣讽刺 (抓住本质 用户输入))))))
(few-shots (委婉 . "刺向他人时, 决定在剑刃上撒上止痛药。"))
(SVG-Card 解释)))

(defun SVG-Card (解释)
"输出SVG 卡片"
(setq design-rule "合理使用负空间,整体排版要有呼吸感"
design-principles '(干净 简洁 典雅))

(设置画布 '(宽度 400 高度 600 边距 20))
(标题字体 '毛笔楷体)
(自动缩放 '(最小字号 16))

(配色风格 '((背景色 (蒙德里安风格 设计感)))
(主要文字 (汇文明朝体 粉笔灰))
(装饰图案 随机几何图))

(卡片元素 ((居中标题 "汉语新解")
分隔线
(排版输出 用户输入 英文 日语)
解释
(线条图 (批判内核 解释))
(极简总结 线条图))))

(defun start ()
"启动时运行"
(let (system-role 新汉语老师)
(print "说吧, 他们又用哪个词来忽悠你了?")))

;; 运行规则
;; 1. 启动时必须运行 (start) 函数
;; 2. 之后调用主函数 (汉语新解 用户输入)

当前缺点:目前的生成方式依赖于固定的设计模板,个性化和自定义设计的能力有限。如何根据用户的不同需求,动态调整图片生成的视觉效果,仍有较大的改进空间。

设计稿生成(Motiff)

在三号馆的应用展示中,AI 设计工具是一个亮点。这类工具的主要功能是帮助设计师通过简单的提示词生成用户界面或平面设计,从而大幅提升设计效率,减少人为劳动。例如,AI 工具可以自动根据提示词生成不同风格的界面,并将适合的 UI 元素填充到设计稿中。

三号馆展示的 Motiff 是一个代表性的 AI 设计工具。Motiff 是猿辅导团队 2023 年开始做的 AI 辅助设计应用。用户可以输入一个文本需求,AI 就会生成设计稿。

例如,输入下面的 prompt:

一个 AIGC(AI 生成)内容分享社区。由 5 个主要页面构成:

  1. 首页展示所有用户创作的图片和视频,支持按照类别筛选、按照不同的方式排序;
  2. 内容页面展示一个图片或视频、生成视频使用的 AI 模型和 prompt,用户可以在图片或视频下方发表评论,也可以对图片点赞或者点踩;
  3. 创作页面中用户可以选择一个 AI 模型,输入一个 prompt,生成图片或视频;
  4. 生成结果页面:生成完成后用户可以预览生成结果,如果不满意可以重新生成,满意就点击发布;
  5. 个人中心页面:展示用户已经创作的所有图片和视频,支持删除。

3 分钟后就能得到下面的设计稿,应该说是一个不错的原型,至少比我自己设计的界面好看。(点此在 Motiff 中查看生成的设计稿

Motiff 全自动生成的设计稿Motiff 全自动生成的设计稿

当前缺点

  • 目前 Motiff 和 Figma AI 都依赖现有的模板库,无法遵从项目现有的设计系统,无法保证多个界面间的设计风格一致性。例如,上面的设计稿比较类似小红书的风格,而 Figma AI 生成的天气应用设计稿则更接近苹果的风格。
  • Motiff AI 目前还不支持自动根据用户的提示词修改现有的设计稿。
  • 目前 AI 设计工具生成的设计稿是静态的,无法自动生成用户交互逻辑。
  • AI 生成的设计稿在导出成 HTML、CSS 或 React 前端代码时,存在代码混乱、逻辑不清的问题,无法直接被前端工程师用于实际开发。将设计稿的图片粘贴到 GPT-4o 中,也无法得到风格完全匹配的前端代码。如何从设计稿自动生成干净的前端代码,仍然是一个挑战。

应用原型生成(Anthropic Claude)

Anthropic Claude 不仅能够生成文本内容,还可以通过用户的指令生成完整的、可运行的应用原型。这种方式极大地简化了应用开发流程,使得从构思到实现的过程大大缩短。

工作原理

  1. 用户提供应用需求描述
  2. Claude 分析需求,生成前端和后端代码
  3. 自动部署生成的代码,创建可直接运行的应用

主要优势

  1. 代码质量高:Claude 生成的代码结构清晰、注释完善,可以直接运行,无需大量人工调整。
  2. 全栈能力:不仅能生成前端界面,还能创建后端 API 和数据库结构。
  3. 快速迭代:用户可以通过对话方式要求 Claude 修改或增加功能,实现快速原型迭代。
  4. 文件生成:除代码外,还可生成各种格式的文档、配置文件等,支持直接预览和下载。

应用案例

  1. Web应用:用户描述一个简单的博客系统,Claude 能在几分钟内生成包含文章列表、详情页、评论功能的完整网站。
  2. 移动应用:通过简单指令,Claude 可以生成 React Native 代码,快速创建跨平台移动应用原型。
  3. 小游戏:Claude 能根据用户的游戏创意,生成可在浏览器中直接运行的 HTML5 小游戏,方便在社交媒体上分享。
  4. 数据可视化:用户提供数据集和可视化需求,Claude 可以生成交互式数据可视化应用。

社交传播
Claude 生成的应用原型可以轻松部署到在线平台,用户可以通过链接在社交网络上分享。这种即时创作、即时分享的模式大大增加了 Claude 的曝光度和用户粘性。

AI 旅游助手:数据是关键

目前有很多旅游助手场景的 AI 应用,比如:

  • GenSpark.AI 综合网络搜索结果,用 AI 生成关于每个旅游景点和城市的 Wiki 页面,用户搜索关键词可以搜索到这些 Wiki 页面,也可以自己创作和编辑这样的页面。项目上线 3 个月来,已经有超过 700 万个 Wiki 页面。我之前就知道 GenSpark 这个应用,其实不仅限于旅游场景,是通用的写调研报告工具,比如我输入自己的名字,就能生成一大篇内容翔实的 Wiki。
  • Go China 是面向海外游客的旅游助手,通过从政府发布的公众号、景区官方网站和特定的信息渠道中自动收集数据,然后基于这些数据生成高质量的旅游攻略,帮助用户实时获取景区的最新信息,例如当前的展览、活动安排以及景点是否开放等。
  • 黄山旅游助手通过与黄山景区合作,收集了黄山的招牌景点、路线、美食、住宿、交通等数据,用户在景区内拍摄一个照片,就能获取到这个照片的详细介绍,以及到附近其他景点的推荐路线。

我注意到,这些 AI 旅游相关的应用之所以能够提供及时且全面的导览服务,关键在于其信息的来源和更新机制。这些应用会从政府发布的公众号、景区官方网站和特定的信息渠道中自动收集数据,并将这些零散的信息整合到应用程序中。

这种智能化的数据处理方式特别适合旅游景区导览。尤其是在中国这样一个旅游资源丰富、景区管理复杂的国家,很多地方景区的信息发布都依赖于本地政府或相关机构的公众号和网站。游客很难通过统一的平台获取所有信息,尤其是一些小众景点的特定展品介绍、展览时间或特殊活动安排等,都可能被隐藏在难以搜索到的地方。而 AI 应用能够自动识别这些信息来源并及时更新,确保用户获取到的是最新、最准确的导览内容。

非共识:数据比技术更重要

在与相关厂商的沟通中,我发现一个很有趣的现象:尽管 AI 技术的进步让数字人和导览工具看起来更为智能,但它们的实际效用在很大程度上依赖于数据的丰富性和更新的及时性。如果应用不能及时获取关键数据来源,那么无论 AI 交互界面有多智能,应用的实际体验都会大打折扣。

首先,传统的应用仅仅依赖通用搜索引擎检索公开数据,而国内大量的数据在一个个封闭平台的 “烟囱” 中,例如微信公众号、小红书、抖音等,这些平台对搜索引擎并不友好,导致 AI 应用难以获取这些数据。其次,很多小众景区的展品数据并不在公共网络上直接可得,必须通过与景区或文化机构的直接对接来获得。

要解决这一问题,AI 导览应用必须与各个景区和展馆进行深入合作,获取专属的展品数据和实时更新的景区动态信息。有趣的是,大多数景区和展馆都愿意与 AI 应用合作,因为使用传统的外包方式开发一个景区的 App 需要投入大量人力物力,而与 AI 公司合作可以大大降低开发成本。

数字人和虚拟形象:不像真人的挑战

没有通过图灵测试的数字人

借助多模态能力,数字人和虚拟形象的语音、视频互动体验看似流畅,但 AI 仍然表现出明显的局限。

  1. 尽管数字人技术可以模拟真人的面部表情、动作甚至语音,但面部表情和语音都做不到足够自然,能够明显看出和听出是 AI 生成的。
  2. AI 数字人的反应速度比人慢。例如,一些展示中的虚拟导游虽然能够通过摄像头识别用户的位置,跟随用户视线移动,但其响应速度仍然较慢,无法与真人导游相提并论。这种技术限制主要来源于当前数字人的技术栈并未使用端到端大模型,而是语音识别、大模型、语音合成、口型匹配等多个模型组成的流水线,因此端到端延迟较高。
  3. 大模型在执行简单任务时表现尚可,但在面对用户提出的开放性问题或情感化交互时,AI 生成的内容往往缺乏深度与灵活性。许多 AI 仍然依赖于固定的模板化对话框架,难以根据用户的即时需求生成真正个性化的回答。例如,在旅游导览场景中,用户可能会提问一些涉及当地历史或文化的深度问题,AI 如果没有提前接入相关知识库,往往无法给出令人满意的回答,甚至会陷入重复的对话逻辑中。

AI 外呼电话:不用 TTS,而用真人录音

一个商业上较为成功的应用场景是 AI 外呼电话。三号馆中的两个公司展示了基于 AI 的外呼电话系统,应用场景包括推销电话、客户服务和售后跟踪等。这类系统的核心功能是通过 AI 模型模拟与用户的对话,减少人工参与的同时,提高外呼效率。然而,这种技术也面临着明显的挑战,尤其是如何让 AI 生成的语音更加接近真人,从而减少用户对机器人的警惕感。

当前,外呼电话的主要问题是生成的语音无法完全模仿真人,容易被用户识别为机器,从而影响用户体验和沟通效果。为了解决这一问题,一些公司采用了生成话术和人工录音相结合的方式。即 AI 系统生成标准化的对话框架和话术模板,而真人则负责录制这些模板的语音。这样在外呼电话中,用户听到的依然是人类的声音,而非 AI 生成的合成语音。

尽管这种方法提高了外呼电话的 “人性化” 程度,但它也带来了新的挑战。首先,人工录音的成本相对较高,尤其是在大规模外呼场景下,录音内容的多样化要求导致了额外的资源投入。其次,由于录音是事先准备好的,无法针对用户的即时反馈进行个性化调整,导致了外呼电话在应对复杂对话时显得僵硬和不灵活。

非共识:尽管外呼电话系统通过人工录音和生成话术的结合提高了对话的自然度,但在面对复杂、个性化的对话时,这种方式依然无法媲美真人。AI 在外呼场景中,如果要真正实现大规模应用,必须在语音合成的质量、对话逻辑的灵活性以及即时反应速度上进行突破,才能真正替代人工外呼操作。

人形机器人:机械与 AI 的双重瓶颈

人形机器人一直以来是科幻电影和未来科技的象征。云栖大会的三号馆展示了多个来自不同厂商的人形机器人项目。然而,在与多家参展公司交流后,我发现人形机器人目前的技术瓶颈并非单纯来自机械结构,更重要的是在于 AI 算法的限制,尤其是大模型和传统强化学习的不足。

传统强化学习与大模型的两难选择

目前,人形机器人主要依赖传统的强化学习算法来完成任务规划和运动控制。这些算法能够通过不断试错,优化机器人在环境中的行动路径,确保其完成指定的任务。然而,尽管强化学习在实验室环境中表现出色,在实际应用中却暴露出鲁棒性不足的问题。传统强化学习算法在面对复杂、动态变化的现实环境时,无法灵活应对突发状况和多变的任务,表现不够稳定。这使得它们在需要高度灵活性的应用场景中显得力不从心。

近年来,大模型凭借其对自然语言理解、多模态感知以及复杂推理的能力,理论上可以提升人形机器人在任务执行中的智能性。然而,大模型的推理速度较慢,延迟较高,难以满足人形机器人在实际场景中的实时反应需求;此外,OpenAI o1 之前的大模型并不擅长复杂任务的规划和推理。相比基于传统强化学习的规划算法,大模型在推理复杂的任务序列时,仍然无法有效地生成出复杂的、长链式的任务规划。

AI 是人形机器人目前的最大瓶颈

我曾经认为,人形机器人发展的最大障碍是机械方面的局限,尤其是精密机械控制和动作的柔顺性。然而,与多家厂商深入讨论后,我发现这一认知需要修正。实际上,当前的人形机器人机械技术已经取得了相当大的进展,其精度、速度和成本都在不断优化,尤其是国产化部件的兴起使得机械成本显著下降。例如,许多机器人关键组件已不再依赖国外昂贵的零件,深圳的制造商能够提供性能不逊色于进口的器件,大幅降低了整体造价。然而,这些机械进步并没有带来预期中的机器人应用爆发,主要瓶颈反而出现在 AI 方面。

在实际的机器人控制中,AI 的推理速度和复杂规划能力是限制机器人灵活性和精确性的核心问题。目前,AI 只能较好地解决语音对话、基本感知等简单任务,而在处理复杂的规划任务和实时调整时,表现仍然不理想。传统强化学习在路径规划中的表现较差,而大模型的推理能力则未能达到预期。目前 OpenAI o1 模型刚刚利用强化学习在推理能力上取得不错的进展,但其交互延迟仍然不能满足机器人的实时性需求。

非共识:当前人形机器人领域的真正瓶颈是 AI 推理能力。未来,如果大模型的推理速度和推理能力能够得到大幅提升,将强化学习与大模型结合,或许我们能看到机器人在复杂任务中的表现变得更加灵活、鲁棒和高效。

自动驾驶:终于成熟到了可以商用

自动驾驶已经火了很多年,最近终于成熟到了可以大规模商用的程度。其实我感觉自动驾驶跟人形机器人在 AI 方面的需求是很相似的,都是需要强实时性的感知能力和路径规划能力。

在三号馆的展示中,特斯拉展示了其最新的全自动驾驶系统(FSD),实现了高度自动化的驾驶体验。造型非常科幻的电动皮卡 Cybertruck 也推出了 FSD 全自动驾驶,我还是第一次见到 Cybertruck 的真车。

特斯拉造型很科幻的电动皮卡 Cybertruck特斯拉造型很科幻的电动皮卡 Cybertruck

特斯拉的 FSD 系统基于纯视觉的自动驾驶路线,这与其他采用激光雷达(LiDAR)或多传感器融合的公司形成了鲜明对比。特斯拉的展示表明,视觉优先的路线在某些应用场景下具有显著的成本优势,因为它不依赖昂贵的激光雷达设备,能够更快地推广到大众市场。

然而,视觉优先的自动驾驶路线也面临着一些质疑。尽管在理想环境下,视觉系统能够通过大量训练数据进行准确识别,但在复杂天气条件(如大雾、暴雨)或极端光照环境下,单一依赖视觉系统的自动驾驶车辆往往难以做出准确判断。

智能消费电子:期望高,进展慢

大概由于云栖大会并不是一个硬件展会,智能可穿戴设备的展示相对较少,只有几家 AR/VR 厂商。

国内的消费电子产品依靠供应链优势,主要优势是价格低。比如 Vision Pro 售价 3 万人民币,Rokid 等厂商就只要四五千,虽然体验跟 Vision Pro 还有较大差距,但排队体验的观众仍然排起了长队。Humane 的 AI Pin 售价 699 美元,同等功能的国内竞品只要 100 多美元。

所有搞大模型的基本上都认同,手机的智能助手是 AI 很好的入口。但不知道为什么,苹果和华为这两家顶级的手机厂商,在系统各方面的综合积累都很强,但自研基础模型和大模型应用的进展相对缓慢。而且不仅是大模型产品进展慢,公司内部对大模型辅助编码开发和办公的采用也比较保守。

阿里已经普遍使用通义大模型辅助编码开发,例如 ModelScope 的 AIGC 专区(一个类似 Civitai 和 Stable Diffusion WebUI 的 AIGC 模型体验社区)团队只有 8 个人,都是搞 AI Infra 和算法的,并没有设计师和前端工程师。他们在花了一两年打磨算法和优化性能后,仅用两个月就自学 React,完成了网站前后端的开发和上线,这跟 AI 辅助编程是分不开的。而华为内部只有部分员工自发使用 AI 工具辅助编程,没有纳入到软件开发流程中,而且出于信息安全考虑,公司对使用 GPT 等世界领先模型还有一些限制。

对日常生活类 AI 助手来说,手机的形态不一定是最合适的,因为它的输入输出形态不能满足 AI 多模态能力的需求,用户使用手机 AI 助手的时候需要把它拿在手上,而且通常拿手机的姿势还不便于摄像头看到面前的环境。

我认为,AI 助手的目标是跟用户一起探索更大的世界。智能可穿戴设备将改变人机交互的范式,让 AI 助手能够看、听、说,与人类自然地多模态交互。

从《Her》等电影开始,智能可穿戴设备就被赋予了很高的期望,但目前尚未看到足够好的产品。AR/VR/空间计算产品可以输入输出视频和音频,解决了多模态交互的问题,但只适用于室内场景,户外运动时戴着并不方便。AI Pin 这样的产品需要伸出手来作为屏幕,其实并不实用。这也说明大模型的故事才刚刚开始,产品形态仍有很多值得探索的空间。扎克伯格在宣发 AI Studio 的时候就说,即使基础模型能力停止进步,产品形态仍然需要 5 年来演进,更不用说现在基础模型的能力还在快速进步。

我个人认为,如果 Vision Pro 可以做得更便于穿戴,它将是承载 AI 助手的终极形态。我认为未来的人机交互一定需要有听觉和视觉感知,同时又需要有语音和视频显示,Vision Pro 可以满足这些交互需求。但 Vision Pro 太重了,戴上像一个头盔,外围环境和屏幕显示的融合做得也不够好,因此在户外使用仍然不够方便、不够安全。而市面上的 AR/VR 眼镜的显示不够有沉浸感,只能作为少量信息的辅助显示,无法作为代替手机和 PC 的主要显示。如果一个智能硬件设备能够有 Vision Pro 的沉浸感和 AR/VR 眼镜的便携性,它将是一个非常好的 AI 助手载体。

AI 辅助运营:从热点信息推送到粉丝互动

随着企业社交媒体运营需求的增加,AI 辅助的自动化运营系统正逐渐成为提高工作效率的关键工具。

自动生成热点内容与推送

在日常的社交媒体管理中,运营人员需要实时关注行业动态,抓住热点信息,并快速生成相关内容发布在 Twitter、微信等平台上。AI 的强大信息收集和总结能力,使得这一流程得到了极大的优化。通过 AI 的自动化分析,系统可以从海量信息中筛选出与企业相关的热点内容,并自动生成精炼的新闻、推文等文本内容,帮助运营人员快速响应市场热点。

自动与粉丝互动

AI 还可以帮助企业在社交媒体平台上与粉丝进行互动。传统的粉丝互动需要耗费大量的时间和精力,尤其是在粉丝数量庞大的情况下,企业很难做到一一回复。而 AI 系统可以根据用户的评论、提问,自动生成个性化的回复。这种互动不仅可以提高粉丝的满意度,还能大大提升运营效率。

然而,尽管 AI 可以大幅优化运营流程,但在实际操作中,系统生成的内容依然存在不够精准、不够个性化的情况,尤其是在粉丝互动中,AI 的回应往往显得“机械化”,缺乏人情味。这是目前 AI 在运营应用中的一个主要瓶颈。

非共识

AI 在社交媒体运营中的作用虽然显著,但其效果依然受限于当前模型的推理和生成能力。AI 生成的内容在热点新闻的总结上表现较好,但在与粉丝的深度互动中,仍显得生硬和缺乏个性化。未来,AI 如果要真正成为运营中的主力工具,需要进一步提升其内容生成的灵活性和互动的个性化水平。

AI 在教育中的颠覆性应用:从个性化到场景化学习

教育一直以来都是社会发展的基石,而 AI 的出现为教育行业带来了前所未有的革命性变革。在本次云栖大会的应用馆中,展示了几款与教育相关的应用,进一步揭示了 AI 在教育领域的潜力。我特别关注到这些 AI 应用在教育中的表现,特别是它们如何实现个性化教学、场景化学习,以及如何帮助学生提升编程和语言技能。这些技术不但改善了传统教学的效率与覆盖面,还可能彻底改变未来教育的面貌。

教师资源的短缺与 AI 的一对一教学

长期以来,教育行业最大的挑战之一是教师资源的不足。每位教师需要同时负责多个学生的学习进程,这往往导致个性化教育的缺失。传统的教学模式,尤其在大班课堂中,难以确保每个学生都能获得与其水平和需求相匹配的关注度。而 AI 的到来,有望改变这一现状。AI 不仅可以充当一对一的辅导员,提供针对每个学生的个性化学习方案,还可以根据每个学生的进展和反馈动态调整教学内容。

在语言学习领域,AI 已经展示了其强大的潜力。通过将语言学习的课程与 AI 结合,学生可以不受时间与地点的限制,随时随地进行练习。这种方法尤其在口语练习中具有优势。传统的语言学习需要和外教进行面对面的交流,但这种模式耗费较高的成本,且对于许多地区的学生来说并不现实。AI 能够通过自然语言处理技术,模拟真实的语言交流场景,让学生在日常生活中与 AI 进行对话。这不仅大大降低了学习的门槛,还提高了学习的灵活性。无论是在课堂上,还是在旅途中,学生都可以通过 AI 实现语言学习的场景化体验,提高学习效果。

场景化与沉浸式学习:AI 的教育场景拓展

场景化学习是 AI 在教育中的另一个重大应用。传统的语言学习或者其他知识学习往往局限于固定的教室或教材内容,难以实现真正的沉浸式体验。然而,通过将 AI 与场景化学习相结合,学习者可以在实际生活情境中使用所学知识。例如,一些语言学习应用能够在 VR 设备辅助下,模拟身临其境的海外旅行、生活、校园场景,让学生在虚拟场景中与 AI 互动,就像有一个 “外教” 随时陪伴一样;或者借助 AR 设备的辅助,在真实的 city walk 或者旅行场景中,充当 “导游” 兼 “外教” 的角色,陪你看更大的世界。这种情境学习能够大大提高语言应用的灵活性和真实感,有助于学生在实际交流中快速进步。

同样的理念也适用于其他学科的学习。通过 AI 的帮助,编程学习可以变得更加直观和互动。在传统编程学习中,学生常常面对枯燥的文档和范例,学习过程缓慢且容易出错。而 AI 可以实时为学生提供编程指导,不仅能指出代码中的错误,还能给出优化建议。例如,在编程语言的学习过程中,AI 可以为学生提供即时的代码审查和纠正,帮助他们养成良好的编程习惯。这样的实时反馈和互动体验,让学生能够更加有效地掌握编程技能,逐步提升代码质量。

AI 在编程教育中的应用:从 “助手” 到 “导师”

在编程领域,AI 的作用不仅仅是一个工具,更像是一个实时的导师。以往的编程学习,学生常常因为没有团队或者缺少代码审查机制,容易养成不良的编程习惯。然而,通过 AI 的帮助,学生的每一行代码都能得到及时反馈。如果代码格式不规范,AI 可以立即提示并提供优化建议,帮助学生形成规范化的编程风格。同时,AI 还能够帮助学生迅速掌握新的编程语言和框架。过去,学习新的编程语言往往需要查阅大量文档,而 AI 可以根据学生的需求,快速生成对应的代码片段,并解释其功能。这种高效、直观的学习方式,不仅节省了时间,还大大提高了学习的效果。

用通义灵码 AI 编码助手体验机器人开发用通义灵码 AI 编码助手体验机器人开发

CursorGitHub Copilot 等编程助手为例,这些 AI 工具能够在学生编码时,实时提供建议和反馈。AI 可以根据上下文理解学生的意图,自动补全代码、优化逻辑,甚至指出潜在的安全隐患。这使得编程不再是一个孤立的过程,而是一个互动式的学习体验。此外,AI 还能够帮助学生在学习过程中即时解决问题,例如自动生成 HTTP 请求的代码,或提供合适的库和参数。这种互动式的学习体验,让学生不仅能够快速掌握新技能,还能通过不断的尝试和修正,逐步提升自己的编程能力。

AI 辅助数学学习与逻辑思维训练

AI 在教育中的应用不仅限于语言学习和编程,还可以广泛应用于数学、逻辑推理等领域。以往 AI 应用于理工科教育的一个显著挑战是大模型推理能力差,自己做题的准确率太低,因此只能依赖题库,从题库里面匹配答案。

OpenAI o1 表明,强化学习和慢思考可以解决推理能力的问题。现在 OpenAI o1 mini 本科理科大多数专业课的题都会做,比如四大力学、数学分析、线性代数、随机过程、微分方程,o1 mini 对复杂的计算题大概能做对 70%-80%,简单概念题和计算题正确率 90% 以上,计算机系本科那些编码题就更不是问题了,我觉得 o1 mini 在数学系、物理系和计算机系都能本科毕业了。o1 正式版出来之后估计会更强。我一边测就一边调侃说,我自己智商有限,高等数学学不明白,就只能创造一些比我更聪明的东西来弥补我自己智力的不足了。

OpenAI o1 mini 的价格并不高,每 token 价格比 GPT-4o 更低。而且目前的定价还是由于 OpenAI 是唯一一家具有推理能力的模型,有一定的溢价。o1 mini 的模型大小和推理成本很可能跟 GPT-4o mini 相当,而 GPT-4o mini 的定价比 o1 mini 低 30 倍。等到其他基础模型公司在强化学习和慢思考方面追上来,强推理能力模型的成本只会进一步降低。

AI 能够做题对数学、物理、化学等理科教育将产生重大影响。在传统的理科学习中,学生往往只能通过课本中的解答来判断自己是否做对了某道题,但 AI 能够提供更加细致的反馈。AI 不仅能够给出问题的正确答案,还能指出学生在解题过程中的具体错误步骤,帮助他们了解问题的核心。

此外,AI 还可以通过 “逐步思考” 的方式展示解题过程,让学生学习到解题的思维方法,而不仅仅是死记硬背公式和步骤。这种 “逐步思考” 的能力尤其体现在复杂逻辑推理题中。AI 可以通过展示推理的每一个步骤,帮助学生更好地理解逻辑链条,提升他们的逻辑思维能力。

相比传统的教育方式,AI 的优势在于能够提供个性化的学习路径,每个学生都可以根据自己的学习进度进行自适应调整。AI 不仅能够动态生成新的练习题,还能在每个步骤中提供详细解释,这在很大程度上解决了传统课堂中因教师精力有限而无法顾及到的个别化教学问题。

二号馆(计算基础设施):AI 的算力基础

在阿里云云栖大会的二号馆,我们进入了一个与 AI 发展息息相关但常被忽视的领域——计算基础设施。如果说 AI 模型和算法是推动人工智能发展的前端技术,那么计算基础设施则是支撑这一切的坚实后盾。随着 AI 模型的复杂度不断增加,对算力的需求也呈现指数级增长,计算基础设施成为了 AI 时代最核心的竞争力之一。

本次大会中展示的计算技术不再局限于单一的硬件或网络架构,而是围绕着如何提高 AI 模型的推理和训练效率,如何降低推理成本,以及如何通过新型架构和技术来突破算力瓶颈。这一过程中,CXL(Compute Express Link)技术、云端算力集群、机密计算等成为了讨论的重点,展现出当前 AI 基础设施的最新进展与挑战。

CXL 架构:云端资源的高效整合

阿里云 CXL 内存池化系统阿里云 CXL 内存池化系统

CXL(Compute Express Link)是一种新兴的硬件互联技术,旨在提高服务器节点之间的内存共享效率。在 AI 训练与推理中,内存的需求尤为重要,特别是大模型的推理往往需要占用大量的内存资源。而传统服务器架构中,内存往往被限制在单个计算节点内,当某个节点内存资源不足时,系统必须将数据写入速度较慢的外部存储,极大影响了整体的运算效率

CXL 技术通过允许不同服务器节点共享内存资源,打破了传统服务器内存使用的界限。在大会上,阿里云展示了他们在 CXL 技术上的最新成果,通过自研 CXL 交换机和 SCM(存储级内存)内存盘,将多个计算节点与一个大型的内存池相连,实现了跨节点的内存共享,极大地提高了内存资源的利用率

阿里云展示的 CXL 应用场景主要是数据库。数据库处理大规模数据时,常常受到内存的限制,尤其在需要快速响应的大规模查询时,或者某一数据库节点的用户流量激增时,内存不足会导致严重的性能瓶颈。而通过 CXL 架构,每个计算节点都可以共享整个内存池的资源,不再受到单一节点内存容量的限制

非共识观点:在 AI 领域,很多人习惯性地将目光聚焦在 GPU 和 TPU 等高性能计算设备上,认为只要有足够的计算能力,AI 模型的训练和推理就能顺利进行。然而,内存和数据传输速度实际上成为了新的瓶颈。CXL 架构不仅是对算力的增强,更是对内存资源利用效率的突破。在 AI 推理场景下,CXL 架构可以提供大容量、低成本、支持高速换入换出的内存资源,可以大幅降低 Prefix KV Cache(模型输入上下文的中间结果)的存储成本,进而降低大模型 Prefill 阶段的延迟和 GPU 开销,是支持长文本场景的关键技术。

高密度服务器

传统的服务器集群往往需要大量的硬件设备堆叠来提供算力支持,然而,这种方法导致了成本的增加和物理空间的限制。阿里云的高密度服务器节点通过在单一 2U 机架式服务器内集成两套独立的计算单元(包括主板、CPU、内存、网卡等),减少了整体的机柜空间占用,这意味着在相同的物理空间内,阿里云的高密度服务器可以提供更高的算力。

云原生与 Serverless

“云原生” 这个词汇并不陌生,云原生技术的目标是通过容器化、自动化管理、微服务架构和持续交付,使应用能充分利用云计算的弹性和分布式架构。传统的部署方式通常需要在虚拟机或物理服务器上运行,这意味着开发者需要手动扩展系统来应对流量峰值,并在闲时为多余的资源支付费用。而通过云原生的自动扩展能力,系统可以根据实际的使用需求动态调整资源,极大地降低了基础设施的维护难度和运营成本

在云栖大会的演讲中中,阿里云展示了其云原生服务及 Serverless 技术,揭示了这类技术如何帮助开发者降低运维成本、提高系统弹性,及其在大模型推理中的应用。

阿里云 Serverless 应用引擎阿里云 Serverless 应用引擎

Serverless:降低运维门槛的关键

Serverless 的最大特点是开发者无需管理服务器和基础设施,而是将关注点完全聚焦在业务逻辑上。通过 Serverless 架构,开发者只需将应用代码或容器镜像上传到云服务平台,平台会自动根据请求量的变化对资源进行动态分配。这种方式不但能够降低峰值流量时的扩展压力,也避免了在非高峰期为过多的闲置资源支付费用。Serverless 在高可扩展性、自动化运维、以及与各种云原生服务的无缝集成方面,表现尤为出色。

在演讲中,阿里云展示了他们的Serverless 服务应用引擎。使用该引擎开发的应用可以自动根据流量变化进行横向扩展,并为开发者提供多种语言支持。例如,传统的 FastAPI 应用若部署在虚拟机中,通常需要开发者根据用户量预先配置资源,导致闲置资源浪费。而通过 Serverless 服务引擎,开发者可以将应用打包为容器镜像,无需为流量高峰做提前准备,系统会在实际需要时自动扩展应用实例,而在流量下降时自动缩减。

这种自动化扩展能力对于应对流量波动极为重要,这使得开发团队可以专注于应用的开发和优化,而不再为扩展和资源管理操心。此外,Serverless 的一个突出优点是其支持定时任务和后台任务,这对于需要处理周期性任务的应用尤为重要,例如数据备份、离线数据分析、定期报告生成等场景。

Serverless 的技术进化:从函数到任意应用

在早期的 Serverless 发展中,应用开发者常常需要依赖特定的 Serverless 函数框架,将代码部署在云上,这种方式限制了开发者的自由度,尤其是对于那些已经基于传统框架开发的应用,Serverless 化面临重写代码的巨大工程量。然而,阿里云在本次大会上展示的 Serverless 技术,已经不再局限于函数框架,而是能够支持任意类型的应用。开发者只需将已有的应用镜像打包,即可将其托管在 Serverless 平台上,这为许多传统应用的云迁移提供了极大的便利。

如今,Serverless 已不再仅仅是一个开发框架,它已经进化为一个通用的架构,支持从 Python FastAPI 到 Node.js 甚至是 Java 等不同语言的框架。这种通用性使得应用架构的迁移更加灵活,不再受限于某种特定的开发范式。同时,通过与云原生技术的结合,Serverless 进一步推动了无服务器应用的自动化运维,不仅能在负载高峰时自动扩展,还能够根据不同的应用需求自动进行横向和纵向的扩缩容。

云原生数据库与消息队列

云原生的概念不仅仅应用于应用和服务层面,也在数据库和消息队列等关键基础设施领域得到了广泛应用。例如 MongoDB 和 Milvus 向量数据库等云上服务,具备比传统社区版更强大的可扩展性和性能优化能力。例如 Milvus 向量数据库的云端版本在一些场景下比开源版本性能高 10 倍,而且可以自动扩展,无需担心本地内存不足。再如 MongoDB,虽然开源版本的可扩展性尚可,但云原生版本在面对海量数据时可以自动扩展实例,用户无需手动配置和调整存储与计算资源,这显著降低了数据库的运维负担。

除了数据库之外,云原生的消息队列服务也成为了现代化应用架构中不可或缺的部分。在大规模并发请求处理和跨服务的消息传递中,传统的消息队列系统往往需要开发者对性能进行手动调优,而云原生的消息队列服务则提供了自动扩展和高可用性保障,进一步简化了运维过程。

百炼平台:云原生大模型 API

在使用开源大模型时,租用大量 GPU 应对峰值负载会产生大量的成本,从云平台动态申请释放 GPU、部署服务也会带来很高的运维成本。

阿里云百炼平台提供的大模型 API 服务能够为开发者提供稳定、可扩展的推理服务。通过 API,开发者可以轻松调用多模态模型进行推理,而无需担心背后的基础设施和扩展问题。

阿里云百炼平台提供的云原生大模型 API阿里云百炼平台提供的云原生大模型 API

我们可以看到,阿里云提供的模型种类非常丰富。在其百炼平台上,186 个模型中有 153 个是阿里自家的通义系列,其他则是一些第三方的模型,比如国内的百川、零一万物、Moonshot 等。

阿里自家提供 API 的模型包括多种类别。首先是文本生成类的模型,涵盖了旧版和新版的 Qwen 模型,既有开源也有闭源的。同时还有视频理解、视频生成等模型。例如,人像视频生成 EMO 模型可以将静态图片变成动态视频,还有像 AnimateAnyone 这样的跳舞视频生成,风格重绘模型可以处理人像风格变化、图片精修等功能。此外,还有生成专门用于海报设计、动漫人物、背景等特定场景的模型。ControlNet 类模型可以生成艺术字,并内嵌到图片中。语音合成和语音识别则包括了 CosyVoice、SenseVoice 系列的模型。

阿里刚发布的 Qwen 2.5 版本模型在数学能力上有显著提升。此前一些常见的错误问题,例如 3.1416 和 π 哪个更大,现在通过 SFT(监督微调)方法得到了改进。比如,现在 Qwen 2.5 模型会逐位比较 3.1416 和 π,不再通过直觉判断数字的大小。人比较数字大小其实也是逐位比较,因此 SFT 数据事实上是把人思考一类问题的模式教给了大模型。这虽然比不上 OpenAI 采用强化学习提升 “慢思考” 能力的 o1 模型,但 SFT 作为一种快速的优化手段,可以有效修复常见的逻辑漏洞。

云原生大模型 API 的成本挑战

现在企业使用云原生大模型 API 的主要挑战是语音、图片类大模型 API 的收费相对较高,例如语音识别、语音合成、图片生成类的 API 服务往往比自己部署 GPU 来运行这些模型成本高几倍。此外,语音、图片类大模型 API 的延迟一般较高,因此对延迟敏感的应用大多数仍然选择本地部署。这是云原生大模型服务需要解决的问题。

文本生成类的大模型 API 最近比较卷,价格往往比本地部署 GPU 运行这些模型的成本更低,因此除非有模型微调或者数据安全等特殊需求,使用云原生大模型 API 几乎总是更好的选择。

机密计算:AI 时代的数据安全与信任转移

在 AI 模型训练和推理过程中,数据安全性问题愈发受到重视,尤其是在云端计算的大环境下,企业将敏感数据上传至云服务平台进行处理,面临着数据隐私泄露的潜在风险。提供 API 服务的云服务商也有证明自己没有 “以次充好” 的需求,证明自己确实是用的旗舰级大模型提供 API 服务,而不是用较小的模型冒充大模型。

阿里云的机密计算平台通过 TEE 技术实现了可信的大模型推理。用户无需再过度依赖云服务提供商的安全措施,而是转而相信底层硬件提供的可信执行环境,这种信任的转移是安全隐私的重大进步。

密码学安全与 TEE 的效率之争

传统的多方安全计算(MPC)等密码学技术通过加密数据并在多个参与方之间协同处理,确保即使在没有完全信任的环境下,也能保证数据隐私。这种技术尤其适用于多个实体合作的场景,比如跨公司数据联合建模等。然而,多方安全计算的性能开销过高,使其在实际应用中难以满足大规模 AI 模型的推理需求。即使是简单的任务,MPC 也会引入大量的计算和通信开销,导致推理过程非常缓慢。

相比之下,机密计算技术中的 TEE(可信执行环境)通过硬件级的隔离和加密,为数据处理提供了更高效的隐私保护。TEE 技术依赖于硬件内置的加密处理模块,确保数据在使用过程中被加密并受到严格的访问控制,即便是云服务提供商也无法获取正在处理的数据。与 MPC 相比,TEE 的优势在于它提供了接近于原生的计算性能,能够满足大规模 AI 模型推理对速度和性能的严苛要求。

在本次大会上,阿里云发布了基于 TEE 的 AI 推理服务,该服务可以在硬件中提供一个隔离的环境,确保数据即使在云上处理,也始终处于加密状态。

Attestation:从云服务商到硬件厂商的信任转移

机密计算中的一个核心机制是 attestation(验证),即在执行 AI 模型推理之前和之后,用户都可以验证当前的计算环境是否可信。这一过程确保了只有在经过验证的环境中,才能进行 AI 模型推理。

传统上,企业在将数据上传至云端时,必须信任云服务提供商能够妥善管理和保护数据。而通过 attestation 技术,用户无需信任阿里云,而是转而信任提供底层硬件的厂商,如英特尔、AMD 或英伟达

具体而言,attestation 过程如下:

  1. 验证硬件和软件环境:当用户提交数据和模型进行推理时,首先验证硬件是否为可信的硬件执行环境(TEE)。这意味着,云服务商不能用不可信的硬件充当可信硬件,也不能以次充好,例如把性能较差的 GPU 伪装成更高规格的 GPU。
  2. 执行 AI 推理:在可信的硬件环境中执行 AI 推理任务。即使阿里云的管理员也无法访问这个可信环境中的数据,因为所有数据在传输和存储的过程中都处于加密状态。
  3. 生成 attestation token:当硬件环境通过验证后,系统会生成一个唯一的 attestation token,这个 token 包含了硬件生成的可信哈希值,证明计算环境没有被篡改。
  4. 用户验证 token:用户可以独立验证这个 attestation token,确保推理服务运行在受信任的硬件上。阿里云也提供了远程验证服务,便于用户验证一次机密计算的执行是否可信。

通过 attestation,用户不仅能够确保其数据在云端得到了严格的保护,还能在数据处理的全过程中持续验证硬件和软件环境的可信度。这一机制有效地将用户的信任从阿里云本身转移到了底层硬件厂商,并确保即使云服务提供商本身出现问题,用户的数据依然是安全的。

基于机密计算的大模型推理服务

阿里云发布的基于机密计算的 AI 推理服务阿里云发布的基于机密计算的 AI 推理服务

在本次大会上,阿里云发布了基于机密计算的大模型推理服务,支持用户将敏感数据上传至云端并通过 TEE 技术进行加密推理,并在网页上查看经过验证的推理结果。用户也可以离线验证推理结果的可信性。这种推理服务不仅适用于标准的文本生成任务,还能够处理更为复杂的多模态模型推理任务,例如视频生成、语音识别等。

即便是那些对数据隐私要求极高的行业,例如金融、医疗和政府机构,也可以在无需信任云服务提供商的情况下,安全地使用云端 AI 推理服务。通过基于硬件隔离的机密计算,阿里云可以确保任何敏感数据在推理过程中不会被泄露,同时提供与传统推理服务相当的性能。

结语:基础模型、算力与应用的两个 Bitter Lesson

AI 领域有一篇经典文章《The Bitter Lesson》,由 Rich Sutton 于 2019 年发表,并在大模型发展中得到了验证。这篇文章的核心观点是,在 AI 研究中,依赖于计算能力的通用方法最终总是胜过依赖人类知识的特定方法。Sutton 指出,尽管研究人员倾向于将人类的知识和智慧注入到 AI 系统中,但历史反复证明,随着时间的推移和计算能力的增长,简单的、可扩展的方法最终会超越精心设计的系统。

对比云栖大会三个展馆的内容,我发现基础模型、算力和应用三者的关系也符合《The Bitter Lesson》的预言:基础模型是 AI 应用的关键,算力是基础模型的关键。这种关系反映了 Sutton 所强调的,在 AI 发展中,计算能力和可扩展性比特定领域的专业知识更为重要。

云栖大会的三个展馆体现两个 Bitter Lesson

从云栖大会的三个展馆中,我们可以看到 AI 领域的两个 Bitter Lesson:基础模型是应用的关键,算力是基础模型的关键。

一号馆——基础模型的关键作用

基础模型是 AI 应用成功的根基,几乎所有通用应用的能力和表现都取决于基础模型的进展和成熟度。通用应用能否成功,关键在于基础模型的能力。如果基础模型不足,无论应用层面如何优化,都难以实现真正的突破。当前,成功的通用应用几乎都是基础模型公司主导的,因为这些公司能够在基础模型发布前几个月甚至半年内部已经知晓模型的最新进展,应用开发可以同步进行。而应用公司在基础模型公开发布时才意识到新机会,这时往往已经落后。

二号馆——算力决定基础模型的进化

计算能力是 AI 发展的另一个决定性因素,尤其对于训练和推理复杂的基础模型,算力至关重要。只有具备强大算力的公司才能有效训练和优化基础模型,进一步推动 AI 创新。没有足够的算力,就无法支撑复杂模型的训练,导致国内外 AI 模型性能上的显著差异。正如展示的内容所反映,算力短缺限制了国内在高复杂度模型上的快速发展,推动 AI 进展的基础仍然是算力的扩展与优化

三号馆——基础模型能力决定应用能力

AI 应用是基础模型和行业 know-how 的共同成果。通过应用馆展示的众多垂直领域案例,我们看到了一些结合行业数据和场景优势的应用公司,成功找到了产品市场契合点(PMF)。例如,AI 驱动的代码编辑器、设计工具、智能可穿戴设备、文旅导览、音乐生成等领域,都是通过与基础模型的结合,利用数据和行业护城河实现了应用创新。

第一课:基础模型是 AI 应用的关键

基础模型的能力,决定了通用应用的能力上限。通用 AI 应用的成功往往由基础模型公司主导,这些模型构建了几乎所有 AI 应用的底层支撑。正如 Rich Sutton 在《The Bitter Lesson》中所描述的,早期的 AI 研究者倾向于将人类的知识注入模型中,试图通过构建具有特定领域理解能力的 AI 来实现进步。然而,随着时间的推移,计算能力的增加使得通用方法,即依赖于算力扩展的通用基础模型,最终成为最有效的方法。放弃人类手动植入的知识,依赖于大规模数据和计算能力,反而带来了质的飞跃。

基础模型公司更适合做通用应用

对比 1 号馆(基础模型)和 3 号馆(应用)展示的 AI 应用,可以发现一个显著特点,许多成功的通用应用都是基础模型公司自己开发的。这是因为:

  1. 基础模型主导应用能力:通用应用几乎完全依赖于基础模型的能力和性能。基础模型公司在发布新模型前几个月,内部已经广泛掌握其能力和潜力,应用开发也同步展开。这意味着,当外部应用公司发现基础模型的进展时,基础模型公司早已准备好相关应用,并占据了竞争优势。
  2. 外部公司落后于模型发布进度:应用公司通常只能在基础模型发布后,开始开发相应的应用,这导致他们在时间和创新上明显落后。而通用应用的能力基本由基础模型决定,外部公司难以追赶。

应用公司更应结合行业和数据

尽管成功的通用应用几乎都由基础模型公司主导,但在特定行业或场景中,一些应用公司通过结合行业数据和专业知识(know-how),找到了产品市场契合点(PMF),并取得了成功。以下是一些典型案例:

  • AI 辅助编程:通过结合 AI 的代码生成和逻辑推理能力,Cursor 极大提高了开发者的编程效率,特别是在实时生成和纠错方面。
  • 智能可穿戴设备:智能可穿戴设备可以成为用户的助手,跟用户一起探索更大的世界。现在手机的输入输出形态不能完全满足 AI 多模态能力的需求,智能可穿戴设备将提出新的交互方式,让 AI 助手能够看、听、说,与人类自然地多模态交互。
  • 教育应用:AI 已经在教育类应用中取得了显著的成就,例如语言学习类应用可以模拟一对一对话情景,帮助用户进行互动式语言学习。
  • 辅助设计:AI 设计工具帮助设计师快速生成原型,提高了设计效率。尽管目前生成的设计稿还存在导出 HTML 等问题,但其在初期原型构建中的优势非常明显。
  • 文旅导游应用:这些应用通过整合政府数据、景区信息等,提供及时更新的导览服务,特别是在旅游和文化场景中形成了数据壁垒。
  • 音乐生成:AI 听音乐辨别曲目、AI 根据歌词或哼唱创作音乐、AI 翻唱等,技术都已经比较成熟,也获得了较多用户。

第二课:算力是基础模型的关键

如果没有充足的计算能力,基础模型的训练将难以实现。这是人工智能领域的第二个 “Bitter Lesson”——算力决定了基础模型能力的上限。在历史上,从计算机象棋、围棋到语音识别等领域,最终都是那些能够充分利用算力的通用方法取得了胜利。

算力不足对模型训练和推理的影响

跟多家国内做基础模型的公司交流后,发现当前国内外在算力上的差距很大,特别是高性能 GPU 资源的获取难度很大。

在云栖大会,NVIDIA 有一个挺大的展示区域,但只放了两台以太网交换机和一块 BlueField 3 智能网卡。而 AI 相关的介绍都用电视播放视频,没有带来任何 GPU 实物展品。展示区域里观众都在自己看视频,摆在正中间的交换机和网卡却无人问津,三个 NVIDIA 的人围着展柜聊天。我问了 NVIDIA 的人几个网络相关的问题,他们说这边不都是搞 AI 的吗,你怎么这么懂网络?我说我之前一直是搞数据中心网络的。我问这次为什么没有展示 GPU,他们说 GPU 比较敏感,就只放了网络。

NVIDIA 展台,只展示了以太网交换机和 BlueField 智能网卡NVIDIA 展台,只展示了以太网交换机和 BlueField 智能网卡

算力上的差距在推理和训练方面都带来了问题:

  • 推理阶段的延迟问题:国内 AI 模型在推理阶段的 time to first token (TTFT) 很多比较高,即首次生成第一个 token 的时间较长,显著影响了实时性体验。与国外相比,国内的推理速度明显较慢。这主要是因为国内普遍使用的 GPU 型号较为落后,如 A800 甚至 V100,而国外公司则普遍使用 H100 或 A100,这些高性能卡能够显著提升推理速度。高端硬件的制裁限制,使得国内公司在推理性能上与国外存在较大差距。

  • 训练资源的稀缺:训练基础模型的过程需要庞大的算力支持,特别是在大规模模型(如多模态端到端模型、基于强化学习的强推理能力模型)的训练上,硬件资源的限制显得尤为关键。美国头部公司可以轻松获取上万张 H100 或 A100 级别的 GPU,并通过 NVLink 互联构建超大规模集群来进行训练。而国内,即便是获取一万张 A100 或 A800 这样的 GPU 卡,也已经非常困难。这种算力资源的不平衡,导致国内在大模型的训练效率和效果上存在较大劣势。去年百模大战开始一年来,一些大模型公司已经掉队。

小规模模型的快速发展

尽管大规模模型的训练面临算力限制,国内在小规模模型垂直领域模型上却取得了较快的发展。由于这些模型的训练对算力要求较低,国内企业能够依靠现有的硬件资源进行更灵活的开发和迭代:

  • 视频生成和语音模型:在特定场景下,国内的视频生成模型、数字人模型和语音识别、语音合成、音乐合成模型进展迅速。这些模型虽然在整体复杂度上不如多模态大模型,但在实际应用中已经可以满足一定的市场需求,尤其是在短期商用化方面具有较强的竞争力。

  • 垂直领域模型:如医疗、教育等,这些垂直领域的应用对算力的需求较低,同时具有较强的市场适应性。通过专注于特定任务和特定场景的优化,这些小规模模型在国内反而发展较为迅速,并已经能够在一定程度上实现商业化。举个例子,微软小冰在 2016 年就能聊天、对对联、写诗、猜谜语,其背后是很多垂直领域的小模型。如果当时 MSRA 集中所有算力搞大模型,就算有个先知带着 Transformer 和 GPT 的论文穿越回 2016 年,那也是搞不出来 ChatGPT 的,当年的算力跟今天差距太大了。再如,今天国内所有基础模型公司的算力加起来可能都不如 OpenAI 一家的多,因此盲目模仿 OpenAI 的技术路线也不一定可行。

  • AI Agent:使用思维链、思维树等方式进行慢思考,增强现有模型的逻辑推理能力和解决复杂问题的能力。

算力决定大模型能力与创新

正如 “The Bitter Lesson” 所指出的那样,依赖于算力的通用方法才是 AI 发展的根本驱动力。例如,使用大量强化学习算力训练的 OpenAI o1 模型,数学和编程能力显著超越仅在推理阶段使用思维链、思维树等方式思考的 AI Agent;使用大量多模态数据训练的 GPT-4o 模型,多模态能力和响应速度可能显著超越语音识别、文本模型、语音合成模型组成的流水线。

一个有趣的观察是,在采用相同算力的情况下,通用模型的性能往往无法超越垂直领域模型。因此,如果公司内部两个团队赛马,一个做通用模型,一个做专用模型,两个团队给相同的资源,往往是专用模型胜出。这就是为什么很多 AI 积累深厚的大厂没能做出 OpenAI 这么强的模型。The Bitter Lesson 这篇文章有个重要的前提,就是算力会越来越便宜。这也是为什么国内公司在算力有限时,往往选择技术上更保守的小规模垂直模型路线,可以快速达到某一领域的 SOTA(state-of-the-art)。但这些小规模垂直模型的性能会被使用更多算力的通用模型超越。

当前全球范围内,算力的获取仍然是影响 AI 竞争力的核心因素。目前全球前三的基础模型公司背后是全球前三的公有云,OpenAI 的背后是微软云,Anthropic 的背后是 AWS,Google 的背后是 Google Cloud。国内的大模型公司也依赖公有云提供的算力。如果缺乏充足的算力,国内企业在大模型训练和推理上将持续面临挑战。

目前国内的大模型训练仍然高度依赖 NVIDIA 芯片。虽然华为 Ascend 等训练芯片已经取得了较好的性能,但开发者生态尚未完善国内很多公司喜欢搞性能指标,因为性能指标比较容易量化,公司内部汇报的时候更容易刷 KPI。但算子开发是不是易用就相对主观了,不容易量化评估成果。开发者生态不好也可以找到很多借口,可以更长久地麻醉自己。特别是当易用性和性能发生冲突时,公司内部决策时很容易牺牲易用性来换取性能。如果国内训练和推理芯片能够有更好的开发者生态,相信算力不足的问题也一定能得到解决,甚至可能在全球具备成本优势。

Comments

2024-10-02
  1. 一号馆(基础模型):AI 的第一推动力
    1. 视频生成:从单一生成到多样化场景的突破
      1. 1. 从单一文本生成视频到多模态输入生成
      2. 2. 动作参考生成:从静态图像到动态视频
      3. 3. 基于口型同步与视频生成的数字人技术
    2. 语音识别与合成
      1. 1. 语音识别技术
      2. 2. 语音合成技术
      3. 3. 音乐合成技术
      4. 4. 未来方向:多模态端到端模型
    3. Agent 技术
    4. 推理技术:百倍成本下降背后的技术推动力
  2. 三号馆(应用):AI 从 Demo 走向千行百业
    1. AI 生成设计:生成式 AI 的新范式
      1. PPT 生成(通义千问)
      2. 图文并茂的聊天助手(Kimi 的 Mermaid 图)
      3. 用图片形式展示生成内容(汉语新解)
      4. 设计稿生成(Motiff)
      5. 应用原型生成(Anthropic Claude)
    2. AI 旅游助手:数据是关键
      1. 非共识:数据比技术更重要
    3. 数字人和虚拟形象:不像真人的挑战
      1. 没有通过图灵测试的数字人
      2. AI 外呼电话:不用 TTS,而用真人录音
    4. 人形机器人:机械与 AI 的双重瓶颈
      1. 传统强化学习与大模型的两难选择
      2. AI 是人形机器人目前的最大瓶颈
    5. 自动驾驶:终于成熟到了可以商用
    6. 智能消费电子:期望高,进展慢
    7. AI 辅助运营:从热点信息推送到粉丝互动
      1. 自动生成热点内容与推送
      2. 自动与粉丝互动
      3. 非共识
    8. AI 在教育中的颠覆性应用:从个性化到场景化学习
      1. 教师资源的短缺与 AI 的一对一教学
      2. 场景化与沉浸式学习:AI 的教育场景拓展
      3. AI 在编程教育中的应用:从 “助手” 到 “导师”
      4. AI 辅助数学学习与逻辑思维训练
  3. 二号馆(计算基础设施):AI 的算力基础
    1. CXL 架构:云端资源的高效整合
    2. 高密度服务器
  4. 云原生与 Serverless
    1. Serverless:降低运维门槛的关键
    2. Serverless 的技术进化:从函数到任意应用
    3. 云原生数据库与消息队列
    4. 百炼平台:云原生大模型 API
    5. 云原生大模型 API 的成本挑战
  5. 机密计算:AI 时代的数据安全与信任转移
    1. 密码学安全与 TEE 的效率之争
    2. Attestation:从云服务商到硬件厂商的信任转移
    3. 基于机密计算的大模型推理服务
  • 结语:基础模型、算力与应用的两个 Bitter Lesson
    1. 云栖大会的三个展馆体现两个 Bitter Lesson
      1. 一号馆——基础模型的关键作用
      2. 二号馆——算力决定基础模型的进化
      3. 三号馆——基础模型能力决定应用能力
    2. 第一课:基础模型是 AI 应用的关键
      1. 基础模型公司更适合做通用应用
      2. 应用公司更应结合行业和数据
    3. 第二课:算力是基础模型的关键
      1. 算力不足对模型训练和推理的影响
      2. 小规模模型的快速发展
      3. 算力决定大模型能力与创新