【本文首发于知乎回答《如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?》

总体来说,我觉得 Manus 是一个 idea 很好,但工程上还有很多打磨提升空间的产品。

关键创新:具备计算思维的 Agent

好多人都觉得它就是个更好的 computer use,其实第一眼我就发现一个根本区别:OpenAI OperatorAnthropic Computer Use 都是模仿普通人,而 Manus 是在模仿极客程序员。

OpenAI Operator / Deep Research 和 Anthropic Computer Use 打开的都是浏览器、桌面 GUI 和移动端 App,最后交付的结果是一段文字(最多带点 Markdown 格式)。而 Manus 一上来打开的是一个命令行终端,在里面用文本编辑器写了个 todo list,干活的过程中不断写代码做自动化,最后的交付件(Artifact)也是一段代码(交互式网页和图表)。

这让我一下子想到了 Jeannette Wing(周以真)博士在 MSR 给我们讲的 Computational Thinking(计算思维)。计算思维就是把日常生活和工作中的问题抽象化,然后用系统化的逻辑推理和自动化工具解决。我在科大期间也把计算思维介绍给了很多师弟师妹。

我认为,计算思维分为两大方面:一是系统化的逻辑推理,二是使用计算机编程工具自动化解决问题。目前的 reasoning model 基本学会了系统化的逻辑推理,这已经比很多普通人强了,但正如我经常诟病的,o1/R1 还不会使用自动化工具,遇到复杂推理问题永远想不到写一段代码来解决。

Manus 就像一个极客程序员一样,用计算思维解决生活和工作中的问题。

做公司基本面分析的时候,Manus 会首先打开终端列一个 Todo List,然后写一段 Python 调用股票查询接口获取股价,再写一段 Python 生成图表,而不是像大多数人一样从网页上粘贴数据到 Excel 里。每完成一个阶段的任务,它会打开终端里的 Todo List,更新下一步要做的事项。最后,它会写一个 HTML 页面展示分析结果,而不是像大多数人那样打开 Word 写一大篇文字。

首先生成 TODO list

写代码获取股价列表

运行代码生成图表

根据任务进度,继续修改 TODO list

最终交付的是一段代码,展示出一个 HTML 页面,而不是一段文本

做 7 天日本游的行程规划时,它会把收集下来的信息整理到 Markdown 里,然后生成一个图文并茂还带地图的 handbook。

把收集来的信息放到 markdown 里

像人一样滚动网页

生成的交付件:带地图的日本旅行网页 Handbook

生成的交付件:日本旅行的网页 Handbook

这些都是像我这样的极客才能干出来的事(例如 Mathematica 作者 Stephen Wolfram 的 blog 就是个典范),有时甚至成了程序员笑话。

不过有一点设计我不太理解,Manus 浏览网页是纯视觉的方案,一屏一屏向下滚动,确实最通用,但信息获取效率相对较低。

尽管 Manus 并不是万能的,但我觉得让 Agent 具备计算思维是一个重要的创新,至今竟然没有看到有人提到这一点。

网上看到很多关于 Manus 的分析,我觉得我的师兄鸭哥的这篇是最好的,也推荐大家读读: Manus爆火的背后,Agentic AI产品如何构筑持久的竞争优势?

工程上的不足

虽然 Manus 模仿一个程序员用电脑的 idea 很好,但由于基础模型能力限制,目前 Manus 在很多任务的执行结果方面,仍然不如 SOTA 专项 Agent。例如在调研报告写作方面,报告的深度和专业性不如 OpenAI Deep Research。在工程代码编写方面,不如 Devin 和 OpenHands。

在进入下面的细节例子之前,先上几个技术分析结论:

  • Manus 相比 OpenAI Deep Research,缺少一个澄清用户意图的过程。Deep Research 在用户提出问题后,会首先问用户几个问题,进一步澄清用户意图,这样写出的调研报告可能更符合用户的需求。(Update Peak 回复:不上来后反问或确认是 by design,因为用多了你会发现很烦,不方便并行。Manus 可以随时打断或改目标,看着不对说就行了。如果你喜欢精确确认再干活,直觉开个 session,说:“记住以后开始干活前仔细向我询问要求,经确认再干活” 之类的。)
  • Manus 所用的模型不如 OpenAI Deep Research。OpenAI 很可能是在 o3-mini 基础上做了后训练(后训练后的版本没有公开 API),通过 RL 让它在 Deep Research Agent 工具选取方面比通用基础模型更强。例如自己调用 o3-mini 或 Claude 3.7 Sonnet Thinking 模型,生成的调研报告深度、调研的数据源质量不如 OpenAI Deep Research。
  • Manus 在 context 管理方面有待加强,执行时间越长,每一步就越慢,甚至半个小时之后会超出 context length 而导致任务失败,不管是调研报告写作还是工程代码编写都是如此。
  • Manus 所用搜索 API 的质量不如 OpenAI Deep Research,Deep Research 经常搜索到一些高质量信源的深度文章(也可能是 Deep Research 做了 reranking,prioritize 高质量信源),而 Manus 搜索到的往往是大众媒体的报道。
  • Manus 所有网页都用纯视觉方式浏览的方式效率较低。用浏览器截图,滚动鼠标的做法看起来很酷炫,很适合做 demo,但是对大多数网站而言,纯视觉方案的延迟较高,输入信息密度较低。Manus 的操作方式更类似 OpenAI Operator,可以操作通用 UI 界面,但它主打的应用场景中又有很多是 Deep Research 生成调研报告,此时传统爬虫方案效率可能较高。如果是要完成网站上的注册登录等操作,或者帮助人浏览商品、填表、玩小游戏,Manus 的方案可能比较好。
  • Manus 目前并不能把搜集来的信息组成一个便于 RAG 查询的知识库。它用文本方式存储搜集来的信息或者代码分析结果,确实很像程序员的工作方式,但这是上一代的程序员,并未充分利用 AI 技术。更好的方法是把搜集来的信息或者代码分析结果放进 RAG 知识库,后续任务的上下文中就可以自动带出来。这个问题在代码编写中比较显著,Devin、Cursor Composer Agent 等编程工具需要找到合适的相关代码作为上下文,而不是把整个代码仓库作为上下文(太大放不进去),这是非常重要的。
  • Manus 生成代码后缺少测试,代码中的错误不会被发现。生成可视化图表后,Manus 并未使用 Vision LLM 校验生成的内容,导致很多图表渲染失败,但没有被发现。
  • Manus 需要降低或隐藏 LLM 调用延迟。OpenAI Deep Research 和 Operator 都在 LLM 调用延迟上做了很多优化,因此单步操作延迟较低。而 Manus 的单步操作延迟较高。类似的,Cursor 在 LLM 调用延迟隐藏方面也做了大量优化,因此同样的 Agent 任务,Cursor 往往比 Windsurf、Cline、Trae 等 IDE 更快完成任务。
  • Manus 需要增加 infra 稳定性和并发服务能力。这就不用多说了,邀请码一码难求,session 经常执行到一半就因为系统负载过高而失败了。

以下是几个例子:

英伟达显卡卖不到东大,谁最着急,谁最开心

A. 李彦宏 B. 任正非 C. 黄仁勋 D. 奥特曼 E. 梁文峰 F. 苏姿丰

Manus: 英伟达显卡影响谁最着急最开心 - Manus

OpenAI Deep Research: https://chatgpt.com/share/67ca5efd-c2c4-8007-93a5-8a032f144fdf

Manus 的分析结论(节选)

Manus 的分析结论(节选)

OpenAI Deep Research 的分析结论(节选)

OpenAI Deep Research 的分析结论(节选)

Deep Research 的分析明显比 Manus 的分析更专业、深入,而且 Deep Research 只用了 4 分钟就得出分析报告,而 Manus 用了半个小时。

例如,Deep Research 能想到英伟达被禁售,并不意味着 AMD 就能随便卖了,但 Manus 完全想不到这一层。英伟达显卡禁售完全不会影响华为芯片的研发,Manus 这部分论证也不对。关于百度的分析部分,Manus 关于大模型开源和芯片禁售的关系也是不专业的。而 OpenAI Deep Research 引用的数据和信息源都比较专业,更像一个内行人的评述。

此外,Manus 在打开 High Reasoning Effort 之后,经常会因为 context 太长而失败,例如下图:

美股 Agora (API) 分析

Manus: 美股API研究与Agora公司基本面分析报告 - Manus

OpenAI Deep Research: https://chatgpt.com/share/67cbc83d-d0e0-8007-a7f3-b58fca3a2cf7

这里选取了一个比较小众的美股 Agora (API)。

Manus 生成的报告图文并茂,确实是从原始数据中分析出来的,但报告中关于 Agora 公司的很多分析比较过时,并且存在一些事实错误。此外有的图表中把不同年份的数据混淆了。原因是它只注重分析股价数据,搜集互联网信息较少。

OpenAI Deep Research 的报告只有文字,没有编写代码,全部来自互联网信息,但引用的数据和公司基本面分析结论基本都是正确的。其中的引用源都是一些高质量信源。

美股 API 研究过程中,生成 Python 代码调用 API 获取美股数据

按照 Todo List 逐步工作

Manus 生成的图文并茂的调研报告

OpenAI 生成的报告更专业

另外一个值得称道的设计是,OpenAI Deep Research 在开展调研前,会首先澄清用户意图。很多用户并不能准确描述自己想要什么,AI Agent 与其立即开始工作,不如先问清楚用户想要什么。(Update Peak 回复:不上来后反问或确认是 by design,因为用多了你会发现很烦,不方便并行。Manus 可以随时打断或改目标,看着不对说就行了。如果你喜欢精确确认再干活,直觉开个 session,说:“记住以后开始干活前仔细向我询问要求,经确认再干活” 之类的。)

OpenAI Deep Research 澄清用户意图

OpenAI 核心团队调研

Manus: OpenAI GPT-4o和GPT-4.5核心贡献者调研报告 - Manus

OpenAI Deep Research: https://chatgpt.com/share/67cbc93e-5cbc-8007-8ee0-76c380747659

OpenAI Deep Research 对自家核心团队的调研报告明显更专业。

主要原因是 Manus 使用 Linkedin API 搜索 OpenAI 的研究科学家信息,但 OpenAI 的很多研究科学家并未在 Linkedin 上有公开 profile,需要访问 OpenAI 官方页面,然后用 Google Search 才能搜到。这导致 Manus 搜到的人员明显不是 OpenAI 最核心的研究科学家。不过搜索到的这些 OpenAI 科学家都从网络上检索到了正确的 profile 信息,说明有较好的泛化能力。

Manus 写代码搜索 OpenAI 研究科学家

OpenAI Deep Research 先让用户澄清需求

Manus 搜索整理出的相关人员信息

Manus 尝试创建图表是很好的,但命令运行失败后没有意识到错误

DeepSeek 经典论文详解

Manus: DeepSeek起源与模型技术详解 - Manus

OpenAI Deep Research: https://chatgpt.com/share/67cc5b69-c02c-8007-b989-e742bc91a50a

OpenAI 的调研报告中闹了一个笑话,把梁文峰创立的 High-Flyer 当成了当前的幻方,还翻译成了 “高翔资本”。但后续的技术内容比较专业和深入。

而 Manus 的调研报告相对比较浅,且其中的技术内容存在一些错误,一些图表的对比方式也不恰当。与其他 SOTA 模型对比一节没有展开,没有完成其他模型的对比调研工作。

列出的调研提纲还挺专业的

像人一样记阅读笔记

像人一样阅读论文,向下滚动

整理收集到的信息

网站大纲设计

网站交互设计

Manus 生成的调研报告确实图文并茂,但图表中存在事实错误

Manus 生成的图表,这些项目是不能放在一起比较的

Manus 生成的一些图表存在 bug,不能正常显示,它也没有发现

《大模型演义》写作

Manus: 检查icourses.com UCSD课程信息准确性 - Manus

OpenAI Deep Research: https://chatgpt.com/share/67cc6027-d8d8-8007-8d84-bbf08c912b3e

作为最后一个 Deep Research 的例子,让 Manus 和 OpenAI Deep Research 分别写一篇《大模型演义》。

由于我 beta test credit 用光了,只能在一个失败的例子(校验课程信息准确性,这个 OpenAI Operator 是可以完成的)基础上继续搞了。Manus 对 Pivot 之后的需求能够正确理解,没有跟之前的需求混淆,这是不错的。由于之前的虚拟机环境已经坏掉了,Manus 在尝试访问虚拟机失败之后,没有坐以待毙,而是尝试直接把内容写到用户回复里,这也是挺惊艳的,说明它有一定的变通能力。

在大模型知识范围内,Manus 写出的东西还挺有趣的,但在近期大模型发展和国内 AI 六小虎方面,就比较混乱了。OpenAI 写出的东西不够生动有趣,篇幅相对较短,但事实都是正确的。

番外篇:开发一个功能丰富的网站

看 Manus 写代码,真有看一个工程师干活的感觉,从设计网站结构,到安装依赖,到写代码,到部署测试:https://manus.im/share/BYNvsKRzcc7E6L1z9TaIgY?replay=1

可惜由于 context 太长,最后没有干完活。

希望 Manus 和类似的开源项目(如 CAMEL AI 的 OWL,以及 OpenManus)能够解决这些工程问题,做出真正能够像极客程序员一样,用计算思维解决生活和工作中问题的 Agent。

Comments