产品思考丨 Manus 解读

如何将最前沿的 AI 技术,有效转化为创造用户价值的驱动引擎,是 Futuresis 始终关注和探索的命题。在一次北京中关村学院和中关村人工智能研究院开展的产品沙龙中,我们尝试从 Manus 切入,引导两院师生一起思考如何在大模型时代打造好产品。

分享产品沙龙中的摘要内容,enjoy~

为什么分享 Manus?

我们思考通往人工智能领军人才的路径,推动“IDEA-PAPER-DEMO-PRODUCT-INDUSTRY”,可以看到科研探索、技术验证、产品化和产业化都是关键节点。以今年现象级的产品 Manus 为抓手,恰好可以观察创业团队如何运用技术、产品和产业打出组合拳

什么是 Manus?

把 Manus 称之为现象级的产品,可以说实至名归。我们看到从 3 月 6 日凌晨产品发布,Manus 立即火爆出圈,与此同时在科技圈形成了各种争议。支持者认为 Manus“展现了通用 AI Agent 落地的可能”,“为 AI 商业化开辟了新路径”,甚至认为“中国的第二个 DeepSeek 时刻”已经到来。反对者则认为“Manus 实际上是一个半成品”,“这类产品的技术门槛实在太低”,它仍然“属于实现技术创新之前的炒作阶段”。

时间 事件
3 月 6 日凌晨 中国 AI 团队 Monica 发布 “全球首款通用型 AI 智能体” Manus。
3 月 6 日 演示视频引发社交平台热议,有人喊出“中国又一个 GPT 时刻”,邀请码被炒至 10w。
3 月 7 日 某团队仅用 3 小时复刻 Manus 功能,命名为 OpenManus 并开源,引发技术圈对其 “套壳创新”的质疑。同时网友对其饥饿营销、官网全英文设计,以及海外热度缺失等发出质疑。
3 月 10 日 传闻国内停止发放邀请码,猜测因为背后用了 Claude3.5,无法在国内备案。
3 月 11 日 Manus 平台宣布与阿里通义千问团队正式达成战略合作,双方计划基于通义千问系列开源模型,致力于在国产模型和算力平台上实现全部功能。
3 月 12 日 Manus 表示,7 天来使用申请等候名单增加到 200 万人。
近期 Manus 被曝以至少 5 亿美元估值进行融资,随之公布收费方案,月访问量狂飙至 2376 万。

同样被推到聚光灯下的,还有 Mauns 背后的天才团队。这个“奇葩”的创业组合,是由两位 90 后连续创业者和一位 15 年换了 10 家公司的 85 后产品老炮儿组成,这种组合既有新锐的创新思维,也有丰富的商业经验。

  • 肖弘(Red):2015 年创立夜莺科技,推出壹伴助手和微伴助手,该公司获得 4 轮融资,投资方包括真格基金、腾讯、明略科技等。2022 年创立蝴蝶效应公司,真格基金把从夜莺科技赚得的所有资金全部投到 Manus 项目中。

  • 季逸超(Peak):2012 年,获得真格基金和红杉中国的天使投资,成立了 Peak Labs 实验室,专注于开发新形态互联网产品。

  • 张涛(Hidecloud):2023 年,在真格基金的介绍撮合之下,蝴蝶效应公司引入季逸超(现 Manus AI 首席科学家)、张涛(现 Manus AI 产品负责人)等核心成员加入。截至目前,Manus 母公司蝴蝶效应共完成两轮融资,总规模超过 1000 万美元,第一轮投资人是真格基金;第二轮投资人包括真格基金、红杉中国、腾讯和王慧文。

 

Manus 被定义为一个 “通用的 AI 代理”,能够独立思考、规划并执行复杂任务,直接交付完整成果。Peak 说“它不仅仅是一个聊天机器人或工作流,而是一个真正自主的主体,弥合概念和执行之间的差距,其他人工智能只是在生产想法,而 Manus 交付结果。”

我们可以看到,从以 ChatGPT 为代表,能够思考和对话的 “通用 AI”,到以 AlphaGo 和无人驾驶为代表,能够理解并执行特定任务的 “专用 Agent”。Manus 代表的 “通用 Agent”,能够自主规划和调用工具,处理不同类型的任务。这一步重要的演进,也正是其备受关注的核心原因。

Manus 的一些技术观察

我们可以看到行业对 Agent 架构的拆解(LLM Powered Autonomous Agents),感知 Agent 能力随着模型演进的飞速提升(LLM performance is improving rapidly)。同时观察到 OpenAI、Gemini 等均已支持 MCP 协议,Agent 可以与成千上万工具交互;Google 发布 Agent-to-Agent (A2A) 的通信协议;阿里云百炼上线全生命周期 MCP 服务,Agent 的周边基础设施逐渐成熟和模块化。

image1
image2

与此同时,有类似 OpenManus 和 OWL 的团队,号称“5 个人三小时复刻了开源版 Manus”。所以从技术上复现一个 Manus 难么?

技术能力 重要性 难度 说明
长程规划 经 Manus 团队测试,只有 Anthropic 的 Claude Sonnet 3.5,有长程规划能力和逐步解决问题的能力。
文件解析读取 多模态、多格式文件的解析读取,能够接受输入 5-10 个非文本格式的文件,如 Excel、PDF、PPT 甚至压缩包等。
个人知识库 OpenAI Memory,人为设计或持久化保存了一些工作流习惯。
任务列表文件 todo.md,类似于 Cursor 和 Devin 生成任务 todo items。文件会被反复读取和编辑,检查任务执行进度,确保执行不会提前停止,使用 Sandbox 实现,步骤从 5-20 步不等。
搜索 AI 决定搜索的关键词,调用传统搜索引擎 API,返回 snippet。
沙箱环境 Sandbox Environment,用于编写程序、运行代码、读写文件(包括编辑 todo)等。多用 python+pandas 工具处理数据,结果会被保存为文件,进一步处理。工作模式为,生成单行命令,然后根据返回决定下一步,根据当前 todo 检查环境、编写和执行脚本,也有根据返回的状态码、文件内容修复脚本重新执行的过程。会写脚本调用 API,会根据报错自己修复环境。最后读取并向用户呈现这个过程中的所有临时文件、最终结果文件。
Computer Use 最重要的是浏览器,也有 PDF 阅读器,支持点击、滚动等,和 Claude Computer Use 设计相同。浏览器经过了 JS Rendering,不是文本格式的 HTML 内容,很多内容需要点击元素才能展开。Manus 点击的动作和精准度都很好,这个很难通过现有的多模态模型来实现,很可能是用了类似 Anthropic Computer Use 类似的模型,或一些开源模型。
数据源 Manus 提前准备的数据源很多。除了搜索,接入了一些常见的股票、社交媒体数据源,如:Get stock chart、Search Twitter、Get Twitter profile by username 等,这些数据源需要采买维护很多 API,或者通过大量 engineering efforts 来接入。这些数据源也会用在 code 中。
输出网页 HTML Live Preview,Manus 完成分析后,根据用户意图最后会通过输出一个网页来汇总报告,这个网页会通过 manus.space 来直接部署,用户可以直观点击查看。

创始团队的产品思考

让我们回到产品视角,看看这支优秀的创业团队是如何依托当下的技术趋势,深入思考并推演产品化之路的。

2021 年,Red 敏锐地捕捉到 AI 变革的风向,着手孵化 AI 助手 Monica 项目。2024 年,Monica 用户数量达到 1000 万,成为中国用户数量最多的出海大模型应用。Monica 没有自研基础大模型,而是集成大模型和插件功能的同时,精心设计交互逻辑,简洁界面,让用户轻松上手。

从 Jasper 到 ChatGPT,从豆包到 Cursor ,Red 一直在观察和总结 AI 产品的迭代规律,并对 AI 行业的演进趋势做出预测。他认为模型应该会普通商品化,而产品演进的曲线则会是一个跳变。创业者应该“预判下一个能力是什么,先把这部分应用做好,在前方等着模型能力变强。”据说团队在 Claude 3.5 出现后,只用了半天,就把产品里的 API 全部做了替换,因为性能更好,也更便宜。

image3

Monica 深度理解和响应海外市场用户的习惯和需求,对界面设计、功能呈现和内容推荐等进行了优化,根据不同平台和场景定制交互方式,实现辅助阅读、视频自动摘要、提取文字、自动翻译、内容生成等功能的分发。

Red 提出了 “新时代的安迪比尔定律”:模型能力正在外溢,AI 应用公司可以吃掉它。尽管 Manus 和 Monica 一样,在产品火爆的同时遭受着缺乏创新的争议。但 Red 始终认为 “套壳”只是手段,不是最终目标。模型原厂打造核心技术,应用公司则需要通过品牌、渠道和交互体验,拉近与用户的距离。

image4

极致的用户体验一直是产品的核心竞争力,那么 什么是 AI 时代的体验创新呢? Red 认为,OpenAI 在这一点上很遗憾,DeepSeek 的思考展示是整个人类第一次看到,而正因为 OpenAI o1 是收费的,所以它错过了体验创新。我们可以看到,Manus 在输出区域呈现了思考和规划过程,在虚拟机区域展示了执行动作,就是为了给用户最直观的交互体验。

对于创业公司的切入点,Red 认为应该 “用博弈的方式思考”,而不是“用逻辑推理的方式思考”。垂直领域、特定领域,可能大模型原厂不做;脏活累活,可能原厂不做;有一些原厂可能以后会做,就会有窗口期。

这一点在 Red 的创业经历中,也有迹可循。从微信生态工具【微伴助手】,到浏览器插件【Monica】,似乎都在验证“依附超级平台做垂直工具”的商业模式可行性 。与此同时,“当你意识到你在创新、在领先,应当更激进,超级激进。”

image7

同样拥有丰富产品创业经验的 Peak,非常看重 “Less structure, more intelligence”,主张减少对 AI 的结构化限制,依赖模型自主进化能力,而非人工预设流程。所以 Manus 产品未来使用体验三板斧简单总结:配电脑,开放权限,动态培训。

我们在 Manus 中可以看到,对比其他 Agent 产品人为搭建 Workflow,Manus 使用一套名为“Multiple Agent”的架构,通过规划代理、执行代理、验证代理的分工协作机制,来处理复杂任务,输出可交付结果。像是给 Manus 模型一台“虚拟机”:将 Computer Use 与 Tool Use 深度融合,在任务中 check 或调整用户意图。

团队重新定义 AI 价值指标,用 “Agentic Hours per User (AHPU)” 衡量用户委托 AI 完成任务的时间效率,目标是通过并行任务提升生产力,突破 AI 产品商业化瓶颈。AI 未来的核心是“劳动力扩展(Labor Scaling)”,即用户以老板身份高效管理多个 AI 代理,突破人类组织摩擦限制。而在这个路线上,用代码优先策略、多模态网页交互、动态学习机制构建技术护城河。

作为产品合伙人 Hidecloud 基本每天会读两三篇 paper,在理解技术底层原理的同时,思考产品设计和技术改造上的直接收益。他主张,“做低 prompt 甚至 0 prompt 的产品”。对于现在产品的定义,他认为 “model as a product”,即 model 本身的输入和输出,决定了产品整体的交互。

例如 Dodoboo,作为一款专为儿童设计的 AI 绘画应用,不需要输入特定的提示或指令,孩子们可以直接在平板电脑或手机上自由涂鸦,应用中的 AI 技术会自动分析并优化这些涂鸦,使其变成精美的艺术品。他认为,未来大规模流行的 AI C 端产品不可能通过打字交互,通过直接动笔画和拖拽交互,且可以翻看,让过程和产物都可以消费。

Dodoboo
例如胃之书,用户只需拍照上传,即完成交互,产品依托多模态模型介入完成菜品识别、热量标记和菜品溯源。产品设计的记录员窗口,可以实时吐出大模型 JSON 字符串,同时 AI 生成推送文案,进一步增强用户体验。

Hidecloud 不认为现在所有做应用的团队,一定要从零开始 pre-train 一个模型,但团队一定要具备操纵模型的能力。上一代产品经理解决的是 PMF,即产品和市场的 fit,这一代产品经理还要先解决 TPF,即产品和技术的 fit。所以可以从以下 3 点切入:第一,理解技术的底层原理;第二,坚持读 paper ;第三,自己多动手。

Hidecloud

为什么是 Manus?

最后,让我们尝试回答,Manus 为什么出圈?这件事又给我们带来了什么思考?

也许我们可以从以下四点做一个小结:

  • 技术上: 模型能力的外溢,技术能力的成熟,助推 Agentic AI 实现了从单一任务执行,向复杂任务的跨越。

  • 产品上: 作为普通人接触 AI 的门户,AI 智能体就像互联网时代的网页,移动互联网时代的 App。而 Manus 的发布,作为一款能够让普通大众感知、理解何为智能体的普及性产品,相当于一夜之间完成了市场教育。

  • 团队上: Manus 团队凭借着快速迭代的能力(3 个月战略窗口期)、灵活的架构(避免大公司层级束缚)和坚定的信念(坚持非主流认知)形成了核心竞争力。

  • 增长上: 创业团队日常广结善缘,通过上线当天邀请头部博主体验形成自来水,让好产品变成流量。

回到 Manus,我们能够在这款现象级产品的设计中看到,来自创始团队的产品思考一以贯之。

亦如乔布斯 2005 年在斯坦福大学毕业典礼上演讲中的内容,“你不能预先把点点滴滴连成线,只有回头看时,你才会发现这些点点滴滴竟然连成了线。因此,你必须相信,那些点点滴滴,会在你未来的某一天,以某种方式连接起来。你得相信点点滴滴会连成线,这种信念会给你信心,让你即使在心之所向偏离了常规道路时,也能追随内心。而这一切,将产生巨大的不同!”

作者:Xiaonan Ping

排版校对:Xiaonan Ping, Nan Jiang

All Blog Posts