如何将最前沿的 AI 技术,有效转化为创造用户价值的驱动引擎,是 Futuresis 始终关注和探索的命题。在一次北京中关村学院和中关村人工智能研究院开展的产品沙龙中,我们尝试从 Manus 切入,引导两院师生一起思考如何在大模型时代打造好产品。
分享产品沙龙中的摘要内容,enjoy~
为什么分享 Manus?
我们思考通往人工智能领军人才的路径,推动“IDEA-PAPER-DEMO-PRODUCT-INDUSTRY”,可以看到科研探索、技术验证、产品化和产业化都是关键节点。以今年现象级的产品 Manus 为抓手,恰好可以观察创业团队如何运用技术、产品和产业打出组合拳。
什么是 Manus?
把 Manus 称之为现象级的产品,可以说实至名归。我们看到从 3 月 6 日凌晨产品发布,Manus 立即火爆出圈,与此同时在科技圈形成了各种争议。支持者认为 Manus“展现了通用 AI Agent 落地的可能”,“为 AI 商业化开辟了新路径”,甚至认为“中国的第二个 DeepSeek 时刻”已经到来。反对者则认为“Manus 实际上是一个半成品”,“这类产品的技术门槛实在太低”,它仍然“属于实现技术创新之前的炒作阶段”。
| 时间 | 事件 |
|---|---|
| 3 月 6 日凌晨 | 中国 AI 团队 Monica 发布 “全球首款通用型 AI 智能体” Manus。 |
| 3 月 6 日 | 演示视频引发社交平台热议,有人喊出“中国又一个 GPT 时刻”,邀请码被炒至 10w。 |
| 3 月 7 日 | 某团队仅用 3 小时复刻 Manus 功能,命名为 OpenManus 并开源,引发技术圈对其 “套壳创新”的质疑。同时网友对其饥饿营销、官网全英文设计,以及海外热度缺失等发出质疑。 |
| 3 月 10 日 | 传闻国内停止发放邀请码,猜测因为背后用了 Claude3.5,无法在国内备案。 |
| 3 月 11 日 | Manus 平台宣布与阿里通义千问团队正式达成战略合作,双方计划基于通义千问系列开源模型,致力于在国产模型和算力平台上实现全部功能。 |
| 3 月 12 日 | Manus 表示,7 天来使用申请等候名单增加到 200 万人。 |
| 近期 | Manus 被曝以至少 5 亿美元估值进行融资,随之公布收费方案,月访问量狂飙至 2376 万。 |
同样被推到聚光灯下的,还有 Mauns 背后的天才团队。这个“奇葩”的创业组合,是由两位 90 后连续创业者和一位 15 年换了 10 家公司的 85 后产品老炮儿组成,这种组合既有新锐的创新思维,也有丰富的商业经验。
肖弘(Red):2015 年创立夜莺科技,推出壹伴助手和微伴助手,该公司获得 4 轮融资,投资方包括真格基金、腾讯、明略科技等。2022 年创立蝴蝶效应公司,真格基金把从夜莺科技赚得的所有资金全部投到 Manus 项目中。
季逸超(Peak):2012 年,获得真格基金和红杉中国的天使投资,成立了 Peak Labs 实验室,专注于开发新形态互联网产品。
张涛(Hidecloud):2023 年,在真格基金的介绍撮合之下,蝴蝶效应公司引入季逸超(现 Manus AI 首席科学家)、张涛(现 Manus AI 产品负责人)等核心成员加入。截至目前,Manus 母公司蝴蝶效应共完成两轮融资,总规模超过 1000 万美元,第一轮投资人是真格基金;第二轮投资人包括真格基金、红杉中国、腾讯和王慧文。
Manus 被定义为一个 “通用的 AI 代理”,能够独立思考、规划并执行复杂任务,直接交付完整成果。Peak 说“它不仅仅是一个聊天机器人或工作流,而是一个真正自主的主体,弥合概念和执行之间的差距,其他人工智能只是在生产想法,而 Manus 交付结果。”
我们可以看到,从以 ChatGPT 为代表,能够思考和对话的 “通用 AI”,到以 AlphaGo 和无人驾驶为代表,能够理解并执行特定任务的 “专用 Agent”。Manus 代表的 “通用 Agent”,能够自主规划和调用工具,处理不同类型的任务。这一步重要的演进,也正是其备受关注的核心原因。
Manus 的一些技术观察
我们可以看到行业对 Agent 架构的拆解(LLM Powered Autonomous Agents),感知 Agent 能力随着模型演进的飞速提升(LLM performance is improving rapidly)。同时观察到 OpenAI、Gemini 等均已支持 MCP 协议,Agent 可以与成千上万工具交互;Google 发布 Agent-to-Agent (A2A) 的通信协议;阿里云百炼上线全生命周期 MCP 服务,Agent 的周边基础设施逐渐成熟和模块化。
与此同时,有类似 OpenManus 和 OWL 的团队,号称“5 个人三小时复刻了开源版 Manus”。所以从技术上复现一个 Manus 难么?
| 技术能力 | 重要性 | 难度 | 说明 |
|---|---|---|---|
| 长程规划 | 高 | 高 | 经 Manus 团队测试,只有 Anthropic 的 Claude Sonnet 3.5,有长程规划能力和逐步解决问题的能力。 |
| 文件解析读取 | 中 | 中 | 多模态、多格式文件的解析读取,能够接受输入 5-10 个非文本格式的文件,如 Excel、PDF、PPT 甚至压缩包等。 |
| 个人知识库 | 中 | 低 | OpenAI Memory,人为设计或持久化保存了一些工作流习惯。 |
| 任务列表文件 | 高 | 低 | todo.md,类似于 Cursor 和 Devin 生成任务 todo items。文件会被反复读取和编辑,检查任务执行进度,确保执行不会提前停止,使用 Sandbox 实现,步骤从 5-20 步不等。 |
| 搜索 | 高 | 中 | AI 决定搜索的关键词,调用传统搜索引擎 API,返回 snippet。 |
| 沙箱环境 | 高 | 中 | Sandbox Environment,用于编写程序、运行代码、读写文件(包括编辑 todo)等。多用 python+pandas 工具处理数据,结果会被保存为文件,进一步处理。工作模式为,生成单行命令,然后根据返回决定下一步,根据当前 todo 检查环境、编写和执行脚本,也有根据返回的状态码、文件内容修复脚本重新执行的过程。会写脚本调用 API,会根据报错自己修复环境。最后读取并向用户呈现这个过程中的所有临时文件、最终结果文件。 |
| Computer Use | 高 | 高 | 最重要的是浏览器,也有 PDF 阅读器,支持点击、滚动等,和 Claude Computer Use 设计相同。浏览器经过了 JS Rendering,不是文本格式的 HTML 内容,很多内容需要点击元素才能展开。Manus 点击的动作和精准度都很好,这个很难通过现有的多模态模型来实现,很可能是用了类似 Anthropic Computer Use 类似的模型,或一些开源模型。 |
| 数据源 | 高 | 中 | Manus 提前准备的数据源很多。除了搜索,接入了一些常见的股票、社交媒体数据源,如:Get stock chart、Search Twitter、Get Twitter profile by username 等,这些数据源需要采买维护很多 API,或者通过大量 engineering efforts 来接入。这些数据源也会用在 code 中。 |
| 输出网页 | 低 | 低 | HTML Live Preview,Manus 完成分析后,根据用户意图最后会通过输出一个网页来汇总报告,这个网页会通过 manus.space 来直接部署,用户可以直观点击查看。 |
创始团队的产品思考
让我们回到产品视角,看看这支优秀的创业团队是如何依托当下的技术趋势,深入思考并推演产品化之路的。
2021 年,Red 敏锐地捕捉到 AI 变革的风向,着手孵化 AI 助手 Monica 项目。2024 年,Monica 用户数量达到 1000 万,成为中国用户数量最多的出海大模型应用。Monica 没有自研基础大模型,而是集成大模型和插件功能的同时,精心设计交互逻辑,简洁界面,让用户轻松上手。
从 Jasper 到 ChatGPT,从豆包到 Cursor ,Red 一直在观察和总结 AI 产品的迭代规律,并对 AI 行业的演进趋势做出预测。他认为模型应该会普通商品化,而产品演进的曲线则会是一个跳变。创业者应该“预判下一个能力是什么,先把这部分应用做好,在前方等着模型能力变强。”据说团队在 Claude 3.5 出现后,只用了半天,就把产品里的 API 全部做了替换,因为性能更好,也更便宜。
Monica 深度理解和响应海外市场用户的习惯和需求,对界面设计、功能呈现和内容推荐等进行了优化,根据不同平台和场景定制交互方式,实现辅助阅读、视频自动摘要、提取文字、自动翻译、内容生成等功能的分发。
Red 提出了 “新时代的安迪比尔定律”:模型能力正在外溢,AI 应用公司可以吃掉它。尽管 Manus 和 Monica 一样,在产品火爆的同时遭受着缺乏创新的争议。但 Red 始终认为 “套壳”只是手段,不是最终目标。模型原厂打造核心技术,应用公司则需要通过品牌、渠道和交互体验,拉近与用户的距离。
极致的用户体验一直是产品的核心竞争力,那么 什么是 AI 时代的体验创新呢? Red 认为,OpenAI 在这一点上很遗憾,DeepSeek 的思考展示是整个人类第一次看到,而正因为 OpenAI o1 是收费的,所以它错过了体验创新。我们可以看到,Manus 在输出区域呈现了思考和规划过程,在虚拟机区域展示了执行动作,就是为了给用户最直观的交互体验。
对于创业公司的切入点,Red 认为应该 “用博弈的方式思考”,而不是“用逻辑推理的方式思考”。垂直领域、特定领域,可能大模型原厂不做;脏活累活,可能原厂不做;有一些原厂可能以后会做,就会有窗口期。
这一点在 Red 的创业经历中,也有迹可循。从微信生态工具【微伴助手】,到浏览器插件【Monica】,似乎都在验证“依附超级平台做垂直工具”的商业模式可行性 。与此同时,“当你意识到你在创新、在领先,应当更激进,超级激进。”
同样拥有丰富产品创业经验的 Peak,非常看重 “Less structure, more intelligence”,主张减少对 AI 的结构化限制,依赖模型自主进化能力,而非人工预设流程。所以 Manus 产品未来使用体验三板斧简单总结:配电脑,开放权限,动态培训。
我们在 Manus 中可以看到,对比其他 Agent 产品人为搭建 Workflow,Manus 使用一套名为“Multiple Agent”的架构,通过规划代理、执行代理、验证代理的分工协作机制,来处理复杂任务,输出可交付结果。像是给 Manus 模型一台“虚拟机”:将 Computer Use 与 Tool Use 深度融合,在任务中 check 或调整用户意图。
团队重新定义 AI 价值指标,用 “Agentic Hours per User (AHPU)” 衡量用户委托 AI 完成任务的时间效率,目标是通过并行任务提升生产力,突破 AI 产品商业化瓶颈。AI 未来的核心是“劳动力扩展(Labor Scaling)”,即用户以老板身份高效管理多个 AI 代理,突破人类组织摩擦限制。而在这个路线上,用代码优先策略、多模态网页交互、动态学习机制构建技术护城河。
作为产品合伙人 Hidecloud 基本每天会读两三篇 paper,在理解技术底层原理的同时,思考产品设计和技术改造上的直接收益。他主张,“做低 prompt 甚至 0 prompt 的产品”。对于现在产品的定义,他认为 “model as a product”,即 model 本身的输入和输出,决定了产品整体的交互。
例如 Dodoboo,作为一款专为儿童设计的 AI 绘画应用,不需要输入特定的提示或指令,孩子们可以直接在平板电脑或手机上自由涂鸦,应用中的 AI 技术会自动分析并优化这些涂鸦,使其变成精美的艺术品。他认为,未来大规模流行的 AI C 端产品不可能通过打字交互,通过直接动笔画和拖拽交互,且可以翻看,让过程和产物都可以消费。
Hidecloud 不认为现在所有做应用的团队,一定要从零开始 pre-train 一个模型,但团队一定要具备操纵模型的能力。上一代产品经理解决的是 PMF,即产品和市场的 fit,这一代产品经理还要先解决 TPF,即产品和技术的 fit。所以可以从以下 3 点切入:第一,理解技术的底层原理;第二,坚持读 paper ;第三,自己多动手。
为什么是 Manus?
最后,让我们尝试回答,Manus 为什么出圈?这件事又给我们带来了什么思考?
也许我们可以从以下四点做一个小结:
技术上: 模型能力的外溢,技术能力的成熟,助推 Agentic AI 实现了从单一任务执行,向复杂任务的跨越。
产品上: 作为普通人接触 AI 的门户,AI 智能体就像互联网时代的网页,移动互联网时代的 App。而 Manus 的发布,作为一款能够让普通大众感知、理解何为智能体的普及性产品,相当于一夜之间完成了市场教育。
团队上: Manus 团队凭借着快速迭代的能力(3 个月战略窗口期)、灵活的架构(避免大公司层级束缚)和坚定的信念(坚持非主流认知)形成了核心竞争力。
增长上: 创业团队日常广结善缘,通过上线当天邀请头部博主体验形成自来水,让好产品变成流量。
回到 Manus,我们能够在这款现象级产品的设计中看到,来自创始团队的产品思考一以贯之。
亦如乔布斯 2005 年在斯坦福大学毕业典礼上演讲中的内容,“你不能预先把点点滴滴连成线,只有回头看时,你才会发现这些点点滴滴竟然连成了线。因此,你必须相信,那些点点滴滴,会在你未来的某一天,以某种方式连接起来。你得相信点点滴滴会连成线,这种信念会给你信心,让你即使在心之所向偏离了常规道路时,也能追随内心。而这一切,将产生巨大的不同!”
作者:Xiaonan Ping
排版校对:Xiaonan Ping, Nan Jiang