Rhoda AI $4.5亿A轮深度解读:视频预训练的反数据叙事【融资观察 第007期】

工程师凝视着播放人类装配动作的视频屏幕,背后是暖光下的工业车间。来源:投黑马 Touheima.com

融资观察 / 第007期 / 2026年4月 / 阅读时间约12分钟


一家成立18个月的机器人AI公司,以17亿美元估值完成4.5亿美元A轮,创始人是前QuantumScape CEO Jagdeep Singh。投资人名单里同时出现新加坡主权基金Temasek、传奇投资人Vinod Khosla和John Doerr、印度Premji Invest,以及Stanford计算成像实验室负责人。当整个机器人行业在重金投注遥操作数据时,Rhoda选择押注互联网视频预训练。本文拆解这笔反叙事融资背后的结构性判断,以及它照亮了哪些仍未被定价的左侧坐标。


一、这笔融资为什么不普通

2026年3月10日,Rhoda AI结束18个月隐秘开发期,一次性宣布两件事:完成4.5亿美元A轮融资,估值推至17亿美元;并发布名为FutureVision的机器人智能平台与其核心的Direct Video Action(DVA)模型。融资本身的金额并不罕见,罕见的是四个细节叠加之后的结构性信号。

第一,规模与轮次错配。4.5亿美元放在2026年机器人赛道不算最大,但放在「A轮」这个轮次上异常。作为参照,Physical Intelligence的A轮是7000万美元,Rhoda一次性把A轮抬到4.5亿美元,对标的是多数同行的B轮乃至C轮节奏。这种规模一次性注入,本身就是对未来18到24个月烧钱强度的预告——视频大模型的训练成本不是这个量级拿不出来。

第二,创始人跨界异常。CEO Jagdeep Singh是QuantumScape的创始人兼前CEO,把一家固态电池公司带到纳斯达克上市,市值一度超过160亿美元,是硅谷近十年最有辨识度的「重资产科技创业者」之一。一个从电池化学跨到机器人foundation model的连续创业者,在硅谷投资圈自带估值溢价。Chief Science Officer Eric Ryan Chan与顾问Gordon Wetzstein均来自Stanford计算成像与视觉领域。

第三,投资人结构跨越三大洲。领投方Premji Invest来自印度,跟投Temasek和Xora来自新加坡,Capricorn Investment Group是Jeff Skoll旗下影响力机构,Khosla Ventures、Mayfield、Matter Venture Partners、Prelude Ventures来自硅谷,Leitmotif来自德国。一轮融资同时拉入印度本土基金、亚洲主权资本、硅谷老牌VC与欧洲产业跨界基金——多个互不认识的资金池同时得出相同判断,往往意味着赛道底层假设正在被重新定价。

第四,天使名单出现John Doerr。Kleiner Perkins创始合伙人、OKR体系传播者、Google与Amazon早期金主,过去十年亲自出现在早期A轮的频率屈指可数。Doerr以个人身份加入机器人foundation model的A轮,释放的信号不是「财务投资」,而是「长周期信仰」。

四个细节指向同一个结论:这不是一笔普通的机器人A轮,而是一次关于「机器人智能从哪里来」的路径下注。问题随之浮现——Rhoda押注的这条路径,为什么值得如此之重的资本?


二、为什么是这个方向:视频预训练的反数据叙事

2025年到2026年初,机器人AI赛道有一个几乎被默认的叙事:机器人智能的瓶颈是数据,而数据的来源是遥操作

这个叙事的代表选手包括Physical Intelligence(估值56亿美元,Khosla、Sequoia、Thrive投资)、Skild AI(估值140亿美元,SoftBank、Lightspeed投资),以及Figure AI、1X、Apptronik等具身公司。它们的数据工程共同点是:招聘大量遥操作员、搭建专用采集线、把机器人在物理世界里的动作一段段「录」进数据集,再以这些数据为基础训练视觉-语言-动作(VLA)模型。Figure甚至自建工厂线采集真实操作数据,Tesla Optimus计划通过量产车间的生产线顺带收集动作序列。整个赛道对「数据质量」与「数据规模」的焦虑被压缩成一句话:谁先攒够够多的高质量机器人轨迹,谁就赢。

工程师凝视着播放人类装配动作的视频屏幕,背后是暖光下的工业车间。来源:投黑马 Touheima.com
图:机器人学会世界的方式,正在从「亲自操作」转向「先看再做」。来源:投黑马 Touheima.com

Rhoda选择了与这一叙事完全相反的路径。

Rhoda的核心假设是:机器人智能的瓶颈不是数据总量,而是数据成本结构与跨embodiment泛化能力。遥操作数据单小时成本可达数百美元,且每一条轨迹都绑定特定机械臂、末端执行器与场景坐标系。当公司换一代机器人硬件,既往数据的可迁移性会大幅衰减。

Rhoda的DVA(Direct Video Action)模型改写了数据来源层级:先用数亿段互联网视频做预训练,学习运动、物理、接触与因果关系的通用先验,再用小规模精细的机器人数据做后训练。这个范式的工程含义有三层。

第一层,预训练阶段不依赖机器人数据。人类在厨房、工厂装配、拆箱、烹饪、维修等公开可得素材直接成为训练资产,成本结构从「雇人操作机器人」切换为「大规模爬取、筛选、标注视频」。

第二层,模型架构是「视频预测控制」而非「策略学习」。传统VLA模型的输出是动作token,DVA输出的是对下一帧图像的预测加对应动作指令,模型本质上在学习「未来的世界会长什么样子」,再反向推导「我现在该怎么做」。这让模型具备在未见过场景中做外推的能力。

第三层,跨embodiment迁移成为一等公民。当底座模型学习的是「世界如何运转」而非「这台机械臂如何运动」,模型迁移到新硬件上理论上只需小规模后训练数据。FutureVision因此不是「专属于Rhoda机器人」的控制器,而是可被第三方硬件嵌入的「智能层」。

主流叙事不是没看到视频预训练的价值——Skild Brain的训练数据里也有大量视频——而是认为视频数据只能作为辅助,真正的「最后一公里」仍需机器人数据。Rhoda赌的是反向关系:机器人数据只是「最后一公里」的校准,真正决定模型泛化上限的是视频预训练规模。该假设成立的前提是视频预训练的规模效应曲线要足够陡峭。Rhoda已宣称在生产环境完成自主操作演示,处理连续变化的物料、布局与工作流——这比实验室demo更具工程说服力,但距离大规模商业化部署仍有实质距离(据企业官方公告)。


三、投资人结构解读:九家机构 + 个人的信号重合

Rhoda A轮的投资人名单需要逐一拆开分析,才能看清其中的结构性判断。

Premji Invest:印度最大家族办公室的跨赛道长钱

押注逻辑:Premji Invest管理Wipro创始人Azim Premji的家族资产,偏好「技术底层+长周期」标的。管理合伙人Sandesh Patnam在融资公告中的表述值得标注:「第一家在真实世界大规模部署具备操作能力的智能机器人的公司,将启动一个强大的数据飞轮」(据企业官方公告)。这句话的内核是——Premji判断机器人赛道的胜负不在第一代产品,而在数据飞轮的临界点。

信号意义:印度家族办公室选择在A轮领投美国机器人AI标的,是印度资本国际化深度进入硬科技的信号。当Premji以领投身份出现在硬科技foundation model的A轮,意味着新兴市场长钱开始与硅谷VC争抢早期入场券。

Khosla Ventures:同时押注两条路径的对冲姿态

押注逻辑:Vinod Khosla同时是Physical Intelligence与Rhoda的投资人。Khosla没有在机器人foundation model上做「二选一」,而是同时押注遥操作派与视频预训练派两条路径。在同一细分赛道同时持有两家估值均已超10亿美元的公司,是极罕见的配置。

信号意义:Khosla的对冲不是「看不准」,而是「赛道太大、路径未定」。对左侧投资者而言,这意味着机器人foundation model赛道尚未到赢家通吃阶段,细分路径之间的胜负仍在发生。

Temasek与Xora:新加坡主权资本的硬科技布局

押注逻辑:Temasek管理约3800亿美元资产,Xora是Temasek旗下专注深科技的早期基金。两者同时出现在Rhoda A轮,意味着新加坡对「机器人作为下一代工业基础设施」的国家级判断已落到标的层面。新加坡产业政策长期关注高端制造升级,Rhoda这种「可license给不同硬件厂商」的智能层,正好匹配新加坡希望在硬件与模型之间找到关键卡位的战略诉求。

信号意义:主权基金入场A轮一向谨慎。当Temasek选择在A轮而非C轮进入,反映的是资产类别的战略定位已经确认,这是判断机器人赛道是否接近系统性重估的重要辅证。

Mayfield、Matter Venture Partners、Prelude、Capricorn、Leitmotif:老钱+气候资本+欧洲产业的三角

押注逻辑:Mayfield是1969年成立的硅谷最古老VC之一;Matter Venture Partners由Matt Ocko创立,聚焦物理AI;Prelude长期投资能源与气候;Capricorn由Jeff Skoll创立做影响力投资;Leitmotif的LP结构与大众集团有深度关联。五家机构折射出一个被低估的叙事——机器人foundation model被重新归类为「气候解决方案」与「下一代工业基础设施」。工业机器人带来的本地化制造、废料回收、维修替代新造,都是这些LP的核心主题。

信号意义:当「老钱+气候资本+欧洲产业资本」同时入局A轮,Rhoda未来首批大客户清单中欧洲制造业占据一席的概率显著上升,同时赛道的LP结构会系统性扩大,这是判断估值天花板的先行指标。

John Doerr(个人天使):硅谷风投活化石的个人信仰票

押注逻辑:Doerr过去十年个人出手频率极低。Doerr与Jagdeep Singh的关系可回溯至QuantumScape时代——Kleiner Perkins是QuantumScape最早的机构股东之一。这次跟进本质上是对「Jagdeep第二次」的个人下注。

信号意义:创始人驱动的个人天使票,往往比机构票更能说明创始人在硅谷生态中的信誉等级。对左侧投资者而言,这强化了对Jagdeep Singh组织能力的置信度。


四、护城河拆解:视频模型的护城河在哪里

表面护城河:内部数据规模与模型参数量

市场第一直觉通常是——Rhoda积累了最大的视频训练数据集,因此拥有「数据护城河」。这个直觉只对了一半。互联网视频本身是公开资产,任何团队只要投入足够工程与存储,都能抓取同等规模的数据。真正的门槛在数据的筛选、标注与对齐环节,而这些能力目前没有明显的「赢家通吃」特征。

真正护城河:模型架构+组织复合能力

Rhoda的可持续壁垒实际由三层构成。

第一层是DVA模型的「视频预测+动作映射」融合架构本身。从视频预测到机器人动作,中间存在一个「可执行性gap」——不是所有预测出的未来帧都对应物理上可行的动作序列。Rhoda在这一层的工程诀窍与训练配方构成了可申请的专利资产,以及其他团队很难短期追上的know-how积累。

第二层是Jagdeep Singh带来的组织化长周期执行能力。QuantumScape从创立到纳斯达克上市经历了十一年,Singh证明了自己可以在「技术尚未验证、资本市场周期动荡、商业化时间线超长」的项目里维持组织完整性。机器人foundation model所需的时间线与资本强度,与固态电池有高度相似的管理难度。Rhoda的组织护城河,本质上是「能活到模型规模效应开始显现的那一天」。

第三层是Stanford计算成像派系的学术网络壁垒。Gordon Wetzstein实验室长期在视频预测、可微分渲染、神经辐射场方向产出顶级成果,整个研究社群的人才密度与Rhoda的技术路线高度吻合。这是一个「招聘即壁垒」的正反馈——顶级视频生成与预测人才会先投Rhoda的简历。

天花板:何时可能失效

护城河可能的失效场景有两个。一是视频预训练的scaling law比预期更早饱和——如果预训练数据规模增加带来的性能边际收益急速下降,Rhoda的资本优势就无法转化为持续技术领先。二是某一家遥操作派公司提前跨过「真实世界部署」的临界点——一旦Physical Intelligence或Skild的机器人先大规模商用并形成数据飞轮,后来者的追赶成本将指数上升。

关键验证信号

投黑马提出三个应持续跟踪的验证信号:

  • FutureVision模型在六个月内是否发布「新embodiment零-shot迁移」的公开demo
  • Rhoda是否与任何一家主流机器人本体公司达成license协议(而非自建整机)
  • DVA模型是否在学术层面被独立团队复现,或在开源社区获得跟随者

以上三条若在12个月内至少出现两条,反叙事假设即进入验证区。


五、被市场低估的周边机会

本轮4.5亿美元A轮已关闭,普通投资者直接参与Rhoda本体的窗口已经消失。本节提供三个从这笔融资中「被照亮」的周边左侧坐标。

机会一:工业级视频数据的采集与标注服务

Rhoda的模型范式把「视频」从消费内容变成了工业资产。工厂场景的高质量、多角度、标注完整的视频数据,正在从「企业安防附属品」重估为「模型训练原料」。围绕工业视频采集、标签生成、隐私脱敏、动作轨迹提取的工具链公司,将在未来24个月内进入机构视野。追踪信号:关注Scale AI、Labelbox、Encord等数据标注厂商是否新增「机器人视频」产品线;关注中国本土是否出现「工厂视频数据交易平台」类早期公司。每家公司A轮估值若能维持在5000万美元以下,属于典型的左侧窗口。

机会二:可被Rhoda类foundation model license的机器人硬件公司

FutureVision的license策略本质上把「机器人硬件」与「机器人大脑」解耦。受益最大的,是那些专注于把机械臂或人形本体成本做到极致、但没有能力自建foundation model的硬件公司。中国的多家机械臂与协作机器人厂商,如果能与上层模型公司建立标准化license接口,将从「整机制造商」升级为「模型承载平台」。追踪信号:关注中国机器人硬件上市公司年报中是否出现「与海外AI模型公司的API合作」条款;关注人形机器人产业链中上游零部件(减速器、编码器、力矩传感器)厂商的毛利率变化——模型能力的提升会放大硬件的定价权结构。

机会三:机器人仿真与合成数据工具链

视频预训练范式虽然降低了对遥操作数据的依赖,但「后训练阶段的机器人专属数据」仍不可或缺。仿真合成数据公司由此获得一次估值重估机会——它们不再是「遥操作的替代」,而是「视频预训练的必要补充」。NVIDIA Isaac Sim生态、开源MuJoCo的商业化封装方、面向具体赛道(如物流、仓储)的专用仿真平台,都是值得跟踪的方向。追踪信号:关注NVIDIA GTC大会上机器人仿真合作伙伴名单的变化;关注中国资本是否开始系统性布局「机器人合成数据」细分。


六、【投黑马判断】独家评级 + 布局建议 + 风险披露

投黑马 · 独家评级
赛道成熟度
6.0
团队信号
9.0
市场空间
8.5
左侧紧迫度
7.0

分层布局建议(按读者类型划分):

对于一级市场投资者:
本轮直接参与窗口已关闭;下一轮(大概率B轮)在12到18个月内开启,进入门槛将显著抬升。
同类标的扫描方向:视频预训练底座机器人模型公司(非遥操作路径)、
工业视频数据工具链公司、机器人仿真合成数据公司。
选股标准:1)创始团队具备跨周期执行证据;2)模型架构可跨embodiment迁移;
3)商业化路径明确避免「自建整机」的重资本陷阱。

对于二级市场投资者:
间接参与路径仅限NVIDIA(视频模型算力)与机器人硬件上市公司组合。
注意事项:不宜把Rhoda的叙事直接套用在A股人形机器人概念股上——
A股目前主流标的大多是整机与零部件厂商,
而非AI模型承载方,两者的估值逻辑不可混同。
不宜混同的逻辑:视频预训练模型公司与遥操作数据公司的估值体系
在未来12个月可能发生系统性分化,混仓会放大风险。

对于创业者:
这笔融资揭示的市场空白是「面向foundation model的工业视频数据基础设施」——
采集、标注、脱敏、检索、交易。可切入的细分方向包括:
1)工厂场景合规视频数据平台;
2)机器人动作轨迹自动标注工具;
3)跨embodiment的数据格式标准与开源工具链。
创业者的时间窗口约为18个月,领先者将成为下一批A轮标的。
工程师凝视着播放人类装配动作的视频屏幕,背后是暖光下的工业车间。来源:投黑马 Touheima.com
图:机器人学会世界的方式,正在从「亲自操作」转向「先看再做」。来源:投黑马 Touheima.com

风险披露:

一、商业化周期风险——foundation model从实验室到大规模工业部署的时间线历史上从未短于5年。Rhoda当前17亿美元估值隐含的商业化假设,需要在未来24个月内以至少三家工业客户的实付合同来验证,否则估值将面临重估压力。

二、竞争加剧风险——Physical Intelligence与Skild AI的估值分别为56亿美元与140亿美元,均处于更成熟的商业化阶段。Rhoda的反叙事路径若未能在12个月内拿出与两家主流路径公司可对比的demo,会在下一轮融资中被动承担「技术路线质疑」的估值折扣。

三、技术替代风险——开源社区(如Hugging Face LeRobot、Meta的相关开源项目)若发布达到商业级可用的视频预训练机器人模型,将压缩Rhoda的差异化溢价。foundation model领域的开源挤压在语言模型阶段已有明确先例。

四、LP赎回与估值结构风险——A轮4.5亿美元在机器人赛道属于超常规规模,未来B轮的估值锚定点容易出现「期望值过高」问题。若B轮未能跳升至40亿美元以上,早期投资人会承受实质IRR压力,可能诱发更频繁的治理介入,影响团队长期判断(综合公开信息整理)。


结语

当整个机器人赛道在攒遥操作数据,Rhoda选择去抓视频。这不是便宜版的方案,而是对「智能来源」本身的另一种定义。4.5亿美元A轮、17亿美元估值、18个月stealth、Jagdeep Singh跨界——任何单独一个变量都不足以说服我们,但四个变量叠加之后,问题从「这家公司能不能活下来」变成了「如果它活下来,整个赛道的估值体系是否需要重写」。

投黑马相信:机器人foundation model的胜负手,不在谁录了更多轨迹,而在谁先让模型泛化到没见过的世界。视频,或许是那把被低估的钥匙。


投黑马 · 融资观察 · 第007期 · 2026年4月21日