融资观察 / 第007期 / 2026年4月 / 阅读时间约12分钟

一家成立18个月的机器人AI公司，以17亿美元估值完成4.5亿美元A轮，创始人是前QuantumScape CEO Jagdeep Singh。投资人名单里同时出现新加坡主权基金Temasek、传奇投资人Vinod Khosla和John Doerr、印度Premji Invest，以及Stanford计算成像实验室负责人。当整个机器人行业在重金投注遥操作数据时，Rhoda选择押注互联网视频预训练。本文拆解这笔反叙事融资背后的结构性判断，以及它照亮了哪些仍未被定价的左侧坐标。

一、这笔融资为什么不普通

2026年3月10日，Rhoda AI结束18个月隐秘开发期，一次性宣布两件事：完成4.5亿美元A轮融资，估值推至17亿美元；并发布名为FutureVision的机器人智能平台与其核心的Direct Video Action（DVA）模型。融资本身的金额并不罕见，罕见的是四个细节叠加之后的结构性信号。

第一，规模与轮次错配。4.5亿美元放在2026年机器人赛道不算最大，但放在「A轮」这个轮次上异常。作为参照，Physical Intelligence的A轮是7000万美元，Rhoda一次性把A轮抬到4.5亿美元，对标的是多数同行的B轮乃至C轮节奏。这种规模一次性注入，本身就是对未来18到24个月烧钱强度的预告——视频大模型的训练成本不是这个量级拿不出来。

第二，创始人跨界异常。CEO Jagdeep Singh是QuantumScape的创始人兼前CEO，把一家固态电池公司带到纳斯达克上市，市值一度超过160亿美元，是硅谷近十年最有辨识度的「重资产科技创业者」之一。一个从电池化学跨到机器人foundation model的连续创业者，在硅谷投资圈自带估值溢价。Chief Science Officer Eric Ryan Chan与顾问Gordon Wetzstein均来自Stanford计算成像与视觉领域。

第三，投资人结构跨越三大洲。领投方Premji Invest来自印度，跟投Temasek和Xora来自新加坡，Capricorn Investment Group是Jeff Skoll旗下影响力机构，Khosla Ventures、Mayfield、Matter Venture Partners、Prelude Ventures来自硅谷，Leitmotif来自德国。一轮融资同时拉入印度本土基金、亚洲主权资本、硅谷老牌VC与欧洲产业跨界基金——多个互不认识的资金池同时得出相同判断，往往意味着赛道底层假设正在被重新定价。

第四，天使名单出现John Doerr。Kleiner Perkins创始合伙人、OKR体系传播者、Google与Amazon早期金主，过去十年亲自出现在早期A轮的频率屈指可数。Doerr以个人身份加入机器人foundation model的A轮，释放的信号不是「财务投资」，而是「长周期信仰」。

四个细节指向同一个结论：这不是一笔普通的机器人A轮，而是一次关于「机器人智能从哪里来」的路径下注。问题随之浮现——Rhoda押注的这条路径，为什么值得如此之重的资本？

二、为什么是这个方向：视频预训练的反数据叙事

2025年到2026年初，机器人AI赛道有一个几乎被默认的叙事：机器人智能的瓶颈是数据，而数据的来源是遥操作。

这个叙事的代表选手包括Physical Intelligence（估值56亿美元，Khosla、Sequoia、Thrive投资）、Skild AI（估值140亿美元，SoftBank、Lightspeed投资），以及Figure AI、1X、Apptronik等具身公司。它们的数据工程共同点是：招聘大量遥操作员、搭建专用采集线、把机器人在物理世界里的动作一段段「录」进数据集，再以这些数据为基础训练视觉-语言-动作（VLA）模型。Figure甚至自建工厂线采集真实操作数据，Tesla Optimus计划通过量产车间的生产线顺带收集动作序列。整个赛道对「数据质量」与「数据规模」的焦虑被压缩成一句话：谁先攒够够多的高质量机器人轨迹，谁就赢。

图：机器人学会世界的方式，正在从「亲自操作」转向「先看再做」。来源：投黑马 Touheima.com

Rhoda选择了与这一叙事完全相反的路径。

Rhoda的核心假设是：机器人智能的瓶颈不是数据总量，而是数据成本结构与跨embodiment泛化能力。遥操作数据单小时成本可达数百美元，且每一条轨迹都绑定特定机械臂、末端执行器与场景坐标系。当公司换一代机器人硬件，既往数据的可迁移性会大幅衰减。

Rhoda的DVA（Direct Video Action）模型改写了数据来源层级：先用数亿段互联网视频做预训练，学习运动、物理、接触与因果关系的通用先验，再用小规模精细的机器人数据做后训练。这个范式的工程含义有三层。

第一层，预训练阶段不依赖机器人数据。人类在厨房、工厂装配、拆箱、烹饪、维修等公开可得素材直接成为训练资产，成本结构从「雇人操作机器人」切换为「大规模爬取、筛选、标注视频」。

第二层，模型架构是「视频预测控制」而非「策略学习」。传统VLA模型的输出是动作token，DVA输出的是对下一帧图像的预测加对应动作指令，模型本质上在学习「未来的世界会长什么样子」，再反向推导「我现在该怎么做」。这让模型具备在未见过场景中做外推的能力。

第三层，跨embodiment迁移成为一等公民。当底座模型学习的是「世界如何运转」而非「这台机械臂如何运动」，模型迁移到新硬件上理论上只需小规模后训练数据。FutureVision因此不是「专属于Rhoda机器人」的控制器，而是可被第三方硬件嵌入的「智能层」。

主流叙事不是没看到视频预训练的价值——Skild Brain的训练数据里也有大量视频——而是认为视频数据只能作为辅助，真正的「最后一公里」仍需机器人数据。Rhoda赌的是反向关系：机器人数据只是「最后一公里」的校准，真正决定模型泛化上限的是视频预训练规模。该假设成立的前提是视频预训练的规模效应曲线要足够陡峭。Rhoda已宣称在生产环境完成自主操作演示，处理连续变化的物料、布局与工作流——这比实验室demo更具工程说服力，但距离大规模商业化部署仍有实质距离（据企业官方公告）。

三、投资人结构解读：九家机构 + 个人的信号重合

Rhoda A轮的投资人名单需要逐一拆开分析，才能看清其中的结构性判断。

Premji Invest：印度最大家族办公室的跨赛道长钱

押注逻辑：Premji Invest管理Wipro创始人Azim Premji的家族资产，偏好「技术底层+长周期」标的。管理合伙人Sandesh Patnam在融资公告中的表述值得标注：「第一家在真实世界大规模部署具备操作能力的智能机器人的公司，将启动一个强大的数据飞轮」（据企业官方公告）。这句话的内核是——Premji判断机器人赛道的胜负不在第一代产品，而在数据飞轮的临界点。

信号意义：印度家族办公室选择在A轮领投美国机器人AI标的，是印度资本国际化深度进入硬科技的信号。当Premji以领投身份出现在硬科技foundation model的A轮，意味着新兴市场长钱开始与硅谷VC争抢早期入场券。

Khosla Ventures：同时押注两条路径的对冲姿态

押注逻辑：Vinod Khosla同时是Physical Intelligence与Rhoda的投资人。Khosla没有在机器人foundation model上做「二选一」，而是同时押注遥操作派与视频预训练派两条路径。在同一细分赛道同时持有两家估值均已超10亿美元的公司，是极罕见的配置。

信号意义：Khosla的对冲不是「看不准」，而是「赛道太大、路径未定」。对左侧投资者而言，这意味着机器人foundation model赛道尚未到赢家通吃阶段，细分路径之间的胜负仍在发生。

Temasek与Xora：新加坡主权资本的硬科技布局

押注逻辑：Temasek管理约3800亿美元资产，Xora是Temasek旗下专注深科技的早期基金。两者同时出现在Rhoda A轮，意味着新加坡对「机器人作为下一代工业基础设施」的国家级判断已落到标的层面。新加坡产业政策长期关注高端制造升级，Rhoda这种「可license给不同硬件厂商」的智能层，正好匹配新加坡希望在硬件与模型之间找到关键卡位的战略诉求。

信号意义：主权基金入场A轮一向谨慎。当Temasek选择在A轮而非C轮进入，反映的是资产类别的战略定位已经确认，这是判断机器人赛道是否接近系统性重估的重要辅证。

Mayfield、Matter Venture Partners、Prelude、Capricorn、Leitmotif：老钱+气候资本+欧洲产业的三角

押注逻辑：Mayfield是1969年成立的硅谷最古老VC之一；Matter Venture Partners由Matt Ocko创立，聚焦物理AI；Prelude长期投资能源与气候；Capricorn由Jeff Skoll创立做影响力投资；Leitmotif的LP结构与大众集团有深度关联。五家机构折射出一个被低估的叙事——机器人foundation model被重新归类为「气候解决方案」与「下一代工业基础设施」。工业机器人带来的本地化制造、废料回收、维修替代新造，都是这些LP的核心主题。

信号意义：当「老钱+气候资本+欧洲产业资本」同时入局A轮，Rhoda未来首批大客户清单中欧洲制造业占据一席的概率显著上升，同时赛道的LP结构会系统性扩大，这是判断估值天花板的先行指标。

John Doerr（个人天使）：硅谷风投活化石的个人信仰票

押注逻辑：Doerr过去十年个人出手频率极低。Doerr与Jagdeep Singh的关系可回溯至QuantumScape时代——Kleiner Perkins是QuantumScape最早的机构股东之一。这次跟进本质上是对「Jagdeep第二次」的个人下注。

信号意义：创始人驱动的个人天使票，往往比机构票更能说明创始人在硅谷生态中的信誉等级。对左侧投资者而言，这强化了对Jagdeep Singh组织能力的置信度。

四、护城河拆解：视频模型的护城河在哪里

表面护城河：内部数据规模与模型参数量

市场第一直觉通常是——Rhoda积累了最大的视频训练数据集，因此拥有「数据护城河」。这个直觉只对了一半。互联网视频本身是公开资产，任何团队只要投入足够工程与存储，都能抓取同等规模的数据。真正的门槛在数据的筛选、标注与对齐环节，而这些能力目前没有明显的「赢家通吃」特征。

真正护城河：模型架构+组织复合能力

Rhoda的可持续壁垒实际由三层构成。

第一层是DVA模型的「视频预测+动作映射」融合架构本身。从视频预测到机器人动作，中间存在一个「可执行性gap」——不是所有预测出的未来帧都对应物理上可行的动作序列。Rhoda在这一层的工程诀窍与训练配方构成了可申请的专利资产，以及其他团队很难短期追上的know-how积累。

第二层是Jagdeep Singh带来的组织化长周期执行能力。QuantumScape从创立到纳斯达克上市经历了十一年，Singh证明了自己可以在「技术尚未验证、资本市场周期动荡、商业化时间线超长」的项目里维持组织完整性。机器人foundation model所需的时间线与资本强度，与固态电池有高度相似的管理难度。Rhoda的组织护城河，本质上是「能活到模型规模效应开始显现的那一天」。

第三层是Stanford计算成像派系的学术网络壁垒。Gordon Wetzstein实验室长期在视频预测、可微分渲染、神经辐射场方向产出顶级成果，整个研究社群的人才密度与Rhoda的技术路线高度吻合。这是一个「招聘即壁垒」的正反馈——顶级视频生成与预测人才会先投Rhoda的简历。

天花板：何时可能失效

护城河可能的失效场景有两个。一是视频预训练的scaling law比预期更早饱和——如果预训练数据规模增加带来的性能边际收益急速下降，Rhoda的资本优势就无法转化为持续技术领先。二是某一家遥操作派公司提前跨过「真实世界部署」的临界点——一旦Physical Intelligence或Skild的机器人先大规模商用并形成数据飞轮，后来者的追赶成本将指数上升。

关键验证信号

投黑马提出三个应持续跟踪的验证信号：

FutureVision模型在六个月内是否发布「新embodiment零-shot迁移」的公开demo
Rhoda是否与任何一家主流机器人本体公司达成license协议（而非自建整机）
DVA模型是否在学术层面被独立团队复现，或在开源社区获得跟随者

以上三条若在12个月内至少出现两条，反叙事假设即进入验证区。

五、被市场低估的周边机会

本轮4.5亿美元A轮已关闭，普通投资者直接参与Rhoda本体的窗口已经消失。本节提供三个从这笔融资中「被照亮」的周边左侧坐标。

机会一：工业级视频数据的采集与标注服务

Rhoda的模型范式把「视频」从消费内容变成了工业资产。工厂场景的高质量、多角度、标注完整的视频数据，正在从「企业安防附属品」重估为「模型训练原料」。围绕工业视频采集、标签生成、隐私脱敏、动作轨迹提取的工具链公司，将在未来24个月内进入机构视野。追踪信号：关注Scale AI、Labelbox、Encord等数据标注厂商是否新增「机器人视频」产品线；关注中国本土是否出现「工厂视频数据交易平台」类早期公司。每家公司A轮估值若能维持在5000万美元以下，属于典型的左侧窗口。

机会二：可被Rhoda类foundation model license的机器人硬件公司

FutureVision的license策略本质上把「机器人硬件」与「机器人大脑」解耦。受益最大的，是那些专注于把机械臂或人形本体成本做到极致、但没有能力自建foundation model的硬件公司。中国的多家机械臂与协作机器人厂商，如果能与上层模型公司建立标准化license接口，将从「整机制造商」升级为「模型承载平台」。追踪信号：关注中国机器人硬件上市公司年报中是否出现「与海外AI模型公司的API合作」条款；关注人形机器人产业链中上游零部件（减速器、编码器、力矩传感器）厂商的毛利率变化——模型能力的提升会放大硬件的定价权结构。

机会三：机器人仿真与合成数据工具链

视频预训练范式虽然降低了对遥操作数据的依赖，但「后训练阶段的机器人专属数据」仍不可或缺。仿真合成数据公司由此获得一次估值重估机会——它们不再是「遥操作的替代」，而是「视频预训练的必要补充」。NVIDIA Isaac Sim生态、开源MuJoCo的商业化封装方、面向具体赛道（如物流、仓储）的专用仿真平台，都是值得跟踪的方向。追踪信号：关注NVIDIA GTC大会上机器人仿真合作伙伴名单的变化；关注中国资本是否开始系统性布局「机器人合成数据」细分。

六、【投黑马判断】独家评级 + 布局建议 + 风险披露

投黑马 · 独家评级

赛道成熟度

6.0

团队信号

9.0

市场空间

8.5

左侧紧迫度

7.0

分层布局建议（按读者类型划分）：

对于一级市场投资者：
本轮直接参与窗口已关闭；下一轮（大概率B轮）在12到18个月内开启，进入门槛将显著抬升。
同类标的扫描方向：视频预训练底座机器人模型公司（非遥操作路径）、
工业视频数据工具链公司、机器人仿真合成数据公司。
选股标准：1）创始团队具备跨周期执行证据；2）模型架构可跨embodiment迁移；
3）商业化路径明确避免「自建整机」的重资本陷阱。

对于二级市场投资者：
间接参与路径仅限NVIDIA（视频模型算力）与机器人硬件上市公司组合。
注意事项：不宜把Rhoda的叙事直接套用在A股人形机器人概念股上——
A股目前主流标的大多是整机与零部件厂商，
而非AI模型承载方，两者的估值逻辑不可混同。
不宜混同的逻辑：视频预训练模型公司与遥操作数据公司的估值体系
在未来12个月可能发生系统性分化，混仓会放大风险。

对于创业者：
这笔融资揭示的市场空白是「面向foundation model的工业视频数据基础设施」——
采集、标注、脱敏、检索、交易。可切入的细分方向包括：
1）工厂场景合规视频数据平台；
2）机器人动作轨迹自动标注工具；
3）跨embodiment的数据格式标准与开源工具链。
创业者的时间窗口约为18个月，领先者将成为下一批A轮标的。

图：机器人学会世界的方式，正在从「亲自操作」转向「先看再做」。来源：投黑马 Touheima.com

风险披露：

一、商业化周期风险——foundation model从实验室到大规模工业部署的时间线历史上从未短于5年。Rhoda当前17亿美元估值隐含的商业化假设，需要在未来24个月内以至少三家工业客户的实付合同来验证，否则估值将面临重估压力。

二、竞争加剧风险——Physical Intelligence与Skild AI的估值分别为56亿美元与140亿美元，均处于更成熟的商业化阶段。Rhoda的反叙事路径若未能在12个月内拿出与两家主流路径公司可对比的demo，会在下一轮融资中被动承担「技术路线质疑」的估值折扣。

三、技术替代风险——开源社区（如Hugging Face LeRobot、Meta的相关开源项目）若发布达到商业级可用的视频预训练机器人模型，将压缩Rhoda的差异化溢价。foundation model领域的开源挤压在语言模型阶段已有明确先例。

四、LP赎回与估值结构风险——A轮4.5亿美元在机器人赛道属于超常规规模，未来B轮的估值锚定点容易出现「期望值过高」问题。若B轮未能跳升至40亿美元以上，早期投资人会承受实质IRR压力，可能诱发更频繁的治理介入，影响团队长期判断（综合公开信息整理）。

结语

当整个机器人赛道在攒遥操作数据，Rhoda选择去抓视频。这不是便宜版的方案，而是对「智能来源」本身的另一种定义。4.5亿美元A轮、17亿美元估值、18个月stealth、Jagdeep Singh跨界——任何单独一个变量都不足以说服我们，但四个变量叠加之后，问题从「这家公司能不能活下来」变成了「如果它活下来，整个赛道的估值体系是否需要重写」。

投黑马相信：机器人foundation model的胜负手，不在谁录了更多轨迹，而在谁先让模型泛化到没见过的世界。视频，或许是那把被低估的钥匙。

投黑马 · 融资观察 · 第007期 · 2026年4月21日

投白马

Rhoda AI $4.5亿A轮深度解读：视频预训练的反数据叙事【融资观察第007期】

Rhoda AI $4.5亿A轮深度解读：视频预训练的反数据叙事【融资观察 第007期】